• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            sunrise

            每天不斷學習,才能不斷提升自己。

              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
              64 隨筆 :: 0 文章 :: 92 評論 :: 0 Trackbacks

            目前網上可供下載的數據眾多,但是內容龐雜,把其中比較有用的數據找了出來。

            wiki系:
            wikipedia大家都不陌生,它的下載地址是:http://dumps.wikimedia.org/ , 這里有詳細介紹:http://en.wikipedia.org/wiki/Wikipedia:Database_download
            但是wikipedia只是Wikimedia基金會的一個子項目,wikimedia下面還有多個其他的重要項目,包括:
            wiktionary    一個語義化的關聯詞典,形式上類似于wordnet
            wikiquote    收錄各種名人名言
            Wikibooks    免費的教科書和手冊
            Wikinews    大量的新聞故事
            Wikiversity    免費的教育材料
            Wikisource    免費的文本內容
            上述的這些內容,都可以通過http://dumps.wikimedia.org/ 下載到。
            還有一些小型的wiki項目,比如:
            http://simple.wikipedia.org    使用Basic English寫的wiki,給兒童和初學者看
            http://simple.wiktionary.org    使用Basic English寫的wiktionary

            wikipedia的數據處理有很多方式,我比較推崇這兩個:
            jwpl:    http://code.google.com/p/jwpl/
            wikipedia-miner:   http://wikipedia-miner.cms.waikato.ac.nz/wiki/

            下面我介紹下另一個商業化的wiki網站:http://www.wikia.com  這個網站上用戶可以創建單獨的維基網站,下面是排名前250位wikia網站:
            http://wikis.wikia.com/wiki/List_of_Wikia_wikis
            wikia上的資源也可供下載:http://community.wikia.com/wiki/Help:Database_download

            Freebase:
            freebase是啥就不解釋了,下面給出數據的下載地址:
            http://wiki.freebase.com/wiki/Data_dumps    freebase自身的數據
            http://wiki.freebase.com/wiki/WEX    freebase從wikipedia中提取的數據

            YAGO2:
            http://www.mpi-inf.mpg.de/yago-naga/yago/

            dbpedia:
            http://www.dbpedia.org

            如果要找LinkedData,可以來這里:http://www.thedatahub.org    這里收集了很多Linked Data
            http://linkeddata.org/    這里有一張圖,給出了各種linkeddata的關系和影響力。

            如果要找各種網上的api,可以來這里:http://www.programmableweb.com    
            現在外國政府紛紛對外公開數據,下面是幾個政府的開放數據集:
            http://data.gov.au    澳大利亞
            http://data.dc.gov    美國哥倫比亞州的
            http://www.data.gov    美國
            http://data.gov.uk    英國
            http://databases.lapl.org/    洛杉磯地區的開放數據集,知道硅谷為啥這么牛了吧
            http://www.gov.hk/en/theme/psi/welcome        香港政府也公開了很多數據
            對比一下,外國政府做了這么多實事,人民大會堂里的那些酒囊飯袋們都在干什么?

            http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/lexAccess/current/web/download.html    美國國家衛生署發布的詞表
            http://www.census.gov/genealogy/www/data/2000surnames/index.html    美國統計局的姓名數據
            https://www.cia.gov/library/publications/download/    美國中央情報局發布的factbook,介紹了世界各國情況
            連衛生署,統計局和中情局這種單位都為美國的信息建設做出了這么多的貢獻,我們應該知道自己跟美帝的差距有多大了吧。

            敘詞表:
            http://www.nlm.nih.gov/mesh/filelist.html    mesh,關于醫學的受控詞表
            http://id.loc.gov/download/            美國國會圖書館發布的敘詞表

            一些三元組數據:
            http://www.cs.utexas.edu/users/pclark/dart/    采集自BNC(英國國家語料庫)和Reuters,2300萬條
            http://reverb.cs.washington.edu/        華盛頓大學的項目,1500萬條
            http://www.cs.washington.edu/research/sherlock-hornclauses/    大約有200-300萬條數據
            http://www.cs.rochester.edu/research/knext    有535萬條數據,來自BNC和布朗語料庫
            http://rtw.ml.cmu.edu/rtw/resources        readtheweb項目,數據量較小

            機讀詞典:
            http://wordnet.princeton.edu/            英語的wordnet
            http://nlpwww.nict.go.jp/wn-ja/index.en.html    日語的wordnet
            http://alpage.inria.fr/~sagot/wolf-en.html    法語的wordnet
            http://wordnet.ru/                俄羅斯的wordnet
            http://cl.haifa.ac.il/projects/mwn/index.shtml    希伯來語的wordnet
            http://wordnet.dk/dannet/menu?item=2        丹麥語的wordnet
            http://grial.uab.es/sensem/download?idioma=en    西班牙語的wordnet
            http://www.ling.helsinki.fi/en/lt/research/finnwordnet/download.shtml    芬蘭語的wordnet
            這些不同版本的wordnet都是免費下載的。可恨中國泱泱五千年的文明古國,文獻典故浩如煙海,竟連一份免費且公開的機讀詞典都沒有。這是漢語的恥辱,中國的恥辱,也是中華民族的恥辱。特別是中科院計算所和自動化所的人們,你們覺得呢?(順祝hownet生意興隆,越賣越好)

            http://dico.fj.free.fr/dico.php        日法詞典
            http://www.csse.monash.edu.au/~jwb/edict.html    日英詞典
            http://cc-cedict.org/wiki/start     中文到英文的詞典,終于出來中文的了,可惜是外國人搞出來的。
            https://framenet.icsi.berkeley.edu    基于框架語義學的東東,恐怕不能算詞典,不過沒地兒放了。

            語料庫:
            http://opus.lingfil.uu.se/    開放的平行語料庫
            http://opus.lingfil.uu.se/OpenSubtitles_v2.php    大量電影字幕的下載地址
            http://www.statmt.org/europarl    歐洲議會的平行語料庫
            http://www.anc.org/OANC/    開放的美國國家語料庫

            http://snap.stanford.edu/data/    斯坦福大學的SNAP項目,抓了很多數據,不過時間較早,只有研究價值

            posted on 2012-09-20 17:29 SunRise_at 閱讀(4214) 評論(0)  編輯 收藏 引用 所屬分類: 自然語言處理
            久久久免费观成人影院 | 久久久国产亚洲精品| 久久久中文字幕日本| 久久精品综合网| 国产亚洲色婷婷久久99精品| 99久久超碰中文字幕伊人| 久久婷婷五月综合97色直播| 久久无码AV中文出轨人妻| 99久久无码一区人妻a黑| 香蕉aa三级久久毛片| 国产精品免费看久久久| 久久精品无码专区免费| 亚洲国产精品18久久久久久| 91久久精品国产91性色也| 欧美黑人又粗又大久久久| 久久久久无码精品| 狠狠色丁香婷综合久久| AV无码久久久久不卡蜜桃| 国内精品欧美久久精品| 99久久人妻无码精品系列蜜桃| 亚洲精品美女久久久久99小说 | 无码国内精品久久人妻麻豆按摩| 久久国语露脸国产精品电影| 国产成人精品久久亚洲高清不卡 国产成人精品久久亚洲高清不卡 国产成人精品久久亚洲 | 久久青青草原亚洲av无码app| 久久精品二区| 99久久国产亚洲高清观看2024| 亚洲精品无码久久久久去q| 色婷婷噜噜久久国产精品12p| 91精品国产综合久久香蕉| 国产午夜久久影院| 国内精品久久久久影院日本| 久久亚洲精品国产精品| 久久午夜无码鲁丝片| 精品无码久久久久国产| 色婷婷综合久久久久中文| 无码AV波多野结衣久久| 久久精品国产亚洲av高清漫画| 亚洲国产精品无码久久一线| 青草国产精品久久久久久| 久久婷婷五月综合色高清|