每天不斷學習,才能不斷提升自己。
目前網上可供下載的數據眾多,但是內容龐雜,把其中比較有用的數據找了出來。wiki系:wikipedia大家都不陌生,它的下載地址是:http://dumps.wikimedia.org/ , 這里有詳細介紹:http://en.wikipedia.org/wiki/Wikipedia:Database_download但是wikipedia只是Wikimedia基金會的一個子項目,wikimedia下面還有多個其他的重要項目,包括:wiktionary 一個語義化的關聯詞典,形式上類似于wordnetwikiquote 收錄各種名人名言Wikibooks 免費的教科書和手冊Wikinews 大量的新聞故事Wikiversity 免費的教育材料Wikisource 免費的文本內容上述的這些內容,都可以通過http://dumps.wikimedia.org/ 下載到。還有一些小型的wiki項目,比如:http://simple.wikipedia.org 使用Basic English寫的wiki,給兒童和初學者看http://simple.wiktionary.org 使用Basic English寫的wiktionarywikipedia的數據處理有很多方式,我比較推崇這兩個:jwpl: http://code.google.com/p/jwpl/wikipedia-miner: http://wikipedia-miner.cms.waikato.ac.nz/wiki/下面我介紹下另一個商業化的wiki網站:http://www.wikia.com 這個網站上用戶可以創建單獨的維基網站,下面是排名前250位wikia網站:http://wikis.wikia.com/wiki/List_of_Wikia_wikiswikia上的資源也可供下載:http://community.wikia.com/wiki/Help:Database_downloadFreebase:freebase是啥就不解釋了,下面給出數據的下載地址:http://wiki.freebase.com/wiki/Data_dumps freebase自身的數據http://wiki.freebase.com/wiki/WEX freebase從wikipedia中提取的數據YAGO2:http://www.mpi-inf.mpg.de/yago-naga/yago/dbpedia:http://www.dbpedia.org如果要找LinkedData,可以來這里:http://www.thedatahub.org 這里收集了很多Linked Datahttp://linkeddata.org/ 這里有一張圖,給出了各種linkeddata的關系和影響力。如果要找各種網上的api,可以來這里:http://www.programmableweb.com 現在外國政府紛紛對外公開數據,下面是幾個政府的開放數據集:http://data.gov.au 澳大利亞http://data.dc.gov 美國哥倫比亞州的http://www.data.gov 美國http://data.gov.uk 英國http://databases.lapl.org/ 洛杉磯地區的開放數據集,知道硅谷為啥這么牛了吧http://www.gov.hk/en/theme/psi/welcome 香港政府也公開了很多數據對比一下,外國政府做了這么多實事,人民大會堂里的那些酒囊飯袋們都在干什么?http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/lexAccess/current/web/download.html 美國國家衛生署發布的詞表http://www.census.gov/genealogy/www/data/2000surnames/index.html 美國統計局的姓名數據https://www.cia.gov/library/publications/download/ 美國中央情報局發布的factbook,介紹了世界各國情況連衛生署,統計局和中情局這種單位都為美國的信息建設做出了這么多的貢獻,我們應該知道自己跟美帝的差距有多大了吧。敘詞表:http://www.nlm.nih.gov/mesh/filelist.html mesh,關于醫學的受控詞表http://id.loc.gov/download/ 美國國會圖書館發布的敘詞表一些三元組數據:http://www.cs.utexas.edu/users/pclark/dart/ 采集自BNC(英國國家語料庫)和Reuters,2300萬條http://reverb.cs.washington.edu/ 華盛頓大學的項目,1500萬條http://www.cs.washington.edu/research/sherlock-hornclauses/ 大約有200-300萬條數據http://www.cs.rochester.edu/research/knext 有535萬條數據,來自BNC和布朗語料庫http://rtw.ml.cmu.edu/rtw/resources readtheweb項目,數據量較小機讀詞典:http://wordnet.princeton.edu/ 英語的wordnethttp://nlpwww.nict.go.jp/wn-ja/index.en.html 日語的wordnethttp://alpage.inria.fr/~sagot/wolf-en.html 法語的wordnethttp://wordnet.ru/ 俄羅斯的wordnethttp://cl.haifa.ac.il/projects/mwn/index.shtml 希伯來語的wordnethttp://wordnet.dk/dannet/menu?item=2 丹麥語的wordnethttp://grial.uab.es/sensem/download?idioma=en 西班牙語的wordnethttp://www.ling.helsinki.fi/en/lt/research/finnwordnet/download.shtml 芬蘭語的wordnet這些不同版本的wordnet都是免費下載的。可恨中國泱泱五千年的文明古國,文獻典故浩如煙海,竟連一份免費且公開的機讀詞典都沒有。這是漢語的恥辱,中國的恥辱,也是中華民族的恥辱。特別是中科院計算所和自動化所的人們,你們覺得呢?(順祝hownet生意興隆,越賣越好)http://dico.fj.free.fr/dico.php 日法詞典http://www.csse.monash.edu.au/~jwb/edict.html 日英詞典http://cc-cedict.org/wiki/start 中文到英文的詞典,終于出來中文的了,可惜是外國人搞出來的。https://framenet.icsi.berkeley.edu 基于框架語義學的東東,恐怕不能算詞典,不過沒地兒放了。語料庫:http://opus.lingfil.uu.se/ 開放的平行語料庫http://opus.lingfil.uu.se/OpenSubtitles_v2.php 大量電影字幕的下載地址http://www.statmt.org/europarl 歐洲議會的平行語料庫http://www.anc.org/OANC/ 開放的美國國家語料庫http://snap.stanford.edu/data/ 斯坦福大學的SNAP項目,抓了很多數據,不過時間較早,只有研究價值
Powered by: C++博客 Copyright © SunRise_at