• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            sunrise

            每天不斷學(xué)習(xí),才能不斷提升自己。

              C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              64 隨筆 :: 0 文章 :: 92 評論 :: 0 Trackbacks

            目前網(wǎng)上可供下載的數(shù)據(jù)眾多,但是內(nèi)容龐雜,把其中比較有用的數(shù)據(jù)找了出來。

            wiki系:
            wikipedia大家都不陌生,它的下載地址是:http://dumps.wikimedia.org/ , 這里有詳細介紹:http://en.wikipedia.org/wiki/Wikipedia:Database_download
            但是wikipedia只是Wikimedia基金會的一個子項目,wikimedia下面還有多個其他的重要項目,包括:
            wiktionary    一個語義化的關(guān)聯(lián)詞典,形式上類似于wordnet
            wikiquote    收錄各種名人名言
            Wikibooks    免費的教科書和手冊
            Wikinews    大量的新聞故事
            Wikiversity    免費的教育材料
            Wikisource    免費的文本內(nèi)容
            上述的這些內(nèi)容,都可以通過http://dumps.wikimedia.org/ 下載到。
            還有一些小型的wiki項目,比如:
            http://simple.wikipedia.org    使用Basic English寫的wiki,給兒童和初學(xué)者看
            http://simple.wiktionary.org    使用Basic English寫的wiktionary

            wikipedia的數(shù)據(jù)處理有很多方式,我比較推崇這兩個:
            jwpl:    http://code.google.com/p/jwpl/
            wikipedia-miner:   http://wikipedia-miner.cms.waikato.ac.nz/wiki/

            下面我介紹下另一個商業(yè)化的wiki網(wǎng)站:http://www.wikia.com  這個網(wǎng)站上用戶可以創(chuàng)建單獨的維基網(wǎng)站,下面是排名前250位wikia網(wǎng)站:
            http://wikis.wikia.com/wiki/List_of_Wikia_wikis
            wikia上的資源也可供下載:http://community.wikia.com/wiki/Help:Database_download

            Freebase:
            freebase是啥就不解釋了,下面給出數(shù)據(jù)的下載地址:
            http://wiki.freebase.com/wiki/Data_dumps    freebase自身的數(shù)據(jù)
            http://wiki.freebase.com/wiki/WEX    freebase從wikipedia中提取的數(shù)據(jù)

            YAGO2:
            http://www.mpi-inf.mpg.de/yago-naga/yago/

            dbpedia:
            http://www.dbpedia.org

            如果要找LinkedData,可以來這里:http://www.thedatahub.org    這里收集了很多Linked Data
            http://linkeddata.org/    這里有一張圖,給出了各種linkeddata的關(guān)系和影響力。

            如果要找各種網(wǎng)上的api,可以來這里:http://www.programmableweb.com    
            現(xiàn)在外國政府紛紛對外公開數(shù)據(jù),下面是幾個政府的開放數(shù)據(jù)集:
            http://data.gov.au    澳大利亞
            http://data.dc.gov    美國哥倫比亞州的
            http://www.data.gov    美國
            http://data.gov.uk    英國
            http://databases.lapl.org/    洛杉磯地區(qū)的開放數(shù)據(jù)集,知道硅谷為啥這么牛了吧
            http://www.gov.hk/en/theme/psi/welcome        香港政府也公開了很多數(shù)據(jù)
            對比一下,外國政府做了這么多實事,人民大會堂里的那些酒囊飯袋們都在干什么?

            http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/lexAccess/current/web/download.html    美國國家衛(wèi)生署發(fā)布的詞表
            http://www.census.gov/genealogy/www/data/2000surnames/index.html    美國統(tǒng)計局的姓名數(shù)據(jù)
            https://www.cia.gov/library/publications/download/    美國中央情報局發(fā)布的factbook,介紹了世界各國情況
            連衛(wèi)生署,統(tǒng)計局和中情局這種單位都為美國的信息建設(shè)做出了這么多的貢獻,我們應(yīng)該知道自己跟美帝的差距有多大了吧。

            敘詞表:
            http://www.nlm.nih.gov/mesh/filelist.html    mesh,關(guān)于醫(yī)學(xué)的受控詞表
            http://id.loc.gov/download/            美國國會圖書館發(fā)布的敘詞表

            一些三元組數(shù)據(jù):
            http://www.cs.utexas.edu/users/pclark/dart/    采集自BNC(英國國家語料庫)和Reuters,2300萬條
            http://reverb.cs.washington.edu/        華盛頓大學(xué)的項目,1500萬條
            http://www.cs.washington.edu/research/sherlock-hornclauses/    大約有200-300萬條數(shù)據(jù)
            http://www.cs.rochester.edu/research/knext    有535萬條數(shù)據(jù),來自BNC和布朗語料庫
            http://rtw.ml.cmu.edu/rtw/resources        readtheweb項目,數(shù)據(jù)量較小

            機讀詞典:
            http://wordnet.princeton.edu/            英語的wordnet
            http://nlpwww.nict.go.jp/wn-ja/index.en.html    日語的wordnet
            http://alpage.inria.fr/~sagot/wolf-en.html    法語的wordnet
            http://wordnet.ru/                俄羅斯的wordnet
            http://cl.haifa.ac.il/projects/mwn/index.shtml    希伯來語的wordnet
            http://wordnet.dk/dannet/menu?item=2        丹麥語的wordnet
            http://grial.uab.es/sensem/download?idioma=en    西班牙語的wordnet
            http://www.ling.helsinki.fi/en/lt/research/finnwordnet/download.shtml    芬蘭語的wordnet
            這些不同版本的wordnet都是免費下載的。可恨中國泱泱五千年的文明古國,文獻典故浩如煙海,竟連一份免費且公開的機讀詞典都沒有。這是漢語的恥辱,中國的恥辱,也是中華民族的恥辱。特別是中科院計算所和自動化所的人們,你們覺得呢?(順祝hownet生意興隆,越賣越好)

            http://dico.fj.free.fr/dico.php        日法詞典
            http://www.csse.monash.edu.au/~jwb/edict.html    日英詞典
            http://cc-cedict.org/wiki/start     中文到英文的詞典,終于出來中文的了,可惜是外國人搞出來的。
            https://framenet.icsi.berkeley.edu    基于框架語義學(xué)的東東,恐怕不能算詞典,不過沒地兒放了。

            語料庫:
            http://opus.lingfil.uu.se/    開放的平行語料庫
            http://opus.lingfil.uu.se/OpenSubtitles_v2.php    大量電影字幕的下載地址
            http://www.statmt.org/europarl    歐洲議會的平行語料庫
            http://www.anc.org/OANC/    開放的美國國家語料庫

            http://snap.stanford.edu/data/    斯坦福大學(xué)的SNAP項目,抓了很多數(shù)據(jù),不過時間較早,只有研究價值

            posted on 2012-09-20 17:29 SunRise_at 閱讀(4209) 評論(0)  編輯 收藏 引用 所屬分類: 自然語言處理
            亚洲精品tv久久久久久久久| 思思久久好好热精品国产| 日本欧美久久久久免费播放网| 亚洲欧洲精品成人久久曰影片| 国产99久久久国产精品~~牛 | 久久国产成人午夜aⅴ影院| 99久久免费国产精精品| 亚洲AV日韩精品久久久久久| 久久久久人妻一区二区三区| 国产欧美久久久精品影院| 婷婷久久综合九色综合九七| 欧美久久一区二区三区| 色悠久久久久久久综合网| 亚洲国产精品嫩草影院久久| 亚洲国产成人久久综合区| 综合久久给合久久狠狠狠97色| 久久夜色撩人精品国产| 伊人色综合久久天天人守人婷| 思思久久99热免费精品6| 国产精品中文久久久久久久| 欧美亚洲国产精品久久| 亚洲欧美日韩久久精品第一区| 亚洲国产另类久久久精品黑人| 日韩精品久久无码人妻中文字幕| 久久人爽人人爽人人片AV| 国产午夜久久影院| 国内精品久久久久久久涩爱| 久久久受www免费人成| 亚洲精品WWW久久久久久 | 久久黄色视频| 中文字幕精品久久| 亚洲伊人久久精品影院| 999久久久免费精品国产| 国产精品美女久久久久av爽| 亚洲精品高清一二区久久| 亚洲国产成人乱码精品女人久久久不卡 | 91精品国产高清久久久久久io| 亚洲狠狠久久综合一区77777| 久久99国产一区二区三区| 97香蕉久久夜色精品国产 | 久久综合九色综合久99|