• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            sunrise

            每天不斷學習,才能不斷提升自己。

              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
              64 隨筆 :: 0 文章 :: 92 評論 :: 0 Trackbacks

            目前網上可供下載的數據眾多,但是內容龐雜,把其中比較有用的數據找了出來。

            wiki系:
            wikipedia大家都不陌生,它的下載地址是:http://dumps.wikimedia.org/ , 這里有詳細介紹:http://en.wikipedia.org/wiki/Wikipedia:Database_download
            但是wikipedia只是Wikimedia基金會的一個子項目,wikimedia下面還有多個其他的重要項目,包括:
            wiktionary    一個語義化的關聯詞典,形式上類似于wordnet
            wikiquote    收錄各種名人名言
            Wikibooks    免費的教科書和手冊
            Wikinews    大量的新聞故事
            Wikiversity    免費的教育材料
            Wikisource    免費的文本內容
            上述的這些內容,都可以通過http://dumps.wikimedia.org/ 下載到。
            還有一些小型的wiki項目,比如:
            http://simple.wikipedia.org    使用Basic English寫的wiki,給兒童和初學者看
            http://simple.wiktionary.org    使用Basic English寫的wiktionary

            wikipedia的數據處理有很多方式,我比較推崇這兩個:
            jwpl:    http://code.google.com/p/jwpl/
            wikipedia-miner:   http://wikipedia-miner.cms.waikato.ac.nz/wiki/

            下面我介紹下另一個商業化的wiki網站:http://www.wikia.com  這個網站上用戶可以創建單獨的維基網站,下面是排名前250位wikia網站:
            http://wikis.wikia.com/wiki/List_of_Wikia_wikis
            wikia上的資源也可供下載:http://community.wikia.com/wiki/Help:Database_download

            Freebase:
            freebase是啥就不解釋了,下面給出數據的下載地址:
            http://wiki.freebase.com/wiki/Data_dumps    freebase自身的數據
            http://wiki.freebase.com/wiki/WEX    freebase從wikipedia中提取的數據

            YAGO2:
            http://www.mpi-inf.mpg.de/yago-naga/yago/

            dbpedia:
            http://www.dbpedia.org

            如果要找LinkedData,可以來這里:http://www.thedatahub.org    這里收集了很多Linked Data
            http://linkeddata.org/    這里有一張圖,給出了各種linkeddata的關系和影響力。

            如果要找各種網上的api,可以來這里:http://www.programmableweb.com    
            現在外國政府紛紛對外公開數據,下面是幾個政府的開放數據集:
            http://data.gov.au    澳大利亞
            http://data.dc.gov    美國哥倫比亞州的
            http://www.data.gov    美國
            http://data.gov.uk    英國
            http://databases.lapl.org/    洛杉磯地區的開放數據集,知道硅谷為啥這么牛了吧
            http://www.gov.hk/en/theme/psi/welcome        香港政府也公開了很多數據
            對比一下,外國政府做了這么多實事,人民大會堂里的那些酒囊飯袋們都在干什么?

            http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/lexAccess/current/web/download.html    美國國家衛生署發布的詞表
            http://www.census.gov/genealogy/www/data/2000surnames/index.html    美國統計局的姓名數據
            https://www.cia.gov/library/publications/download/    美國中央情報局發布的factbook,介紹了世界各國情況
            連衛生署,統計局和中情局這種單位都為美國的信息建設做出了這么多的貢獻,我們應該知道自己跟美帝的差距有多大了吧。

            敘詞表:
            http://www.nlm.nih.gov/mesh/filelist.html    mesh,關于醫學的受控詞表
            http://id.loc.gov/download/            美國國會圖書館發布的敘詞表

            一些三元組數據:
            http://www.cs.utexas.edu/users/pclark/dart/    采集自BNC(英國國家語料庫)和Reuters,2300萬條
            http://reverb.cs.washington.edu/        華盛頓大學的項目,1500萬條
            http://www.cs.washington.edu/research/sherlock-hornclauses/    大約有200-300萬條數據
            http://www.cs.rochester.edu/research/knext    有535萬條數據,來自BNC和布朗語料庫
            http://rtw.ml.cmu.edu/rtw/resources        readtheweb項目,數據量較小

            機讀詞典:
            http://wordnet.princeton.edu/            英語的wordnet
            http://nlpwww.nict.go.jp/wn-ja/index.en.html    日語的wordnet
            http://alpage.inria.fr/~sagot/wolf-en.html    法語的wordnet
            http://wordnet.ru/                俄羅斯的wordnet
            http://cl.haifa.ac.il/projects/mwn/index.shtml    希伯來語的wordnet
            http://wordnet.dk/dannet/menu?item=2        丹麥語的wordnet
            http://grial.uab.es/sensem/download?idioma=en    西班牙語的wordnet
            http://www.ling.helsinki.fi/en/lt/research/finnwordnet/download.shtml    芬蘭語的wordnet
            這些不同版本的wordnet都是免費下載的。可恨中國泱泱五千年的文明古國,文獻典故浩如煙海,竟連一份免費且公開的機讀詞典都沒有。這是漢語的恥辱,中國的恥辱,也是中華民族的恥辱。特別是中科院計算所和自動化所的人們,你們覺得呢?(順祝hownet生意興隆,越賣越好)

            http://dico.fj.free.fr/dico.php        日法詞典
            http://www.csse.monash.edu.au/~jwb/edict.html    日英詞典
            http://cc-cedict.org/wiki/start     中文到英文的詞典,終于出來中文的了,可惜是外國人搞出來的。
            https://framenet.icsi.berkeley.edu    基于框架語義學的東東,恐怕不能算詞典,不過沒地兒放了。

            語料庫:
            http://opus.lingfil.uu.se/    開放的平行語料庫
            http://opus.lingfil.uu.se/OpenSubtitles_v2.php    大量電影字幕的下載地址
            http://www.statmt.org/europarl    歐洲議會的平行語料庫
            http://www.anc.org/OANC/    開放的美國國家語料庫

            http://snap.stanford.edu/data/    斯坦福大學的SNAP項目,抓了很多數據,不過時間較早,只有研究價值

            posted on 2012-09-20 17:29 SunRise_at 閱讀(4209) 評論(0)  編輯 收藏 引用 所屬分類: 自然語言處理
            激情综合色综合久久综合| 99久久国产主播综合精品| 欧洲精品久久久av无码电影| 精品无码久久久久久尤物| 久久影院久久香蕉国产线看观看| 久久久国产精品| 国产精品中文久久久久久久| 99久久国产亚洲高清观看2024| 精品久久久久久亚洲| 国内精品伊人久久久久影院对白| 狠狠色丁香婷婷久久综合不卡| 久久久久久久久久免免费精品| 久久精品成人一区二区三区| 国产福利电影一区二区三区久久久久成人精品综合 | 亚洲伊人久久综合中文成人网| 久久高清一级毛片| 久久精品无码av| 精品久久亚洲中文无码| 久久99精品久久久久久动态图 | 区久久AAA片69亚洲 | 人妻精品久久无码区| 国产成人精品久久一区二区三区| 91精品国产综合久久精品| 国产精品久久久久9999高清| 国产精品久久久久AV福利动漫| 国产精品成人99久久久久| 大美女久久久久久j久久| 色综合久久中文综合网| 久久影视综合亚洲| 日本加勒比久久精品| 国产精品久久久久一区二区三区| 久久精品国产亚洲AV嫖农村妇女| 99精品伊人久久久大香线蕉| 国产激情久久久久影院| 久久久久波多野结衣高潮| 久久se精品一区二区影院| 久久久WWW成人免费精品| 国产精品无码久久综合| 久久综合精品国产二区无码| 久久人妻少妇嫩草AV蜜桃| 国产A级毛片久久久精品毛片|