青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

不會飛的鳥

2010年12月10日 ... 不鳥他們!!! 我要用自己開發(fā)的分布式文件系統(tǒng)、分布式調(diào)度系統(tǒng)、分布式檢索系統(tǒng), 做自己的搜索引擎!!!大魚有大志!!! ---楊書童

[轉(zhuǎn)]TF-IDF與余弦相似性的應(yīng)用(三):自動摘要

有時候,很簡單的數(shù)學(xué)方法,就可以完成很復(fù)雜的任務(wù)。

這個系列的前兩部分就是很好的例子。僅僅依靠統(tǒng)計(jì)詞頻,就能找出關(guān)鍵詞相似文章。雖然它們算不上效果最好的方法,但肯定是最簡便易行的方法。

今天,依然繼續(xù)這個主題。討論如何通過詞頻,對文章進(jìn)行自動摘要(Automatic summarization)。

如果能從3000字的文章,提煉出150字的摘要,就可以為讀者節(jié)省大量閱讀時間。由人完成的摘要叫"人工摘要",由機(jī)器完成的就叫"自動摘要"。許多網(wǎng)站都需要它,比如論文網(wǎng)站、新聞網(wǎng)站、搜索引擎等等。2007年,美國學(xué)者的論文《A Survey on Automatic Text Summarization》(Dipanjan Das, Andre F.T. Martins, 2007)總結(jié)了目前的自動摘要算法。其中,很重要的一種就是詞頻統(tǒng)計(jì)。

這種方法最早出自1958年的IBM公司科學(xué)家H.P. Luhn的論文《The Automatic Creation of Literature Abstracts》

Luhn博士認(rèn)為,文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。"自動摘要"就是要找出那些包含信息最多的句子。

句子的信息量用"關(guān)鍵詞"來衡量。如果包含的關(guān)鍵詞越多,就說明這個句子越重要。Luhn提出用"簇"(cluster)表示關(guān)鍵詞的聚集。所謂"簇"就是包含多個關(guān)鍵詞的句子片段。

上圖就是Luhn原始論文的插圖,被框起來的部分就是一個"簇"。只要關(guān)鍵詞之間的距離小于"門檻值",它們就被認(rèn)為處于同一個簇之中。Luhn建議的門檻值是4或5。也就是說,如果兩個關(guān)鍵詞之間有5個以上的其他詞,就可以把這兩個關(guān)鍵詞分在兩個簇。

下一步,對于每個簇,都計(jì)算它的重要性分值。

以前圖為例,其中的簇一共有7個詞,其中4個是關(guān)鍵詞。因此,它的重要性分值等于 ( 4 x 4 ) / 7 = 2.3。

然后,找出包含分值最高的簇的句子(比如5句),把它們合在一起,就構(gòu)成了這篇文章的自動摘要。具體實(shí)現(xiàn)可以參見《Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites》(O'Reilly, 2011)一書的第8章,python代碼見github

Luhn的這種算法后來被簡化,不再區(qū)分"簇",只考慮句子包含的關(guān)鍵詞。下面就是一個例子(采用偽碼表示),只考慮關(guān)鍵詞首先出現(xiàn)的句子。

  Summarizer(originalText, maxSummarySize):

    // 計(jì)算原始文本的詞頻,生成一個數(shù)組,比如[(10,'the'), (3,'language'), (8,'code')...]
    wordFrequences = getWordCounts(originalText)

    // 過濾掉停用詞,數(shù)組變成[(3, 'language'), (8, 'code')...]
    contentWordFrequences = filtStopWords(wordFrequences)

    // 按照詞頻進(jìn)行排序,數(shù)組變成['code', 'language'...]
    contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)

    // 將文章分成句子
    sentences = getSentences(originalText)

    // 選擇關(guān)鍵詞首先出現(xiàn)的句子
    setSummarySentences = {}
    foreach word in contentWordsSortbyFreq:
      firstMatchingSentence = search(sentences, word)
      setSummarySentences.add(firstMatchingSentence)
      if setSummarySentences.size() = maxSummarySize:
        break

    // 將選中的句子按照出現(xiàn)順序,組成摘要
    summary = ""
    foreach sentence in sentences:
      if sentence in setSummarySentences:
        summary = summary + " " + sentence

    return summary

類似的算法已經(jīng)被寫成了工具,比如基于Java的Classifier4J庫的SimpleSummariser模塊、基于C語言的OTS庫、以及基于classifier4J的C#實(shí)現(xiàn)python實(shí)現(xiàn)

posted on 2014-03-06 21:37 不會飛的鳥 閱讀(303) 評論(0)  編輯 收藏 引用


只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲女女做受ⅹxx高潮| 欧美一站二站| 一本高清dvd不卡在线观看| 久久国产乱子精品免费女 | 日韩视频免费观看| 久久亚洲一区| 性一交一乱一区二区洋洋av| 欧美性片在线观看| 一区二区三区欧美激情| 91久久久在线| 麻豆av一区二区三区久久| 国产亚洲精品久久久久动| 亚洲欧美日韩区| 国产精品99久久久久久有的能看| 欧美日韩1080p| 中日韩美女免费视频网址在线观看 | 欧美日韩免费观看一区三区| 亚洲日本va午夜在线电影| 亚洲二区在线视频| 欧美高清视频在线| 99re热精品| 日韩视频永久免费| 欧美视频观看一区| 亚欧成人精品| 欧美一区二区三区视频| 国产性猛交xxxx免费看久久| 久久久青草青青国产亚洲免观| 先锋影音国产精品| 影音先锋久久| 亚洲免费观看| 国产亚洲激情| 欧美国产视频日韩| 欧美精选一区| 午夜综合激情| 久久最新视频| 亚洲图片欧美午夜| 欧美在线视频全部完| 亚洲高清免费| 99re66热这里只有精品3直播| 国产精品豆花视频| 久久久天天操| 欧美久久影院| 久久gogo国模裸体人体| 久久久久久日产精品| 欧美在线国产| 亚洲国产婷婷综合在线精品| 亚洲美女在线观看| 国产日韩综合| 亚洲精选视频在线| 国产日韩一区二区三区在线播放| 毛片基地黄久久久久久天堂| 欧美日韩视频不卡| 久久网站热最新地址| 欧美日韩一区二区在线| 久热精品视频在线观看一区| 欧美性猛交xxxx乱大交蜜桃| 女女同性精品视频| 国产精一区二区三区| 亚洲国产日韩欧美在线动漫| 国产日韩精品入口| 日韩视频一区二区三区在线播放| 在线精品国产欧美| 亚洲欧美日韩国产另类专区| aa日韩免费精品视频一| 久久亚洲色图| 欧美在线观看天堂一区二区三区| 欧美激情在线| 欧美www视频| 好吊妞这里只有精品| 亚洲无线一线二线三线区别av| 亚洲国产国产亚洲一二三| 欧美亚洲在线播放| 亚洲免费影视第一页| 欧美福利视频网站| 久久久久.com| 国产精品自拍小视频| 日韩亚洲欧美综合| 最新亚洲视频| 免费不卡中文字幕视频| 久久一区二区三区超碰国产精品| 国产伦精品免费视频| 99香蕉国产精品偷在线观看| 亚洲美女区一区| 欧美韩日高清| 亚洲日本中文字幕区| 99精品欧美| 欧美裸体一区二区三区| 91久久久亚洲精品| 日韩亚洲在线| 欧美日韩午夜| 亚洲私人影吧| 久久国产精品久久久久久久久久| 国产精品一区二区三区成人| 亚洲女人小视频在线观看| 欧美一区二区三区免费观看| 国产视频观看一区| 欧美亚洲系列| 久久亚洲欧洲| 最新中文字幕一区二区三区| 欧美 日韩 国产精品免费观看| 欧美成人精品高清在线播放| 91久久中文| 欧美天堂亚洲电影院在线播放 | 国产精品欧美一区二区三区奶水| 一区二区三区导航| 校园春色国产精品| 国内成人自拍视频| 久久夜色精品亚洲噜噜国产mv| 欧美高清在线视频| 99视频在线精品国自产拍免费观看 | 亚洲麻豆国产自偷在线| 欧美日本亚洲视频| 亚洲少妇中出一区| 久久久夜精品| 日韩一级精品视频在线观看| 欧美天天视频| 欧美在线一区二区三区| 亚洲大片av| 亚洲一区图片| 国产一区二区日韩精品| 免费亚洲电影在线| 一区二区精品在线| 久久九九精品99国产精品| 亚洲高清一区二| 欧美视频在线观看一区| 欧美一区=区| 亚洲激情视频网站| 欧美一区二区三区四区夜夜大片| 在线观看免费视频综合| 欧美日韩网址| 久久亚洲视频| 亚洲欧美日本另类| 亚洲国产mv| 久久久久久久久久看片| 99精品欧美一区二区三区综合在线 | 欧美一区2区三区4区公司二百| 欧美成人精品影院| 亚洲一区二区三区中文字幕在线| 一区免费在线| 国产精品视频一二三| 欧美成人高清| 久久精品人人爽| 亚洲视频在线观看视频| 欧美国产成人精品| 久久精品在线观看| 亚洲一区二区黄| 亚洲国产欧美一区| 国产午夜精品在线观看| 欧美亚洲成人精品| 欧美成人精品在线观看| 欧美自拍偷拍| 亚洲午夜在线| 亚洲黄色在线| 欧美国产日韩一区二区| 久久频这里精品99香蕉| 亚洲欧美另类久久久精品2019| 亚洲精品一区中文| 在线看片一区| 国户精品久久久久久久久久久不卡| 欧美日韩中文| 欧美精品一卡二卡| 免费观看成人网| 久久夜色精品国产欧美乱极品| 欧美一区二区三区另类| 亚洲自拍三区| 一区二区高清| 亚洲视频一起| 一区二区欧美激情| 日韩午夜视频在线观看| 亚洲高清资源| 最新中文字幕亚洲| 亚洲盗摄视频| 亚洲国产精品久久久久婷婷老年| 女人天堂亚洲aⅴ在线观看| 久久久久久久久久久成人| 久久久国产精品亚洲一区 | 夜夜嗨av一区二区三区| 一本大道av伊人久久综合| 亚洲黄色免费电影| 亚洲国产女人aaa毛片在线| 欧美高清在线精品一区| 欧美激情成人在线视频| 亚洲第一偷拍| 亚洲毛片网站| 在线一区二区日韩| 亚洲一区二区精品视频| 亚洲欧美日韩在线综合| 亚洲一区亚洲二区| 午夜宅男久久久| 久久成人亚洲| 狂野欧美激情性xxxx| 欧美激情偷拍| 国产精品久久久久久久久借妻| 国产精品日韩在线观看| 国产一二精品视频| 91久久极品少妇xxxxⅹ软件| 一区二区三区色| 久久精品视频在线播放| 欧美激情中文字幕在线| 一本色道久久综合一区 |