青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

不會飛的鳥

2010年12月10日 ... 不鳥他們!!! 我要用自己開發的分布式文件系統、分布式調度系統、分布式檢索系統, 做自己的搜索引擎!!!大魚有大志!!! ---楊書童

[轉]TF-IDF與余弦相似性的應用(三):自動摘要

有時候,很簡單的數學方法,就可以完成很復雜的任務。

這個系列的前兩部分就是很好的例子。僅僅依靠統計詞頻,就能找出關鍵詞相似文章。雖然它們算不上效果最好的方法,但肯定是最簡便易行的方法。

今天,依然繼續這個主題。討論如何通過詞頻,對文章進行自動摘要(Automatic summarization)。

如果能從3000字的文章,提煉出150字的摘要,就可以為讀者節省大量閱讀時間。由人完成的摘要叫"人工摘要",由機器完成的就叫"自動摘要"。許多網站都需要它,比如論文網站、新聞網站、搜索引擎等等。2007年,美國學者的論文《A Survey on Automatic Text Summarization》(Dipanjan Das, Andre F.T. Martins, 2007)總結了目前的自動摘要算法。其中,很重要的一種就是詞頻統計。

這種方法最早出自1958年的IBM公司科學家H.P. Luhn的論文《The Automatic Creation of Literature Abstracts》

Luhn博士認為,文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。"自動摘要"就是要找出那些包含信息最多的句子。

句子的信息量用"關鍵詞"來衡量。如果包含的關鍵詞越多,就說明這個句子越重要。Luhn提出用"簇"(cluster)表示關鍵詞的聚集。所謂"簇"就是包含多個關鍵詞的句子片段。

上圖就是Luhn原始論文的插圖,被框起來的部分就是一個"簇"。只要關鍵詞之間的距離小于"門檻值",它們就被認為處于同一個簇之中。Luhn建議的門檻值是4或5。也就是說,如果兩個關鍵詞之間有5個以上的其他詞,就可以把這兩個關鍵詞分在兩個簇。

下一步,對于每個簇,都計算它的重要性分值。

以前圖為例,其中的簇一共有7個詞,其中4個是關鍵詞。因此,它的重要性分值等于 ( 4 x 4 ) / 7 = 2.3。

然后,找出包含分值最高的簇的句子(比如5句),把它們合在一起,就構成了這篇文章的自動摘要。具體實現可以參見《Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites》(O'Reilly, 2011)一書的第8章,python代碼見github

Luhn的這種算法后來被簡化,不再區分"簇",只考慮句子包含的關鍵詞。下面就是一個例子(采用偽碼表示),只考慮關鍵詞首先出現的句子。

  Summarizer(originalText, maxSummarySize):

    // 計算原始文本的詞頻,生成一個數組,比如[(10,'the'), (3,'language'), (8,'code')...]
    wordFrequences = getWordCounts(originalText)

    // 過濾掉停用詞,數組變成[(3, 'language'), (8, 'code')...]
    contentWordFrequences = filtStopWords(wordFrequences)

    // 按照詞頻進行排序,數組變成['code', 'language'...]
    contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)

    // 將文章分成句子
    sentences = getSentences(originalText)

    // 選擇關鍵詞首先出現的句子
    setSummarySentences = {}
    foreach word in contentWordsSortbyFreq:
      firstMatchingSentence = search(sentences, word)
      setSummarySentences.add(firstMatchingSentence)
      if setSummarySentences.size() = maxSummarySize:
        break

    // 將選中的句子按照出現順序,組成摘要
    summary = ""
    foreach sentence in sentences:
      if sentence in setSummarySentences:
        summary = summary + " " + sentence

    return summary

類似的算法已經被寫成了工具,比如基于Java的Classifier4J庫的SimpleSummariser模塊、基于C語言的OTS庫、以及基于classifier4J的C#實現python實現

posted on 2014-03-06 21:37 不會飛的鳥 閱讀(303) 評論(0)  編輯 收藏 引用


只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美精品亚洲精品| 久久精品国产亚洲5555| 亚洲欧美日韩国产综合| 欧美第一黄色网| 一区二区三区欧美| 蜜桃久久精品一区二区| 国产精品综合网站| 日韩视频一区二区三区| 久久久综合网站| 亚洲一区二区三区午夜| 欧美成人网在线| 国产一区二区三区日韩| 亚洲美女免费视频| 久久综合电影| 午夜激情综合网| 亚洲午夜激情网页| 欧美精选午夜久久久乱码6080| 激情久久久久久久| 香蕉久久夜色| 夜夜爽www精品| 欧美精品久久久久久久| 亚洲国产成人tv| 久久亚洲高清| 欧美一区二区三区成人| 欧美视频一区在线观看| 999亚洲国产精| 亚洲国产一区二区a毛片| 小黄鸭视频精品导航| 国产精品久久夜| 亚洲午夜精品一区二区| 亚洲三级免费观看| 欧美国产综合视频| 最新日韩av| 亚洲电影免费观看高清| 久久夜精品va视频免费观看| 国内精品久久久久久| 久久国产直播| 亚洲综合不卡| 国产啪精品视频| 久久不射网站| 性久久久久久| 国产亚洲精品激情久久| 久久国产精品久久久| 亚洲永久在线| 国产精品一区三区| 久久岛国电影| 欧美在线在线| 悠悠资源网亚洲青| 欧美jizzhd精品欧美巨大免费| 久久久久久夜精品精品免费| 在线观看欧美精品| 欧美 日韩 国产在线| 久久中文字幕一区| 亚洲精品乱码久久久久久按摩观| 欧美激情成人在线视频| 免费在线成人av| 国产精品扒开腿爽爽爽视频| 一区二区黄色| 久久综合九色综合欧美狠狠| 欧美一区二区视频97| 国产精品久久福利| 欧美日韩性生活视频| 国产一区二区三区的电影 | 欧美视频日韩视频| 一区二区激情小说| 亚洲精品中文字| 欧美母乳在线| 亚洲一区二区三区免费在线观看| 日韩视频在线一区二区| 在线视频一区观看| 欧美日韩一二三四五区| 亚洲一区二区三区高清不卡| 久久精品国产成人| 亚洲视屏在线播放| 猛男gaygay欧美视频| 午夜精品影院| 欧美日韩一区二区在线视频| 久久久精品动漫| 欧美精品粉嫩高潮一区二区| 精品成人免费| 午夜精品视频在线观看| 亚洲看片免费| 欧美mv日韩mv国产网站| 一本大道av伊人久久综合| 亚洲美女精品成人在线视频| 欧美人与性动交a欧美精品| 国产欧美亚洲日本| 午夜激情久久久| 精品51国产黑色丝袜高跟鞋| 美女精品网站| 欧美精品一区二区三| 亚洲欧美一区二区视频| 久久精品最新地址| 一本色道久久精品| 性欧美暴力猛交69hd| 亚洲人体影院| 亚洲欧美激情诱惑| 亚洲国产精品一区二区www在线 | 欧美日韩国语| 久久精品日产第一区二区三区| 蜜臀av性久久久久蜜臀aⅴ四虎| 中国成人亚色综合网站| 欧美亚洲自偷自偷| 亚洲欧洲精品一区二区精品久久久 | 久热精品在线| 亚洲欧美日韩高清| 麻豆freexxxx性91精品| 亚洲影音一区| 久久看片网站| 亚洲欧美视频在线观看| 免费高清在线一区| 亚洲一区综合| 麻豆精品视频在线观看视频| 国产精品一区在线观看你懂的| 欧美电影电视剧在线观看| 国产精品久久国产愉拍| 欧美sm重口味系列视频在线观看| 国产精品福利久久久| 欧美福利在线| 国产日本欧美一区二区三区在线 | 99精品国产在热久久下载| 激情五月婷婷综合| 亚洲少妇自拍| 亚洲精品欧美日韩| 欧美在线日韩精品| 亚洲午夜一区二区| 免费成人毛片| 久久―日本道色综合久久| 欧美性做爰猛烈叫床潮| 亚洲电影自拍| 国产主播一区二区三区| 99国产精品久久久久久久成人热| 国产一区视频网站| 亚洲桃色在线一区| 99精品欧美一区二区三区综合在线| 久久精品国产久精国产爱| 亚洲欧美在线播放| 在线视频精品一| 亚洲精品乱码久久久久久蜜桃91 | 亚洲欧洲一区| 久久精品99国产精品| 香蕉亚洲视频| 欧美日韩中文字幕在线| 亚洲国产综合在线看不卡| 在线播放国产一区中文字幕剧情欧美| 亚洲女人av| 亚洲欧美日韩另类| 亚洲香蕉视频| 欧美性理论片在线观看片免费| 欧美激情在线观看| 99精品视频免费在线观看| 亚洲免费观看高清完整版在线观看熊 | 欧美综合77777色婷婷| 亚洲欧美日韩中文播放| 免费观看欧美在线视频的网站| 亚洲成色精品| 国产精品久久久久久久久久尿| 欧美在线黄色| 精品成人在线视频| 亚洲视频综合在线| 欧美aa国产视频| 国产亚洲欧美一区| 久久综合狠狠综合久久激情| 亚洲综合精品自拍| 亚洲精选在线| 亚洲欧洲精品成人久久奇米网| 亚洲区在线播放| 亚洲高清不卡| 韩日精品中文字幕| 怡红院精品视频| 国产一区清纯| 欧美日韩国产成人在线91| 亚洲丰满在线| 欧美激情亚洲一区| 亚洲三级电影在线观看| 欧美日本亚洲| 伊人成人开心激情综合网| 久久性天堂网| 亚洲一区3d动漫同人无遮挡| 亚洲欧洲视频在线| 欧美一区二区三区免费观看视频 | 一本色道**综合亚洲精品蜜桃冫| 免费在线观看日韩欧美| 欧美福利一区| 亚洲精品一区二区三区99| 欧美福利视频一区| 亚洲精品国产精品国自产观看| 亚洲免费观看在线观看| 欧美另类videos死尸| aa级大片欧美| 国产精品手机在线| 亚洲二区免费| 在线视频日韩| 国产精品视频免费观看www| 午夜视黄欧洲亚洲| 免费在线成人| 一区二区欧美亚洲| 国产精品永久免费观看| 久久久www成人免费毛片麻豆| 欧美激情国产日韩精品一区18|