不會飛的鳥

2010年12月10日 ... 不鳥他們！！！我要用自己開發(fā)的分布式文件系統(tǒng)、分布式調(diào)度系統(tǒng)、分布式檢索系統(tǒng)，做自己的搜索引擎！！！大魚有大志！！！ ---楊書童

導(dǎo)航

<

2014年12月

>

日

一

二

三

四

五

六

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

統(tǒng)計(jì)

隨筆 - 89
文章 - 1
評論 - 18
引用 - 0

常用鏈接

留言簿(4)

隨筆檔案

文章檔案

2006年4月 (1)

搜索

閱讀排行榜

評論排行榜

[轉(zhuǎn)]TF-IDF與余弦相似性的應(yīng)用（三）：自動摘要

有時候，很簡單的數(shù)學(xué)方法，就可以完成很復(fù)雜的任務(wù)。

這個系列的前兩部分就是很好的例子。僅僅依靠統(tǒng)計(jì)詞頻，就能找出關(guān)鍵詞和相似文章。雖然它們算不上效果最好的方法，但肯定是最簡便易行的方法。

今天，依然繼續(xù)這個主題。討論如何通過詞頻，對文章進(jìn)行自動摘要（Automatic summarization）。

如果能從3000字的文章，提煉出150字的摘要，就可以為讀者節(jié)省大量閱讀時間。由人完成的摘要叫"人工摘要"，由機(jī)器完成的就叫"自動摘要"。許多網(wǎng)站都需要它，比如論文網(wǎng)站、新聞網(wǎng)站、搜索引擎等等。2007年，美國學(xué)者的論文《A Survey on Automatic Text Summarization》（Dipanjan Das, Andre F.T. Martins, 2007）總結(jié)了目前的自動摘要算法。其中，很重要的一種就是詞頻統(tǒng)計(jì)。

這種方法最早出自1958年的IBM公司科學(xué)家H.P. Luhn的論文《The Automatic Creation of Literature Abstracts》。

Luhn博士認(rèn)為，文章的信息都包含在句子中，有些句子包含的信息多，有些句子包含的信息少。"自動摘要"就是要找出那些包含信息最多的句子。

句子的信息量用"關(guān)鍵詞"來衡量。如果包含的關(guān)鍵詞越多，就說明這個句子越重要。Luhn提出用"簇"（cluster）表示關(guān)鍵詞的聚集。所謂"簇"就是包含多個關(guān)鍵詞的句子片段。

上圖就是Luhn原始論文的插圖，被框起來的部分就是一個"簇"。只要關(guān)鍵詞之間的距離小于"門檻值"，它們就被認(rèn)為處于同一個簇之中。Luhn建議的門檻值是4或5。也就是說，如果兩個關(guān)鍵詞之間有5個以上的其他詞，就可以把這兩個關(guān)鍵詞分在兩個簇。

下一步，對于每個簇，都計(jì)算它的重要性分值。

以前圖為例，其中的簇一共有7個詞，其中4個是關(guān)鍵詞。因此，它的重要性分值等于 ( 4 x 4 ) / 7 = 2.3。

然后，找出包含分值最高的簇的句子（比如5句），把它們合在一起，就構(gòu)成了這篇文章的自動摘要。具體實(shí)現(xiàn)可以參見《Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites》（O'Reilly, 2011）一書的第8章，python代碼見github。

Luhn的這種算法后來被簡化，不再區(qū)分"簇"，只考慮句子包含的關(guān)鍵詞。下面就是一個例子（采用偽碼表示），只考慮關(guān)鍵詞首先出現(xiàn)的句子。

　　Summarizer(originalText, maxSummarySize):
　　　　// 計(jì)算原始文本的詞頻，生成一個數(shù)組，比如[(10,'the'), (3,'language'), (8,'code')...]
　　　　wordFrequences = getWordCounts(originalText)
　　　　// 過濾掉停用詞，數(shù)組變成[(3, 'language'), (8, 'code')...]
　　　　contentWordFrequences = filtStopWords(wordFrequences)
　　　　// 按照詞頻進(jìn)行排序，數(shù)組變成['code', 'language'...]
　　　　contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)
　　　　// 將文章分成句子
　　　　sentences = getSentences(originalText)
　　　　// 選擇關(guān)鍵詞首先出現(xiàn)的句子
　　　　setSummarySentences = {}
　　　　foreach word in contentWordsSortbyFreq:
　　　　　　firstMatchingSentence = search(sentences, word)
　　　　　　setSummarySentences.add(firstMatchingSentence)
　　　　　　if setSummarySentences.size() = maxSummarySize:
　　　　　　　　break
　　　　// 將選中的句子按照出現(xiàn)順序，組成摘要
　　　　summary = ""
　　　　foreach sentence in sentences:
　　　　　　if sentence in setSummarySentences:
　　　　　　　　summary = summary + " " + sentence
　　　　return summary

類似的算法已經(jīng)被寫成了工具，比如基于Java的Classifier4J庫的SimpleSummariser模塊、基于C語言的OTS庫、以及基于classifier4J的C#實(shí)現(xiàn)和python實(shí)現(xiàn)。

posted on 2014-03-06 21:37 不會飛的鳥閱讀(303) 評論(0) 編輯收藏引用

只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品