新聞事件的發現和跟蹤----Learing approaches for Detecting and Tracking News Events
Posted on 2005-12-09 14:49 inwind 閱讀(229) 評論(0) 編輯 收藏 引用文章主要分成五個部分
新聞事件的特點分析,新聞事件的發現,新聞事件發現的評估,新聞時間的跟蹤,新聞事件跟蹤的評估
大致總結一些每一部分的主要內容
新聞事件的特點分析:
新聞事件和一般的文本分類,信息提取不同的地方在于,新聞事件的發展和報道和時間上的關系。新聞是以時間順序輸入TDT系統,關于某個事件的新聞,在時間上是一個尖峰脈沖。因此在做相似性聚類的時候需要充分考慮報道同一事件的新聞在時間上的相似性,以及文本相似性。
還有就是,報道不同事件的新聞的term會大大不同,其起到的作用,即權值也大大不同,因此需要動態的更改這些權值,為下面的聚類和分類使用。
新聞事件的發現
新聞事件的發現,實際上就是文本聚類,和時間有關的,文本量不大的文本聚類
事件發現又分為兩部分:回顧的事件挖掘和新事件的在線發現。
這篇文章主要采用了兩個修改了的聚類算法:GAC和INCR,其中GAC是對塊數據進行處理,會返回樹狀聚類,INCR是對流數據進行處理
聚類的表示,這篇文章使用的是ltc,但其中的idf因子進行了修改
IDF(t,p)=log(N(p)/n(t,p)) 其中p是時間。
GAC的步驟,
1. 把輸入集合的每一個文檔當作一個單獨的聚類,設置初始劃分為單個集合的全部集。
2. 把當前劃分分成兩個沒有重疊,并且連續的大小為m(用戶預定義的)的籃子
3. 在每個籃子里面使用GAC,重復的把兩個低層的聚類聚集成一個高層的聚類,直到籃子中的聚類降到p(用戶預定義的)或者任意兩個聚類間的相似性小于一個與定義的閾值(用戶預定義的)。
4. 移除籃子邊界,按照聚類的時間,把所有GAC聚類放在一起。使用的到的聚類序列作為更新的劃分。
5. 重新計算2-4部,直到劃分的大小不大于m,或者聚類之間的相似性達到限制。
6. 定期(once of 運行第五步k次)的在每個最高層聚類中重聚類,通過撫平組建聚類和從葉結點重新增長聚類。防止新聞事件被分在兩個時間窗口的情況的影響。
INCR算法是直接的,一個一個處理文檔,逐步增加聚類。如果一個新文檔和一個類的相似性大于一個閾值tc,則聚入到已有的最近類。如果和所有的聚類的相似性都小于閾值,則把他作為新類的種子。通過恰當的選取閾值,可以獲得不同粒度的聚類。
對于INCR在線事件發現的應用時,我們引入了一個附加的閾值,noverlty threshold(tn)。如果當前文檔和任何聚類的相似性都小于noverlty threshold,這個文檔就標記為“NEW”,表示這是一個新事件的開頭;否則就標記“OLD”。通過調整這個閾值,可以調整對于在線發現新事件的敏感度。
設置兩個閾值的原因在于可以為不同的任務進行優化,我們發現設置tc=tn對于回顧聚類比較合適,而設置tc=正無窮對于在線偵測比較更好,即,不產生任何聚類。
對于INCR增加的另外一個功能是時間懲罰(time penalty)。最簡單的方法是使用一個時間窗口。給定當前的文檔x,我們引入一個時間窗口m表示x前的m個文檔,然后定義修改后的x和任意聚類c相似性
另外,他們引入了衰退相似性的權重函數sim(x,c)=(1-i/m)*sim(x,c),其中i是x和類c中最近的文檔數。文中說,可以給出非線性的衰退函數,以求得更好的結果。
對于新舊的預測,每個文檔要計算一個score,表示這個文檔有多新score(x)=1-arg max{sim(x,c)'} 其中x是當前新文檔,c是過去的所有聚類。通過設定閾值,來控制準確率和召回率的折中。
新聞事件發現的評估
回顧事件的發現,使用關于籃子的GAC效果最好
對于在線發現,處理流數據的INCR有天生的優勢,但是需要恰當的調整相似性的權重函數和聚類的閾值,這可能需要通過實驗測定。
新聞事件的跟蹤
就是要在新聞事件到來的時候,確定他是關于那些事件,但是做決定的根據是先前到來的關于這個事件的為數不多的新聞。同時還要求能夠分開有關系的新聞事件,例如前后的礦難。另外就是要求對一個新聞事件的判斷必須是獨立的,與其他事件無關。
文章選取了kNN和決策樹的算法。因為kNN在TC上的性能非常好,對術語和新聞作了最少的假設。
為每個新聞事件訓練了一個kNN,并把它的m-ary變成了二維判斷。是由于正面事例太少,所以修改了一下YES的判斷標準。
決策樹的算法暫時不考慮。
在做分類時,一般只考慮一到一個半月以內的新聞作為訓練集,因為一般新聞的持續時間不會超過兩個月
事件跟蹤的評估
修改后的kNN效果還是很不錯的