Posted on 2005-12-12 18:31
inwind 閱讀(128)
評論(0) 編輯 收藏 引用
我們要做的是,發現網絡熱點,跟蹤輿情,并且給與預測。同時,要求能夠對指定的文檔集進行處理,過濾。
基本過程和xj的差不多,幾個有待商榷問題:
1 夏博士所說,軟件架構,接口一定要實現定義良好,并且不能被修改,保證以后的更新,維護方便。
2 數據的結構:參考網站分類的一到三級,先將數據分類,再進行聚類,發現新事件,主題(聚類的過程也是分層的,通過調整閾值)
對于新發現的事件,使用分類算法來跟蹤
為什么不能直接聚類完成發現和跟蹤的任務?考慮,如果直接聚類,不容易保證事件的穩定性,同時,計算復雜度較高,不宜控制聚類的數目。難以實現實時跟蹤。——及時發現,實時跟蹤。
3 對于分類的初步打算:
網站抓新聞
提取相干tag樹,去除噪音
分詞
對于一些高亮數據進行標記
特征提取(CHI)
向量化(tf/idf)
kNN
RTCut