Posted on 2005-12-12 18:31
inwind 閱讀(141)
評論(0) 編輯 收藏 引用
我們要做的是,發(fā)現(xiàn)網(wǎng)絡(luò)熱點,跟蹤輿情,并且給與預(yù)測。同時,要求能夠?qū)χ付ǖ奈臋n集進行處理,過濾。
基本過程和xj的差不多,幾個有待商榷問題:
1 夏博士所說,軟件架構(gòu),接口一定要實現(xiàn)定義良好,并且不能被修改,保證以后的更新,維護方便。
2 數(shù)據(jù)的結(jié)構(gòu):參考網(wǎng)站分類的一到三級,先將數(shù)據(jù)分類,再進行聚類,發(fā)現(xiàn)新事件,主題(聚類的過程也是分層的,通過調(diào)整閾值)
對于新發(fā)現(xiàn)的事件,使用分類算法來跟蹤
為什么不能直接聚類完成發(fā)現(xiàn)和跟蹤的任務(wù)?考慮,如果直接聚類,不容易保證事件的穩(wěn)定性,同時,計算復(fù)雜度較高,不宜控制聚類的數(shù)目。難以實現(xiàn)實時跟蹤。——及時發(fā)現(xiàn),實時跟蹤。
3 對于分類的初步打算:
網(wǎng)站抓新聞
提取相干tag樹,去除噪音
分詞
對于一些高亮數(shù)據(jù)進行標記
特征提取(CHI)
向量化(tf/idf)
kNN
RTCut