Posted on 2005-12-12 18:31
inwind 閱讀(128)
評(píng)論(0) 編輯 收藏 引用
我們要做的是,發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn),跟蹤輿情,并且給與預(yù)測(cè)。同時(shí),要求能夠?qū)χ付ǖ奈臋n集進(jìn)行處理,過濾。
基本過程和xj的差不多,幾個(gè)有待商榷問題:
1 夏博士所說,軟件架構(gòu),接口一定要實(shí)現(xiàn)定義良好,并且不能被修改,保證以后的更新,維護(hù)方便。
2 數(shù)據(jù)的結(jié)構(gòu):參考網(wǎng)站分類的一到三級(jí),先將數(shù)據(jù)分類,再進(jìn)行聚類,發(fā)現(xiàn)新事件,主題(聚類的過程也是分層的,通過調(diào)整閾值)
對(duì)于新發(fā)現(xiàn)的事件,使用分類算法來跟蹤
為什么不能直接聚類完成發(fā)現(xiàn)和跟蹤的任務(wù)?考慮,如果直接聚類,不容易保證事件的穩(wěn)定性,同時(shí),計(jì)算復(fù)雜度較高,不宜控制聚類的數(shù)目。難以實(shí)現(xiàn)實(shí)時(shí)跟蹤。——及時(shí)發(fā)現(xiàn),實(shí)時(shí)跟蹤。
3 對(duì)于分類的初步打算:
網(wǎng)站抓新聞
提取相干tag樹,去除噪音
分詞
對(duì)于一些高亮數(shù)據(jù)進(jìn)行標(biāo)記
特征提取(CHI)
向量化(tf/idf)
kNN
RTCut