Posted on 2006-02-09 16:13
inwind 閱讀(166)
評(píng)論(0) 編輯 收藏 引用
1. 對(duì)于項(xiàng)目的理解:系統(tǒng)開發(fā)的目的在于及時(shí)發(fā)現(xiàn)輿論的熱點(diǎn),并且予以預(yù)測(cè)和跟蹤。而項(xiàng)目文檔要求的分類指標(biāo),是為了方便用戶分類使用
2. 發(fā)現(xiàn)熱點(diǎn),考慮boss的思路,聯(lián)想醫(yī)療診斷的方法,采用望聞問切多種方法確定病癥“熱點(diǎn)話題”3. 望聞問切,每種方法都可以查出病癥某個(gè)方面的特征,而每種方法都不夠準(zhǔn)確,都有可能得出若干個(gè)、錯(cuò)誤的結(jié)論,但是綜合起來考慮,就有更大的概率得出正確的結(jié)論。
3. 每個(gè)分類計(jì)算,可以類比為一種診斷方法,最后通過高維的元聚類,綜合考慮各種診斷方法做出較準(zhǔn)確的結(jié)論。每個(gè)分類計(jì)算力爭(zhēng)做到準(zhǔn)確,這樣有助于事件的發(fā)現(xiàn)和確定。但是,即使具有一定的誤差——訓(xùn)練數(shù)據(jù)本身的分類誤差,訓(xùn)練數(shù)據(jù)不夠大,計(jì)算距離的方法,分類的方法——只要不是太離譜,應(yīng)該是可以在一定程度,從一定角度和坐標(biāo)系中反映出文本的分布,而把抱團(tuán)文本聚在一起。
4. 上述想法實(shí)際上也是多維數(shù)據(jù)建模的思想
5. 對(duì)于項(xiàng)目文檔中要求的分類的準(zhǔn)確率和召回率,可以將最佳的一個(gè)有意義的分類計(jì)算來滿足
6. 預(yù)測(cè),考慮一下回歸的擬合
7. 目前考慮到的可用作分類計(jì)算的分類體系包括:
時(shí)間:以天為單位
地點(diǎn):以省為單位
政府部門管轄權(quán)的分類——參考中央人民政府網(wǎng)站
Google的分類——參考Google網(wǎng)站分類,新聞分類
Baidu的分類
Yahoo的分類
sohu,sina的分類
8. 訓(xùn)練數(shù)據(jù)不一定要對(duì)所有的分類計(jì)算訓(xùn)練,來源不同的訓(xùn)練數(shù)據(jù),可以對(duì)各自的分類計(jì)算進(jìn)行訓(xùn)練——實(shí)時(shí)的更新數(shù)據(jù),跟蹤新話題,發(fā)現(xiàn)新概念