Posted on 2006-02-09 16:13
inwind 閱讀(166)
評論(0) 編輯 收藏 引用
1. 對于項目的理解:系統開發的目的在于及時發現輿論的熱點,并且予以預測和跟蹤。而項目文檔要求的分類指標,是為了方便用戶分類使用
2. 發現熱點,考慮boss的思路,聯想醫療診斷的方法,采用望聞問切多種方法確定病癥“熱點話題”3. 望聞問切,每種方法都可以查出病癥某個方面的特征,而每種方法都不夠準確,都有可能得出若干個、錯誤的結論,但是綜合起來考慮,就有更大的概率得出正確的結論。
3. 每個分類計算,可以類比為一種診斷方法,最后通過高維的元聚類,綜合考慮各種診斷方法做出較準確的結論。每個分類計算力爭做到準確,這樣有助于事件的發現和確定。但是,即使具有一定的誤差——訓練數據本身的分類誤差,訓練數據不夠大,計算距離的方法,分類的方法——只要不是太離譜,應該是可以在一定程度,從一定角度和坐標系中反映出文本的分布,而把抱團文本聚在一起。
4. 上述想法實際上也是多維數據建模的思想
5. 對于項目文檔中要求的分類的準確率和召回率,可以將最佳的一個有意義的分類計算來滿足
6. 預測,考慮一下回歸的擬合
7. 目前考慮到的可用作分類計算的分類體系包括:
時間:以天為單位
地點:以省為單位
政府部門管轄權的分類——參考中央人民政府網站
Google的分類——參考Google網站分類,新聞分類
Baidu的分類
Yahoo的分類
sohu,sina的分類
8. 訓練數據不一定要對所有的分類計算訓練,來源不同的訓練數據,可以對各自的分類計算進行訓練——實時的更新數據,跟蹤新話題,發現新概念