inwind

posts - 12, comments - 4, trackbacks - 0, articles - 36

唉，越看越瑣碎

Posted on 2005-12-07 12:02 inwind 閱讀(298) 評論(0) 編輯收藏引用所屬分類: 隨想

網(wǎng)頁的自動分類，需要考慮的東西很多啊。

分類體系的選擇，利用DDC還是中圖？還是借鑒yahoo或者google的分類體系？分類層次有多深？

訓(xùn)練文集的選??？哪里來呢，那么多打好標(biāo)記，并且其分類要與我們的分類相同或者，相似吧

剛開始網(wǎng)頁的內(nèi)容處理，表示，是否考慮超鏈接，是否考慮html，如何剔出亂其八糟的廣告？

網(wǎng)頁向量化，又有那么多種權(quán)值計算方法，經(jīng)典的就五個了，還有改進(jìn)的，估計也有那么五六個比較好的吧？

向量的降維，還好那位帥哥整理過5經(jīng)典的算法，再加上后來北大那幫人做的實(shí)驗，經(jīng)典的幾個里面的性能大多清楚了?？墒?，是不是還有改進(jìn)的呢？特征提取算法和后面的分類算法組合后的性能參數(shù)呢？

ok，然后是分類算法，姑且考慮KNN，還要考慮KNN的參數(shù)，K=？，文檔之間的距離的計算，文檔-類得分的的加權(quán)？如何加權(quán)？——還有其他的算法呢？

分類完了，還有截取算法，某個文檔可以屬于哪些類？某個類可以包含哪些文檔？這個怎么確定？RCut，PCut還是SCut，還有其他的改進(jìn)算法嗎？

最有，貪心算法在這里面能起作用嗎？即每一步，都利用別人的實(shí)驗，選擇最好的算法，可是綜合起來，就一定是全局最好的算法嗎？

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: 受教了！今天發(fā)熱，哈哈唉，越看越瑣碎 kafulee在科大的演講

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

inwind

導(dǎo)航

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

文章分類

文章檔案

收藏夾

C++

Linux

數(shù)據(jù)挖掘與文本分類

搜索引擎

搜索

最新評論

閱讀排行榜

評論排行榜

唉，越看越瑣碎

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

inwind

導(dǎo)航

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

文章分類

文章檔案

收藏夾

C++

Linux

數(shù)據(jù)挖掘與文本分類

搜索引擎

搜索

最新評論

閱讀排行榜

評論排行榜

唉，越看越瑣碎

唉，越看越瑣碎