網(wǎng)頁的自動分類,需要考慮的東西很多啊。
分類體系的選擇,利用DDC還是中圖?還是借鑒yahoo或者google的分類體系?分類層次有多深?
訓(xùn)練文集的選???哪里來呢,那么多打好標(biāo)記,并且其分類要與我們的分類相同或者,相似吧
剛開始網(wǎng)頁的內(nèi)容處理,表示,是否考慮超鏈接,是否考慮html,如何剔出亂其八糟的廣告?
網(wǎng)頁向量化,又有那么多種權(quán)值計算方法,經(jīng)典的就五個了,還有改進(jìn)的,估計也有那么五六個比較好的吧?
向量的降維,還好那位帥哥整理過5經(jīng)典的算法,再加上后來北大那幫人做的實(shí)驗,經(jīng)典的幾個里面的性能大多清楚了??墒?,是不是還有改進(jìn)的呢?特征提取算法和后面的分類算法組合后的性能參數(shù)呢?
ok,然后是分類算法,姑且考慮KNN,還要考慮KNN的參數(shù),K=?,文檔之間的距離的計算,文檔-類得分的的加權(quán)?如何加權(quán)?——還有其他的算法呢?
分類完了,還有截取算法,某個文檔可以屬于哪些類?某個類可以包含哪些文檔?這個怎么確定?RCut,PCut還是SCut,還有其他的改進(jìn)算法嗎?
最有,貪心算法在這里面能起作用嗎?即每一步,都利用別人的實(shí)驗,選擇最好的算法,可是綜合起來,就一定是全局最好的算法嗎?
分類體系的選擇,利用DDC還是中圖?還是借鑒yahoo或者google的分類體系?分類層次有多深?
訓(xùn)練文集的選???哪里來呢,那么多打好標(biāo)記,并且其分類要與我們的分類相同或者,相似吧
剛開始網(wǎng)頁的內(nèi)容處理,表示,是否考慮超鏈接,是否考慮html,如何剔出亂其八糟的廣告?
網(wǎng)頁向量化,又有那么多種權(quán)值計算方法,經(jīng)典的就五個了,還有改進(jìn)的,估計也有那么五六個比較好的吧?
向量的降維,還好那位帥哥整理過5經(jīng)典的算法,再加上后來北大那幫人做的實(shí)驗,經(jīng)典的幾個里面的性能大多清楚了??墒?,是不是還有改進(jìn)的呢?特征提取算法和后面的分類算法組合后的性能參數(shù)呢?
ok,然后是分類算法,姑且考慮KNN,還要考慮KNN的參數(shù),K=?,文檔之間的距離的計算,文檔-類得分的的加權(quán)?如何加權(quán)?——還有其他的算法呢?
分類完了,還有截取算法,某個文檔可以屬于哪些類?某個類可以包含哪些文檔?這個怎么確定?RCut,PCut還是SCut,還有其他的改進(jìn)算法嗎?
最有,貪心算法在這里面能起作用嗎?即每一步,都利用別人的實(shí)驗,選擇最好的算法,可是綜合起來,就一定是全局最好的算法嗎?


