Posted on 2005-12-19 15:45
inwind 閱讀(181)
評(píng)論(0) 編輯 收藏 引用
根據(jù)boss的想法,開始考慮多分類方法綜合的問題。
首先看了一下臺(tái)灣人總結(jié)的影響分類效果的12種因素,感覺應(yīng)該不止那些,果然,呵呵
剛剛看了針對(duì)kNN的綜合方法,通過綜合使用不同的距離計(jì)算公式來達(dá)到良好的效果。
文中除了歐幾里德距離外(有缺點(diǎn),當(dāng)某一個(gè)量太大的時(shí)候,會(huì)使得其他量起作用),還使用了:
Heterogeneous Euclidean-OverlapMetric (HEOM):這里面考慮的名詞性的特征以及,對(duì)歐幾里德距離中向量的歸一化(除以他們最大可能值和最小可能值的距離)
Value Difference Metric (VDM):適用于名詞性的特征,不利于使用到連續(xù)數(shù)字特征中。但是有相關(guān)的改進(jìn)(Wilson, D. Randall, & Tony R.Martinez, “Improved Heterogeneous Distance Functions”,Journal of Artificial Intelligence Research, Vol. 6, No. 1, pp. 1-34, 1997.)
然后,對(duì)于kNN,取k為3,適用六種距離算法,通過簡單投票來決定文章類的歸屬,得出來比較好的結(jié)果。
開拓了一種思路,雖然這個(gè)多距離測(cè)量不一定能用上,但是是個(gè)不錯(cuò)的啟發(fā)。