Posted on 2005-12-07 10:39
inwind 閱讀(368)
評論(0) 編輯 收藏 引用 所屬分類:
數(shù)據(jù)挖掘
今天總算拜讀了Prof. Zhou的three perspectives of datamining
http://cs.nju.edu.cn/people/zhouzh/zhouzh.files/publication/aij03.pdf
我覺得這篇文章可以解答我們前面提到數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)和統(tǒng)計(jì)之間的關(guān)系。
為了給沒有時間讀的人一個大略的了解,我就摘要翻譯一下(加了我的理解)
,如果有疑惑還請讀完原文后再對他的文章作評論。
(本文不當(dāng)之處,敬請指出,為了我,也為了大家。)
1.本文介紹了從DB(Database)、ML(machine learning)和ST(Statistical)
三個角度研究DM(Datamining)的特點(diǎn)。
這個特點(diǎn)是DB注重挖掘的efficency效率、ML注重挖掘的effectiveness效果、
ST注重挖掘的validation有效性。
2.他的這個觀點(diǎn)是通過對三本書的評述來闡明的
三本書是a.J.Han and M.Kamber's Datamining: Concepts and techniques
從數(shù)據(jù)庫角度來寫的
b. I. H. Witten and E. Frank's Datamining:practical machine learning tools
and techniques with java implementations 從機(jī)器學(xué)習(xí)角度寫的
c.D. Hand, H. Mannila, and P. Smyth, principles of Datammining
從統(tǒng)計(jì)的角度寫的。
3.討論這三本書的寫作思路之前,要了解DM跟KDD(knowledge discovery in databases)
關(guān)系。Han的書是認(rèn)為DM等同于KDD,所以整本書從從一個數(shù)據(jù)庫系統(tǒng)的角度來寫,
注重系統(tǒng)的完整性和效率。認(rèn)為在數(shù)據(jù)庫之外的算法很少考慮效率。 Witten的書認(rèn)為
DM是KDD的一個環(huán)節(jié),書中關(guān)注算法,所以更注重實(shí)際應(yīng)用效果。而Hand的書從
認(rèn)為DM是KDD的一個核心環(huán)節(jié),從數(shù)學(xué)角度,更注重數(shù)據(jù)挖掘的有效性。
關(guān)于DM跟DB、ML和ST的關(guān)系,DB跟DM、ML、ST的區(qū)別是明顯的,而ML、ST跟DM的區(qū)別
在于data volume bing processed(數(shù)據(jù)量?-GzLi),ML跟ST的區(qū)別是
研究方法領(lǐng)域的不同,ML理論與實(shí)踐結(jié)合,ST比較注重理論。但是ST在數(shù)據(jù)挖掘中
還是占有重要基礎(chǔ)地位的。
4.對于三本書,周認(rèn)為han的書適合作教材,witten的書適合做主要讀物,而
hand的書是高級讀物。
5.只從這三本書就得出上述觀點(diǎn),有些不充分,但是是一個嘗試。