Posted on 2005-12-07 10:39
inwind 閱讀(353)
評論(0) 編輯 收藏 引用 所屬分類:
數據挖掘
今天總算拜讀了Prof. Zhou的three perspectives of datamining
http://cs.nju.edu.cn/people/zhouzh/zhouzh.files/publication/aij03.pdf
我覺得這篇文章可以解答我們前面提到數據挖掘與機器學習和統計之間的關系。
為了給沒有時間讀的人一個大略的了解,我就摘要翻譯一下(加了我的理解)
,如果有疑惑還請讀完原文后再對他的文章作評論。
(本文不當之處,敬請指出,為了我,也為了大家。)
1.本文介紹了從DB(Database)、ML(machine learning)和ST(Statistical)
三個角度研究DM(Datamining)的特點。
這個特點是DB注重挖掘的efficency效率、ML注重挖掘的effectiveness效果、
ST注重挖掘的validation有效性。
2.他的這個觀點是通過對三本書的評述來闡明的
三本書是a.J.Han and M.Kamber's Datamining: Concepts and techniques
從數據庫角度來寫的
b. I. H. Witten and E. Frank's Datamining:practical machine learning tools
and techniques with java implementations 從機器學習角度寫的
c.D. Hand, H. Mannila, and P. Smyth, principles of Datammining
從統計的角度寫的。
3.討論這三本書的寫作思路之前,要了解DM跟KDD(knowledge discovery in databases)
關系。Han的書是認為DM等同于KDD,所以整本書從從一個數據庫系統的角度來寫,
注重系統的完整性和效率。認為在數據庫之外的算法很少考慮效率。 Witten的書認為
DM是KDD的一個環節,書中關注算法,所以更注重實際應用效果。而Hand的書從
認為DM是KDD的一個核心環節,從數學角度,更注重數據挖掘的有效性。
關于DM跟DB、ML和ST的關系,DB跟DM、ML、ST的區別是明顯的,而ML、ST跟DM的區別
在于data volume bing processed(數據量?-GzLi),ML跟ST的區別是
研究方法領域的不同,ML理論與實踐結合,ST比較注重理論。但是ST在數據挖掘中
還是占有重要基礎地位的。
4.對于三本書,周認為han的書適合作教材,witten的書適合做主要讀物,而
hand的書是高級讀物。
5.只從這三本書就得出上述觀點,有些不充分,但是是一個嘗試。