http://mp.weixin.qq.com/s?__biz=MzA4MTA5MjE5Mw==&mid=2651787969&idx=1&sn=68c1b0958b6a0c1c70d7543c0970ad50&scene=1&srcid=0519zoXZYKHoRqDA4qivrJDe#wechat_redirect
小編:近日邀請周志華老師為 52cs.org 寫點小文章,特別想讓他給機器學習降降溫,讓大家更客觀更全面地選擇自己的研究方向。周老師推薦了自己以前寫的這篇文章給我,放在當下讀這篇文章,一點不過時,希望對大家有所啟迪。
機器學習現在是一大熱門,研究的人特多,越來越多的新人涌進來。
不少人其實并沒有真正想過,這是不是自己喜歡搞的東西,只不過看見別人都在搞,覺著跟大伙兒走總不會吃虧吧。
問題是,真有個“大伙兒”嗎?就不會是“兩伙兒”、“三伙兒”?如果有“幾伙兒”,那到底該跟著“哪伙兒”走呢?
很多人可能沒有意識到,所謂的machine learning community,現在至少包含了兩個有著完全不同的文化、完全不同的價值觀的群體,稱為machine learning "communities"也許更合適一些。
第一個community,是把機器學習看作人工智能分支的一個群體,這群人的主體是計算機科學家。
現在的“機器學習研究者”可能很少有人讀過1983年出的“Machine Learning: An Artificial Intelligence Approach”這本書。這本書的出版標志著機器學習成為人工智能中一個獨立的領域。它其實是一部集早期機器學習研究之大成的文集,收羅了若干先賢(例 如Herbert Simon,那位把諾貝爾獎、圖靈獎以及各種各樣和他相關的獎幾乎拿遍了的科學天才)的大作,主編是Ryszard S. Michalski(此君已去世多年了,他可算是機器學習的奠基人之一)、Jaime G. Carbonell(此君曾是Springer的LNAI的總編)、Tom Mitchell(此君是CMU機器學習系首任系主任、著名教材的作者,機器學習界沒人不知道他吧)。Machine Learning雜志的創刊,正是這群人努力的結果。這本書值得一讀。雖然技術手段早就日新月異了,但有一些深刻的思想現在并沒有過時。各個學科領域總有 不少東西,換了新裝之后又粉墨登場,現在熱火朝天的transfer learning,其實就是learning by analogy的升級版。
人工智能的研究從以“推理”為重點到以“知識”為重點,再到以“學習”為重點,是有一條自然、清晰的脈絡。人工智能出身的機器學習研究者,絕大部分 是把機器學習作為實現人工智能的一個途徑,正如1983年的書名那樣。他們關注的是人工智能中的問題,希望以機器學習為手段,但具體采用什么樣的學習手 段,是基于統計的、代數的、還是邏輯的、幾何的,他們并不care。
這群人可能對統計學習目前dominating的地位未必滿意。靠統計學習是不可能解決人工智能中大部分問題的,如果統計學習壓制了對其他手段的研 究,可能不是好事。這群人往往也不care在文章里show自己的數學水平,甚至可能是以簡化表達自己的思想為榮。人工智能問題不是數學問題,甚至未必是 依靠數學能夠解決的問題。人工智能中許多事情的難處,往往在于我們不知道困難的本質在哪里,不知道“問題”在哪里。一旦“問題”清楚了,解決起來可能并不 困難。
第二個community,是把機器學習看作“應用統計學”的一個群體,這群人的主體是統計學家。
和純數學相比,統計學不太“干凈”,不少數學家甚至拒絕承認統計學是數學。但如果和人工智能相比,統計學就太干凈了,統計學研究的問題是清楚的,不象人工智能那樣,連問題到底在哪里都不知道。在相當長時間里,統計學家和機器學習一直保持著距離。
慢慢地,不少統計學家逐漸意識到,統計學本來就該面向應用,而機器學習天生就是一個很好的切入點。因為機器學習雖然用到各種各樣的數學,但要分析大 量數據中蘊涵的規律,統計學是必不可少的。統計學出身的機器學習研究者,絕大部分是把機器學習當作應用統計學。他們關注的是如何把統計學中的理論和方法變 成可以在計算機上有效實現的算法,至于這樣的算法對人工智能中的什么問題有用,他們并不care。
這群人可能對人工智能毫無興趣,在他們眼中,機器學習就是統計學習,是統計學比較偏向應用的一個分支,充其量是統計學與計算機科學的交叉。這群人對統計學習之外的學習手段往往是排斥的,這很自然,基于代數的、邏輯的、幾何的學習,很難納入統計學的范疇。
兩個群體的文化和價值觀完全不同。第一個群體認為好的工作,第二個群體可能覺得沒有技術含量,但第一個群體可能恰恰認為,簡單的才好,正因為很好地 抓住了問題本質,所以問題變得容易解決。第二個群體欣賞的工作,第一個群體可能覺得是故弄玄虛,看不出他想解決什么人工智能問題,根本就不是在搞人工智 能、搞計算機,但別人本來也沒說自己是在“搞人工智能”、“搞計算機”,本來就不是在為人工智能做研究。
兩個群體各有其存在的意義,應該寬容一點,不需要去互較什么短長。但是既然頂著Machine Learning這個帽子的不是“一伙兒”,而是“兩伙兒”,那么要“跟進”的新人就要謹慎了,先搞清楚自己更喜歡“哪伙兒”。
引兩位著名學者的話結尾,一位是人工智能大獎得主、一位是統計學習大家,名字我不說了,省得惹麻煩:
“I do not come to AI to do statistics”
“I do not have interest in AI”
閱讀記錄:read twice