http://mp.weixin.qq.com/s?__biz=MjM5OTExNDI0Nw==&mid=200268130&idx=1&sn=67f49e08564d1314d369f56276e8daf7&scene=1&from=groupmessage&isappinstalled=0#rd

對話Facebook人工智能實驗室主任、深度學習專家Yann LeCun

Yann LeCun(燕樂存),Facebook人工智能實驗室主任,NYU數據科學中心創始人,計算機科學、神經科學、電子電氣科學教授。他1983年在ESIEE獲得電氣工程學位,1987年在UPMC獲得計算機博士學位。在多倫多大學做了一段時間博士后,于1988年加入位于新澤西州的AT&T貝爾實驗室。1996年他成為圖像處理研究部的主任,2003年,在普林斯頓NEC研究院經歷短暫的Fellow生活以后,加入NYU。2013年,他被Facebook聘請為人工智能實驗室主任,同時仍在NYU兼職。

他目前的研究興趣在于:機器學習,計算機認知,移動機器人以及計算神經學。在這些領域他發表了180余篇論文和圖書,涉及主題有神經網絡、手寫體識別、圖像處理和壓縮以及計算機認知的專用電路和架構。他在貝爾實驗室研發的字符識別技術,被全世界多家銀行用于識別支票,早在2000年左右,該程序識別了全美10%-20%的支票。他發明的圖片壓縮技術DjVu,被數百家網站和出版商采納,擁有上百萬用戶。他研發的一個識別方法,卷積網絡,是AT&T、Google、微軟、NEC、IBM、百度以及Facebook等公司在文檔識別,人機交互,圖片標注、語音識別和視頻分析等等技術的奠基石。

LeCun教授是IJCV、PAMI和IEEE Trans的審稿人。CVPR06的程序主席、ICLR2013和2014的主席。他是IPAM(Institute for Pure and Applied Mathematics)的顧問。他是2014年IEEE神經網絡領軍人物獎獲得者。

本文的采訪者是另一位大牛Gregory Piatetsky,KDD會議創始人,是1989,1991和1993年KDD的主席,SIGKDD第一個服務獎章獲得者,KDnuggets網站和周刊的維護者。

本文主要內容有,是什么給深度學習帶來了今日如此令世人矚目的成績,Yann Lecun和Vapnik關于神經網絡和核函數(支持向量機)的爭論,以及Facebook理想中的AI是什么樣子的。

以下為采訪原文:

問:人工神經網絡的研究已經有五十多年了,但是最近才有非常令人矚目的結果,在諸如語音和圖像識別這些比較難的問題上,是什么因素讓深度學習網絡勝出了呢?數據?算法?硬件?

答:雖然大部分人的感覺是人工神經網絡最近幾年才迅速崛起,但實際上上個世紀八十年代以后,就有很多成功的應用了。深度學習指的是,任何可以訓練多于兩到三個非線性隱含層模型的學習算法。大概是2003年,Geoff Hinton,Yoshua Bengio和我策劃并鼓動機器學習社區將興趣放在表征學習這個問題上(和簡單的分類器學習不同)。直到2006-2007年左右才有了點味道,主要是通過無監督學習的結果(或者說是無監督預訓練,伴隨監督算法的微調),這部分工作是Geoff Hinton,Yoshua Bengio,Andrew Ng和我共同進行的。

但是大多數最近那些有效果的深度學習,用得還是純監督學習加上后向傳播算法,跟上個世紀八十年代末九十年代初的神經網絡沒太大區別。

區別在于,我們現在可以在速度很快的GPU上跑非常大非常深層的網絡(比如有時候有十億連接,12層),而且還可以用大規模數據集里面的上百萬的樣本來訓練。過去我們還有一些訓練技巧,比如有個正則化的方法叫做dropout,還有克服神經元的非線性問題,以及不同類型的空間池化(spatial pooling)等等。

很多成功的應用,尤其是在圖像識別上,都采用的是卷積神經網絡(ConvNet),是我上個世紀八九十年代在貝爾實驗室開發出來的。后來九十年代中期,貝爾實驗室商業化了一批基于卷積神經網絡的系統,用于識別銀行支票(印刷版和手寫版均可識別)。

經過了一段時間,其中一個系統識別了全美大概10%到20%的支票。最近五年,對于卷積神經網絡的興趣又卷土重來了,很多漂亮的工作,我的研究小組有參與,以及Geoff Hinton,Andrew Ng和Yoshua Bengio,還有瑞士IDSI的AJargen Schmidhuber,以及加州的NEC。卷積神經網絡現在被Google,Facebook,IBM,百度,NEC以及其他互聯網公司廣泛使用,來進行圖像和語音識別。(Gregory Piatetsky注:Yann Lecun教授的一個學生,最近贏得了Kaggle上貓狗識別的比賽,用的就是卷積神經網絡,準確度98.9%。)

問:深度學習可不是一個容易用的方法,你能給大家推薦一些工具和教程么?大家都挺想從在自己的數據上跑跑深度學習。

答:基本上工具有兩個推薦:

  • Torch7

  • Theano + Pylearn2

他們的設計哲學不盡相同,各有千秋。Torch7是LuaJIT語言的一個擴展,提供了多維數組和數值計算庫。它還包括一個面向對象的深度學習開發包,可用于計算機視覺等研究。Torch7的主要優點在于LuaJIT非常快,使用起來也非常靈活(它是流行腳本語言Lua的編譯版本)。

Theano加上Pylearn先天就有Python語言帶來的優勢(Python是廣泛應用的腳本語言,很多領域都有對應的開發庫),劣勢也是應為用Python,速度慢。

問:咱倆很久以前在KXEN的科學咨詢會議上見過,當時Vapnik的概率學習理論和支持向量機(SVM)是比較主流的。深度學習和支持向量機/概率學習理論有什么關聯?

答:1990年前后,我和Vapnik在貝爾實驗室共事,歸屬于Larry Jackel的自適應系統研究部,我倆辦公室離得很近。卷積神經網絡,支持向量機,正切距離以及其他后來有影響的方法都是在這發明出來的,問世時間也相差無幾。1995年AT&T拆分朗訊以后,我成了這個部門的領導,部門后來改成了AT&T實驗室的圖像處理研究部。部門當時的機器學習專家有Yoshua Bengio, Leon Bottou,Patrick Haffner以及Vladimir Vapnik,還有幾個訪問學者以及實習生。

我和Vapnik經常討論深度網絡和核函數的相對優缺點。基本來講,我一直對于解決特征學習和表征學習感興趣。我對核方法興趣一般,因為它們不能解決我的問題。老實說,支持向量機作為通用分類方法來講,是非常不錯的。但是話說回來,它們也只不過是簡單的兩層模型,第一層是用核函數來計算輸入數據和支持向量之間相似度的單元集合。第二層則是線性組合了這些相似度。

第一層就是用最簡單的無監督模型訓練的,即將訓練數據作為原型單元存儲起來。基本上來說,調節核函數的平滑性,產生了兩種簡單的分類方法:線性分類和模板匹配。大概十年前,由于評價核方法是一種包裝美化過的模板匹配,我惹上了麻煩。Vapnik,站在我對立面,他描述支持向量機有非常清晰的擴展控制能力。“窄”核函數所產生的支持向量機,通常在訓練數據上表現非常好,但是其普適性則由核函數的寬度以及對偶系數決定。Vapnik對自己得出的結果非常自信。他擔心神經網絡沒有類似這樣簡單的方式來進行擴展控制(雖然神經網絡根本沒有普適性的限制,因為它們都是無限的VC維)。

我反駁了他,相比用有限計算能力來計算高復雜度函數這種能力,擴展控制只能排第二。圖像識別的時候,移位、縮放、旋轉、光線條件以及背景噪聲等等問題,會導致以像素做特征的核函數非常低效。但是對于深度架構比如卷積網絡來說卻是小菜一碟。

問:祝賀你成為Facebook人工智能實驗室的主任。你能給講講未來幾年Facebook在人工智能和機器學習上能有什么產出么?

答:非常謝謝你,這個職位是個非常難得的機會。基本上來講,Facebook的主要目標是讓人與人更好的溝通。但是當今的人們被來自朋友、新聞、網站等等信息來源狂哄亂炸。Facebook幫助人們來在信息洪流中找到正確的方向。這就需要Facebook能知道人們對什么感興趣,什么是吸引人的,什么讓人快樂,什么讓人們學到新東西。這些知識,只有人工智能可以提供。人工智能的進展,將讓我們理解各種內容,比如文字,圖片,視頻,語音,聲音,音樂等等。

問:長期來看,你覺得人工智能會變成什么樣?我們會不會達到Ray Kurzweil所謂的奇點?

答:我們肯定會擁有智能機器。這只是時間問題。我們肯定會有那種雖然不是非常聰明,但是可以做有用事情的機器,比如無人駕駛車。

至于這需要多長時間?人工智能研究者之前很長的一段時間都低估了制造智能機器的難度。我可以打個比方:研究進展就好像開車去目的地。當我們在研究上發現了新的技術,就類似在高速路上開車一樣,無人可擋,直達目的地。

但是現實情況是,我們是在一片濃霧里開車,我們沒有意識到,研究發現的所謂的高速公路,其實只是一個停車場,前方的盡頭有一個磚墻。很多聰明人都犯了這個錯誤,人工智能的每一個新浪潮,都會帶來這么一段從盲目樂觀到不理智最后到沮喪的階段。感知機技術、基于規則的專家系統、神經網絡、圖模型、支持向量機甚至是深度學習,無一例外,直到我們找到新的技術。當然這些技術,從來就不是完全失敗的,它們為我們帶來了新的工具、概念和算法。

雖然我相信我們最終一定會制造出超越人類智能的機器,但是我并不相信所謂的奇點理論。大部分人覺得技術的進展是個指數曲線,其實它是個S型曲線。S型曲線剛開始的時候跟指數曲線很像。而且奇點理論比指數曲線還夸張,它假設的是漸進曲線。線性、多項式、指數和漸進以及S曲線的動態演變,都跟阻尼和摩擦因子有關系。而未來學家卻假設這些因子是不存在的。未來學家生來就愿意做出盲目的預測,尤其是他們特別渴望這個預測成真的時候,可能是為了實現個人抱負。

問:你還在NYU數據科學中心當兼職主任,你怎么權衡或者結合在Facebook的工作?

答:我在NYU數據科學中心已經不再擔任實際職務了,而是名譽主任。在新的主任選舉出來以前,代理主任是S.R. Srinivasa “Raghu” Varadha,世界上最有名的統計學家。NYU已經展開了新主任的遴選工作。在數據科學中心的建立過程中,我花費了相當大的精力。我們現在書據科學方面有碩士生項目,未來會有博士生項目。現在中心有9個工作空缺,和Berkeley和華盛頓大學合作,我們從Moore和Sloan基金會拿到了非常大的一個五年基金支持,中心現在和Facebook等各大公司都有合作伙伴關系,我們馬上要蓋新大樓。下一任中心主任將會非常熱愛自己的工作!

問:“數據科學”這個詞,近來經常出現,被認為是統計學、商業智能等學科的交叉。這個數據科學和之前的“數據挖掘”或者“預測分析”有什么不同?它是一個新學科?它的公理和原則有哪些?

答:數據科學指的是自動或半自動地從數據中抽取知識。這個過程涉及很多的學科,每個學科對它都有自己的名字,包括概率估計,數據挖掘,預測分析,系統辨識,機器學習,人工智能等等。

從各個學科的角度,統計學、機器學習以及某些應用數學,都可以聲稱是數據科學的起源。但是實際上,數據科學之于統計學、機器學習以及應用數學,正如上個世紀六十年代的計算機科學之于電子電氣、物理和數學。后來計算機科學變成了一個完全成熟的獨立學科,而不是數學或者工程的子學科,完全是因為它對社會非常重要。

當今的數字時代,數據指數級別的瘋漲,從數據中自動抽取知識這個問題,已經逐漸成為了人們的焦點。這正促進數據科學成為一個真正獨立的學科。也促進著統計學、機器學習和數學重新劃定自己的學科界限。數據科學還創造了“方法學科”的科學家和“領域學科”如自然科學、商科、藥學和政府的工作人員緊密交流的機會。

我預測,未來十年,很多頂尖大學都會設立數據科學系。

問:您對于“大數據”這個詞怎么看?作為一種趨勢或者一個時髦詞,它有多少成分是夸大,多少是真實的?

答:對于這個詞,我覺得最近社交網絡上比較流行的那個笑話非常貼切,把大數據比作青少年性行為:每個人都在談論它,沒人知道到底怎么做,每個人都以為其他人知道怎么做,所以每個人都聲稱自己也在做,這個笑話我是從Dan Ariely的Facebook上看到的。

我碰到過一些人,哪怕是閃盤可以存下,筆記本可以處理的數據,都堅持使用Hadoop來處理。

這個詞確實被夸大了。但是如何收集、存儲和分析海量數據這個問題是實際存在的。我經常懷疑的是諸如“大數據”這樣的名字而已,因為今日的大數據,將成為明日的小數據。還有,很多問題都是因為數據量不足而產生的,比如基因和醫療數據,數據永遠都不會夠用。

問:數據科學家被稱為“二十一世紀最性感的職業”。你給想要進入這個領域的人們提一點建議?

答:如果你是個本科生,多學數學、統計學還有物理學,更重要的是你要學著寫代碼(學三到四門計算機課程)。如果你有本科學位,那么你可以申請NYU數據科學中心的碩士項目。

問:你最近對哪本書比較感興趣?不接觸計算機和手機的時候你都在干些什么?

答:在我空閑的時候,我會造一些微型飛行器,我非常喜歡3D打印,我還經常研究帶微控制器的電路板,我還希望能更好的制造音樂(我收集電子風門控制器)。大多數非小說的作品我都看,還聽可多的爵士樂(或者類似的音樂)。

查看英語原文:http://www.kdnuggets.com/2014/02/exclusive-yann-lecun-deep-learning-facebook-ai-lab.html


感謝吳甘沙對本文的審校,感謝包研對本文的策劃。

給InfoQ中文站投稿或者參與內容翻譯工作,請郵件至editors@cn.infoq.com。也歡迎大家通過新浪微博(@InfoQ)或者騰訊微博(@InfoQ)關注我們,并與我們的編輯和其他讀者朋友交流。