http://blog.sina.com.cn/s/blog_671b7c800102ux1k.html

7月7日,筆者有幸在中科院自動化所現場聽取了Andrew Ng以《Deep Learning:Overview and Trends》的精彩演講?,F將Andrew演講內容整理出來,希望對大家有所幫助。演講中,Andrew主和大家分享了深度學習為何產生和發展成果,展望了未來發展趨勢,以及百度在人工智能上的使命?,F場錄音包括Andrew演講內容和會后現場問答,希望對大家有幫助~

演講錄音鏈接:http://pan.baidu.com/s/1ntHRSxV

特別說明:本文不是Andrew的演講實錄,只是筆者記錄下來的內容;此外,由于全程英文和筆者技術水平有限,有不準確或遺漏之處,還請見諒。

深度學習為何產生?
一直以來,在人工智能領域,我們試圖達到獲得大量數據、做出優秀產品和贏得廣大用戶三者之間的良性循環,但傳統的機器學習算法表現并不夠好,良性循環也未能實現。

深度學習相比于傳統方法有很多優勢,如下面這個很直觀的圖,隨著訓練量的提高,傳統方法遇到了瓶頸,但深度學習的效果卻蓬勃發展,不斷提高。

深度學習有哪些發展?
當年在斯坦福大學,我和我的團隊曾經有一個想法,讓機器人去識別咖啡杯。但機器人看到的東西和人完全不一樣,我們會看到一個具體的杯子,但機器能看到的只有數據,這也是計算機視覺(computer vision)難點所在,那就是要搞明白這些數字代表了什么。

過去我們的研究主要集中在三個領域。第一個是計算機視覺,目的是發現物體特征,然后描繪這種特征。第二個是語音識別(speech recognition),比如對機器說:“請找到我的咖啡杯”,機器就會識別這句話的意思。第三個是文本識別,這個有助于我們更好的應用,比如機器翻譯、網絡搜索等。

很長一段時間,我們設計了大量program,也發了一些paper,但研究沒有什么突破性進展。直到大概七年前,我和我的學生突然有一個想法:人腦中大部分感知器是一個非常簡單的計算過程。

而對于人腦的研究也表明,這個“one program”的假設是有可能的。我們可以從大腦如何聽、如何看開始,去了解大腦的神經元如何工作,并進而為深度學習提供理論依據。


有了這個依據,我們開始從有標記數據(tagged data)中學習,也就是有監督學習(supervised learning)。在給機器看了50000張咖啡杯圖片后,我們讓機器人在斯坦福計算機系辦公樓里找咖啡杯,效果非常好。進一步研究后,我們認識到bigger is better,即特征越多,實驗效果越好。

 

于是,我就開始尋找誰擁有更多的計算資源,于是找到了谷歌,開始了谷歌大腦這個項目,并建立了當時世界最大的神經網絡,達到10億個神經元。而我們的研究也推動了谷歌產品的發展,提升了用戶的體驗,比如谷歌地圖,以及語音識別方面的應用。


谷歌在硅谷確實很牛,但相比于谷歌,百度能夠更迅速地把深度學習技術應用到更多的產品中,比如最值得驕傲的是百度圖像搜索,準確度已超過谷歌,此外還有百度語音識別,廣告預估等。


過去很多深度學習的成功,很大原因是利用了有標記數據。像百度、谷歌、Facebook這些公司,擁有海量的有標記數據,相較于其他技術,深度學習更適合利用這些數據并獲得好的表現。

但這并不是深度學習發展的唯一方向,想想寶寶是如何學習的?他們并不是從有標記數據中獲得認知,即使是最最深沉地愛著自己孩子的父母,也不會找出5萬個咖啡杯的照片指認給自己的孩子看,來讓他認識什么是咖啡杯的。另外一點,標記數據可能存在用完的問題。所以大家認為使用未標記數據來學習,會是未來的發展方向。

實際上,人類大腦如何處理圖片的過程就是visual cortex尋找圖片中Lines/edges的過程,而每一個visual cortex的神經元就是一個Model。


基于生物學中visual cortex的工作原理,發現人腦處理的過程是:像素->邊緣->對象部分->對象模型。深度學習的過程是反向的。深度學習就是找到小patch再將其進行組合,就得到了上一層的特征(feature),遞歸地向上學習特征( feature)。在不同對象(object)上做訓練是,所得的邊緣(edge)是非常相似的,但對象部分(object parts)和模型(models) 就會完全不同。

(筆者:講到這里,Andrew秀出了他的演講中唯一的一個公式,還和大家開玩笑的說道,I hope you can enjoy it. 由于筆者的水平,這段聽的不太明白,就把公式貼出來,大家自己琢磨吧。)


我們曾使用Youtube視頻作為未標記數據,讓機器自主學習。這個過程中我們發現人臉在視頻中出現的頻率非常高,神經網絡可以學習如何認出人臉。但令人驚喜的是,機器通過自學辨別出了貓臉。


當時我作報告時,經常會有人過來對我說:深度學習聽起來真的很酷,但如果沒有造價昂貴的16000個 CPU,我們還能在深度學習上有所進展么?所以我和Adam、Bryan(兩周前剛剛加盟百度)就致力于尋找到更便宜的研發方法。后來我們決定用GPU(Graphic Processing Unit)替代CPU,降低造價。于是,具有100億個節點的神經元網絡便出現了。

深度學習未來去向何方?
我認為0-2年內仍以標記數據為主導發展方向,之后的3-5年,標記數據和未標記數據將共同發展。但關于深度學習的未來更長遠的發展,我認為將會更依賴于無標記的數據,因為這與人類和動物認知世界的過程更為類似。


具體地說,在計算機視覺方面,預計在6年內,我認為深度學習將會顛覆現有的所有方法。


在語音識別方面,目前還處于起步階段,未來將會有爆發式增長。語音識別和語音合成會在近幾年產生巨大的影響。語義理解方面,發展的過程將會是從單詞的理解到一個句子,再到文章理解(document representation)。推薦系統和廣告方面,百度做的很好,有效提高了廣告表現。機器人方面,未來將會出現真正的智能機器人。


此外,就是對獲取數據的創新?,F在的很多研究都是基于海量數據,未來或許我們可以通過某種傳感器訓練攝像頭來捕捉更多的數據。我甚至想和朋友在空閑的時間里,成立一個國際數據獲取大會(conference of data acquisition),很遺憾,我沒有這個時間。而未來的挑戰將會集中在規模化和算法這兩方面。

百度研究院的使命
創立coursera時,我的愿望是讓每個人可以平等地獲得學習的機會。如今,誰能助我成就人工智能的夢想呢?最終我選擇了百度。


之所以選擇百度,我看到了百度擁有大數據和強大的計算能力;有敏捷的機構,能快速地調配資源去需要的地方,也能夠將技術快速落地,比如GPU的落地;同時,我被我所遇到的人所折服,比如Robin、王勁、余凱和張潼。

我相信未來百度研究院將研發出最棒的工具和技術,構建最佳的員工職業發展之路,努力打造一個最好的環境來吸引優秀工程師和研究人員加入我們,成就未來深度學習領域的英雄(future hero of Deep Learning)。