http://blog.sina.com.cn/s/blog_671b7c800102ux1k.html
7月7日,筆者有幸在中科院自動化所現(xiàn)場聽取了Andrew Ng以《Deep Learning:Overview and Trends》的精彩演講。現(xiàn)將Andrew演講內(nèi)容整理出來,希望對大家有所幫助。演講中,Andrew主和大家分享了深度學習為何產(chǎn)生和發(fā)展成果,展望了未來發(fā)展趨勢,以及百度在人工智能上的使命。現(xiàn)場錄音包括Andrew演講內(nèi)容和會后現(xiàn)場問答,希望對大家有幫助~
演講錄音鏈接:http://pan.baidu.com/s/1ntHRSxV
特別說明:本文不是Andrew的演講實錄,只是筆者記錄下來的內(nèi)容;此外,由于全程英文和筆者技術水平有限,有不準確或遺漏之處,還請見諒。
深度學習為何產(chǎn)生?
一直以來,在人工智能領域,我們試圖達到獲得大量數(shù)據(jù)、做出優(yōu)秀產(chǎn)品和贏得廣大用戶三者之間的良性循環(huán),但傳統(tǒng)的機器學習算法表現(xiàn)并不夠好,良性循環(huán)也未能實現(xiàn)。
深度學習相比于傳統(tǒng)方法有很多優(yōu)勢,如下面這個很直觀的圖,隨著訓練量的提高,傳統(tǒng)方法遇到了瓶頸,但深度學習的效果卻蓬勃發(fā)展,不斷提高。
深度學習有哪些發(fā)展?
當年在斯坦福大學,我和我的團隊曾經(jīng)有一個想法,讓機器人去識別咖啡杯。但機器人看到的東西和人完全不一樣,我們會看到一個具體的杯子,但機器能看到的只有數(shù)據(jù),這也是計算機視覺(computer vision)難點所在,那就是要搞明白這些數(shù)字代表了什么。
過去我們的研究主要集中在三個領域。第一個是計算機視覺,目的是發(fā)現(xiàn)物體特征,然后描繪這種特征。第二個是語音識別(speech recognition),比如對機器說:“請找到我的咖啡杯”,機器就會識別這句話的意思。第三個是文本識別,這個有助于我們更好的應用,比如機器翻譯、網(wǎng)絡搜索等。
很長一段時間,我們設計了大量program,也發(fā)了一些paper,但研究沒有什么突破性進展。直到大概七年前,我和我的學生突然有一個想法:人腦中大部分感知器是一個非常簡單的計算過程。
而對于人腦的研究也表明,這個“one program”的假設是有可能的。我們可以從大腦如何聽、如何看開始,去了解大腦的神經(jīng)元如何工作,并進而為深度學習提供理論依據(jù)。
有了這個依據(jù),我們開始從有標記數(shù)據(jù)(tagged data)中學習,也就是有監(jiān)督學習(supervised learning)。在給機器看了50000張咖啡杯圖片后,我們讓機器人在斯坦福計算機系辦公樓里找咖啡杯,效果非常好。進一步研究后,我們認識到bigger is better,即特征越多,實驗效果越好。
于是,我就開始尋找誰擁有更多的計算資源,于是找到了谷歌,開始了谷歌大腦這個項目,并建立了當時世界最大的神經(jīng)網(wǎng)絡,達到10億個神經(jīng)元。而我們的研究也推動了谷歌產(chǎn)品的發(fā)展,提升了用戶的體驗,比如谷歌地圖,以及語音識別方面的應用。
谷歌在硅谷確實很牛,但相比于谷歌,百度能夠更迅速地把深度學習技術應用到更多的產(chǎn)品中,比如最值得驕傲的是百度圖像搜索,準確度已超過谷歌,此外還有百度語音識別,廣告預估等。
過去很多深度學習的成功,很大原因是利用了有標記數(shù)據(jù)。像百度、谷歌、Facebook這些公司,擁有海量的有標記數(shù)據(jù),相較于其他技術,深度學習更適合利用這些數(shù)據(jù)并獲得好的表現(xiàn)。
但這并不是深度學習發(fā)展的唯一方向,想想寶寶是如何學習的?他們并不是從有標記數(shù)據(jù)中獲得認知,即使是最最深沉地愛著自己孩子的父母,也不會找出5萬個咖啡杯的照片指認給自己的孩子看,來讓他認識什么是咖啡杯的。另外一點,標記數(shù)據(jù)可能存在用完的問題。所以大家認為使用未標記數(shù)據(jù)來學習,會是未來的發(fā)展方向。
實際上,人類大腦如何處理圖片的過程就是visual cortex尋找圖片中Lines/edges的過程,而每一個visual cortex的神經(jīng)元就是一個Model。
基于生物學中visual cortex的工作原理,發(fā)現(xiàn)人腦處理的過程是:像素->邊緣->對象部分->對象模型。深度學習的過程是反向的。深度學習就是找到小patch再將其進行組合,就得到了上一層的特征(feature),遞歸地向上學習特征( feature)。在不同對象(object)上做訓練是,所得的邊緣(edge)是非常相似的,但對象部分(object parts)和模型(models) 就會完全不同。
(筆者:講到這里,Andrew秀出了他的演講中唯一的一個公式,還和大家開玩笑的說道,I hope you can enjoy it. 由于筆者的水平,這段聽的不太明白,就把公式貼出來,大家自己琢磨吧。)
我們曾使用Youtube視頻作為未標記數(shù)據(jù),讓機器自主學習。這個過程中我們發(fā)現(xiàn)人臉在視頻中出現(xiàn)的頻率非常高,神經(jīng)網(wǎng)絡可以學習如何認出人臉。但令人驚喜的是,機器通過自學辨別出了貓臉。
當時我作報告時,經(jīng)常會有人過來對我說:深度學習聽起來真的很酷,但如果沒有造價昂貴的16000個 CPU,我們還能在深度學習上有所進展么?所以我和Adam、Bryan(兩周前剛剛加盟百度)就致力于尋找到更便宜的研發(fā)方法。后來我們決定用GPU(Graphic Processing Unit)替代CPU,降低造價。于是,具有100億個節(jié)點的神經(jīng)元網(wǎng)絡便出現(xiàn)了。
深度學習未來去向何方?
我認為0-2年內(nèi)仍以標記數(shù)據(jù)為主導發(fā)展方向,之后的3-5年,標記數(shù)據(jù)和未標記數(shù)據(jù)將共同發(fā)展。但關于深度學習的未來更長遠的發(fā)展,我認為將會更依賴于無標記的數(shù)據(jù),因為這與人類和動物認知世界的過程更為類似。
具體地說,在計算機視覺方面,預計在6年內(nèi),我認為深度學習將會顛覆現(xiàn)有的所有方法。
在語音識別方面,目前還處于起步階段,未來將會有爆發(fā)式增長。語音識別和語音合成會在近幾年產(chǎn)生巨大的影響。語義理解方面,發(fā)展的過程將會是從單詞的理解到一個句子,再到文章理解(document representation)。推薦系統(tǒng)和廣告方面,百度做的很好,有效提高了廣告表現(xiàn)。機器人方面,未來將會出現(xiàn)真正的智能機器人。
此外,就是對獲取數(shù)據(jù)的創(chuàng)新。現(xiàn)在的很多研究都是基于海量數(shù)據(jù),未來或許我們可以通過某種傳感器訓練攝像頭來捕捉更多的數(shù)據(jù)。我甚至想和朋友在空閑的時間里,成立一個國際數(shù)據(jù)獲取大會(conference of data acquisition),很遺憾,我沒有這個時間。而未來的挑戰(zhàn)將會集中在規(guī)模化和算法這兩方面。
百度研究院的使命
創(chuàng)立coursera時,我的愿望是讓每個人可以平等地獲得學習的機會。如今,誰能助我成就人工智能的夢想呢?最終我選擇了百度。
之所以選擇百度,我看到了百度擁有大數(shù)據(jù)和強大的計算能力;有敏捷的機構,能快速地調配資源去需要的地方,也能夠將技術快速落地,比如GPU的落地;同時,我被我所遇到的人所折服,比如Robin、王勁、余凱和張潼。
我相信未來百度研究院將研發(fā)出最棒的工具和技術,構建最佳的員工職業(yè)發(fā)展之路,努力打造一個最好的環(huán)境來吸引優(yōu)秀工程師和研究人員加入我們,成就未來深度學習領域的英雄(future hero of Deep Learning)。