這個(gè)問題蠻關(guān)鍵的,我補(bǔ)充回答一下,其實(shí)這是一個(gè)特征表達(dá)力的問題,傳統(tǒng)方法特征表達(dá)力,不如Deep Learning的多層學(xué)習(xí)得到的更有效果的表達(dá)。舉個(gè)例子,假定有一種疾病,這種疾病容易在個(gè)高且胖的人群,以及個(gè)矮且瘦的人群中易感。那么任意從給一個(gè)特征角度上看,比如肥胖,那么胖的這部分人中,得此病的概率為50%,不胖的也是50%,那么'胖'這個(gè)特征沒有表達(dá)力。
用學(xué)術(shù)上的術(shù)語來說,身高和體型是兩個(gè)Marginally independent的變量,即如果觀察到了他們產(chǎn)生的結(jié)果,他們就不獨(dú)立了。也就是如果身高和體型在用于檢測這種疾病的時(shí)候,他們就不獨(dú)立了,因此需要有一種特征表示的方式來表示他們的這種不獨(dú)立性,能夠combine他們以形成更好的特征。而這種更結(jié)構(gòu)化的特征,需要大量的語料才能training到位。而獨(dú)立性的特征,往往少部分語料就可以獲得很好的結(jié)果,但隨著語料數(shù)量的提高,無法observe到結(jié)構(gòu)化的特征,因此更多的語料就浪費(fèi)了。我們都知道這是AI領(lǐng)域的XOR問題,也就是二層 神經(jīng)網(wǎng)絡(luò)就能求解,換言之,多層神經(jīng)網(wǎng)絡(luò)mining出來更好的特征。

接著Ng也直觀的展示了,從像素級特征(表達(dá)力最弱)到edges級特征,直到object級特征。 從edges特征大家看到的這個(gè)形式,其實(shí)是深度神經(jīng)網(wǎng)絡(luò)的edges中的一個(gè)小塊,就是input layer到第一個(gè)hidden layer之間的一組邊(如果是RBM 的話)或者是第一個(gè)hidden layer到output layer的一組邊,這組邊可以理解成training的成果。而hidden layer是一個(gè)sparse coding的向量,用來combine不同組的邊來還原出input layer。
因此可以看到,通過深度學(xué)習(xí)的處理,無需tagged data,通過自學(xué)習(xí)的方式,就可以做到特征的表達(dá)力從像素級,提高到了 object models,多么美妙啊,難怪Ng用了Amazing這個(gè)詞,而且再一次地露出了特有的微笑。
2)Deep Learning存在的問題
Ng提到了,通常學(xué)生試驗(yàn)在10 million connections這個(gè)水平,因?yàn)樵诖笠呀?jīng)超出計(jì)算的能力,但如果采用并發(fā)的方法,160000萬個(gè)CPUs的情況下,可以達(dá)到1 billion connections這個(gè)水平。如果采用特制的GPU來計(jì)算,可以達(dá)到10 billion connections的水平。
從我自己的實(shí)驗(yàn)結(jié)果看,目前做千萬connection是沒問題的,時(shí)機(jī)成熟我就開放出來,但受限于CPU在向量計(jì)算的劣勢,再大的話,每一輪訓(xùn)練的時(shí)間就會大大提高,變得不可計(jì)算,而分布式Parameter server的搞法,雖然能夠第一步把語料shard一下,然后各自訓(xùn)練,到了最高層用類似transform learning的法子再combine(這段話是我自己猜測的,Ng的報(bào)告這里我沒聽太懂,圖片是按照記憶畫出)

我個(gè)人的理解,就是一個(gè)巨大語料切成n個(gè)部分,每個(gè)部分產(chǎn)生表達(dá)力強(qiáng)的特征,而這些表達(dá)力強(qiáng)的特征在一個(gè)階段,就是那個(gè)長條哪里進(jìn)行combine,也就是這個(gè)hidden layer可以很好的表達(dá)來自不同shard的特征,最后在展開各層,用不同shard上的tagged data來進(jìn)一步調(diào)整每條邊的權(quán)重。
3)Deep Learning的Idea

這個(gè)可能沒什么可說的,但我認(rèn)為很重要,這段話不難翻譯,人腦中大部分感知器是一個(gè)非常簡單的計(jì)算過程。但通過組合可以達(dá)到很高的理解力。但問題是如何組合,感知的過程如何從低級階段到高級階段,從明暗,色彩的感知,到人類喜怒哀樂的情感,整個(gè)過程的每一步可能都是naive得,但整個(gè)認(rèn)知鏈條的末端一定是語義的,有感情的,上升到概念的。另外,通常還有一個(gè)體會,比如看一本小說,腦海中就能自然浮現(xiàn)畫面,可見不同神經(jīng)感知器也不是完全獨(dú)立的,而是彼此聯(lián)系的。
4)Deep Learning的一些成果
報(bào)告中提到很多成果,特別是提到了圖像識別中,在DL面前,SIFT特征提取算法弱爆了,我還是為Ng的自信和霸氣,略震了一下。按照常規(guī),學(xué)術(shù)界的同志應(yīng)該謙虛,尊重下老前輩,尊重下傳統(tǒng)的。。
后來的提問環(huán)節(jié),也有同學(xué)問到,那些old算法框架怎么辦呢?Ng說無論怎樣,這就是科學(xué)技術(shù)的趨勢,當(dāng)一個(gè)東西產(chǎn)生明顯效果后,越來越多的方法會采用這些新方法,而傳統(tǒng)方法,不是說研究者就立馬到zero,但的確會fewer and fewer。當(dāng)時(shí)我心里想,無論如何如何,總得有留下少部分堅(jiān)守的同志,沒準(zhǔn)10年后翻身也難說,但大部隊(duì)?wèi)?yīng)該撲新方法的。

5)未來趨勢

未來趨勢基本是一些喜聞樂見的東西,沒什么新意,包括后來提問環(huán)節(jié)也有人提問,讓Ng透露未來的一些計(jì)劃。Ng說未來的事情總是千變?nèi)f化的,如果真是希望了解產(chǎn)業(yè)界的一些計(jì)劃,可以來百度打工,和最優(yōu)秀的工程師一起做事。
提問環(huán)節(jié)有很多有趣的話題,比如有人問百度,以及Andrew Ng本人對Spark的評價(jià),Ng回答到,百度用了很多開源工具,但機(jī)器學(xué)習(xí)的很多問題太Uniq了,太特殊了,而Spark這種通用的東西很難滿足需求,當(dāng)然不是說SPark不好,只是Ng本人也很少用(用了Less這個(gè)詞匯)。還有包括為什么效忠百度,Ng說了三個(gè)原因,第一他認(rèn)為機(jī)器學(xué)習(xí)是Transform世界,Transform互聯(lián)網(wǎng)的一種方式,相比coursera更加感興趣。第二百度擁有大量優(yōu)秀的科學(xué)家,高質(zhì)量的同事,比如余凱,張潼,李偉同志等等。第三,百度擁有大量的data, 還有個(gè)同學(xué)要DL的Reading List,Ng給了個(gè)這個(gè):http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Recommended_Readings,還說里面有鄧侃號召中國青年的貢獻(xiàn)在里面。另外根據(jù)網(wǎng)友@
fiona_duan的反饋。最后Andrew提到的是他出生于香港,長在英國和新加坡,之后在美求學(xué)和生活。他和媳婦都在美國。他媳婦叫Carol Reiley. Carol 是約翰·霍普金斯大學(xué)的醫(yī)學(xué)博士以及在讀計(jì)算機(jī)博士,研究方向是生物醫(yī)學(xué)方向的機(jī)器人應(yīng)用。
整個(gè)報(bào)告大概就是這樣,我的理解也難免偏頗,水平難免有限,但我坐在第一排,努力的聽每一個(gè)細(xì)節(jié),并快速思考,能量消耗蠻大的,另外就是百度來了幾個(gè)美女,看上去比較有知識,跑前跑后的拍照。
上次在清華的報(bào)告,這里也一并推薦閱讀下:
http://blog.sina.cn/dpool/blog/s/blog_593af2a70101bqyo.html?vt=4