http://blog.sina.com.cn/s/blog_4caedc7a0102uwvu.html編者按:6月26日,2014年國際機器學習大會(ICML)在北京國際會議中心完美落幕。作為機器學習領(lǐng)域兩大頂尖年會之一,這是 ICML大會30多年來首次來到中國和遠東,在國內(nèi)的機器學習界震動不小。身為本次大會主席的卡耐基梅隆大學計算機系教授邢波(Eric Xing)為此做了諸多努力。作為在美國機器學習領(lǐng)域前沿為數(shù)不多的華人學者,許多國內(nèi)計算機專業(yè)學生渴望投身其門下。借著此次大會的舉辦,我們也有幸和Eric坐下來,面對面的聊一聊他對科研的態(tài)度以及對后輩們的建議。
問:從生物學博士到計算機科學博士,再到機器學習領(lǐng)域的佼佼者,這樣的轉(zhuǎn)變是如何發(fā)生的?
Eric:“為什么會選擇進入一個新的專業(yè)?因為興趣。當時對手頭做的研究項目興趣不夠,而同時又有其他的東西讓自己很著迷,所以在完成前項工作后就選擇了轉(zhuǎn)變。現(xiàn)在回頭看,這樣的轉(zhuǎn)變在我的生活中并不少見,
比如,我最近開始在做計算機系統(tǒng)相關(guān)的研究。操作系統(tǒng)跟機器學習是很不一樣的領(lǐng)域,這種轉(zhuǎn)變的距離和我之前的轉(zhuǎn)變一樣遠,但興趣使然。
15年前,人工智能和機器學習在美國學術(shù)圈很冷門,中國人不多、美國人也不多,當時基于興趣選擇轉(zhuǎn)專業(yè),現(xiàn)在也一樣。當選擇改變時,不要把它當個大事,要把生理和心理障礙壓到最低。”
問:不少人認為,做科研極為枯燥。你認為這里面有誤解嗎?
Eric
:“確實有人覺得科研枯燥、與產(chǎn)品的結(jié)合不夠緊密,像是對未來的虛幻想象。這其中有一些誤解。很多人基于片面的理解或有限的經(jīng)驗,簡單的把理論研究和應(yīng)用研究對立起來,并由此產(chǎn)生一種膚淺的排他思想;比如有些“基礎(chǔ)研究”學者瞧不起“應(yīng)用研究”學者,認為后者不嚴格正統(tǒng),或者有些業(yè)界的工程師程序員也鄙視大學里的研究者,認為后者不實用。抱有這種想法的人很難成為領(lǐng)先的學者和工程師。其實計算機科研是最不枯燥的研究,優(yōu)秀的計算機研究往往體現(xiàn)著理論和現(xiàn)實問題的緊密結(jié)合。它不是純粹推導(dǎo)公式、設(shè)計模型,證明定理;也不是埋頭編程,調(diào)參,試錯。嚴謹?shù)挠嬎銠C科研需要跟數(shù)學打交道,這可能對于某些人來說,有些枯燥;但對于另一些人來說,這仍然很有趣并令人興奮。事實上,
谷歌的搜索引擎、微軟的Kinect等都是由基礎(chǔ)研究衍生出來的產(chǎn)品——當你把研究跟實際應(yīng)用結(jié)合起來,興趣是很容易產(chǎn)生的。或許研究過程中會比較理論,但我們是基于現(xiàn)實應(yīng)用問題來提出研究問題。當你希望用一個漂亮的方法(正規(guī)、嚴密,普適,可獨立重復(fù)的方法)解決問題時,你自然會使用數(shù)學手段;但是最后的實現(xiàn)、評估、證明等是從理論和實際應(yīng)用兩個方面來出發(fā),這樣就會很有意思。
問:有傳聞?wù)f您每天只睡4-5個小時,做科研這么忙嗎?
Eric:“我不是為了忙而忙,而是順其自然。就好像彈琴有的地方彈得快了后,慢了自己都不好意思,快反而是一種自然的節(jié)奏。有時候會更慢一些、有時候會更快一些,也沒有刻意去保持。當然,其實從生活質(zhì)量來說,也沒有那么可怕。我也有進行規(guī)律的健身鍛煉,業(yè)余愛好,跟家人一起玩,等等,我不提倡把自己弄得很憔悴、不顧家庭或不跟朋友交往。如何做到呢?不要浪費時間。睡幾個小時是個人生理特征,但是在不睡覺的時間里,要怎么用?大部分人在大部分時間處于什么都沒做的狀態(tài),他們既沒有做公事,也沒有做私事,但我基本上不存在這樣的時間,我要不就做一些跟工作有關(guān)的事,要不就抽空鍛煉、彈琴,聽音樂,看書,或跟家人一起活動。雖然沒有一個明顯的工作到生活的某個切換點,但找準了工作和生活的節(jié)奏,還是很自然。
對于我來說,研究、健身等事情不是要‘堅持’才能做到的事兒,而是我迫不及待要去做,這些都不是很難受的事兒。”
問:國內(nèi)不少學生都想當您的學生,那您是如何挑選學生的呢?
Eric:“首先我要通過你向同學們對我們工作的興趣表示感謝!我很希望能滿足同學們的愿望。有時候,這不僅僅是學生的問題,也是我自己的精力和資金的問題。在美國,招學生是一個相當昂貴的事情,每人每年要資助近十萬美元。我的組現(xiàn)在有將近20個學生,再大的話,錢也不夠,我的精力也不夠。
我?guī)W生還是比較認真的,比如每星期至少有一次討論,20個學生就有20次,一星期排下來也差不多了。在挑選學生的時候,我比較注重文化,風格,興趣的多樣性和平衡,而非單純的高產(chǎn),不會偏重某個國家人特別多,也力求性別的平衡。
除了這些原因,還需要一些研究興趣的匹配,以及研究之外的東西。我招學生的時候,可能會注重一個人的個人修養(yǎng)或人品——就是他/她作為一個普通人的價值,而不僅僅是作為研究者所擁有的能力。研究方面的能力是可以培養(yǎng)的,無論是跟著我還是其他老師,學生的能力都一定會有提高。研究的起點不見得非要高,但是對學生的個人性格或修養(yǎng)有要求,我個人比較喜歡學生在我的組里產(chǎn)生正能量。更細致地話,我比較看重這四點:
一、有獨立精神以及獨立思考的能力。不是說我?guī)熜謳熃阍谧鍪裁催x題、最近最熱是什么選題,我都去問問然后聽從。敢于卓爾不群,堅持自己的觀點;但同時也謙虛理性,而非頑固不化。
二、要有一些理想主義。不是做每一件事都有一個精準的投資回報率,要有一些純粹為了興趣和愛好而努力、為了盡善盡美而下功夫的追求。享受過程,而不是苛求結(jié)果,把結(jié)果當成過程的副產(chǎn)品,有了很好、沒有也不沮喪,這樣才能真正享受過程。
三、誠實而豁達。有一種簡單、率真的性格,不能工于心計。
四、知書達理,有良好教養(yǎng),禮貌,易于也樂于和別人共事。
我相信擁有以上四點的同學可以成為我組里很好的團隊成員。
問:每次您來微軟亞洲研究院做講座,總是座無虛席,人特多。您和微軟亞洲研究院有什么淵源?
Eric:“微軟研究院一直以來都和CMU(卡耐基梅隆大學)有眾多的交流與合作。對于我個人而言,微軟亞洲研究院至今都是國內(nèi)為數(shù)不多的頂級計算機研究機構(gòu),培養(yǎng)的學生大都非常優(yōu)秀。加上我在這里有很多的朋友,他們也經(jīng)常邀請我過來和同事學生們交流交流,我也都十分樂意,也學到很多東西。
問:最近在線教育(MOOC)比較火,不知道您有沒有打算在網(wǎng)上開機器學習相關(guān)課程?
Eric:“現(xiàn)在MOOC很火,也頗具爭議。從普及知識的角度,Coursera做了一件大好事。但作為想對某個領(lǐng)域有深度了解的同學來說,也必須對自己有一個清楚的定位。如果你的終極目標是對某個話題有一定了解,通過MOOC來學習是個還不錯的選擇。但如果你要以學習的某個方向為職業(yè)的話,就需要更多考量。現(xiàn)在的年輕人比較容易從眾,
可能會出現(xiàn)的一種情況是,從極度自卑到極度膨脹的距離可能會變得非常短。我個人認為,MOOC更重要的一個作用是普及教育,是掃盲用的。
然而作為一個博士研究生,你是需要普及知識,還是更高級的知識?我現(xiàn)在還沒有加入在線教育,未來可能會,具體視CMU的政策而定。MOOC在普及知識的方面已經(jīng)做得非常好了,但不見得是我最需要做的事情了。我嘗試提供一些更高端、更適合專業(yè)研究需要,聽眾少一點、技術(shù)含量更高一點的課,所以我最近把概率圖模型這門課錄像、并通過CMU放到網(wǎng)上。Daphne Koller教授也開過這門課,在MOOC上有,但我的課教得比較前沿、更難,內(nèi)容更多些,進度也可能也快些,提供給已經(jīng)有扎實基礎(chǔ),需要深入研究機器學習的學生。今后我還會公開一門高級機器學習課。“
問:機器學習、人工智能,現(xiàn)在火得不行。您覺得是因為它到時候該火起來了,還是炒作的成分居多?
Eric:“二者兼有吧。現(xiàn)在的確是到了機器學習的時代——計算機應(yīng)用的需求超過了原來普通的編程、普通的數(shù)據(jù)庫所能提供的解決方案。數(shù)據(jù)很大,人肯定處理不過來,數(shù)據(jù)庫不懂得提供一個足夠智能的處理服務(wù)。機器學習雖然也沒能提供解決方法,但它提供了一個大的思路、有意思的思路。有些人可能對機器學習存在一些比較庸俗的想法見解。比如說停留在‘機器學習到底是不是經(jīng)典意義的人工智能的問題上,貶低一些現(xiàn)在在機器學習、深度學習領(lǐng)域的工作,認為這些不是真正的人工智能,哲學或物理意義上不深刻。還有一種觀點認定機器學習,甚至只是深度學習已經(jīng)可以解決一切的問題,只不過是缺乏一步一步去實現(xiàn)。這兩種觀點都不夠成熟客觀。我們需要更冷靜一些,平臺是對的、大方向是對的,但是還是有很多空白需要去填補、很多突破還沒有實現(xiàn)。不要急著去摘一些果子,或者閃開就算過了,其實可以扎進去做一些有深度、有分量的東西。”
問:作為華人,在美國做科研,會有民族的包袱嗎?
Eric:“我個人在文化上是非常東西兼容的,對東西方文化都有認真學習和較廣泛的了解和心得。在文化層面,我可能較很多國內(nèi)朋友更接近中國傳統(tǒng)知識份子——對中國傳統(tǒng)文化非常了解和欣賞,愛古文,詩詞,歷史;欣賞秦漢,魏晉之風。
但說到學術(shù)研究,我不希望它被包裝成民族之間的比賽。做科研,不能做成比賽,而是一種對未知和完美的自我追求。當成比賽本質(zhì)上是功利性的,是做不出來一流成果的,更需要對問題有一種本質(zhì)性的好奇,希望去理解、解決這個問題。比別人快、擊敗別人只是副產(chǎn)品。
我老跟我的學生說一個例子,寫論文與做研究就像花樣滑冰、體操比賽一樣,如果老想著我的動作能得10分、滿分、對手怎么樣,你的動作肯定走形、做不好。如果你想著——我要在舞臺上享受表演,你肯定會做得很好。” 問:在您的研究領(lǐng)域中,數(shù)學重要嗎?扮演著怎樣的角色?
Eric:“重要!數(shù)學從方法論上提供解決方法,從思維上來講它可以培養(yǎng)一種嚴謹?shù)膽B(tài)度,從而為問題尋找一個比較嚴格的、普適的、甚至更好的解決方法。但是我不太建議單獨強調(diào)數(shù)學或物理某一個學科知識的作用。就像在戰(zhàn)場上,我身邊有武器,什么合適我就抓起來用,而不是說我一定要從始到終用某一種武器。在研究的時候,我需要尋求一個經(jīng)得起考驗的解決方案,它是從數(shù)學來、從工程來、從物理來都不重要。只是,當你在尋求解決方案時,你會發(fā)現(xiàn)數(shù)學是一個避不開的因素,它自然而然地影響你的選擇。
問:最后,能否給有志于從事計算機科學研究的學生提些您的個人建議?
Eric:其實之前了分享過很多次了,但都是以英文的方式。今天借著這個機會,希望也能讓更多的中國學生們看到:一、清楚地認識到什么是你的目標以及什么是你在技術(shù)能力和心智上的優(yōu)勢和不足,這兩點對于你的成功同等重要。根據(jù)這些分析,再來設(shè)定自己的目標,規(guī)劃自己的行動。
二、當你發(fā)覺有必要做出改變時不要猶豫。改變自己的職業(yè)方向永遠不嫌太晚,只要這個改變是嚴肅的,且你能夠保證在新的方向上全力以赴。那些浪費在猶豫、等待上的時間經(jīng)常會比你去適應(yīng)新生活的時間更長。我曾經(jīng)處于自己新職業(yè)方向的谷底,因為在我更換專業(yè)的時候,我對機器學習(machine learning)一無所知。但我知道,我會愛上它,因為這個領(lǐng)域的美與力量。從機器學習方向的入門者到成為CMU的教授,我花了五年時間。
三、你需要非常努力地工作。在我的研究生和之后的職業(yè)生涯中,一周7天,我每天平均工作12小時,并保持著高度集中的注意力和高效率。(當然,我其實并不把我做的這些看做工作,我覺得它們和娛樂活動同樣甚至更為有趣。)
四、你努力工作的動力不應(yīng)該來自你的上司給予的壓力,而是因為你受到工作的啟發(fā)與觸動,并愛上了工作。我經(jīng)常告訴我的學生和朋友,我的研究就是我的生活,而不是僅僅把它看做工作。相比于看電視和玩紙牌,我更享受從事研究。
五、與此同時,你仍然可以擁有一個多彩的、充滿活力的生活。我是體育迷和音樂迷,也喜歡做其他許多事情,享受和家人、朋友在一起的時光。所以我從不消磨時間。當我不在工作時,我盡情地娛樂或鍛煉身體(比如去健身房,彈鋼琴……),并花時間和家人、朋友們相處。
六、你需要讓自己變得非常有創(chuàng)造力,非常獨立。實話說,我研究生階段的很多研究點子并不來自于我的導(dǎo)師,而是我自己想出來的。我從Berkeley的導(dǎo)師那里獲得的,更多的是研究上的精神和資金支持、研究方式和研究品味上的啟發(fā)、誠實的品質(zhì)和自豪感,以及他們的友誼。
七、要了解你研究領(lǐng)域中最新的進展。每年讀一千篇論文并不是一件聳人聽聞的事。事實上如果想成為領(lǐng)域內(nèi)的頂尖學者,你要了解一切,不僅在本領(lǐng)域,還有許多的相關(guān)領(lǐng)域。
八、當你做出突破性成果的同時,你也應(yīng)該尊重領(lǐng)域內(nèi)權(quán)威們的成果。不要認為他們愚蠢而自己更聰明,并且要去問自己為什么多年以前他們沒有像你這樣做。另一方面,當你確信你確實獲得了權(quán)威們沒有的洞見時,你也要有超越他們的勇氣。
九、要變得學識廣博而靈活。許多問題和技術(shù)都是相關(guān)的,不要在一棵樹上吊死。
十、在研究中做一個完美主義者或理想主義者從來不是一件壞事。擁有一個樂觀的性格和強健的體魄是非常重要的。不要愚蠢地假設(shè)自己因為比別人更聰明,所以能不那么努力。事實上,大多數(shù)我認識的頂尖科學家都是既絕頂聰明,又會長時間工作并保持高效。所以你需要健康的身體來與他們競爭。我自己在大學時代就是一個半專業(yè)的運動員。比起那些比我年輕10-20歲以上的學生們,我至今仍能更高強度、更長時間地連續(xù)工作和娛樂。
十一、學會溝通的藝術(shù)。樂意去與同事和競爭者討論、分享你的觀點。不僅向同事學習,也要向競爭者學習。
十二、最重要的是,請保持誠實、開放、耐心、快樂和富于遠見,而不是變得卑鄙、封閉、急躁、苦澀和短視。
人物簡介
邢波(Eric Xing)博士現(xiàn)任卡耐基梅隆大學計算機科學系教授。他的主要研究興趣集中在機器學習和統(tǒng)計方法論的發(fā)展及大規(guī)模計算系統(tǒng)和架構(gòu),希望能夠解決在復(fù)雜系統(tǒng)中的高維、多峰和動態(tài)的潛在世界中的自動化學習、推理以及決策問題。邢波教授擁有美國羅格斯大學分子生物學博士學位和美國加州大學伯克利分校計算機科學博士學位。
邢波教授目前正在進行的研究工作包括:1. 統(tǒng)計學習基礎(chǔ),包括針對估測時間或空間變化系數(shù)模型的理論和算法,稀疏的結(jié)構(gòu)化輸入/輸出模型和非參數(shù)貝葉斯模型的理論和算法;2.在分布式系統(tǒng)或云端,搭建基于大模型和大數(shù)據(jù)規(guī)模的并行機器學習的框架;3. 針對基因調(diào)節(jié)、遺傳變異和疾病相關(guān)性的計算和統(tǒng)計分析;4. 將統(tǒng)計學習應(yīng)用到社交網(wǎng)絡(luò),數(shù)據(jù)挖掘和計算機視覺中。
邢波教授至今已發(fā)表了超過200篇受同行審議的論文。他是美國統(tǒng)計協(xié)會雜志(JASA)、應(yīng)用統(tǒng)計年鑒(AOAS)、IEEE模式分析與機器智能學報(PAMI)和PLoS計算生物學雜志(the PLoS Journal of Computational Biology)的副主編,
機器學習雜志(MLJ)和機器學習研究雜志(JMLR)的執(zhí)行主編。他是美國國防部高級研究計劃局(DARPA)信息科學與技術(shù)顧問組的成員,美國國家科學基金會(NSF)事業(yè)獎、Alfred P. Sloan學者獎、美國空軍青年學者獎、 以及IBM開放協(xié)作研究學者獎獲得者。
閱讀記錄:read twice