http://mp.weixin.qq.com/s/vk4HEBOvSzLRPg3lvKsvYg

2016-12-18 張正友 視覺(jué)求索 視覺(jué)求索

2016年10月1日,伊利諾大學(xué)Beckman Institute和電機(jī)與計(jì)算機(jī)工程系聯(lián)合舉辦Dr. Thomas S. Huang黃煦濤教授八十壽辰學(xué)術(shù)研討會(huì),我很榮幸列席。我和Tom自1988年相識(shí)并開(kāi)始學(xué)術(shù)交集,他作為計(jì)算機(jī)視覺(jué)界和信號(hào)處理界的先驅(qū)智者,以他獨(dú)有的洞見(jiàn)和卓越的學(xué)術(shù)成就,給了我不計(jì)其數(shù)的啟發(fā),鼓勵(lì)和支持。Tom學(xué)術(shù)家族樹(shù)已經(jīng)數(shù)代,根深葉茂,畢業(yè)的博士生迄今已有一百多位,其中不乏我的實(shí)習(xí)生,而他們的學(xué)生也有不少還是我的實(shí)習(xí)生,真可謂薪火相傳,不知其盡也。


研討會(huì)當(dāng)天,我被安排做一個(gè)簡(jiǎn)短的發(fā)言,目光所觸,看見(jiàn)Tom和濟(jì)濟(jì)一堂他帶出的學(xué)生,想起Tom盡管譽(yù)滿天下,參加任何會(huì)議仍及其認(rèn)真嚴(yán)肅,從不放松專業(yè)水準(zhǔn),想起Tom和他太太Margaret多年來(lái)對(duì)我的支持,不禁觸動(dòng)了感情,有點(diǎn)哽咽。




28年前我是法國(guó)國(guó)家計(jì)算機(jī)自動(dòng)化研究院(INRIA)的一名博士生,和Tom緣起他的一次訪法學(xué)術(shù)交流,彼時(shí)Tom已是國(guó)際上計(jì)算機(jī)視覺(jué)界和信號(hào)處理界的泰斗。那個(gè)時(shí)候覺(jué)得他赫赫有名卻非常平易近人,對(duì)他能把枯燥的學(xué)術(shù)報(bào)告講解的幽默風(fēng)趣的本領(lǐng)十分敬佩。從那以后,我不時(shí)向Tom請(qǐng)教和咨詢學(xué)術(shù)問(wèn)題,得他指點(diǎn)迷津和無(wú)私提攜。Tom是非常樂(lè)意助人的。




Tom對(duì)我個(gè)人學(xué)術(shù)生涯影響至深,可以溯源到我的博士論文: 那時(shí)我為了機(jī)器人導(dǎo)航在做三眼立體視覺(jué)的運(yùn)動(dòng)估計(jì)。Tom在從事從二維到二維特征對(duì)應(yīng)估計(jì)運(yùn)動(dòng)和從運(yùn)動(dòng)中決定三維結(jié)構(gòu)(Structure from Motion)的研究工作,現(xiàn)在在機(jī)器人領(lǐng)域叫SLAM(Simultaneous Localization And Mapping),Tom可謂是SLAM的先驅(qū)。特別值得指出的是,Tom和他的學(xué)生R. Y. Tsai在1981年發(fā)表的文章“Estimating3-D Motion Parameters of a Rigid Planar Patch”是Structure from Motion領(lǐng)域的開(kāi)山之作。當(dāng)時(shí)我有個(gè)想法,就是把Tom做的東西實(shí)現(xiàn)一下來(lái)解決我的問(wèn)題。為此我開(kāi)始讀Tom的一篇論文,題目是“Some Properties of the E Matrix in Two-View Motion Estimation”。這是Tom1989年發(fā)表于IEEE Transactions on Pattern Recognition and Machine Intelligence上的一篇經(jīng)典的很有影響力的文章。


我很快發(fā)現(xiàn)我理解不了Tom的文章 :-)太多的公式讓我腦袋爆炸了。我因而將我的博士論文轉(zhuǎn)向解決一個(gè)更簡(jiǎn)單的問(wèn)題:從三維到三維特征對(duì)應(yīng)來(lái)估計(jì)運(yùn)動(dòng)。三維特征可以用我們的三眼立體視覺(jué)系統(tǒng)里提取出來(lái),我的博士論文的問(wèn)題可以描述如下:


         

這是一個(gè)帶六個(gè)約束條件的線性方程。但我也清楚,這個(gè)問(wèn)題太簡(jiǎn)單,不足于寫(xiě)成一篇博士論文。我于是試圖從多方面探討研究這個(gè)領(lǐng)域,包括:數(shù)據(jù)不定性;參數(shù)估計(jì)魯棒性;運(yùn)動(dòng)分割;短序列匹配;長(zhǎng)序列跟蹤;等等。寫(xiě)成了320頁(yè)的長(zhǎng)篇博士論文。


我博士論文答辯還有一個(gè)小插曲:答辯委員會(huì)里一個(gè)很有名的教授指責(zé)我說(shuō)不誠(chéng)實(shí),所有人都大吃一驚,包括我的博士導(dǎo)師。追問(wèn)原因,他拿著我厚厚的論文說(shuō):“你沒(méi)有指明哪些部分是你的工作。”原來(lái)他不相信論文里的工作都是我自己完成的。我認(rèn)為這是對(duì)我博士論文的褒獎(jiǎng)。


恰在此時(shí),我注意到Tom正在編輯“Springer Series in Information Sciences”從書(shū)。我冒昧去信問(wèn)Tom:我的博士論文值不值得作為一本專著在他編輯的叢書(shū)上發(fā)表?結(jié)果就是我的博士論文被修編成了我的第一本書(shū)《3D Dynamic Scene Analysis》。


直到多年以后我終于讀懂了Tom 的文章,把那些公式理清楚了。根據(jù)這些基本原理,我推而廣之,將之應(yīng)用到未標(biāo)定的攝像機(jī),將算法魯棒化,開(kāi)發(fā)了圖像自動(dòng)匹配技術(shù),發(fā)明了攝像機(jī)標(biāo)定新算法,也據(jù)此發(fā)表了我的第二部專著《Epipolar Geometry in Stereo, Motion, and Object Recognition: A Unified Approach》。


感謝從Tom那里得到的靈感,我因此發(fā)表了一系列相關(guān)論文,其中包括發(fā)表在1999年ICCV上關(guān)于攝像機(jī)標(biāo)定法的文章。2005年,我慶幸當(dāng)選 IEEE Fellow。在北京舉行的 ICCV 2005 晚宴上,Tom 親手頒證書(shū)給我,真的沒(méi)有比他更加合適的頒獎(jiǎng)人啦!




在經(jīng)歷了個(gè)人學(xué)術(shù)研究的一個(gè)小“巔峰”之后,我開(kāi)始尋找下一步的研究方向。Tom是我長(zhǎng)久以來(lái)的學(xué)術(shù)導(dǎo)航燈,很自然的我開(kāi)始集中閱讀Tom實(shí)驗(yàn)室發(fā)表的論文。我發(fā)現(xiàn)了他已經(jīng)在人臉建模、人臉表情識(shí)別和視頻會(huì)議三方面發(fā)表了許多前瞻性的文章,立刻決定開(kāi)始進(jìn)行這三方面的研究。




  • 人臉建模

    Tom在3D人臉建模方面早在90年代初就有很多先驅(qū)的研究,比如用樣條曲面來(lái)表達(dá)3D人臉,來(lái)進(jìn)行人臉?lè)莿傂赃\(yùn)動(dòng)的估計(jì),和Facial action units的提取,以及voice-driven avatar的研究。

    我從1999年開(kāi)始做用Web Cam視頻對(duì)人臉三維建模,通過(guò)基于幾何和外觀模型擬合的方法進(jìn)行多方位的研究,使得即使在低分別率和弱光照下也能魯棒建模。多次的實(shí)時(shí)演示中,我和我的團(tuán)隊(duì)成功給很多人包括Bill Gates 和 Andy Grove 建模,其中部分技術(shù)在微軟的產(chǎn)品Xbox落地。這些在我的專著里均有詳細(xì)介紹(Z. Liu and Z. Zhang,Face Geometry and Appearance Modeling,劍橋大學(xué)出版社2011年出版)。


  • 人臉表情識(shí)

    Tom是人臉表情識(shí)別的先驅(qū),早在90年代初就開(kāi)始表情識(shí)別的研究。當(dāng)時(shí)他的工作除了基于單幅圖像的appearance-based方法以外,更有基于連續(xù)圖像序列motion-based的方法。這些研究都是后世研究的基礎(chǔ)。

    1996年底我在日本國(guó)際電氣通訊基礎(chǔ)技術(shù)研究所(ATR)學(xué)術(shù)休假時(shí)開(kāi)始做的。那時(shí)我已經(jīng)在幾何領(lǐng)域做了10年的研究,很希望能在機(jī)器學(xué)習(xí)方面有所拓寬,最終將幾何和機(jī)器學(xué)習(xí)結(jié)合起來(lái)。在ATR有不少人做人臉表情識(shí)別,而且有些現(xiàn)成的標(biāo)記好的數(shù)據(jù),但主要側(cè)重從心理學(xué)和認(rèn)知科學(xué)角度研究。我認(rèn)真的讀了Chris Bishop 的《Neural Networks for Pattern Recognition》,編了一些神經(jīng)網(wǎng)絡(luò)的算法,將它應(yīng)用到人臉表情識(shí)別,說(shuō)起來(lái)在這領(lǐng)域起步也是相當(dāng)早的。最近兩年和微軟同事一起利用大數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)開(kāi)發(fā)了自動(dòng)的表情識(shí)別技術(shù),已經(jīng)用在微軟的Cognitive Services上了。


  • 視頻會(huì)議

    是個(gè)多學(xué)科綜合性多媒體系統(tǒng)工程。Tom在視頻會(huì)議上的研究早在80年就已經(jīng)是這個(gè)領(lǐng)域的帶頭人了。他在圖像視頻壓縮的貢獻(xiàn)是無(wú)以倫比的。他在90年代開(kāi)始了very low bit-rate communication system的研究,基本思想就是從視頻中計(jì)算物體的剛性和非剛性的運(yùn)動(dòng),以及物體的3D建模,只用在通信系統(tǒng)中傳輸編碼的運(yùn)動(dòng)參數(shù),然后在接收端用運(yùn)動(dòng)參數(shù)驅(qū)動(dòng)3D模型,這樣能實(shí)現(xiàn)超低比特率的視頻通信。

    我的研究方向自2001年起有很大轉(zhuǎn)變,開(kāi)始做語(yǔ)音處理,麥克風(fēng)陣列,多聲道聲學(xué)回聲消除,自然人機(jī)交互,全息三維重建,沉浸式遠(yuǎn)程臨場(chǎng)系統(tǒng)等研究工作。有些技術(shù)已經(jīng)授權(quán)給Polycom的CX5500 Unified Conference Station 和微軟的Skype Room System。這是一個(gè)很令人激動(dòng)的領(lǐng)域,能夠釋放人的潛力,大大增強(qiáng)社會(huì)的生產(chǎn)力,期待更多的技術(shù)革新和產(chǎn)品創(chuàng)新。


2014年,因?yàn)閷?duì)計(jì)算機(jī)視覺(jué)和多媒體的貢獻(xiàn),我很榮幸的當(dāng)選ACM Fellow。回想自己的職業(yè)成長(zhǎng)和學(xué)術(shù)進(jìn)步,我十分感激Tom對(duì)我的幫助和支持!從一個(gè)對(duì)電子和計(jì)算機(jī)深感興趣的年輕人到算是略有建樹(shù)的研究者 ,我因循著Tom的足跡一路走來(lái)。現(xiàn)代醫(yī)藥學(xué)之父,古希臘醫(yī)者 Hippocrates 曾經(jīng)說(shuō)過(guò):Life is short. The art is long. 這句話用來(lái)形容Tom一點(diǎn)不錯(cuò)。他為人師為人友,桃李滿天下,學(xué)術(shù)精神永存!


這是我送給Tom的賀卡,感謝Tom和Margaret二十八年來(lái)對(duì)我的支持,祝愿Tom身體健康,闔家幸福!




作者簡(jiǎn)介:

 

Zhengyou Zhang received the B.S. degree in electronic engineering from Zhejiang University, Hangzhou, China, in 1985, the M.S. degree in computer science from the University of Nancy, Nancy, France, in 1987, and the Ph.D. degree in computer science in 1990 and the Doctorate of Science (Habilitation à diriger des recherches) in 1994 from the Universityof Paris XI, Paris, France.

He is a Principal Researcher and Research Manager with Microsoft Research, Redmond, WA,USA. He was a Senior Research Scientist with INRIA (French National Institutefor Research in Computer Science and Control), France, and spent a one-year sabbatical as an Invited Researcher with the Advanced Telecommunications Research Institute International (ATR), Kyoto, Japan. He has published over 250 papers in refereed international journals and conferences, and has coauthored five books. He is an inventor of more than 130 issued patents, and has received 8 Ship-It Awards at Microsoft.

Dr. Zhang is an IEEE Fellow, an ACM Fellow, the Founding Editor-in-Chief of the IEEE Transactions on Autonomous Mental Development, and an Area Editor of the Journal of Computer Science and Technology. He served as Associate Editor for the IEEE Transactions on Pattern Analysis and Machine Intelligence, the IEEETransactions on Multimedia, the IEEETransactions on Circuits and Systems for Video Technology, the International Journal of Computer Vision, the Machine Vision and Applications journal, and the International Journal of Pattern Recognition and Artificial Intelligence. He is on the Honorary Board of the International Journal of Computer Vision, and on the Steering Committee of the Machine Vision and Applications. He is serving as a General Chair of IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2017. He received the IEEE Helmholtz Test of Time Award at ICCV 2013 for his paper published in 1999 on camera calibration, now known as Zhang’s method.

20170103 read once