http://mp.weixin.qq.com/s?__biz=MzAwMTA3MzM4Nw==&mid=400607098&idx=1&sn=933c7328221cfec90e358314be8602e3&scene=1&srcid=1211pUOOAQdspFZkl74STys9&from=groupmessage&isappinstalled=0#wechat_redirect
世界上最好計(jì)算機(jī)視覺系統(tǒng)有多精確?就在美國東部時(shí)間12月10日上午9時(shí),ImageNet計(jì)算機(jī)視覺識(shí)別挑戰(zhàn)賽結(jié)果揭曉——微軟亞洲研究院視覺計(jì)算組的研究員們憑借深層神經(jīng)網(wǎng)絡(luò)技術(shù)的最新突破,以絕對(duì)優(yōu)勢(shì)獲得圖像分類、圖像定位以及圖像檢測(cè)全部三個(gè)主要項(xiàng)目的冠軍。同一時(shí)刻,他們?cè)诹硪豁?xiàng)圖像識(shí)別挑戰(zhàn)賽MS COCO(Microsoft Common Objects in Context,常見物體圖像識(shí)別)中同樣成功登頂,在圖像檢測(cè)和圖像分割項(xiàng)目上擊敗了來自學(xué)界、企業(yè)和研究機(jī)構(gòu)的眾多參賽者。
ImageNet計(jì)算機(jī)視覺挑戰(zhàn)賽由來自全球頂尖高校和公司的研究員組織舉辦,近年來已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的標(biāo)桿,其比賽結(jié)果總能十分直觀地反映出計(jì)算機(jī)視覺這一熱門領(lǐng)域中各研究機(jī)構(gòu)的研究進(jìn)展和突破。MS COCO數(shù)據(jù)庫是由微軟資助建立,其挑戰(zhàn)賽目前由學(xué)術(shù)界幾所高校聯(lián)合組織,獨(dú)立運(yùn)行。
這兩個(gè)挑戰(zhàn)賽的側(cè)重點(diǎn)各有不同:ImageNet 傾向于評(píng)測(cè)識(shí)別圖像中顯著物體的能力,而MS COCO傾向于評(píng)測(cè)識(shí)別復(fù)雜場(chǎng)景的各類物體的能力。能同時(shí)在兩個(gè)世界級(jí)的比賽中獲得冠軍,足以說明研究組的技術(shù)突破是通用的——它可以顯著地改善計(jì)算機(jī)視覺領(lǐng)域的各項(xiàng)研究,甚至計(jì)算機(jī)視覺領(lǐng)域以外的研究,比如語音識(shí)別。那么究竟是什么樣的技術(shù)突破?
在計(jì)算機(jī)視覺領(lǐng)域,深層神經(jīng)網(wǎng)絡(luò)的方法常常被研究人員用來訓(xùn)練計(jì)算機(jī)識(shí)別物體,微軟也不例外。但微軟亞洲研究院的研究員們?cè)诖舜蜪mageNet挑戰(zhàn)賽中使用了一種前所未有,深度高達(dá)百層的神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)的層數(shù)比以往任何成功使用的神經(jīng)網(wǎng)絡(luò)的層數(shù)多5倍以上。
要實(shí)現(xiàn)這一技術(shù),背后的挑戰(zhàn)巨大。起初,連研究員們自己都不確信訓(xùn)練非常深的網(wǎng)絡(luò)是可能或有用的。“我們沒想到這樣一個(gè)簡(jiǎn)單的想法意義卻如此重大。” 微軟亞洲研究院首席研究員孫劍坦言。完成這項(xiàng)技術(shù)突破的團(tuán)隊(duì)由4位中國研究員組成:孫劍與何愷明來自微軟亞洲研究院視覺計(jì)算組,另外兩人為微軟亞洲研究院的聯(lián)合培養(yǎng)博士生,分別是來自西安交通大學(xué)的張祥雨和中國科學(xué)技術(shù)大學(xué)的任少卿。

微軟亞洲研究院主管研究員何愷明
當(dāng)然,這個(gè)重大的技術(shù)突破震驚的不僅僅是這個(gè)研究團(tuán)隊(duì)的研究員們。微軟全球資深副總裁Peter Lee表示,“從某種意義上說,他們完全顛覆了我之前對(duì)深層神經(jīng)網(wǎng)絡(luò)的設(shè)想。”
ImageNet挑戰(zhàn)賽去年獲勝的系統(tǒng)錯(cuò)誤率為6.6%,而今年微軟系統(tǒng)的錯(cuò)誤率已經(jīng)低至3.57%。事實(shí)上,該研究團(tuán)隊(duì)早在今年一月就首次實(shí)現(xiàn)了對(duì)人類視覺能力的突破。當(dāng)時(shí),在題為“Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”的論文中,他們系統(tǒng)的錯(cuò)誤率已降低至4.94%。此前同樣的實(shí)驗(yàn)中,人眼辨識(shí)的錯(cuò)誤率大概為5.1%。
滴水穿石:這是一個(gè)關(guān)于耐心與創(chuàng)新的故事
近幾十年來,科學(xué)家們一直都在訓(xùn)練計(jì)算機(jī)做各種各樣的事情, 例如圖像或語音識(shí)別。但很長一段時(shí)間內(nèi),這些系統(tǒng)的誤差巨大,難以消弭。
大約在五年前,研究人員們開始重新使用 “神經(jīng)網(wǎng)絡(luò)”的技術(shù)并使其再次煥發(fā)出新的活力。神經(jīng)網(wǎng)絡(luò)的復(fù)興讓圖像和語音識(shí)別等技術(shù)的精度實(shí)現(xiàn)了大幅度飛躍。微軟的SkypeTranslator實(shí)時(shí)語音翻譯技術(shù)就得益于此,它能夠更好地識(shí)別語音,從而不斷完善機(jī)器翻譯的準(zhǔn)確性。
類似于人腦,神經(jīng)網(wǎng)絡(luò)包含多級(jí)非線性處理層。從理論上說,越多的層級(jí)應(yīng)該能帶來越好的學(xué)習(xí)結(jié)果。但實(shí)際實(shí)驗(yàn)中的最大挑戰(zhàn)是,在通過每一層級(jí)的反傳訓(xùn)練中,反穿監(jiān)督信號(hào)幅度會(huì)迅速衰減,這讓整個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的訓(xùn)練極為困難。
孫劍回憶到:“三年前,當(dāng)計(jì)算機(jī)視覺和機(jī)器實(shí)際領(lǐng)域訓(xùn)練出8層的深層神經(jīng)網(wǎng)絡(luò)系統(tǒng)時(shí),識(shí)別精度有了質(zhì)的飛躍。去年出現(xiàn)了足有20到30層的深層神經(jīng)網(wǎng)絡(luò),識(shí)別精度又被大幅刷新。”
孫劍和他的組員們認(rèn)為網(wǎng)絡(luò)還可以更深。過去的幾個(gè)月來,他們用各種方式來添加更多的層級(jí),同時(shí)還要保證結(jié)果的準(zhǔn)確性。他們經(jīng)歷了大量錯(cuò)誤的嘗試,也吸取了很多的經(jīng)驗(yàn)教訓(xùn)。最后,一個(gè)被他們稱之為“深層殘差網(wǎng)絡(luò)(deep residual networks)”的系統(tǒng)在微軟亞洲研究院成功誕生。
這個(gè)“深層殘差網(wǎng)絡(luò)”正是他們用于ImageNet挑戰(zhàn)賽的系統(tǒng),它實(shí)現(xiàn)了驚人的152層,比以往世界范圍內(nèi)的任何系統(tǒng)都深5倍以上。它還使用了一個(gè)全新的“殘差學(xué)習(xí)”原則來指導(dǎo)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)。殘差學(xué)習(xí)最重要的突破在于重構(gòu)了學(xué)習(xí)的過程,并重新定向了深層神經(jīng)網(wǎng)絡(luò)中的信息流。殘差學(xué)習(xí)很好地解決了此前深層神經(jīng)網(wǎng)絡(luò)層級(jí)與準(zhǔn)確度之間的矛盾。
借水行舟:從科研探索到智能產(chǎn)品
神經(jīng)網(wǎng)絡(luò)有一個(gè)非常重要的優(yōu)點(diǎn),就是學(xué)習(xí)到的內(nèi)部表示或特征可以在不同任務(wù)中復(fù)用。Skype Translator就是一個(gè)很好的例子,英語與德語之間的翻譯準(zhǔn)確率可以隨著英語與中文翻譯的不斷增加而提高。
孫劍表示,他們的深層殘差網(wǎng)絡(luò)具有非常強(qiáng)的通用性。他們把該系統(tǒng)用于ImageNet挑戰(zhàn)賽的分類任務(wù)后,他們發(fā)現(xiàn)這一系統(tǒng)學(xué)到的內(nèi)部表示或特征能顯著提高其它三項(xiàng)任務(wù):檢測(cè)(detection),定位(localization)和分割(segmentation)。“從我們極深的深層神經(jīng)網(wǎng)絡(luò)中可以看出,深層殘差網(wǎng)絡(luò)力量強(qiáng)大且極為通用,可以預(yù)見它還能極大地改善其它計(jì)算機(jī)視覺問題。”
事實(shí)上,孫劍團(tuán)隊(duì)多年來在計(jì)算機(jī)視覺領(lǐng)域的研究成果已經(jīng)轉(zhuǎn)化到眾多微軟的智能產(chǎn)品和服務(wù)中,例如,微軟牛津計(jì)劃中的人臉識(shí)別和圖像識(shí)別API、Windows 10中的Windows Hello“刷臉”開機(jī)功能、必應(yīng)的圖像搜索、微軟小冰的多個(gè)圖像“技能”,OneDrive中的圖片分類功能,以及廣受好評(píng)的口袋掃描儀Office Lens等等,不勝枚舉。
以微軟牛津計(jì)劃為例,該計(jì)劃開放了一系列機(jī)器學(xué)習(xí)相關(guān)的API,讓沒有機(jī)器學(xué)習(xí)背景的開發(fā)人員也能構(gòu)建自己的智能應(yīng)用。而其中人臉識(shí)別API作為牛津計(jì)劃最先開放的API,受到廣泛使用。此前火遍全球的How-old.net(微軟顏齡機(jī)器人)和Twins or Not(微軟我們)就是在人臉識(shí)別API基礎(chǔ)上,通過幾行簡(jiǎn)單的代碼實(shí)現(xiàn)的。
通過和微軟產(chǎn)品部門的緊密合作,這些來自于微軟亞洲研究院的全球領(lǐng)先的計(jì)算機(jī)視覺技術(shù)得以應(yīng)用在幾億人的生活中。而這些來自中國研究員的研究成果,正在為我們的生活帶來一場(chǎng)“隱形革命”,為全球用戶提供更智能的生產(chǎn)力工具和更個(gè)性化的計(jì)算體驗(yàn)。
微軟全球資深副總裁、微軟亞洲研究院院長洪小文博士表示,“與視覺在人類感官中的重要性相同,計(jì)算機(jī)視覺的一次次重大突破無疑為人工智能的整體發(fā)展提供了強(qiáng)大動(dòng)力。讓計(jì)算機(jī)看懂多彩的世界,一直是激勵(lì)微軟研究院及計(jì)算機(jī)領(lǐng)域同仁在這條充滿挑戰(zhàn)的道路上前行的重要力量。未來,還有更多突破等著我們?nèi)ヌ魬?zhàn)!”
“微軟亞洲研究院成立17年了,她的研究環(huán)境和氣氛為中國IT屆培養(yǎng)了眾多的人才; 我在這里工作了12年,靜下心來你就能在這樣的環(huán)境中收獲激動(dòng)人心的發(fā)現(xiàn)。今天,我對(duì)我的團(tuán)隊(duì)說,請(qǐng)享受一天獲得NBA冠軍的感覺!”孫劍說。
閱讀記錄:read twice