首先祝朋友們中秋節(jié)快樂!
因?yàn)檫^去三個月的實(shí)習(xí)工作很繁忙,這么已經(jīng)很長時(shí)間沒有更新了。這個夏天參加了兩次會議(CVPR和ECCV),在微軟完成了一個新的project,這些經(jīng)歷都給了我新的啟發(fā)。
不積跬步無以至千里
很多在這個領(lǐng)域做research的朋友抱怨,這個領(lǐng)域在過去相當(dāng)長的時(shí)間沒有“突破性”的進(jìn)展了。在過去,我也一直抱有這樣的看法。不過,如果比較最近兩年的paper,以及20年前的paper,其實(shí),還是可以看到,在很多具體的方向上,我們都已經(jīng)取得了長足的進(jìn)展。很多在當(dāng)年只是處于雛型階段的算法和模型,經(jīng)過整個community這么多年的努力,現(xiàn)在的性能已經(jīng)接近或者到達(dá)實(shí)用的水平。
雖然,在每年的各大會議中,非常激動人心的paper很少,可是,如果我們把某個方向過去10年的文章串在一起,我們會發(fā)現(xiàn),這個方向的前沿已經(jīng)推進(jìn)了不少。這個過程有點(diǎn)類似于進(jìn)化。在每年發(fā)表的成百上千的paper中,真正有價(jià)值的貢獻(xiàn)只占很小的比例。但是這小部分的貢獻(xiàn)能經(jīng)歷時(shí)間的考驗(yàn),被積淀下來,并且被逐步被廣泛地接受。當(dāng)這樣的進(jìn)展積累到一定程度,整個方向就已是今非昔比。
在這個過程中,不同類型的paper其實(shí)發(fā)揮著不同的作用。舉一個簡單的例子,在很多問題的傳統(tǒng)模型中,因?yàn)榻:陀?jì)算的方便,都喜歡使用L2 norm來測量與觀察數(shù)據(jù)的匹配程度。而近年來,越來越多的模型開始改用L1 norm來取代L2 norm,并且在性能上獲得很大的提高。這樣的變化起碼經(jīng)歷了10年時(shí)間才逐步受到廣泛的注意。在較為早期的工作里,部分的researcher在實(shí)踐中發(fā)現(xiàn)似乎用L1 norm性能更好,但是大家并不是一開始就深入了解這背后的原理的。于是,這樣的觀察也許只散見于不同paper的experiment section或者implementation details里面。隨著這種觀察被反復(fù)驗(yàn)證,就會有人進(jìn)行系統(tǒng)性的實(shí)驗(yàn)比較,使得這些觀察形成更為可靠的結(jié)論。另一方面,理論分析也隨之展開,希望能從更深的層次上來剖析其背后的原理,甚至建立嚴(yán)格的數(shù)學(xué)模型——于是一個本來只是實(shí)驗(yàn)中的heuristic的方法終于具有了穩(wěn)固的理論根基。這些理論將啟發(fā)人們提出新的方法和模型。
也許在很多人看來,從L2 norm到L1 norm的變化,只是一字之差,不值一提。但是,這種變化對于全領(lǐng)域的影響非常深遠(yuǎn),不僅僅在很多具體的topic上帶來性能提高,而且引導(dǎo)了學(xué)科的發(fā)展趨勢——robust fitting, sparse coding / compressed sensing受到熱情關(guān)注,和這種變化是密切相關(guān)的。
我在和一些同學(xué)交流的時(shí)候,發(fā)現(xiàn)有些人特別熱衷于解決“根本問題”。壯志固然可嘉,但是,我始終認(rèn)為,根本問題的解決離不開在具體問題上的積累和深刻理解。這種積累,既包括理論的,也包括實(shí)驗(yàn)的。至少,對于像我這樣的普通人,我覺得,獲得這種積累的唯一途徑就是大量的實(shí)踐,包括閱讀paper,建立數(shù)學(xué)模型,推導(dǎo)求解算法,自己親手把程序?qū)懗鰜恚趯?shí)際數(shù)據(jù)中運(yùn)行并觀察結(jié)果。新的idea是思考出來的,但是,這種思考是需要建立在對問題的深刻理解上的。從石頭縫里蹦出有價(jià)值的idea的概率,和彩票中獎沒有什么區(qū)別。
什么是有價(jià)值的?
每個人對于一個工作的價(jià)值會有不同的判斷。我在這里只是想說說我個人的看法。Research 和 Engineer 不太一樣的地方在于,后者強(qiáng)調(diào)work,而且傾向于使用已經(jīng)proven的方法;而前者更強(qiáng)調(diào)novelty——創(chuàng)新是Research的生命。
一直以來,一些paper有這樣的傾向,為了顯示這個工作的“技術(shù)含量”,會在上面列出大段的數(shù)學(xué)推導(dǎo),或者復(fù)雜的模型圖。很多的推導(dǎo)只是把一些眾所周知的線性代數(shù)結(jié)論重新推一遍,或者重新推一下kernel trick,又或者optimization里面的primal dual的變換。可是這些東西再多,在有經(jīng)驗(yàn)的reviewer看來,只是在做標(biāo)準(zhǔn)作業(yè),對于novelty加分為零。
真正的創(chuàng)新,在于你提出了別人沒有提出過的東西。創(chuàng)新的內(nèi)涵可以是多方面的:
- 建立了新的數(shù)學(xué)模型,或者提出了新的解法
- 提出的新的應(yīng)用
- 提出新的框架,用新的方式來整合原有的方法
- 在比較性實(shí)驗(yàn)中獲得新的觀察
- 統(tǒng)一本來分開的領(lǐng)域,模型,或者方法
創(chuàng)新可以體現(xiàn)在從理論,建模,求解和實(shí)驗(yàn)的各個環(huán)節(jié)之中。判斷創(chuàng)新與否的關(guān)鍵不在于有多高深的數(shù)學(xué),不在于使用了多時(shí)髦的方法,不在于做一個多熱門的topic,而在于是否make a difference。
另外,我覺得,創(chuàng)新的大小不能絕對而論。有一些在實(shí)驗(yàn)中用于improve performance的小trick,也許能被有理論基礎(chǔ)的researcher開拓成全新的方法論,甚至建立嚴(yán)密的數(shù)學(xué)基礎(chǔ)。很多paper中都埋藏著這樣的金子,等待trained eyes的發(fā)掘(可能連paper的作者自己都沒有意識到~~)
Comments (1)
超級喜歡博主的這番話!“我始終認(rèn)為,根本問題的解決離不開在具體問題上的積累和深刻理解。這種積累,既包括理論的,也包括實(shí)驗(yàn)的。至少,對于像我這樣的普通人,我覺得,獲得這種積累的唯一途徑就是大量的實(shí)踐,包括閱讀paper,建立數(shù)學(xué)模型,推導(dǎo)求解算法,自己親手把程序?qū)懗鰜恚趯?shí)際數(shù)據(jù)中運(yùn)行并觀察結(jié)果。新的idea是思考出來的,但是,這種思考是需要建立在對問題的深刻理解上的。從石頭縫里蹦出有價(jià)值的idea的概率,和彩票中獎沒有什么區(qū)別。”
我感覺是非常非常不錯的一篇文章!和大家分享一下。。