http://mp.weixin.qq.com/s?__biz=MjM5NzM5ODQ4Mg==&mid=202369542&idx=1&sn=9fef36f14033872fda5f0ed2fe1b6a24&scene=2&from=timeline&isappinstalled=0#rd今年以來,“大數據技術”和“大數據分析”明顯顯得更加的“火熱”。然而,鮮有理性的聲音存在。美國頂尖公立研究型大學、世界上最負盛名且最頂尖的公立大學——加州大學伯克利分校,其Pehong Chen Distinguished Professor(校陳丕宏杰出教授)、美國科學院院士、美國工程院院士、美國藝術與科學院院士、ACM會士、IEEE會士、AAAS會士、AAAI會士、ASA會士、IMS會士、機器學習領域國際著名學者Michael I. Jordan教授近日接受IEEE《頻譜》雜志采訪時,在Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts一文中指出,現在大家炒作大數據過了頭、大數據可能只是一場“空歡喜”、大數據的“冬天”即將到來、大數據要在幾十年之后才能真正有用、大家要能真正沉下心來做完整的工程統計分析等。
以下是對訪談全文的編譯。
IEEE S:現在我們不妨將話題轉到大數據上。您的言論中始終認為當前對大數據的執著里有把“黃銅當金子”的成分。比如您就曾預測公眾即將經歷一場大數據項目帶來虛警的“流行病”。
Michael I. Jordan:當你有了大量的數據之后,你就會想提出更多的假設。而一旦提出假設的速度超出了數據的統計內涵,那么你的推斷里有很多都可能是錯誤的。它們也許就只是“白噪聲”。
Michael I. Jordan:在傳統的數據庫里,你有比方說幾千個人的數據。你不妨把他們看成數據庫中的行,而列就對應了這些人的屬性:年齡、身高、體重、收入等等。
現在,這些列的組合數目是以指數的速度隨著列數增加的。因此如果你有非常非常多的列(現代的數據庫里的確如此),那么對每個人你都會得到數以百萬計的特性。
假如我現在開始查看這些屬性的所有組合——你是否在北京生活,是否騎自行車上班,是否從事某項工作,是否處于某個特定的年齡——那么你得某種疾病或者你喜歡我的廣告的概率是多少呢?我將得到數以百萬計的屬性組合,并且這些組合的數目是指數級別的;它會達到宇宙中的原子數目的規模。
這些就是我想要考慮的假設。在任何一個特定的數據庫里,我都能找到這些列的某種組合來完美地預測任何結果,哪怕只是隨機地挑選。如果我只是查看所有發生過心梗的人,把他們同所有未發生過心梗的人作比較,并尋找可預測心臟病的列的組合,我就的確能夠找到列的各種各樣的疑似組合,這是因為它們數量龐大。
這就好像讓好幾十億只猴子在那兒打字,總有一個會寫出莎士比亞。
IEEE S:您認為大數據的這一面目前沒有得到重視嗎?
Michael I. Jordan:當然。
IEEE S:有哪些東西是人們承諾大數據能帶來的而您認為其實是無法兌現的?
Michael I. Jordan:我認為數據分析能夠按某些質量標準發布一些推斷,然而我們必須交代清楚這些質量標準到底是什么樣的。我們必須在我們所有的預測上加上誤差線,而這正是在目前很多機器學習文獻中所欠缺的。
IEEE S:如果處理數據的人并不理會您的建議會發生什么情況呢?
Michael I. Jordan:我喜歡使用“造橋”來做類比。假設我不依從任何準則,毫無科學根據地建造了上千座橋梁,那么它們有很多都會崩塌,造成巨大的災難。與此類似,假設人們使用數據并根據這些數據做出推斷而完全沒有考慮誤差線、數據異構、噪聲數據、采樣模式,以及所有那些作為一個工程師和統計學家必須慎重對待的事情,他們就會做出很多的預測,并且有很大可能會偶爾解決一些真正有意思的問題。但是時不時地還會做出一些災難性的糟糕決定。這其中的差別你事先是不會知道的。你就只能做出預測然后祈禱一切順利。
這就是我們的現狀。許多人在(用大數據)做一些事情,期望它們能有用,有時它們確實起
作用了。從某種意義上講,這么做也無可指摘,這本就是探索性的工作。但是就整個社會而言,不能放任這種情況發展,我們不能只是“但愿”它們有用,到頭來我們還是要給出切實的保證。
土木工程師最終學會了如何建造能夠持久屹立的橋梁。那么說到大數據,我猜可能還要過幾十年才能形成一個真正的工程學方法,以便你能夠有一定程度的保證說,你正在公布合理的答案并且在對出錯的可能性進行量化分析。
Michael I. Jordan:我們正在著手把這門工程科學組裝起來。我們有許多想法,它們來自于數百年的統計學和計算機科學的研究,我們正致力于把它們融合到一起,讓它們具有可擴展性。過去30年間涌現了許多關于如何控制所謂的“族群誤差”的想法,也就是在有多個假設的情況下想知道誤差率。但這些想法仍有許多還沒有從實際計算的角度進行研究。解決這些問題是很難的數學和工程課題,并且需要時間。
這不是一兩年的問題,而是需要幾十年才能做好。我們仍舊在學習如何用好大數據。
IEEE S:在閱讀關于大數據和醫療保健的報道時,差不多每三篇就有一篇在談我們將幾乎完全自動地靠著從每個人身上(尤其是通過“云”)收集數據來獲得令人驚嘆的臨床診斷的發現。
Michael I. Jordan:對這種事,你既不能全盤懷疑也不能徹底樂觀,應該就在這兩個極端之間。但是如果你把某些數據分析中得到的假設全部列出來,那么總有一部分是有用的,你只是不知道是哪一部分。
所以如果你隨便挑出幾條來——比如說“吃燕麥麩就不會得胃癌”之類的,因為從數據上看似乎如此,那么你會有一些走運的機會。數據是能提供某種支持的。
但是這還是在賭博,除非你真的做了完整的工程統計分析來給出誤差線并且量化錯誤率。雖
然它比沒有數據就直接賭博要好些,那是純粹的輪盤賭。而這是一種部分的輪盤賭。
IEEE S:如果我們繼續在您描述的那條(錯誤的)軌跡上前進,大數據將會面對怎樣的不利后果?
Michael I. Jordan:最主要的就會是一次“大數據的冬天”(暗指20 世紀七八十年代的“人工智能的冬天”)。在一場泡沫之后——人們已經投了錢,一大批公司作了承諾卻又拿不出嚴肅的分析結果——泡沫會破碎。并且很快,在2~5 年間,人們就會說“大數據來了又走了,它死了,并且是錯的。”我預言的是那樣。
當炒作過了頭的時候,這就是在那些循環往復之中會發生的事情。這些炒作或者說斷言,既不是基于對真正的問題是什么的理解,也不是基于解決問題可能要好幾十年或者說我們會取得逐步進展的理解,而是基于一種我們還沒有在技術進步中取得關鍵性跨越的理解。在此之后可能會有一個時期,獲取資源來做數據分析變得十分困難。(當然)這個領域會繼續發展,因為它是真實的也是有實際需求的。不過這種反彈勢必會對一大批重要的研究項目造成不利影響。
微信號:wwwDVBCNcom
閱讀記錄: read twice