在互聯(lián)網(wǎng)時代,大數(shù)據(jù)炙手可熱,許多人言必稱大數(shù)據(jù),但能夠真正說清大數(shù)據(jù)為何物的人并不多,更遑論如何借助大數(shù)據(jù)挖掘出巨大的商業(yè)價值。究竟如何定義大數(shù)據(jù)?大數(shù)據(jù)有哪些特征?本文旨在厘清大數(shù)據(jù)概念,闡明大數(shù)據(jù)應(yīng)用方式及探究未來大數(shù)據(jù)發(fā)展之道。
Q1:大數(shù)據(jù)是商業(yè)炒作嗎?
業(yè)界給大數(shù)據(jù)的定義是4 個“V”:體量大(Volume)、種類多(Variety)、速度快(Velocity) 和真實性高(Veracity)。但這個定義其實并未抓住大數(shù)據(jù)本質(zhì)。如果僅僅看這幾個維度,大數(shù)據(jù)就是一種炒作,因為它們只是表面現(xiàn)象。
大數(shù)據(jù)的本質(zhì)應(yīng)該是如何為企業(yè)帶來一種更新更好的商業(yè)運(yùn)作模式,而大數(shù)據(jù)應(yīng)用的成功,也是依靠決策者提出好的商業(yè)問題及與其相關(guān)的商業(yè)模式。這些商業(yè)問題可以非常簡單,但問題背后必須有一系列相關(guān)的商業(yè)模式。
比如,如何運(yùn)用智能手機(jī)應(yīng)用商城的數(shù)據(jù), 來提高對用戶APP 推薦的精度? 隨后,利用應(yīng)用商城的大數(shù)據(jù),可以產(chǎn)生上百萬維的數(shù)據(jù)表,進(jìn)而建立可靠準(zhǔn)確的推薦模型,使得用戶體驗水平大幅提升。
大數(shù)據(jù)應(yīng)用成功的關(guān)鍵也正取決于是否有一個明確的商業(yè)(或科學(xué))目的,商業(yè)模式的定義是其前提條件。
Q2:數(shù)據(jù)越多越有用?
首先,如果收集大數(shù)據(jù)的目的是建立一個對位置數(shù)據(jù)的預(yù)測模型,那么,得到這一模型的訓(xùn)練數(shù)據(jù)一定要包含所需的信息。但問題恰恰是,事前并不知道哪些特征是重要的,因此,需要把盡量多的數(shù)據(jù)整合起來,讓機(jī)器去尋找。
然而,這個問題為什么不能去咨詢該領(lǐng)域內(nèi)的專家們呢?事實證明,專家們雖然會自己解決問題,但大都說不清他們是如何解決這些問題的。這也就是為什么在大數(shù)據(jù)應(yīng)用中,專家的作用更多體現(xiàn)在幫助連接、聚合盡量多的數(shù)據(jù)上。
除 此之外,要建立一個好的預(yù)測模型, 用來訓(xùn)練模型的數(shù)據(jù)總量也要足夠多。如果歷史數(shù)據(jù)少于一定規(guī)模,就會出現(xiàn)所謂“過擬合”(為了得到一致假設(shè)而使假設(shè)變得過度復(fù)雜)現(xiàn)象。例如,如果一個服 裝品牌按照某一個模特的身材來設(shè)計,衣服很可能做得偏瘦,以至于絕大多數(shù)其他消費(fèi)者無法使用。這種“過擬合”現(xiàn)象在建立大數(shù)據(jù)下的預(yù)測模型時也會發(fā)生。
那 么,數(shù)據(jù)的總量越大,是不是預(yù)測模型需要學(xué)習(xí)的時間就一定越長呢?答案是否定的。研究成果表明,在一定條件下, 當(dāng)數(shù)據(jù)變得越大,實際所需要的訓(xùn)練時間反而越短。為什么會這樣呢?可以想象:如果一個學(xué)生在學(xué)習(xí)某種概念時,只有少數(shù)習(xí)題,那么這個學(xué)生想透徹學(xué)會這個概 念,就需要把每一個習(xí)題翻來覆去地看, 加以擴(kuò)展,這樣學(xué)習(xí)的過程會比較慢。相反,如果他有許多不同類的習(xí)題,只需要把每一個習(xí)題過一遍,即可應(yīng)付未來的大部分情況。因此,習(xí)題多的學(xué)生,學(xué)到同 樣水平的時間反而會短。
Q3:人工智能將超過人類大腦?
經(jīng)過幾十年的探索,可以相信:機(jī)器的智能只能從針對大數(shù)據(jù)的學(xué)習(xí)中得來,而大數(shù)據(jù)只能從人與人的交互、人與機(jī)器的交互中得來。如果想要這些交互產(chǎn)生足夠多的數(shù)據(jù),就一定要讓這些交互為人類提供有用的服務(wù)。
如今,什么數(shù)據(jù)最為充分?充分的數(shù)據(jù)首先是最容易被記錄的那一部分,比如語音、圖像、文字等。能不能直接獲取人類大腦活動信息,并以此來充實我們的智能呢? 當(dāng)今的這種技術(shù)(如磁共振腦圖成像技術(shù)) 還不夠精確,因此,通過學(xué)習(xí)得到的系統(tǒng)雖然在單方面可以超過人類大腦(如IBMWatson),但就通用性而言,現(xiàn)階段的人工智能比起人類大腦還差得很 遠(yuǎn)!
有沒有可能在不久之后的某天,具有人工智能的機(jī)器人成為人類的敵人呢?這是有可能的。但前提是:這些機(jī)器人的領(lǐng)袖一定是人類。
Q4:用戶隱私問題如何解決?
隱私問題的出現(xiàn)其實比大數(shù)據(jù)要早, 但隱私真正成為家喻戶曉的議題,卻是在大數(shù)據(jù)成為熱點(diǎn)之后。從斯諾登揭秘到蘋果數(shù)據(jù)上傳,隨著越來越多媒體的爆料,大家對隱私的關(guān)心程度也與日俱增。隱私 問題的最大矛盾在于,一方面,數(shù)據(jù)被嚴(yán)嚴(yán)實實地包起來,另一方面,它又要被運(yùn)用來發(fā)現(xiàn)有用的東西,不得不將之開放和上傳。
目前看來,數(shù)據(jù)隱私問題有三個考慮: 1. 技術(shù);2. 用戶利益;3. 社會接受程度。
從技術(shù)上來說,以前有關(guān)數(shù)據(jù)的解決方式大都是把數(shù)據(jù)從終端遷移到計算端(如計算中心),得出結(jié)果后再把結(jié)果送到終端。這種方式無疑會引發(fā)隱私問題,因為一旦數(shù)據(jù)離開用戶的個人終端,就無從保證誰將有權(quán)利接觸數(shù)據(jù),數(shù)據(jù)的隱私也就無從保護(hù)了。
要保護(hù)隱私,一種新的模式是“計算隨著數(shù)據(jù)走”,也就是利用終端自身的強(qiáng)大計算功能,在終端算好一個結(jié)果(如一個預(yù)測模型,即本地模型),再把這個模型與某 一個通用模型加以整合。這種模式無疑會引入更多計算量與復(fù)雜性,目前還屬于前沿研究領(lǐng)域。這種方法就像是有人要買股票,但又不想別人知道他自己的需求,只 讀取網(wǎng)上有關(guān)股票的信息,與自己知道的需求結(jié)合起來,做出買賣決策。只要每個人足夠聰明,又有足夠的計算能力,這樣的系統(tǒng)就會最大程度地保護(hù)每個人的隱 私。
另一種做法是,仍把數(shù)據(jù)傳輸?shù)接嬎阒行模趥鬏斨埃瑢?shù)據(jù)加以改變, 使其中的關(guān)鍵隱私信息在傳輸和計算中被隱藏起來,讓人無法反推原始的敏感數(shù)據(jù)(如用戶性別、住址等),同時又保證計算結(jié)果的真實性和可用性。實際上,一個 更難的問題是:無論如何隱藏和加密原始數(shù)據(jù),用戶心里總有不放心的一點(diǎn)陰影。由于這個陰影的存在,用戶永遠(yuǎn)不會相信一個單純靠技術(shù)的隱私保護(hù)計劃。可以預(yù) 見,在未來,隱私問題的解決程度將成為用戶選取產(chǎn)品的重要依據(jù)。
可是,大數(shù)據(jù)已經(jīng)來到人們身邊。今天社會上的每個人,實際上都是大數(shù)據(jù)的使 用者。同時,又在不斷暴露自己的隱私。比如,用戶使用免費(fèi)的電子郵件賬戶,即便知道這些服務(wù)商在挖掘我們的郵件信息;用戶使用搜索引擎詢問各種問題,盡管 這令我們的問題被記錄在案。既然如此,為何用戶在使用大數(shù)據(jù)服務(wù)的時候,依舊樂此不疲呢?答案在于用戶利益與隱私暴露的費(fèi)用比:如果用戶得到的利益大于個 人數(shù)據(jù)泄露的價值,用戶還是會同意接受并分享這些數(shù)據(jù)的。因此,隱私問題的關(guān)鍵是,如何讓系統(tǒng)和用戶在矛盾中尋找到一個平衡點(diǎn)。
最后,隨著 技術(shù)的發(fā)展,社會對于數(shù)據(jù)分享的接受程度也會改變。上一代人所不能接受的事物,到下一代可能就不是大問題了。Facebook 就是個例子: 實名制允許人們訪問他人的主頁,并看到許多信息,這一點(diǎn)在最開始引起不小的質(zhì)疑,但最后,廣大青少年熱烈地?fù)肀н@一新技術(shù),并紛紛加入其中。
Q5:運(yùn)營商管道vs 互聯(lián)網(wǎng)用戶大數(shù)據(jù)?
互聯(lián)網(wǎng)與電信運(yùn)營商的關(guān)系,可以用一個例子來理解:馬路上形形色色的車輛可以視為互聯(lián)網(wǎng),車上所裝的貨物、乘客及運(yùn)輸系統(tǒng)可以視為互聯(lián)網(wǎng)的數(shù)據(jù)和各種應(yīng)用, 而車輛所走的高速公路類似于運(yùn)營商提供的管道。對于互聯(lián)網(wǎng)而言,它更關(guān)心乘客和貨物,關(guān)心如何把他們安全送到目的地。但從運(yùn)營商角度而言,它更關(guān)心的是道 路是否通暢。從這一點(diǎn)來說,互聯(lián)網(wǎng)的數(shù)據(jù)有關(guān)乘客和貨物,運(yùn)營商的數(shù)據(jù)是車流量、道路擁塞的程度。所以,互聯(lián)網(wǎng)的數(shù)據(jù)是終端用戶數(shù)據(jù),運(yùn)營商的數(shù)據(jù)是關(guān)于 數(shù)據(jù)的數(shù)據(jù)。
什么是關(guān)于數(shù)據(jù)的數(shù)據(jù)呢?以照片為例,像素點(diǎn)就是數(shù)據(jù),而照片大小、類型、照片文件的產(chǎn)生時間與地點(diǎn),就是數(shù)據(jù)的數(shù)據(jù)。
數(shù)據(jù)的數(shù)據(jù)在電信行業(yè)意義重大。但其前提是:資源無論到何時都是有限的。管道再寬,也是有限的。那么,從運(yùn)營商的角度來說,他們希望知道什么呢?還是以車和路來比喻:
你想知道如何為一些重要的常客開辟一條快速通道嗎?那就首先要知道哪些是重要的常客。只有知道了常客的群體,常客的特征,才能有效抓取到他們。
你想知道哪些重要車輛所屬的公司在受競爭對手的高速公路公司吸引,正考慮換路嗎?那就要分析這些車輛公司的痛點(diǎn)何在。
你想知道哪些路段需要特別維護(hù),并派一些常駐維護(hù)車輛駐守嗎?那就需要分析哪些是容易受損的路段。
這些對數(shù)據(jù)分析的需求隨著運(yùn)營技術(shù)的前進(jìn)而提升。在5G 的場景下,運(yùn)營商需要給大眾提供更密集、更快、更個性化的電信服務(wù),由此也就知道用戶的使用規(guī)律、痛點(diǎn)、服務(wù)軟肋在哪里。一個如影隨形的高端服務(wù)并非由無 數(shù)服務(wù)員在所有用戶可能出現(xiàn)的地方等待,而是由一個聰明的服務(wù)員在用戶需要的時候及時出現(xiàn)。未來的網(wǎng)絡(luò)技術(shù),如軟件定義網(wǎng)絡(luò)(SDN), 就更需要大數(shù)據(jù)的支持:SDN 的大腦可以根據(jù)網(wǎng)絡(luò)大數(shù)據(jù)的深度挖掘所產(chǎn)生的修改,而變得越來越聰明。

Q6:大數(shù)據(jù)和云計算、物聯(lián)網(wǎng)是什么關(guān)系?
如果把整個IT 流程看做一棵樹的話, 物聯(lián)網(wǎng)就是這棵樹的葉子和枝干。如果傳感器網(wǎng)絡(luò)所感知的信息是有關(guān)“人”的信息,比如用戶在網(wǎng)上購買商品的信息,或與人的移動行為和動機(jī)相關(guān)的信息,那么 它就會有極大的商業(yè)價值,對這種數(shù)據(jù)的需求也會劇增。人的心理因素是世上最復(fù)雜的,對應(yīng)著某種動機(jī)和意識的行為、動作也千差萬別。人與人的關(guān)系組成了無窮 多的維度,而大數(shù)據(jù)正是這些維度疊加而成的。這些數(shù)據(jù)不僅包括人本身的語言、文字、動作、視覺數(shù)據(jù),更是人與人之間關(guān)系的數(shù)據(jù)。凡是與人相關(guān)的活動數(shù)據(jù), 都是最值得收集的數(shù)據(jù),與之相關(guān)的需求則永遠(yuǎn)存在。
所以說,關(guān)于人的數(shù)據(jù)才是大數(shù)據(jù)。物聯(lián)網(wǎng)只有考慮到人這種廣義的“物”,才最有價值。否則,物聯(lián)網(wǎng)所傳輸?shù)臄?shù)據(jù)無論從復(fù)雜度還是商業(yè)目的而言,都極為有限。
大數(shù)據(jù)和云計算的關(guān)系則在于,大數(shù)據(jù)的成功應(yīng)用除了“大”,還有三個必要條件:實時在線、對事件的全面描述以及產(chǎn)生差異化的效果。云計算使得這三個必要條件得以滿足。
首先,云計算使人們可以隨時隨地使用存儲和計算,使大量數(shù)據(jù)得以及時被采集和分析。手機(jī)上APP 應(yīng)用云的服務(wù)就是一個云計算的例子。由于存儲和計算成本的降低,云計算起到了實時在線的作用, 從而使得更多的人愿意使用云服務(wù),大數(shù)據(jù)的雪球由此可以滾動起來。
云計算的另一個好處是可以實現(xiàn)大規(guī)模的數(shù)據(jù)整合。當(dāng)今世界并不是為大數(shù)據(jù)應(yīng)用準(zhǔn)備的,因為大量數(shù)據(jù)集散落在不同地方,以不同方式存放,其擁有者也是不同的 人。在云計算條件下,很多大規(guī)模數(shù)據(jù)整合的問題都會得到解決。當(dāng)大家數(shù)據(jù)放在一起時,數(shù)據(jù)整合的門檻會大幅降低,因此,大數(shù)據(jù)也會像核物理的聚變一樣, 產(chǎn)生成倍的效果。

Q7:有了大數(shù)據(jù),我們還需要專家嗎?
在大數(shù)據(jù)時代,專家的一部分作用確實可以被大數(shù)據(jù)應(yīng)用所取代。例如,推薦金融產(chǎn)品時,專家需要將特定金融產(chǎn)品推薦給特定客戶。這些客戶有以下特點(diǎn):接受這一 推薦的可能性很高,同時,對其他客戶的影響力也很強(qiáng),在接受這一產(chǎn)品的同時,他們很有可能會把產(chǎn)品消息向親朋好友傳播。這一重要的市場工作過去是由專業(yè)的 市場部門經(jīng)理來完成的。然而在大數(shù)據(jù)應(yīng)用中,通過對大數(shù)據(jù)的整合分析得出的大規(guī)模推薦模型的推薦效果,是市場部專家的二十倍以上。
這個例子 說明:首先,在傳統(tǒng)商業(yè)領(lǐng)域,大數(shù)據(jù)的功效確實能夠取代并超越人的作用。在過去的實踐中,市場專家最多能夠判別十幾維的數(shù)據(jù),而數(shù)據(jù)挖掘模型卻可以處理幾 萬維甚至幾千萬維的數(shù)據(jù);其次,取得這么好的效果需要做許多前期工作,如搭建數(shù)據(jù)平臺、整合不同數(shù)據(jù)、建立分析預(yù)測模型,以及利用模型對未來數(shù)據(jù)進(jìn)行分析 決策。這些研究人員具有三個突出特點(diǎn):一是非常強(qiáng)的駕馭數(shù)據(jù)管理系統(tǒng)和快速編程的能力,二是和業(yè)務(wù)專家溝通并理解業(yè)務(wù)目標(biāo)及約束能力、分析數(shù)據(jù)的能力,三 是與模型連接并預(yù)測到業(yè)務(wù)決策的能力。具有這些能力的人,我們稱其為數(shù)據(jù)科學(xué)家。
所以,有了大數(shù)據(jù)之后,專家依然是需要的,只不過專家在決 策過程中的作用與焦點(diǎn)改變了:專家已經(jīng)不能獨(dú)享成功,而一定要和大數(shù)據(jù)系統(tǒng)共同完成一項復(fù)雜的任務(wù)。大數(shù)據(jù)做了以往專家在數(shù)據(jù)分析領(lǐng)域的工作,但專家對于 專業(yè)領(lǐng)域的價值和經(jīng)驗依舊無法取代。建立數(shù)據(jù)分析模型需要理解業(yè)務(wù)及業(yè)務(wù)目標(biāo),這仍需要專家的研究和貢獻(xiàn),畢竟外行還是不能領(lǐng)導(dǎo)內(nèi)行。
Q8:大數(shù)據(jù)最適合做什么?
大數(shù)據(jù)的發(fā)展和其他任何技術(shù)的發(fā)展路徑一樣,都需要經(jīng)過“初始化- 極端膨脹- 較大失望- 理性思考- 成功應(yīng)用”這個逐漸成熟的過程。在歷史上,聽起來先進(jìn)的技術(shù)在這個過程中卻消失的例子比比皆是。那些成功的技術(shù)一定要經(jīng)得起理性的思考和時間的考驗,以找 到它們在實踐中最合適的落腳點(diǎn)。
目前,大數(shù)據(jù)有一個作用可能還沒有被注意到——大數(shù)據(jù)可以連接大量不同的數(shù)據(jù)孤島,使得大數(shù)據(jù)所覆蓋的范圍更大更廣, 也使得大數(shù)據(jù)驅(qū)動的業(yè)務(wù)隨著這個雪球越滾越大。這樣,使用者可以不斷得到新的數(shù)據(jù), 而用戶也能不斷得到新的服務(wù)。
從現(xiàn)在大數(shù)據(jù)成功應(yīng)用的領(lǐng)域來推斷, 應(yīng)用最多的應(yīng)該是集中在對過去事件的存儲、抽取,以及對不同數(shù)據(jù)的聚合聯(lián)通、總結(jié)統(tǒng)計上。大數(shù)據(jù)聚合的重要作用之一是關(guān)聯(lián)不同數(shù)據(jù)之間發(fā)生的個別事件。通 過連通,實時發(fā)現(xiàn)事件真相。有了這樣的數(shù)據(jù)就可以做以下分析:某個事件在發(fā)生的同時還會發(fā)生什么其他事件?如何通過過去數(shù)據(jù)來預(yù)測未來可能發(fā)生的事件?如 何能夠自動建議,用某種行為來促使某些事件發(fā)生,或保證某些事件不發(fā)生?等等。

Q9:大數(shù)據(jù)不能做什么?
大數(shù)據(jù)明顯不是萬能的,那么,大數(shù)據(jù)不能做什么呢?
不能替代有效的商業(yè)模式。大數(shù)據(jù)的應(yīng)用不能沒有商業(yè)模式,比如如何在大數(shù)據(jù)業(yè)務(wù)中為用戶帶來價值,使得數(shù)據(jù)成長和商業(yè)增長同步等等。而商業(yè)模式顯然不是能從大數(shù)據(jù)本身挖掘的,而是由具備豐富經(jīng)驗的專家來確定的。
不能沒有領(lǐng)導(dǎo)的決斷力。在今天的大部分公司中,數(shù)據(jù)的存在形式無異于一個個孤島。把這些數(shù)據(jù)整合起來不僅是個技術(shù)活,還有很強(qiáng)的管理因素。往往在同一個公司 的不同部門會有很多競爭,數(shù)據(jù)就是一個部門的資產(chǎn)。雖然把幾種不同數(shù)據(jù)聚合在一起會很有價值,但能真正做到這一點(diǎn)的公司卻會發(fā)現(xiàn),要成功做到數(shù)據(jù)整合需要 更高級領(lǐng)導(dǎo)的決斷力。這也是為什么一些很有前瞻性的公司會專門有一個部門來負(fù)責(zé)全公司的數(shù)據(jù)業(yè)務(wù)。
不能無目的地挖掘。在大數(shù)據(jù)的初學(xué)者當(dāng)中,有一個普遍的錯覺:當(dāng)我們有了足夠的數(shù)據(jù),就可以在其中漫無目的地找到知識。這樣的錯覺實際上是不科學(xué)的。數(shù)據(jù)挖掘需要約束與目標(biāo),否則就是大海撈針,必然是徒勞的。比如,開普勒的成功是建立在以太陽為焦點(diǎn)的橢圓形假設(shè)上的。
不能沒有專家。上文提到,大數(shù)據(jù)在不同應(yīng)用領(lǐng)域會需要不同的專業(yè)知識來指導(dǎo)。而不同的領(lǐng)域, 需要專家們的參與程度也會不同。G o o g l e 實驗室有一個在大量圖片和視頻數(shù)據(jù)中, 讓計算機(jī)自動識別貓臉的例子。但這樣的深度學(xué)習(xí)很難推廣到其他大數(shù)據(jù)的領(lǐng)域。因為,成功的先決條件之一是該領(lǐng)域本身具有非常直觀的層次結(jié)構(gòu), 就像圖片的構(gòu)成一樣。如果某個領(lǐng)域的數(shù)據(jù)不具備這樣的層次結(jié)構(gòu), 就很難用同樣的方法自動發(fā)現(xiàn)規(guī)律。而這樣一個結(jié)構(gòu)是需要數(shù)據(jù)科學(xué)家來定義的。
不能一次建模, 終生受益。一個好的模型需要不斷更新, 需要終生學(xué)習(xí)(Lifelong Machine Learning) 來不斷改進(jìn)。例如,在奧巴馬的競選中,科學(xué)家建立了一個用戶投票模型,來預(yù)測選民可能的立場,而這個模型是每周利用更新的數(shù)據(jù)來更新一次的。
不擅長做全局性的優(yōu)化分析。大數(shù)據(jù)下的主要數(shù)據(jù)處理方法是“分而治之”,即把大的數(shù)據(jù)分為小塊,一塊一塊地處理, 然后再把結(jié)果合并。這個過程也許要經(jīng)過很多次,但總的思想是這樣分化、合并之后的結(jié)果,與全局計算的結(jié)果是一樣的。但是,還有很多問題是不能這樣來解決 的。比如,在下圍棋的時候,每一個棋子的目的可能和整個戰(zhàn)略都相關(guān),所以分而治之的想法是行不通的。
不能沒有對其語義的標(biāo)注。目前只能通過 對數(shù)據(jù)的標(biāo)識賦予其意義。比如,推薦系統(tǒng)在沒有用戶反饋的情況下效果很差,而通過現(xiàn)有的心理學(xué)模型等加強(qiáng)其效果都無效。一般來說,如果試圖從數(shù)據(jù)中發(fā)現(xiàn)知 識,則需要大量的數(shù)據(jù)標(biāo)注。往往在一個和用戶有直接互動的應(yīng)用中是可以得到這樣的標(biāo)識數(shù)據(jù)的。要得到大量的標(biāo)識數(shù)據(jù),不僅需要一個平臺來承載有用的應(yīng)用, 而且需要一個對人、對大數(shù)據(jù)系統(tǒng)的雙贏經(jīng)濟(jì)學(xué)模型。
不能僅用有偏的數(shù)據(jù)。數(shù)據(jù)一定要全面地反映未來, 對各個方面都有所涉及。如果數(shù)據(jù)是有偏的,則很難對未來進(jìn)行有效地判斷。
不能保證包含有效的信息。當(dāng)數(shù)據(jù)中的關(guān)鍵特征缺失時,大數(shù)據(jù)就無法矯正數(shù)據(jù)與現(xiàn)實之間的偏差,尤其是對于那種與人的心理和行為相關(guān)的數(shù)據(jù),非常容易產(chǎn)生偏 差。問題的關(guān)鍵是:研究之前,專家并不知道哪些特征是關(guān)鍵特征。比如股價受到“黑天鵝”事件影響,使得無法用大數(shù)據(jù)預(yù)測關(guān)鍵事件發(fā)生的概率。這就像一個輸 入管道:垃圾輸入導(dǎo)致垃圾輸出。這也是為什么某些電影的實際票房和從網(wǎng)上評價數(shù)據(jù)得來的結(jié)果是背道而馳的。
不能保證減小噪音。這是因為在大數(shù)據(jù)里面,噪音數(shù)據(jù)的出現(xiàn)往往會以有意義的模式的形式出現(xiàn),從而騙過知識挖掘系統(tǒng)。這樣,大數(shù)據(jù)可能帶來更大的噪音。
Q10:后大數(shù)據(jù)時代的技術(shù)趨勢是什么?
大數(shù)據(jù)所帶來的變革,只不過是計算機(jī)技術(shù)為整個人類帶來變革當(dāng)中的一步。計算機(jī)從上世紀(jì)五十年代起,就在人類歷史上開始了潛移默化的革命。這個革命的根本標(biāo) 志就是人類社會和行為的數(shù)字化,以及兩個世界(物理世界和虛擬世界)的無縫融合。在這場革命中,人類傳統(tǒng)的行業(yè)一個接一個被數(shù)字化行業(yè)取代:從金融系統(tǒng)到 電子商務(wù),從機(jī)器人制造到無人駕駛汽車……
所以,大數(shù)據(jù)變革與人類歷史上其他重要變革是一樣的,需要經(jīng)過資源( 即大數(shù)據(jù)) 的原始積累,商業(yè)和社會服務(wù)的差異化,直到人類對虛擬世界的行業(yè)、社會進(jìn)行再規(guī)范,以解決數(shù)據(jù)資源分配。這個歷史過程在上一個工業(yè)革命(十八世紀(jì)機(jī)器革 命)時經(jīng)過了一百多年,但在這一次的革命中,將以更快的形式發(fā)生。
以此推論,由大數(shù)據(jù)引發(fā)的下一代技術(shù)很可能是更大規(guī)模的、面向數(shù)字化行業(yè) 的轉(zhuǎn)變, 這使得現(xiàn)在物理世界里的眾多傳統(tǒng)行業(yè)將全面或部分地轉(zhuǎn)向數(shù)字世界,進(jìn)行融合。這個轉(zhuǎn)變也讓許多領(lǐng)域以另一種形式出現(xiàn), 使得許多行業(yè)在整體“食物鏈條”上下游有所改變。到了那一天,醫(yī)生、科學(xué)家和教師等“高大上”行業(yè)是否會成為大數(shù)據(jù)輸送原料的數(shù)據(jù)采集和解釋分析結(jié)果的 “工人”? 或是成為在大數(shù)據(jù)驅(qū)動下的人工智能機(jī)器人的伙伴?這些都引人深思。