我們生活在信息爆炸的時代。海量的數(shù)據(jù)改變了商業(yè)和科學(xué)研究的方方面面。在基礎(chǔ)設(shè)施層面,業(yè)界的面貌不斷地變化,眾多的信息科技公司,諸如谷歌、微軟、IBM、亞馬遜近年來也抗起了“云”的旗幟。在科技前沿,海量數(shù)據(jù)改變了統(tǒng)計、機器學(xué)習(xí)、自然語言處理等領(lǐng)域的方法。特別的,在過去的20年,數(shù)據(jù)的豐富是知識數(shù)據(jù)庫和人工智能領(lǐng)域有的更進(jìn)一步的發(fā)展。
首先我們確實已經(jīng)生活在了海量數(shù)據(jù)的時代。按照并不是最新的數(shù)據(jù),F(xiàn)acebook使用超過1PB的空間來存儲4000億張照片,谷歌每天處理超過20PB的數(shù)據(jù)。而人類在過去的世代里所有的文字作品也只有大約50PB的信息。而根據(jù)摩爾定律,大概每18個月這些數(shù)據(jù)的大小還要翻倍。
數(shù)據(jù)在建模中的作用越來越大。Banko和Brill在2001年所做的研究表明,即使是很粗糙的算法,如果能用更大量的數(shù)據(jù)來訓(xùn)練模型,往往最終的結(jié)果可以超過最初設(shè)計時的模型。近年來IT公司之間的并購和合作案中,對方優(yōu)質(zhì)數(shù)據(jù)成為更吸引決策者的因素。誰有了更好的數(shù)據(jù),誰就有可能做出更好的服務(wù)。舉個例子,基于數(shù)據(jù)的翻譯系統(tǒng)會不斷的調(diào)整自己,最終超過使用嚴(yán)密規(guī)則建立起的翻譯系統(tǒng)。再如,我們有時被軟件要求輸入驗證碼,有的網(wǎng)站的做法是第一個單詞它有答案,而第二個單詞圖片是沒有答案的,使用大量用戶備選答案來確定。
面對如此明顯與快速的革新,我們的準(zhǔn)備并不充分。我們的硬件需要提升,需要更快的計算機,更大容量的存儲設(shè)備。人才方面,計算機專業(yè)課程亟待改革,適應(yīng)日新月異的信息時代,將視野擴大到一個更大的世界。當(dāng)代計算機專業(yè)學(xué)生更加有必要學(xué)好“統(tǒng)計”,來處理好大規(guī)模數(shù)據(jù),而事實上現(xiàn)在計算機專業(yè)學(xué)生中有堅實統(tǒng)計科學(xué)基礎(chǔ)的還不足百分之五。
現(xiàn)在很多系統(tǒng)的智能性還很差。人們一度堅信,只要考慮的完善,使用數(shù)理邏輯的謂詞推導(dǎo),就能用邏輯把智能實現(xiàn)到極致。而很多時候,人類本身的智慧活動并不是很嚴(yán)謹(jǐn)?shù)刈裱壿嫷摹N覀冸x不開“常識”,而機器往往是沒有常識的。人類作推理經(jīng)常是使用常識的,可能當(dāng)事人自己都沒有意識到,而正是這些沒有明白說出來的常識幫助做出了正確的判斷。為了建立有人類普遍具有的基本常識的機器系統(tǒng),2000年到2005年有一個Mindpixel的工程吸引人們對許多真假命題做判斷,來充實“常識”數(shù)據(jù)庫。Open Mind Common Sense(http://openmind.media.mit.edu/) 是這一領(lǐng)域另一個先驅(qū),它主要使用讓人們填空的形式來充實常識數(shù)據(jù)庫。讓機器具有了常識,就有了更好的基礎(chǔ)做出更加智能的事情。