我們生活在信息爆炸的時代。海量的數據改變了商業和科學研究的方方面面。在基礎設施層面,業界的面貌不斷地變化,眾多的信息科技公司,諸如谷歌、微軟、IBM、亞馬遜近年來也抗起了“云”的旗幟。在科技前沿,海量數據改變了統計、機器學習、自然語言處理等領域的方法。特別的,在過去的20年,數據的豐富是知識數據庫和人工智能領域有的更進一步的發展。
首先我們確實已經生活在了海量數據的時代。按照并不是最新的數據,Facebook使用超過1PB的空間來存儲4000億張照片,谷歌每天處理超過20PB的數據。而人類在過去的世代里所有的文字作品也只有大約50PB的信息。而根據摩爾定律,大概每18個月這些數據的大小還要翻倍。
數據在建模中的作用越來越大。Banko和Brill在2001年所做的研究表明,即使是很粗糙的算法,如果能用更大量的數據來訓練模型,往往最終的結果可以超過最初設計時的模型。近年來IT公司之間的并購和合作案中,對方優質數據成為更吸引決策者的因素。誰有了更好的數據,誰就有可能做出更好的服務。舉個例子,基于數據的翻譯系統會不斷的調整自己,最終超過使用嚴密規則建立起的翻譯系統。再如,我們有時被軟件要求輸入驗證碼,有的網站的做法是第一個單詞它有答案,而第二個單詞圖片是沒有答案的,使用大量用戶備選答案來確定。
面對如此明顯與快速的革新,我們的準備并不充分。我們的硬件需要提升,需要更快的計算機,更大容量的存儲設備。人才方面,計算機專業課程亟待改革,適應日新月異的信息時代,將視野擴大到一個更大的世界。當代計算機專業學生更加有必要學好“統計”,來處理好大規模數據,而事實上現在計算機專業學生中有堅實統計科學基礎的還不足百分之五。
現在很多系統的智能性還很差。人們一度堅信,只要考慮的完善,使用數理邏輯的謂詞推導,就能用邏輯把智能實現到極致。而很多時候,人類本身的智慧活動并不是很嚴謹地遵循邏輯的。我們離不開“常識”,而機器往往是沒有常識的。人類作推理經常是使用常識的,可能當事人自己都沒有意識到,而正是這些沒有明白說出來的常識幫助做出了正確的判斷。為了建立有人類普遍具有的基本常識的機器系統,2000年到2005年有一個Mindpixel的工程吸引人們對許多真假命題做判斷,來充實“常識”數據庫。Open Mind Common Sense(http://openmind.media.mit.edu/) 是這一領域另一個先驅,它主要使用讓人們填空的形式來充實常識數據庫。讓機器具有了常識,就有了更好的基礎做出更加智能的事情。