http://read.haosou.com/article/?id=a13a234da860a2902a8c5629e79c438f

來自infoworld

機(jī)器之心編譯出品

編譯:汪汪,趙云峰

你可能聽說過谷歌和Facebook這樣的公司如何利用機(jī)器學(xué)習(xí)來開車、識(shí)別語音和分類圖片。你可能會(huì)想,這很酷。但這和你的工作有什么關(guān)系呢?好吧,來看看這些公司如何使用機(jī)器學(xué)習(xí)吧。

  • 一家支付處理公司在幾十億次交易中,實(shí)時(shí)檢測到了欺詐行為,每月減少損失達(dá)100萬美元。

  • 一家汽車保險(xiǎn)公司用詳細(xì)的地理空間數(shù)據(jù),預(yù)測保險(xiǎn)索賠的損失,讓他們能夠?qū)O端天氣對(duì)生意的影響進(jìn)行建模。

  • 有了車載通信技術(shù)提供的數(shù)據(jù),一家廠商發(fā)現(xiàn)了運(yùn)營指標(biāo)的規(guī)律,并用它們來驅(qū)動(dòng)前瞻性主動(dòng)維護(hù)業(yè)務(wù)。

這些成功的故事中有兩個(gè)相同的主題。首先,每個(gè)應(yīng)用都基于大數(shù)據(jù)——極大數(shù)量的、格式不同的快速數(shù)據(jù)。第二,每個(gè)案例中,機(jī)器學(xué)習(xí)都揭示出了新的洞察,并驅(qū)動(dòng)了價(jià)值的增長。

機(jī)器學(xué)習(xí)的技術(shù)基礎(chǔ)已有超過50年歷史了,但是直到最近,學(xué)術(shù)界之外的人才注意到它的能力。機(jī)器學(xué)習(xí)需要大量的計(jì)算能力,但早期的使用者們?nèi)狈Τ杀緞澦愕幕A(chǔ)設(shè)施。

近期,機(jī)器學(xué)習(xí)引起了許多人的興趣,逐漸活躍起來,這歸功于一些正在融合的趨勢。

  • 摩爾定律極大降低了計(jì)算成本;大規(guī)模計(jì)算能力可用最小的成本獲得。

  • 具有獨(dú)創(chuàng)性的新算法提升了計(jì)算速度。

  • 數(shù)據(jù)科學(xué)家積累了許多理論和實(shí)踐知識(shí),提升了機(jī)器學(xué)習(xí)的效率。

總的來說,大數(shù)據(jù)帶來的颶風(fēng)創(chuàng)造了許多無法用傳統(tǒng)統(tǒng)計(jì)學(xué)方法解決的分析問題。需要是發(fā)明之母。舊的分析方法已經(jīng)不適用于今天的商業(yè)環(huán)境。

機(jī)器學(xué)習(xí)技術(shù)

目前,世界上共有幾百種不同的機(jī)器學(xué)習(xí)算法。最近,僅在分類方面,有一篇論文就測試了超過150個(gè)算法。這個(gè)概覽覆蓋了數(shù)據(jù)科學(xué)家用來驅(qū)動(dòng)價(jià)值的關(guān)鍵技術(shù)。

數(shù)據(jù)科學(xué)家將機(jī)器學(xué)習(xí)分為監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)。監(jiān)督式學(xué)習(xí)技術(shù)需要結(jié)果的先驗(yàn)知識(shí)。例如,如果我們正在研究一個(gè)市場活動(dòng)的歷史數(shù)據(jù),我們可以根據(jù)市場是否產(chǎn)生預(yù)期的反應(yīng)來對(duì)數(shù)據(jù)進(jìn)行分類,或決定下一步要花多少錢。監(jiān)督式學(xué)習(xí)技術(shù)為預(yù)測和分類提供了強(qiáng)大的工具。

然而,經(jīng)常會(huì)出現(xiàn)的情況是,我們并不知道一個(gè)事件「最終」的結(jié)果。例如,在某些欺詐的案例中,只有當(dāng)事情發(fā)生很久以后,我們才可能知道某次交易是不是欺詐。在這種情況下,與其試圖預(yù)測哪些交易是欺詐,我們不如使用機(jī)器學(xué)習(xí)來識(shí)別那些可疑的交易,并做出標(biāo)記,以備后續(xù)觀察。但我們對(duì)某種特定的結(jié)果缺乏先驗(yàn)知識(shí)、但仍希望從數(shù)據(jù)中汲取有用的洞察時(shí),就要用到無監(jiān)督式學(xué)習(xí)。

使用最廣泛的監(jiān)督式學(xué)習(xí)技術(shù)包括以下這些:

  • 廣義線性模型(GLM,Generalized linear models):這是線性回歸的一種高級(jí)形式,支持不同的概率分布和 聯(lián)系函數(shù),能讓分析師更有效地對(duì)數(shù)據(jù)進(jìn)行建模。GLM用格點(diǎn)搜索進(jìn)行加強(qiáng),是經(jīng)典統(tǒng)計(jì)學(xué)和最先進(jìn)的機(jī)器學(xué)習(xí)的混血產(chǎn)物。

  • 決策樹:這是一種監(jiān)督式學(xué)習(xí)模型,能夠?qū)W習(xí)一組將總體逐步劃分為若干小片段的規(guī)則。這些小片段對(duì)目標(biāo)變量來說是同質(zhì)的。

  • 隨機(jī)森林:一種流行的集成學(xué)習(xí)方法,可以訓(xùn)練許多決策樹,然后將這些決策樹進(jìn)行平均,做出預(yù)測。這個(gè)平均的過程產(chǎn)生了一個(gè)更一般的解,過濾掉了數(shù)據(jù)中的隨機(jī)噪聲。

  • 梯度提升機(jī)器(GBM,Gradient boosting machine):這種方法通過訓(xùn)練一系列決策樹來產(chǎn)生一個(gè)預(yù)測模型,在其中,后序決策樹會(huì)校正前序決策樹所產(chǎn)生的預(yù)測誤差。

  • 深度學(xué)習(xí):這種方法能用復(fù)雜多層網(wǎng)絡(luò)的形式對(duì)數(shù)據(jù)中的高級(jí)模式進(jìn)行建模。由于深度學(xué)習(xí)是對(duì)問題建模來說最一般的方法,因此有潛力解決機(jī)器學(xué)習(xí)中最具有挑戰(zhàn)性的問題。

無監(jiān)督式學(xué)習(xí)的關(guān)鍵技術(shù)包括以下這些:

  • 聚類:一種將物體分成小類的技術(shù)。這些類別在許多度量上彼此相似。顧客細(xì)分就是聚類的一個(gè)實(shí)際例子。現(xiàn)在有許多不同的聚類算法,應(yīng)用最廣泛的是k-均值算法。

  • 異常檢測:這是一種識(shí)別意外事件或結(jié)果的過程。在安全和防欺詐領(lǐng)域,不可能對(duì)每一次交易都進(jìn)行調(diào)查;我們需要系統(tǒng)對(duì)那些最可疑的交易做出標(biāo)記。我們之前在監(jiān)督式學(xué)習(xí)部分討論過的深度學(xué)習(xí),也可以用來進(jìn)行異常檢測。

  • 維數(shù)縮減:這個(gè)過程可以減少納入考慮的變量數(shù)量。隨著企業(yè)和組織獲取的數(shù)據(jù)量越來越多,可能的預(yù)測因子(或特征)迅速增長。想要識(shí)別數(shù)據(jù)對(duì)某一特定問題提供了什么有價(jià)值的信息是一件很重要的工作。主成分分析(PCA)會(huì)對(duì)一組原始特征進(jìn)行評(píng)估,并將它們減少為彼此獨(dú)立的索引。

在機(jī)器學(xué)習(xí)中,某些技術(shù)總是比其他的技術(shù)表現(xiàn)好,但對(duì)某一個(gè)特定的問題來說,很難說哪一個(gè)技術(shù)是最好的。這樣,大多數(shù)數(shù)據(jù)科學(xué)家更喜歡嘗試多種技術(shù),并從中選擇最好的模型。由于這個(gè)原因,高性能就顯得非常必要,因?yàn)樗梢宰寯?shù)據(jù)科學(xué)家在更少的時(shí)間內(nèi)嘗試更多的選項(xiàng)。

機(jī)器學(xué)習(xí)實(shí)戰(zhàn)

在工業(yè)和商業(yè)領(lǐng)域,企業(yè)們都在使用機(jī)器學(xué)習(xí)來提升收入和降低成本,因?yàn)樵谠S多任務(wù)上它們比人類更加高效。下面就是7個(gè)例子,證明機(jī)器學(xué)習(xí)的多功能性和廣泛的適用性。

  1. 預(yù)防欺詐:PayPal是在線支付產(chǎn)業(yè)的龍頭老大,每年擁有超過1.5億活躍的電子錢包用戶,支付額超過2000億美元。在這個(gè)體量下,即使是小比率的欺詐也會(huì)帶來極大的損失。在過去,這家公司在欺詐行為上的損失曾達(dá)到每月1000萬美元。為了解決這個(gè)問題,PayPal建立了一個(gè)由頂尖研究者組成的團(tuán)隊(duì),他們使用最先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)構(gòu)建了一個(gè)能實(shí)時(shí)識(shí)別欺詐性交易的模型。

  2. 選擇電子廣告的目標(biāo)客戶。廣告科技公司Dstillery用機(jī)器學(xué)習(xí)來幫助Verizon和Williams-Sonoma這樣的公司在實(shí)時(shí)競價(jià)平臺(tái)上定位電子廣告的目標(biāo)。Dstillery使用了用戶的瀏覽歷史、訪問、點(diǎn)擊和購買信息,能在每秒內(nèi)做出幾千次預(yù)測,同時(shí)處理幾百個(gè)廣告活動(dòng)。這樣,這家公司在廣告定位上的表現(xiàn)極大地超過了人類市場分析人員,優(yōu)化了每美元所帶來的市場影響。

  3. 內(nèi)容推薦。Comcast公司基于每個(gè)交互式電視服務(wù)的顧客的歷史觀看習(xí)慣,提供了個(gè)性化的實(shí)時(shí)內(nèi)容推薦。Comcast用機(jī)器學(xué)習(xí)技術(shù)分析了幾十億個(gè)歷史記錄,對(duì)每一個(gè)顧客做出了獨(dú)特的品味描述,然后將顧客的品味分成不同的類別。對(duì)每一類顧客,Comcast都能實(shí)時(shí)跟蹤和顯示最流行的內(nèi)容,這樣顧客就能看到目前正在火爆的潮流。最后的結(jié)果就是:更好的推薦系統(tǒng),更高的利用率,更滿意的顧客。

  4. 建造更好的汽車。捷豹路虎生產(chǎn)的新汽車上裝有60個(gè)機(jī)載計(jì)算機(jī),每天在2萬個(gè)參數(shù)上產(chǎn)生1.5GB的數(shù)據(jù)。這家公司的工程師利用機(jī)器學(xué)習(xí)來提取數(shù)據(jù)并理解顧客如何與汽車互動(dòng)。有了這些真實(shí)的使用數(shù)據(jù),設(shè)計(jì)師就能預(yù)測零件失效和潛在的安全問題,有助于他們?cè)O(shè)計(jì)車況更好的汽車。

  5. 瞄準(zhǔn)最好的潛在市場。市場人員用「購買傾向」模型作為工具來決定最好的潛在銷售市場,并提供最好的產(chǎn)品。思科的產(chǎn)品系列很多,從路由器到有線電視盒子,應(yīng)有盡有。它的市場分析團(tuán)隊(duì)在幾小時(shí)內(nèi)訓(xùn)練了6萬個(gè)模型,對(duì)1.6億個(gè)潛在市場進(jìn)行了打分。他們使用了一系列的技術(shù)(例如決策樹和梯度提升機(jī)器),極大提升了模型的精確度。這些模型提升了銷售量,減少了無用的銷售電話,也提升了銷售代表的滿意度。

  6. 優(yōu)化媒體。NBC環(huán)球公司存儲(chǔ)了幾百TB分配到國際有線電視的媒體文件。對(duì)這些在線資源的有效管理對(duì)互聯(lián)網(wǎng)客戶的分配支持是非常必要的。這家公司使用了機(jī)器學(xué)習(xí),基于多參數(shù)的組合來預(yù)測每個(gè)項(xiàng)目的未來需求。基于這樣的預(yù)測,這家公司將預(yù)測需求較低的媒體文件移入低成本的離線存儲(chǔ)。機(jī)器學(xué)習(xí)帶來的預(yù)測比基于單參數(shù)(例如文件年齡)的隨機(jī)規(guī)則更加高效。結(jié)果,NBC環(huán)球在保持客戶滿意度的情況下,降低了總體存儲(chǔ)成本。

  7. 改善醫(yī)療保障服務(wù)。對(duì)醫(yī)院來說,病人再次入院是一個(gè)嚴(yán)重的問題,這不僅會(huì)影響病人的健康和福利。如果一家醫(yī)院的再入院率高,將面臨美國聯(lián)邦醫(yī)療保險(xiǎn)和私人保險(xiǎn)公司的處罰,所以考慮到經(jīng)濟(jì)利益,醫(yī)院通常只會(huì)允許那些恢復(fù)得很好、看起來會(huì)保持健康的病人出院。卡羅萊納州醫(yī)療系統(tǒng) (CHS)使用機(jī)器學(xué)習(xí),對(duì)病人的風(fēng)險(xiǎn)進(jìn)行打分,幫助病例管理員決定某個(gè)病人是否應(yīng)該出院。這個(gè)系統(tǒng)提升了護(hù)士和病例管理員的效率,并根據(jù)風(fēng)險(xiǎn)和病癥的復(fù)雜性對(duì)病人進(jìn)行排序。結(jié)果,CHS的再入院率從21%降到了14%。

機(jī)器學(xué)習(xí)的軟件要求

適合機(jī)器學(xué)習(xí)的軟件隨處可見,機(jī)構(gòu)在開發(fā)功能時(shí)有許多選擇,以下是評(píng)估機(jī)器學(xué)習(xí)時(shí)應(yīng)該考慮的需求:

  • 速度

  • 實(shí)現(xiàn)價(jià)值的時(shí)間

  • 模型準(zhǔn)確性

  • 集成簡便

  • 靈活部署

  • 可用性

  • 可視化

讓我們分別來看一看:

  • 速度。時(shí)間就是金錢,運(yùn)算快速的軟件能夠使你高薪雇用的數(shù)據(jù)科學(xué)更具生產(chǎn)力。實(shí)踐中的數(shù)據(jù)科學(xué)往往需要不斷實(shí)驗(yàn)和迭代,一個(gè)項(xiàng)目可能數(shù)百次測試,運(yùn)算速度上的微小改善可能就會(huì)顯著的提升效率。考慮到每天的數(shù)據(jù)量,高性能的機(jī)器學(xué)習(xí)軟件必須在分布式平臺(tái)上運(yùn)行,這樣你就可以就工作量分散在多臺(tái)服務(wù)器上。

  • 實(shí)現(xiàn)價(jià)值的時(shí)間。執(zhí)行期的表現(xiàn)只是「實(shí)現(xiàn)價(jià)值的時(shí)間」中的一部分。公司生意的度量標(biāo)準(zhǔn)應(yīng)該是整個(gè)項(xiàng)目的完成時(shí)間,從數(shù)據(jù)獲取到部署完成。在現(xiàn)實(shí)情況下,這意味著你的機(jī)器學(xué)習(xí)軟件應(yīng)該將Hadoop和云格式整合起來,并且應(yīng)該輸出的預(yù)測模型的代碼能夠被部署在公司的任何其他地方。

  • 模型準(zhǔn)確性。準(zhǔn)確性關(guān)系重大,尤其是設(shè)計(jì)到高風(fēng)險(xiǎn)行業(yè)。例如交易中的欺詐監(jiān)測,在準(zhǔn)確性上提高一點(diǎn)就能每年節(jié)省數(shù)百萬美元。你的機(jī)器學(xué)習(xí)軟件應(yīng)該給予數(shù)據(jù)科學(xué)家充分授權(quán),讓他們可以使用公司的所有數(shù)據(jù),而不是只讓他們處理某些樣本。

  • 集成簡便。你的機(jī)器學(xué)習(xí)軟件應(yīng)該與你生產(chǎn)過程中復(fù)雜的大數(shù)據(jù)軟件共存。理想化的機(jī)器學(xué)習(xí)軟件應(yīng)該是運(yùn)行在日常硬件上,而不需要專門的高性能計(jì)算設(shè)備,也不需要GPU芯片等外加設(shè)備。

  • 靈活部署。你的機(jī)器學(xué)習(xí)軟件應(yīng)該在一定范圍內(nèi)提供多種部署選擇,包括Hadoop上的主機(jī)托管或者獨(dú)立的計(jì)算機(jī)集群。如果云服務(wù)是公司架構(gòu)中的一部分,務(wù)必要尋找那些能夠運(yùn)行在多種云平臺(tái)的軟件,包括AWS、微軟Azure和谷歌云平臺(tái)。

  • 可用性。數(shù)據(jù)科學(xué)家會(huì)使用不同的軟件工作來進(jìn)行工作,包括R、Python、Scala等分析語言。你的機(jī)器學(xué)習(xí)平臺(tái)應(yīng)該可以非常簡便的將這些工具集成起來。另外,精心設(shè)計(jì)的機(jī)器學(xué)習(xí)算法應(yīng)該包含以下幾種省時(shí)功能:1)處理缺失數(shù)據(jù)的能力;2)轉(zhuǎn)化分類數(shù)據(jù)的能力;3)管理復(fù)雜性的規(guī)則化技術(shù);4)適用于測試及學(xué)習(xí)自動(dòng)化的網(wǎng)格搜索能力;5)自動(dòng)化的交叉驗(yàn)證。

  • 可視化。成功的預(yù)測模型需要數(shù)據(jù)科學(xué)家和商業(yè)用戶進(jìn)行合作,因此,你的機(jī)器學(xué)習(xí)軟件應(yīng)該為你的商業(yè)用戶提供相應(yīng)的工具,便于他們對(duì)預(yù)測模型的特性和各類特征進(jìn)行可視化評(píng)估。

許多開發(fā)者相信,機(jī)器學(xué)習(xí)將變得像搜索引擎一樣無處不在和使用簡便。在搜索引擎方面,谷歌、雅虎等公司向普通用戶釋放了Web的力量,讓他們能在浩如煙秒的網(wǎng)頁中找到自己想要的信息。同樣的,機(jī)器學(xué)習(xí)也能幫助各種各樣的企業(yè)利用現(xiàn)代化的數(shù)據(jù)集獲取有價(jià)值的洞察。目前,我們還未做到這一點(diǎn)。要達(dá)到理想的未來,還需要更多的投入——不僅來自機(jī)器學(xué)習(xí)開發(fā)者,還來自那些數(shù)據(jù)量和分析需求早已超出傳統(tǒng)方法處理范疇的商業(yè)用戶。

©本文由機(jī)器之心原創(chuàng)編譯,轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)

?------------------------------------------------

加入機(jī)器之心(全職記者/實(shí)習(xí)生):hr@almosthuman.cn

投稿或?qū)で髨?bào)道:editor@almosthuman.cn

廣告&商務(wù)合作:bd@almosthuman.cn
閱讀記錄:read twice