http://read.haosou.com/article/?id=a13a234da860a2902a8c5629e79c438f
來自infoworld
機器之心編譯出品
編譯:汪汪,趙云峰
你可能聽說過谷歌和Facebook這樣的公司如何利用機器學習來開車、識別語音和分類圖片。你可能會想,這很酷。但這和你的工作有什么關系呢?好吧,來看看這些公司如何使用機器學習吧。
-
一家支付處理公司在幾十億次交易中,實時檢測到了欺詐行為,每月減少損失達100萬美元。
-
一家汽車保險公司用詳細的地理空間數據,預測保險索賠的損失,讓他們能夠對極端天氣對生意的影響進行建模。
-
有了車載通信技術提供的數據,一家廠商發現了運營指標的規律,并用它們來驅動前瞻性主動維護業務。
這些成功的故事中有兩個相同的主題。首先,每個應用都基于大數據——極大數量的、格式不同的快速數據。第二,每個案例中,機器學習都揭示出了新的洞察,并驅動了價值的增長。
機器學習的技術基礎已有超過50年歷史了,但是直到最近,學術界之外的人才注意到它的能力。機器學習需要大量的計算能力,但早期的使用者們缺乏成本劃算的基礎設施。
近期,機器學習引起了許多人的興趣,逐漸活躍起來,這歸功于一些正在融合的趨勢。
總的來說,大數據帶來的颶風創造了許多無法用傳統統計學方法解決的分析問題。需要是發明之母。舊的分析方法已經不適用于今天的商業環境。
機器學習技術
目前,世界上共有幾百種不同的機器學習算法。最近,僅在分類方面,有一篇論文就測試了超過150個算法。這個概覽覆蓋了數據科學家用來驅動價值的關鍵技術。
數據科學家將機器學習分為監督式學習和非監督式學習。監督式學習技術需要結果的先驗知識。例如,如果我們正在研究一個市場活動的歷史數據,我們可以根據市場是否產生預期的反應來對數據進行分類,或決定下一步要花多少錢。監督式學習技術為預測和分類提供了強大的工具。
然而,經常會出現的情況是,我們并不知道一個事件「最終」的結果。例如,在某些欺詐的案例中,只有當事情發生很久以后,我們才可能知道某次交易是不是欺詐。在這種情況下,與其試圖預測哪些交易是欺詐,我們不如使用機器學習來識別那些可疑的交易,并做出標記,以備后續觀察。但我們對某種特定的結果缺乏先驗知識、但仍希望從數據中汲取有用的洞察時,就要用到無監督式學習。
使用最廣泛的監督式學習技術包括以下這些:
-
廣義線性模型(GLM,Generalized linear models):這是線性回歸的一種高級形式,支持不同的概率分布和 聯系函數,能讓分析師更有效地對數據進行建模。GLM用格點搜索進行加強,是經典統計學和最先進的機器學習的混血產物。
-
決策樹:這是一種監督式學習模型,能夠學習一組將總體逐步劃分為若干小片段的規則。這些小片段對目標變量來說是同質的。
-
隨機森林:一種流行的集成學習方法,可以訓練許多決策樹,然后將這些決策樹進行平均,做出預測。這個平均的過程產生了一個更一般的解,過濾掉了數據中的隨機噪聲。
-
梯度提升機器(GBM,Gradient boosting machine):這種方法通過訓練一系列決策樹來產生一個預測模型,在其中,后序決策樹會校正前序決策樹所產生的預測誤差。
-
深度學習:這種方法能用復雜多層網絡的形式對數據中的高級模式進行建模。由于深度學習是對問題建模來說最一般的方法,因此有潛力解決機器學習中最具有挑戰性的問題。
無監督式學習的關鍵技術包括以下這些:
-
聚類:一種將物體分成小類的技術。這些類別在許多度量上彼此相似。顧客細分就是聚類的一個實際例子。現在有許多不同的聚類算法,應用最廣泛的是k-均值算法。
-
異常檢測:這是一種識別意外事件或結果的過程。在安全和防欺詐領域,不可能對每一次交易都進行調查;我們需要系統對那些最可疑的交易做出標記。我們之前在監督式學習部分討論過的深度學習,也可以用來進行異常檢測。
-
維數縮減:這個過程可以減少納入考慮的變量數量。隨著企業和組織獲取的數據量越來越多,可能的預測因子(或特征)迅速增長。想要識別數據對某一特定問題提供了什么有價值的信息是一件很重要的工作。主成分分析(PCA)會對一組原始特征進行評估,并將它們減少為彼此獨立的索引。
在機器學習中,某些技術總是比其他的技術表現好,但對某一個特定的問題來說,很難說哪一個技術是最好的。這樣,大多數數據科學家更喜歡嘗試多種技術,并從中選擇最好的模型。由于這個原因,高性能就顯得非常必要,因為它可以讓數據科學家在更少的時間內嘗試更多的選項。
機器學習實戰
在工業和商業領域,企業們都在使用機器學習來提升收入和降低成本,因為在許多任務上它們比人類更加高效。下面就是7個例子,證明機器學習的多功能性和廣泛的適用性。
-
預防欺詐:PayPal是在線支付產業的龍頭老大,每年擁有超過1.5億活躍的電子錢包用戶,支付額超過2000億美元。在這個體量下,即使是小比率的欺詐也會帶來極大的損失。在過去,這家公司在欺詐行為上的損失曾達到每月1000萬美元。為了解決這個問題,PayPal建立了一個由頂尖研究者組成的團隊,他們使用最先進的機器學習技術構建了一個能實時識別欺詐性交易的模型。
-
選擇電子廣告的目標客戶。廣告科技公司Dstillery用機器學習來幫助Verizon和Williams-Sonoma這樣的公司在實時競價平臺上定位電子廣告的目標。Dstillery使用了用戶的瀏覽歷史、訪問、點擊和購買信息,能在每秒內做出幾千次預測,同時處理幾百個廣告活動。這樣,這家公司在廣告定位上的表現極大地超過了人類市場分析人員,優化了每美元所帶來的市場影響。
-
內容推薦。Comcast公司基于每個交互式電視服務的顧客的歷史觀看習慣,提供了個性化的實時內容推薦。Comcast用機器學習技術分析了幾十億個歷史記錄,對每一個顧客做出了獨特的品味描述,然后將顧客的品味分成不同的類別。對每一類顧客,Comcast都能實時跟蹤和顯示最流行的內容,這樣顧客就能看到目前正在火爆的潮流。最后的結果就是:更好的推薦系統,更高的利用率,更滿意的顧客。
-
建造更好的汽車。捷豹路虎生產的新汽車上裝有60個機載計算機,每天在2萬個參數上產生1.5GB的數據。這家公司的工程師利用機器學習來提取數據并理解顧客如何與汽車互動。有了這些真實的使用數據,設計師就能預測零件失效和潛在的安全問題,有助于他們設計車況更好的汽車。
-
瞄準最好的潛在市場。市場人員用「購買傾向」模型作為工具來決定最好的潛在銷售市場,并提供最好的產品。思科的產品系列很多,從路由器到有線電視盒子,應有盡有。它的市場分析團隊在幾小時內訓練了6萬個模型,對1.6億個潛在市場進行了打分。他們使用了一系列的技術(例如決策樹和梯度提升機器),極大提升了模型的精確度。這些模型提升了銷售量,減少了無用的銷售電話,也提升了銷售代表的滿意度。
-
優化媒體。NBC環球公司存儲了幾百TB分配到國際有線電視的媒體文件。對這些在線資源的有效管理對互聯網客戶的分配支持是非常必要的。這家公司使用了機器學習,基于多參數的組合來預測每個項目的未來需求。基于這樣的預測,這家公司將預測需求較低的媒體文件移入低成本的離線存儲。機器學習帶來的預測比基于單參數(例如文件年齡)的隨機規則更加高效。結果,NBC環球在保持客戶滿意度的情況下,降低了總體存儲成本。
-
改善醫療保障服務。對醫院來說,病人再次入院是一個嚴重的問題,這不僅會影響病人的健康和福利。如果一家醫院的再入院率高,將面臨美國聯邦醫療保險和私人保險公司的處罰,所以考慮到經濟利益,醫院通常只會允許那些恢復得很好、看起來會保持健康的病人出院。卡羅萊納州醫療系統 (CHS)使用機器學習,對病人的風險進行打分,幫助病例管理員決定某個病人是否應該出院。這個系統提升了護士和病例管理員的效率,并根據風險和病癥的復雜性對病人進行排序。結果,CHS的再入院率從21%降到了14%。
機器學習的軟件要求
適合機器學習的軟件隨處可見,機構在開發功能時有許多選擇,以下是評估機器學習時應該考慮的需求:
-
速度
-
實現價值的時間
-
模型準確性
-
集成簡便
-
靈活部署
-
可用性
-
可視化
讓我們分別來看一看:
-
速度。時間就是金錢,運算快速的軟件能夠使你高薪雇用的數據科學更具生產力。實踐中的數據科學往往需要不斷實驗和迭代,一個項目可能數百次測試,運算速度上的微小改善可能就會顯著的提升效率。考慮到每天的數據量,高性能的機器學習軟件必須在分布式平臺上運行,這樣你就可以就工作量分散在多臺服務器上。
-
實現價值的時間。執行期的表現只是「實現價值的時間」中的一部分。公司生意的度量標準應該是整個項目的完成時間,從數據獲取到部署完成。在現實情況下,這意味著你的機器學習軟件應該將Hadoop和云格式整合起來,并且應該輸出的預測模型的代碼能夠被部署在公司的任何其他地方。
-
模型準確性。準確性關系重大,尤其是設計到高風險行業。例如交易中的欺詐監測,在準確性上提高一點就能每年節省數百萬美元。你的機器學習軟件應該給予數據科學家充分授權,讓他們可以使用公司的所有數據,而不是只讓他們處理某些樣本。
-
集成簡便。你的機器學習軟件應該與你生產過程中復雜的大數據軟件共存。理想化的機器學習軟件應該是運行在日常硬件上,而不需要專門的高性能計算設備,也不需要GPU芯片等外加設備。
-
靈活部署。你的機器學習軟件應該在一定范圍內提供多種部署選擇,包括Hadoop上的主機托管或者獨立的計算機集群。如果云服務是公司架構中的一部分,務必要尋找那些能夠運行在多種云平臺的軟件,包括AWS、微軟Azure和谷歌云平臺。
-
可用性。數據科學家會使用不同的軟件工作來進行工作,包括R、Python、Scala等分析語言。你的機器學習平臺應該可以非常簡便的將這些工具集成起來。另外,精心設計的機器學習算法應該包含以下幾種省時功能:1)處理缺失數據的能力;2)轉化分類數據的能力;3)管理復雜性的規則化技術;4)適用于測試及學習自動化的網格搜索能力;5)自動化的交叉驗證。
-
可視化。成功的預測模型需要數據科學家和商業用戶進行合作,因此,你的機器學習軟件應該為你的商業用戶提供相應的工具,便于他們對預測模型的特性和各類特征進行可視化評估。
許多開發者相信,機器學習將變得像搜索引擎一樣無處不在和使用簡便。在搜索引擎方面,谷歌、雅虎等公司向普通用戶釋放了Web的力量,讓他們能在浩如煙秒的網頁中找到自己想要的信息。同樣的,機器學習也能幫助各種各樣的企業利用現代化的數據集獲取有價值的洞察。目前,我們還未做到這一點。要達到理想的未來,還需要更多的投入——不僅來自機器學習開發者,還來自那些數據量和分析需求早已超出傳統方法處理范疇的商業用戶。
©本文由機器之心原創編譯,轉載請聯系本公眾號獲得授權。
?------------------------------------------------
加入機器之心(全職記者/實習生):hr@almosthuman.cn
投稿或尋求報道:editor@almosthuman.cn
廣告&商務合作:bd@almosthuman.cn
閱讀記錄:read twice