
由于具備低成本和前所未有的高擴展性,Hadoop已被公認為是新一代的大數據處理平臺。就像30年前SQL(Structured Query Language)出現一樣,Hadoop正帶來了新一輪的數據革命。如今Hadoop已從初出茅廬的小象變成了行業的巨人,但Hadoop仍需繼續完善。
基于Java語言構建的Hadoop框架實際上一種分布式處理大數據平臺,其包括軟件和眾多子項目。在近十年中Hadoop已成為大數據革命的中心。MapReduce作為Hadoop的核心是一種處理大型及超大型數據集(TB級別的數據。包括網絡點擊產生的流數據、日志文件、社交網絡等所帶來的數據)并生成相關的執行的編程模型。其主要思想是從函數式編程語言借鑒而來的,同時也包含了從矢量編程語言借鑒的特性。
互聯網巨頭Yahoo!作為Hadoop框架的先驅研究者,在6年時間已經將Hadoop塑造成了極為成功的技術。但相比于SQL,Hadoop在某些方面仍然顯得不夠完善。這直接導致現今所有目光都集中在Hadoop供應商的身上。包括Amazon、Cloudera等公司帶來眾多的創新并提供強大的工具。Cloudera推出的CHD3包含眾多的附加軟件,可以幫助管理、運行Hadoop上的復雜任務,例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr等。同時Cloudera也是目前最大的提供企業Hadoop技術支持和培訓的廠商。而Amazon是較早在公共云中運行Hadoop的公司,其提供的基于MapReduce的彈性計算可提供海量的數據計算服務。

但數據處理只是大數據處理的一部分,組織最終想要得到的是經過分析后的有價值的數據。商業智能和數據分析廠商如Datameer、Hadapt以及Karmasphere就顯的不可或缺。
Hadoop在2011年證明自身的價值,最明顯的跡象就是五大數據庫管理軟件供應商EMC、IBM、Informatica、Microsoft以及Oracle都投入了Hadoop的懷抱。EMC與MapR展開合作,而Microsoft和Oracle則分別與Hortonworks和Cloudera展開了合作。而EMC和Oracle已經推出了Hadoop專有設備。下面就讓我們來看一下Hadoop在大數據領域都俘虜了那些公司的心。
Amazon基于MapReduce的服務

Amazon早在2009年就推出了基于Hadoop MapReduce的EC2(Elastic Compute Cloud)服務。因此Amazon在應對用戶應用和需求上顯得胸有成竹。無論是中小型企業還是超大型的組織,基于MapReduce的EC2服務都經受住了考驗。同時AWS(Amazon Web Service)還包括Amazon S3(Simple storage Service)。Amazon S3可提供高伸縮性、靠可靠性、高可用性以及極低的存儲成本。利用AWS可高效的處理數據密集型的任務,如Web索引、數據挖掘、日志文件分析、機器學習以及科技和生物信息的學術研究。
Cloudera提供安全的Hadoop平臺

Cloudera也是比較早的大規模Hadoop軟件和服務提供商。Cloudera一直專注于將開源的Apache Hadoop完善成可靠的平臺。Cloudera目前擁有100多家客戶,并且在本月還與Oracle展開合作,共同進軍大數據領域。
在Cloudera提供了用于管理大數據的管理控制臺和負責管理Hadoop部署的工具以及企業級的支持。Cloudera的管理工具提供基于向導式的Hadoop安裝和配置菜單。同時提供相應的工具,以幫助系統管理員監控平臺的健康狀況、診斷問題、優化性能,并進行所需的配置和安全變更。而Cloudera的企業級支持與服務包括配置檢查、升級和與第三方系統集成以及其他技術資源。現今Cloudera管理軟件現在的價格是每節點每年4000美元(不包括硬件)。
Datameer將大數據與商業智能有機結合

Datameer宣稱其公司基于Hadoop平臺的產品方案DAS(Datameer Analytics Solution)非常適用于商業智能(BI)。Datameer可通過JDBC、Hive、Http連接任何的數據源。同時包括一個向導驅動集成平臺,可安排負載并從任何結構化、半結構化和非結構化的大數據集。Datameer的大數據分析解決方案通過表格接口整合Hadoop的數據挖掘能力。并通過REST API在私有云和公共云中輸入和輸出數據。
EMC的統一數據分析平臺

EMC推出用于支持大數據分析的平臺――EMC Greenplum統一分析平臺(UAP)。Greenplum UAP是一個唯一的統一數據分析平臺,可擴展至其他工具,其獨特之處在于,它將對大數據的認知和分享貫穿整個分析過程,實現比以往更高的商業價值。UAP包括EMC Greenplum 關系數據庫、EMC Greenplum HD Hadoop以及EMC Greenplum Chorus。UAP就好比一個數據分析團隊,包括了從數據科學家和BI分析師到DBA和在線商業用戶和管理者。EMC針對硬件設備DCA(Data Computing Appliance),其足以運行EMC Greenplum 關系數據庫和EMC Greenplum HD節點。DCA提供控制管理界面,方便管理人員監視、管理Greenplum數據庫和Hadoop系統性能。
Hadapt與Hadoop環境無縫集成

Hive作為運行在Hadoop上的數據倉庫組件并不像Hadoop那樣受人關注。而Hadapt則提供集眾多功能于一身的數據分析環境,旨在處理存在于Hadoop和SQL環境中傳統結構化的數據。Hadapt平臺可運行在私有云和公共云之上,并提供從一個環境訪問數據的能力。包括現有基于SQL的工具以及MapReduce處理和大數據分析。Hadapt自動分開執行Hadoop和關系數據庫之間的查詢,處分利用了Hadoop的高擴展性和關系數據庫的高速性。
Hortonworks繼承Yahoo! Hadoop衣缽

Yahoo!在去年剝離了Hadoop業務,并與硅谷風投公司Benchmark Capital合資組建一家名為Hortonworks的公司。新公司包含在Yahoo!貢獻最大的50名工程師,旨在繼續推動Hadoop的發展。Hortonworks高管斷言這支以Yahoo!開發團隊為班底的公司將會貢獻更多的Hadoop代碼,并指引Hadoop平臺未來的發展。Hortonworks已在去年10月與微軟成為合作伙伴關系。Hortonworks可幫助Microsoft推出Windows平臺之上的Hadoop。Hortonworks在去年11月也推出了自由的HDP(Hortonworks Data Platform)V1,而結合了最新0.23版Hadoop的HDP V2將在2012年第一季度推出。Hortonworks還提供Hadoop的培訓與支持,加強在這方面與Cloudera和MapR的競爭。
IBM的Hadoop之路

IBM在多年以前就開始研究Hadoop。現今IBM提供基于云服務的海量數據分析方面多種方案的選擇,但目前IBM的策略似乎主要是圍繞Hadoop在發展。IBM在4月推出了其SmartCloud云計算平臺。并承諾改善Hadoop工作負載。IBM提供了基于Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights是用于分析和虛擬化海量數據的軟件和服務,這款新產品由 ApacheHadoop 提供技術支持。)基本版和企業版。 InfoSphere BigInsights之前作為IBM測試和開發的云產品,現在被SmartCloud取代。
Informatica 向云更進一步

大多數的數據管理軟件供應商(如IBM、Oracle、Syncsort、Talend)都涉及到Hadoop。Informatica在去年10月也推出了Hadoop環境下的數據編譯轉換解決方案――HParser。
該方案可以運行在幾乎所有的Apache Hadoop分布式環境中,與MapReduce架構平行,能高效率地把無結構的復雜數據――諸如網絡記錄、社交媒體數據、通話詳細記錄以及其他數據格式――轉換為Hadoop中結構或半結構格式。當把數據轉化為更具結構性的格式后,便可以得到更快速的使用和生效,從而驅動業務發展、提高運營效率。
Karmasphere Hadoop數據分析利器

Karmasphere提供了直接訪問Hadoop中結構化和非結構化數據以及進一步分析查詢的特性,同時Karmasphere還提供的可視化工作空間。Karmasphere提供的可視化工具提供了SQL或其他特定查詢語言分析位于Amazon S3、工作流以及本地文件系統上的結構化和非結構數據的特性。企業還可以使用數據庫或相關工具(例如Excel)來提取分析得出的數據。
MapR帶來更高性能的Hadoop

MapR在Hadoop的舞臺上顯得格外耀眼,其提供Hadoop非常獨特。MapR基于開源Hadoop,在只需有限硬件的環境中提供更快的Hadoop。同時Mapr配備了快照,并號稱不會出現SPOF單節點故障,且被認為是與現有HDFS的API兼容。因此非常容易替換原有的系統。MapR最新的0.23版解決許多開源Hadoop的缺陷。而MapR與EMC的合作體現在了EMC Greenplum HD Enterprise Edition上,其就是基于MapR M5構建的。
Microsoft全面擁抱Hadoop

當EMC、IBM、Oracle都在2011年涉及Hadoop時,Microsoft全面擁抱Hadoop的舉動就顯得不足為奇了。而Hadoop的Windows Server將在在2012年推出,屆時其還會與微軟現有的BI工具聯合處理任務。去年微軟表示推出Windows Azure上的Hadoop預覽版,微軟還使Hadoop的數據通過部署在基于云的Windows Azure獲取。并使其能夠與企業的商業智能工具一起分析數據。微軟目前正與Hortonworks合作旨在努力簡化下載、安裝和配置等幾個Hadoop的相關技術。包括HDFS、Hive、Pig。這將有利于企業通過Hadoop拓寬自身的業務。微軟將編寫新的ODBC驅動程序并擴展自己現有的查詢系統到Hive。這樣一來用戶將能夠直接從Excel、PowerView執行Hadoop查詢。
Oracle進軍云計算

Oracle在2011 Oracle全球大會上宣布推出了Oracle Big Data Appliance。Big Data Appliance是一個集成了Hadoop、NoSQL Database、Oracle數據庫Hadoop適配器、Oracle數據庫Hadoop裝載器及R語言的系統。Oracle還在今年1月與Cloudera成為合作伙伴關系。Oracle現已將Cloudera Distribution Including Apache Hadoop(CDH)和Cloudera Manager集成到Oracle大數據機之中。Oracle也將利用Cloudera在Hadoop領域的專業知識提供培訓及咨詢業務。Oracle大數據機中運行了Oracle Linux操作系統,1個機架中包含18個Oracle-Sun服務器,共計216個核心,同時具備864GB的內存和648TB的存儲能力,其售價為45萬美元。(李智/編譯)