青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

chenglong7997

hadoop

如今Apache Hadoop已成為大數據行業發展背后的驅動力。Hive和Pig等技術也經常被提到,但是他們都有什么功能,為什么會需要奇怪的名字(如Oozie,ZooKeeper、Flume)。

Hadoop帶來了廉價的處理大數據(大數據的數據容量通常是10-100GB或更多,同時數據種類多種多樣,包括結構化、非結構化等)的能力。但這與之前有什么不同?

現今企業數據倉庫和關系型數據庫擅長處理結構化數據,并且可以存儲大量的數據。但成本上有些昂貴。這種對數據的要求限制了可處理的數據種類,同時這種慣性所帶的缺點還影響到數據倉庫在面對海量異構數據時對于敏捷的探索。這通常意味著有價值的數據源在組織內從未被挖掘。這就是Hadoop與傳統數據處理方式最大的不同。

本文就重點探討了Hadoop系統的組成部分,并解釋各個組成部分的功能。

MapReduce——Hadoop的核心

Google的網絡搜索引擎在得益于算法發揮作用的同時,MapReduce在后臺發揮了極大的作用。MapReduce框架成為當今大數據處理背后的最具影響力的“發動機”。除了Hadoop,你還會在MapReduce上發現MPP(Sybase IQ推出了列示數據庫)和NoSQL(如Vertica和MongoDB)。

MapReduce的重要創新是當處理一個大數據集查詢時會將其任務分解并在運行的多個節點中處理。當數據量很大時就無法在一臺服務器上解決問題,此時分布式計算優勢就體現出來。將這種技術與Linux服務器結合可獲得性價比極高的替代大規模計算陣列的方法。Yahoo在2006年看到了Hadoop未來的潛力,并邀請Hadoop創始人Doug Cutting著手發展Hadoop技術,在2008年Hadoop已經形成一定的規模。Hadoop項目再從初期發展的成熟的過程中同時吸納了一些其他的組件,以便進一步提高自身的易用性和功能。

HDFS和MapReduce

以上我們討論了MapReduce將任務分發到多個服務器上處理大數據的能力。而對于分布式計算,每個服務器必須具備對數據的訪問能力,這就是HDFS(Hadoop Distributed File System)所起到的作用。

HDFS與MapReduce的結合是強大的。在處理大數據的過程中,當Hadoop集群中的服務器出現錯誤時,整個計算過程并不會終止。同時HFDS可保障在整個集群中發生故障錯誤時的數據冗余。當計算完成時將結果寫入HFDS的一個節點之中。HDFS對存儲的數據格式并無苛刻的要求,數據可以是非結構化或其它類別。相反關系數據庫在存儲數據之前需要將數據結構化并定義架構。

開發人員編寫代碼責任是使數據有意義。Hadoop MapReduce級的編程利用Java APIs,并可手動加載數據文件到HDFS之中。

Pig和Hive

對于開發人員,直接使用Java APIs可能是乏味或容易出錯的,同時也限制了Java程序員在Hadoop上編程的運用靈活性。于是Hadoop提供了兩個解決方案,使得Hadoop編程變得更加容易。

•Pig是一種編程語言,它簡化了Hadoop常見的工作任務。Pig可加載數據、表達轉換數據以及存儲最終結果。Pig內置的操作使得半結構化數據變得有意義(如日志文件)。同時Pig可擴展使用Java中添加的自定義數據類型并支持數據轉換。

•Hive在Hadoop中扮演數據倉庫的角色。Hive添加數據的結構在HDFS(hive superimposes structure on data in HDFS),并允許使用類似于SQL語法進行數據查詢。與Pig一樣,Hive的核心功能是可擴展的。

Pig和Hive總是令人困惑的。Hive更適合于數據倉庫的任務,Hive主要用于靜態的結構以及需要經常分析的工作。Hive與SQL相似促使其成為Hadoop與其他BI工具結合的理想交集。Pig賦予開發人員在大數據集領域更多的靈活性,并允許開發簡潔的腳本用于轉換數據流以便嵌入到較大的應用程序。Pig相比Hive相對輕量,它主要的優勢是相比于直接使用Hadoop Java APIs可大幅削減代碼量。正因為如此,Pig仍然是吸引大量的軟件開發人員。

改善數據訪問:HBase、Sqoop以及Flume

Hadoop核心還是一套批處理系統,數據加載進HDFS、處理然后檢索。對于計算這或多或少有些倒退,但通常互動和隨機存取數據是有必要的。HBase作為面向列的數據庫運行在HDFS之上。HBase以Google BigTable為藍本。項目的目標就是快速在主機內數十億行數據中定位所需的數據并訪問它。HBase利用MapReduce來處理內部的海量數據。同時Hive和Pig都可以與HBase組合使用,Hive和Pig還為HBase提供了高層語言支持,使得在HBase上進行數據統計處理變的非常簡單。

但為了授權隨機存儲數據,HBase也做出了一些限制:例如Hive與HBase的性能比原生在HDFS之上的Hive要慢4-5倍。同時HBase大約可存儲PB級的數據,與之相比HDFS的容量限制達到30PB。HBase不適合用于ad-hoc分析,HBase更適合整合大數據作為大型應用的一部分,包括日志、計算以及時間序列數據。

獲取數據與輸出數據

Sqoop和Flume可改進數據的互操作性和其余部分。Sqoop功能主要是從關系數據庫導入數據到Hadoop,并可直接導入到HFDS或Hive。而Flume設計旨在直接將流數據或日志數據導入HDFS。

Hive具備的友好SQL查詢是與繁多數據庫的理想結合點,數據庫工具通過JDBC或ODBC數據庫驅動程序連接。

負責協調工作流程的ZooKeeper和Oozie

隨著越來越多的項目加入Hadoop大家庭并成為集群系統運作的一部分,大數據處理系統需要負責協調工作的的成員。隨著計算節點的增多,集群成員需要彼此同步并了解去哪里訪問服務和如何配置,ZooKeeper正是為此而生的。

而在Hadoop執行的任務有時候需要將多個Map/Reduce作業連接到一起,它們之間或許批次依賴。Oozie組件提供管理工作流程和依賴的功能,并無需開發人員編寫定制的解決方案。

Ambari是最新加入Hadoop的項目,Ambari項目旨在將監控和管理等核心功能加入Hadoop項目。Ambari可幫助系統管理員部署和配置Hadoop,升級集群以及監控服務。還可通過API集成與其他的系統管理工具。

Apache Whirr是一套運行于云服務的類庫(包括Hadoop),可提供高度的互補性。Whirr現今相對中立,當前支持Amazon EC2和Rackspace服務。

機器學習:Mahout 

各類組織需求的不同導致相關的數據形形色色,對這些數據的分析也需要多樣化的方法。Mahout提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。Mahout包含許多實現,包括集群、分類、推薦過濾、頻繁子項挖掘。

使用Hadoop

通常情況下,Hadoop應用于分布式環境。就像之前Linux的狀況一樣,廠商集成和測試Apache Hadoop生態系統的組件,并添加自己的工具和管理功能。(李智/編譯)

posted on 2012-04-09 01:49 Snape 閱讀(382) 評論(0)  編輯 收藏 引用 所屬分類: distributed system

導航

<2025年9月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

統計

常用鏈接

留言簿

隨筆分類

隨筆檔案

文章分類

文章檔案

my

搜索

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美成人一区二区三区在线观看 | 亚洲一级黄色av| 蜜桃av一区| 久久嫩草精品久久久精品| 国产自产女人91一区在线观看| 午夜精品理论片| 久久久久久香蕉网| 一区二区三区视频在线看| 欧美三级午夜理伦三级中文幕| 一区二区动漫| 亚洲欧美欧美一区二区三区| 国产一区二区三区日韩| 欧美国产精品va在线观看| 欧美本精品男人aⅴ天堂| 亚洲欧美三级伦理| 亚洲国产欧美国产综合一区| 亚洲精品国产品国语在线app| 欧美电影打屁股sp| 欧美亚洲一区三区| 欧美理论电影在线播放| 久久久久久网| 国产女人aaa级久久久级| 亚洲国产精品精华液2区45| 国产一区二区三区高清在线观看 | 亚洲精品1区| 在线观看视频一区二区欧美日韩| 日韩视频二区| 日韩特黄影片| 国产日韩一区二区三区在线| 你懂的视频欧美| 好吊色欧美一区二区三区四区 | 久久在线免费视频| 久久精品视频免费| 国产一区在线看| 国产精品视频午夜| 欧美成人免费大片| 日韩视频免费观看| 欧美精品v日韩精品v韩国精品v| 欧美成人精品在线播放| 在线观看视频一区二区| 欧美a级大片| 91久久夜色精品国产网站| 99精品国产在热久久婷婷| 亚洲人成欧美中文字幕| 亚洲高清视频一区二区| 欧美午夜在线观看| 欧美va亚洲va国产综合| 9色精品在线| 国产精品影院在线观看| 免费永久网站黄欧美| 久久久精品免费视频| 亚洲经典三级| 亚洲高清在线观看| 亚洲午夜一二三区视频| 国产在线乱码一区二区三区| 老司机成人在线视频| 亚洲一区二区三区在线观看视频| 久久久久综合网| 一区二区三区日韩欧美精品| 国产一区激情| 国产精品v欧美精品v日本精品动漫| 一区二区三区欧美激情| 亚洲高清av| 免费不卡视频| 久久狠狠久久综合桃花| 亚洲午夜三级在线| 亚洲精品日韩在线| 亚洲黄色在线视频| 激情五月综合色婷婷一区二区| 国产精品久久777777毛茸茸| 欧美激情视频一区二区三区免费 | 久久久久久久精| 亚洲欧美日韩国产一区二区三区| 日韩视频―中文字幕| 日韩午夜精品视频| 99视频一区二区| 亚洲色无码播放| 小黄鸭精品aⅴ导航网站入口| 亚洲一区二区三区视频| 亚洲欧美日韩另类| 久久精品女人| 欧美大片免费观看| 欧美午夜不卡视频| 国产一区二区三区自拍| 亚洲黄色在线看| 亚洲免费影视第一页| 久久丁香综合五月国产三级网站| 欧美亚洲免费电影| 国产精品久久久久久久久果冻传媒| 性色av香蕉一区二区| av成人免费在线观看| 欧美怡红院视频| 欧美电影在线| 国产婷婷97碰碰久久人人蜜臀| 国产在线观看91精品一区| 亚洲国产精品久久91精品| 一区二区三区欧美成人| 久久手机免费观看| 亚洲在线观看免费视频| 欧美激情 亚洲a∨综合| 精品91久久久久| 欧美一区二区三区的| 免费日韩精品中文字幕视频在线| 99在线热播精品免费| 久久久视频精品| 国产综合色产在线精品| 亚洲综合电影一区二区三区| 欧美国产精品| 久久一区国产| 在线观看国产一区二区| 久久精品中文字幕一区二区三区| av成人国产| 欧美体内she精视频| 在线亚洲精品| 亚洲视频一区二区在线观看| 欧美日韩一区三区| 亚洲欧美另类在线观看| 亚洲精品乱码久久久久久| 欧美激情第4页| 亚洲一区二区三区在线看| 一本一道久久综合狠狠老精东影业| 欧美激情一区在线观看| 一区二区欧美激情| 午夜老司机精品| 狠狠入ady亚洲精品| 亚洲高清在线观看一区| 欧美天天综合网| 牛牛影视久久网| 欧美另类高清视频在线| 午夜精品久久久久久久久久久久久 | 久久精品91久久香蕉加勒比 | 久久精品视频在线观看| 久久久久久久网| 亚洲免费在线视频| 日韩一级片网址| 久久国产色av| 中文亚洲免费| 中文国产成人精品| 国产一区二区三区四区在线观看| 欧美成人中文字幕在线| 国产网站欧美日韩免费精品在线观看| 欧美成年人视频网站欧美| 国产乱码精品一区二区三区五月婷| 另类欧美日韩国产在线| 国产精品夜色7777狼人 | 一区二区三区四区蜜桃| 亚洲国产成人午夜在线一区| 久久精品亚洲乱码伦伦中文| 欧美专区在线播放| 国产视频精品网| 欧美一区精品| 男人的天堂亚洲| 亚洲二区三区四区| 欧美精品久久一区二区| 亚洲国产日韩在线| 99热这里只有精品8| 欧美日韩一本到| 一个色综合av| 欧美在线亚洲一区| 激情综合久久| 欧美日韩视频在线观看一区二区三区 | 久久九九久久九九| 亚洲国产精品久久精品怡红院| 你懂的网址国产 欧美| 一区二区三区四区在线| 欧美专区福利在线| 亚洲老板91色精品久久| 国产精品日韩精品| 久久精品一区二区三区四区| 亚洲国产三级网| 久久久久国产精品人| 亚洲作爱视频| 精品99一区二区| 国产精品久久久久久久久借妻| 久久久水蜜桃av免费网站| 亚洲天堂av图片| 亚洲国产美女| 久久中文欧美| 久久黄色网页| 亚洲午夜免费福利视频| 91久久久亚洲精品| 永久免费视频成人| 国产一区二区久久| 国产日韩欧美在线播放| 欧美日韩在线精品| 欧美日韩高清一区| 欧美精品自拍| 欧美精品在线网站| 欧美日产一区二区三区在线观看| 另类图片综合电影| 亚洲欧洲视频在线| 欧美不卡高清| 欧美高清视频在线| 亚洲国产精品久久久久秋霞不卡| 久久夜色精品国产欧美乱| 久热精品视频在线免费观看| 久久亚洲国产精品日日av夜夜| 午夜精品一区二区三区在线播放| 亚洲一区二区视频| 亚洲天堂第二页|