• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            大龍的博客

            常用鏈接

            統(tǒng)計

            最新評論

            Hadoop的一些理解及當前的流行應用 --- 轉(zhuǎn)

                想給中小型客戶提供存儲和災備服務,研究一下hadoop。根據(jù)網(wǎng)上的一些文檔,我已經(jīng)成功搭建起了hadoop集群的環(huán)境,一個namenode節(jié)點 三個datanode幾點 搭建好后,通過web也能正常訪問。用wordcount.java上傳數(shù)據(jù)到hdfs中也正常。但是我現(xiàn)在有點迷茫的是,這個已經(jīng)搭建好的hadoop 環(huán)境到底能做些什么?如何使用呢?因為我事先了解的情況時hadoop只是一個底層的架構,要實現(xiàn)我所說的提供存儲和災備服務,是否還要進行二次開發(fā)?

            1、hadoop的強項在于對海量數(shù)據(jù)的分析以及復雜的業(yè)務邏輯的處理。在做到這個工作之前,首先是需要將數(shù)據(jù)上傳到HDFS中。如果你僅僅是只存不分析數(shù)據(jù),我覺得還不如放在本地硬盤或是做一個磁盤陣列存放合適。完全沒必要使用hadoop。
            2、對于容災和抗災,最近我也在考慮這個,應為數(shù)據(jù)多了,存放的地方也大,所以必須要求數(shù)據(jù)的備份機制比較晚上。對于hadoop而言,默認的是 3份備份(可參看配置文件),個人覺得好算是完善,但是前提是你必須把你的網(wǎng)絡拓撲圖抽象的告訴hadoop集群(默認情況下,所有的集群都在一個水平位 置)。建議可以看看hadoop提供的機架感知的備份機制。感覺還可以以,不僅能提升數(shù)據(jù)分析速度,也能做到異地容災。

            HDFS的存儲功能主要是2個。
            一個是容錯能力,默認有3個備份,各種資料上說提供海量存儲能力,事實上我覺得存儲容量并沒有增加,磁盤硬件存儲能力是多少,HDFS的總存儲能力就是所有磁盤的能力相加。和普通的系統(tǒng)沒有區(qū)別。
            第二個是存儲大型文件,比如一個文件100G,但假如你的廉價PC的硬盤只有80G,那么用普通系統(tǒng)是無法存儲的,這時你需要去買更貴的磁盤來存儲此類文件。而HDFS提供的就是將許多廉價存儲器集合起來,能夠存儲大型文件的能力。
            所以我個人覺得,如果要用HDFS來作存儲演示,只能從容錯和存儲大型文件角度來展示功能。不然和普通FS沒有明顯區(qū)別。
            hadoop的機架感知功能,通過配置可以通知集群機器的網(wǎng)絡位置。如果不配置,默認所有的集群都在同一水平位置上

            國內(nèi)外著名的互聯(lián)網(wǎng)公司使用hadoop都做了什么?談HADOOP在大規(guī)模數(shù)據(jù)處理領域的具體應用。
            ------------ 二月 18th, 2011
            hadoop在淘寶應用很多,淘寶網(wǎng)是國內(nèi)最大的Hadoop應用商之一。

            2010年九月三號的數(shù)據(jù)顯示:

            淘寶集群的規(guī)模是
            1.總?cè)萘繛?.3PB,利用率77.09%。
            2.共有1100臺機器。
            3.每天處理約18000道hadoop作業(yè)
            4. 用戶數(shù)474人,用戶組38個
            5.約18000道作業(yè)/天,掃描數(shù)據(jù):約500TB/天用戶數(shù)474人,用戶組38個

            其他:

            HADOOP在阿里巴巴:

            用于處理商業(yè)數(shù)據(jù)的排序,并將其應用于阿里巴巴的ISEARCH搜索引擎,垂直商業(yè)搜索引擎。

            節(jié)點數(shù): 15臺機器的構成的服務器集群

            服務器配置: 8核CPU,16G內(nèi)存,1.4T硬盤容量。
            HADOOP在百度:

            HADOOP主要應用日志分析,同時使用它做一些網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)挖掘工作。

            節(jié)點數(shù):10 - 500個節(jié)點。

            周數(shù)據(jù)量: 3000TB
            HADOOP在Facebook:

            主要用于存儲內(nèi)部日志的拷貝,作為一個源用于處理數(shù)據(jù)挖掘和日志統(tǒng)計。

            主要使用了2個集群:

            一個由1100臺節(jié)點組成的集群,包括8800核CPU(即每臺機器8核),和12000TB的原始存儲(即每臺機器12T硬盤)

            一個有300臺節(jié)點組成的集群,包括2400核CPU(即每臺機器8核),和3000TB的原始存儲(即每臺機器12T硬盤)

            由此基礎上開發(fā)了基于SQL語法的項目:HIVE
            HADOOP在HULU

            主要用于日志存儲和分析

            13臺機器構成的集群 (8核PUC,單臺機器:4TB硬盤)

            基于HBASE數(shù)據(jù)庫
            HADOOP在TWITTER

            使用HADOOP用于存儲微博數(shù)據(jù),日志文件和許多中間數(shù)據(jù)

            使用基于HADOOP構件的Cloudera's CDH2系統(tǒng),存儲壓縮后的數(shù)據(jù)文件(LZO格式)
            HADOOP在雅虎:

            主要用于支持廣告系統(tǒng)及網(wǎng)頁搜索

            機器數(shù):25000,CPU:8核

            集群機器數(shù):  4000 個節(jié)點  (2*4cpu boxes w 4*1TB disk & 16GB RAM)

            posted on 2012-09-19 14:49 大龍 閱讀(552) 評論(0)  編輯 收藏 引用

            久久WWW免费人成—看片| 亚洲成色WWW久久网站| 午夜福利91久久福利| 久久人妻少妇嫩草AV无码专区 | 久久久噜噜噜久久中文字幕色伊伊| 久久亚洲精品无码观看不卡| 色欲久久久天天天综合网| 国产精久久一区二区三区| 久久精品国产清自在天天线 | 久久国产综合精品五月天| 久久精品国产亚洲AV忘忧草18| 久久青草国产手机看片福利盒子| 久久久久久国产a免费观看黄色大片 | 99久久国产综合精品五月天喷水 | 99久久国产亚洲高清观看2024 | 欧美亚洲国产精品久久| 狠狠色综合久久久久尤物| 久久久久国产精品熟女影院| 久久青青草视频| 人人狠狠综合久久亚洲| 精品久久久久久无码中文字幕| 久久99精品久久只有精品| A级毛片无码久久精品免费| 午夜精品久久久久9999高清| 国产 亚洲 欧美 另类 久久| 狠狠色丁香婷婷久久综合不卡| 久久久女人与动物群交毛片| 精品久久人人爽天天玩人人妻| 色综合久久天天综线观看| 久久av高潮av无码av喷吹| 97久久精品无码一区二区天美| 亚洲国产精品无码久久98| 亚洲AV日韩精品久久久久久久| 97香蕉久久夜色精品国产| 久久精品久久久久观看99水蜜桃| 热久久视久久精品18| 欧美精品乱码99久久蜜桃| 91麻豆国产精品91久久久| 亚洲精品乱码久久久久久| 色欲久久久天天天综合网精品| 精品熟女少妇a∨免费久久|