• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Javen-Studio 咖啡小屋

            http://javenstudio.org - C++ Java 分布式 搜索引擎
            Naven's Research Laboratory - Thinking of Life, Imagination of Future

              C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              24 隨筆 :: 57 文章 :: 170 評(píng)論 :: 4 Trackbacks
             

            1          Hadoop是什么

            Hadoop原來(lái)是Apache Lucene下的一個(gè)子項(xiàng)目,它最初是從Nutch項(xiàng)目中分離出來(lái)的專(zhuān)門(mén)負(fù)責(zé)分布式存儲(chǔ)以及分布式運(yùn)算的項(xiàng)目。簡(jiǎn)單地說(shuō)來(lái),Hadoop是一個(gè)可以更容易開(kāi)發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)。下面列舉hadoop主要的一些特點(diǎn):

             

            1         擴(kuò)容能力(Scalable:能可靠地(reliably)存儲(chǔ)和處理千兆字節(jié)(PB)數(shù)據(jù)。

            2         成本低(Economical:可以通過(guò)普通機(jī)器組成的服務(wù)器群來(lái)分發(fā)以及處理數(shù)據(jù)。這些服務(wù)器群總計(jì)可達(dá)數(shù)千個(gè)節(jié)點(diǎn)。

            3         高效率(Efficient:通過(guò)分發(fā)數(shù)據(jù),hadoop可以在數(shù)據(jù)所在的節(jié)點(diǎn)上并行地(parallel)處理它們,這使得處理非常的快速。

            4         可靠性(Reliablehadoop能自動(dòng)地維護(hù)數(shù)據(jù)的多份復(fù)制,并且在任務(wù)失敗后能自動(dòng)地重新部署(redeploy)計(jì)算任務(wù)。

             

            Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡(jiǎn)稱(chēng)HDFSHDFS有著高容錯(cuò)性(fault-tolerent)的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(high throughput)來(lái)訪(fǎng)問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應(yīng)用程序。HDFS放寬了(relaxPOSIX的要求(requirements)這樣可以流的形式訪(fǎng)問(wèn)(streaming access)文件系統(tǒng)中的數(shù)據(jù)。

             

            Hadoop還實(shí)現(xiàn)了MapReduce分布式計(jì)算模型。MapReduce將應(yīng)用程序的工作分解成很多小的工作小塊(small blocks of work)HDFS為了做到可靠性(reliability)創(chuàng)建了多份數(shù)據(jù)塊(data blocks)的復(fù)制(replicas),并將它們放置在服務(wù)器群的計(jì)算節(jié)點(diǎn)中(compute nodes),MapReduce就可以在它們所在的節(jié)點(diǎn)上處理這些數(shù)據(jù)了。

            如下圖所示:

             

            Hadoop API被分成(divide into)如下幾種主要的包(package

             

                      org.apache.hadoop.conf     定義了系統(tǒng)參數(shù)的配置文件處理API

                      org.apache.hadoop.fs          定義了抽象的文件系統(tǒng)API

                      org.apache.hadoop.dfs       Hadoop分布式文件系統(tǒng)(HDFS)模塊的實(shí)現(xiàn)。

                      org.apache.hadoop.io         定義了通用的I/O API,用于針對(duì)網(wǎng)絡(luò),數(shù)據(jù)庫(kù),文件等數(shù)據(jù)對(duì)象做讀寫(xiě)操作。

                      org.apache.hadoop.ipc       用于網(wǎng)絡(luò)服務(wù)端和客戶(hù)端的工具,封裝了網(wǎng)絡(luò)異步I/O的基礎(chǔ)模塊。

                      org.apache.hadoop.mapred         Hadoop分布式計(jì)算系統(tǒng)(MapReduce)模塊的實(shí)現(xiàn),包括任務(wù)的分發(fā)調(diào)度等。

                      org.apache.hadoop.metrics        定義了用于性能統(tǒng)計(jì)信息的API,主要用于mapreddfs模塊。

                      org.apache.hadoop.record 定義了針對(duì)記錄的I/O API類(lèi)以及一個(gè)記錄描述語(yǔ)言翻譯器,用于簡(jiǎn)化將記錄序列化成語(yǔ)言中性的格式(language-neutral manner)。

                      org.apache.hadoop.tools    定義了一些通用的工具。

                      org.apache.hadoop.util       定義了一些公用的API

             

            下面逐個(gè)從源代碼中剖析這幾個(gè)主要模塊的框架以及運(yùn)作原理



            作者:naven 2008-02-21
            posted on 2008-02-22 00:53 Javen-Studio 閱讀(7461) 評(píng)論(7)  編輯 收藏 引用

            評(píng)論

            # re: Annotated Hadoop: 第一節(jié) Hadoop是什么 2008-09-20 14:06 路人A
            PB 是千GB,不是千兆  回復(fù)  更多評(píng)論
              

            # re: Annotated Hadoop: 第一節(jié) Hadoop是什么 2008-09-21 20:40 Javen-Studio
            謝謝提醒,不過(guò)應(yīng)該是PB=1024TB=1024*1024GB  回復(fù)  更多評(píng)論
              

            # re: Annotated Hadoop: 第一節(jié) Hadoop是什么 2009-03-12 13:54 hadoop中文
            歡迎大家到http://cn.hadoop.org/
            討論,國(guó)內(nèi)研究這個(gè)的人太少  回復(fù)  更多評(píng)論
              

            # re: Annotated Hadoop: 第一節(jié) Hadoop是什么 2009-11-25 11:02 terrs
            為什么是java實(shí)現(xiàn),有c 實(shí)現(xiàn)的嗎?
              回復(fù)  更多評(píng)論
              

            # re: Annotated Hadoop: 第一節(jié) Hadoop是什么[未登錄](méi) 2010-06-14 04:53 yang
            @hadoop中文
            哎 都在研究別人的東西
            自己沒(méi)有開(kāi)發(fā)能力嗎  回復(fù)  更多評(píng)論
              

            # re: Annotated Hadoop: 第一節(jié) Hadoop是什么 2010-06-17 17:15 Javen-Studio
            研究別人成功的產(chǎn)品, 然后開(kāi)發(fā)自己想法的東西, 本人一直以研發(fā)為主:)  回復(fù)  更多評(píng)論
              

            # re: Annotated Hadoop: 第一節(jié) Hadoop是什么 2011-05-10 05:23 achilis
            是1024TB@路人A
              回復(fù)  更多評(píng)論
              


            只有注冊(cè)用戶(hù)登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


            99久久国产热无码精品免费| 国色天香久久久久久久小说| 久久久国产精品网站| 97久久综合精品久久久综合| 人人狠狠综合久久亚洲婷婷| 国产免费久久精品丫丫| 三级三级久久三级久久| 91视频国产91久久久| 久久免费香蕉视频| 久久er99热精品一区二区| 久久人搡人人玩人妻精品首页| 无码人妻少妇久久中文字幕蜜桃| 日韩亚洲欧美久久久www综合网| 午夜精品久久久久久影视777| 久久亚洲精品无码AV红樱桃| 久久婷婷五月综合色99啪ak| 久久久国产精品网站| 亚洲国产精品无码久久98| 久久亚洲精品无码播放| 91精品婷婷国产综合久久| 久久国产欧美日韩精品| 波多野结衣久久| 久久久久这里只有精品 | 91精品国产乱码久久久久久 | 色妞色综合久久夜夜| 免费一级做a爰片久久毛片潮| 久久亚洲精品中文字幕| 四虎亚洲国产成人久久精品| 国产精品久久久久一区二区三区| 久久久久AV综合网成人| 伊人久久综合成人网| 99久久夜色精品国产网站| 亚洲人AV永久一区二区三区久久| 国产精品99久久久久久www| 99久久www免费人成精品| 一本色道久久88加勒比—综合| 亚洲综合伊人久久综合| 久久久久高潮毛片免费全部播放| 久久婷婷国产综合精品| …久久精品99久久香蕉国产| 久久精品国产亚洲av高清漫画|