• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Javen-Studio 咖啡小屋

            http://javenstudio.org - C++ Java 分布式 搜索引擎
            Naven's Research Laboratory - Thinking of Life, Imagination of Future

              C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              24 隨筆 :: 57 文章 :: 170 評(píng)論 :: 4 Trackbacks
             

            3          MapReduce工作原理

            Map-Reduce框架的運(yùn)作完全基于<key,value>對(duì),即數(shù)據(jù)的輸入是一批<key,value>對(duì),生成的結(jié)果也是一批<key,value>對(duì),只是有時(shí)候它們的類(lèi)型不一樣而已。Keyvalue的類(lèi)由于需要支持被序列化(serialize)操作,所以它們必須要實(shí)現(xiàn)Writable接口,而且key的類(lèi)還必須實(shí)現(xiàn)WritableComparable接口,使得可以讓框架對(duì)數(shù)據(jù)集的執(zhí)行排序操作。

             

            一個(gè)Map-Reduce任務(wù)的執(zhí)行過(guò)程以及數(shù)據(jù)輸入輸出的類(lèi)型如下所示:

            (input)<k1,v1> -> map -> <k2,v2> -> combine -> <k2,v2> -> reduce -> <k3,v3>(output)

             

            下面通過(guò)一個(gè)的例子并結(jié)合源代碼來(lái)詳細(xì)說(shuō)明這個(gè)過(guò)程

            3.1       WordCount示例

            這也是Hadoop自帶的一個(gè)例子,目標(biāo)是統(tǒng)計(jì)文本文件中單詞的個(gè)數(shù)。

            假設(shè)有如下的兩個(gè)文本文件來(lái)運(yùn)行WorkCount程序:

            Hello World Bye World

             

             

            Hello Hadoop GoodBye Hadoop

             

             

             


            3.2       map數(shù)據(jù)輸入

            Hadoop針對(duì)文本文件缺省使用LineRecordReader類(lèi)來(lái)實(shí)現(xiàn)讀取,一行一個(gè)key/value對(duì),key取偏移量,value為行內(nèi)容。

            如下是map1的輸入數(shù)據(jù):

            Key1

            Value1

            0

            Hello World Bye World

            如下是map2的輸入數(shù)據(jù):

            Key1

            Value1

            0

            Hello Hadoop GoodBye Hadoop

            3.3       map輸出/combine輸入

            如下是map1的輸出結(jié)果

            Key2

            Value2

            Hello

            1

            World

            1

            Bye

            1

            World

            1

            如下是map2的輸出結(jié)果

            Key2

            Value2

            Hello

            1

            Hadoop

            1

            GoodBye

            1

            Hadoop

            1

            3.4       combine輸出

            Combiner類(lèi)實(shí)現(xiàn)將相同key的值合并起來(lái),它也是一個(gè)Reducer的實(shí)現(xiàn)。

            如下是combine1的輸出

            Key2

            Value2

            Hello

            1

            World

            2

            Bye

            1

            如下是combine2的輸出

            Key2

            Value2

            Hello

            1

            Hadoop

            2

            GoodBye

            1

            3.5       reduce輸出

            Reducer類(lèi)實(shí)現(xiàn)將相同key的值合并起來(lái)。

            如下是reduce的輸出

            Key2

            Value2

            Hello

            2

            World

            2

            Bye

            1

            Hadoop

            2

            GoodBye

            1

            即實(shí)現(xiàn)了WordCount的處理。

             

            未完待續(xù)

             

             

             

             

            Annotated Hadoop 作者:naven 日期:2007-12-29

            posted on 2008-02-22 01:10 Javen-Studio 閱讀(7222) 評(píng)論(2)  編輯 收藏 引用

            評(píng)論

            # re: Annotated Hadoop: 第三節(jié) MapReduce工作原理 2008-07-02 17:05 yyyyyyyyy
            Reducer類(lèi)實(shí)現(xiàn)將相同key的值合并起來(lái)。

            如下是reduce的輸出

            Key2
            Value2

            Hello
            2

            World
            2

            Bye
            1

            Hadoop
            2

            GoodBye
            1

              回復(fù)  更多評(píng)論
              

            # re: Annotated Hadoop: 第三節(jié) MapReduce工作原理 2009-03-12 13:56 hadoop中文
            歡迎大家到http://cn.hadoop.org/
            討論,國(guó)內(nèi)研究這個(gè)的人太少了  回復(fù)  更多評(píng)論
              


            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


            久久青青草原精品影院| 久久久久亚洲爆乳少妇无| 久久无码高潮喷水| 青草影院天堂男人久久| 久久久WWW免费人成精品| 久久伊人精品青青草原高清| 久久久精品久久久久久| 亚洲午夜久久久久妓女影院| AAA级久久久精品无码区| 亚洲精品午夜国产VA久久成人| 日韩AV毛片精品久久久| 久久婷婷五月综合色奶水99啪| 亚洲国产另类久久久精品黑人| 精品久久8x国产免费观看| 久久人人爽人人爽人人片av高请 | 青青草原综合久久大伊人| 久久久无码精品亚洲日韩蜜臀浪潮| 国产精品99久久久精品无码| 亚洲嫩草影院久久精品| 久久99精品国产99久久6| 久久中文字幕视频、最近更新| 久久国产免费观看精品3| 狠狠色婷婷久久一区二区| 久久久91人妻无码精品蜜桃HD| 久久国产精品久久| 久久免费99精品国产自在现线| 久久精品免费一区二区三区| 亚洲色欲久久久综合网| 国产精品乱码久久久久久软件| 久久人人爽人人爽人人片AV东京热| 四虎国产精品免费久久久| 久久99精品久久久久久| 久久91综合国产91久久精品| 日韩精品久久无码中文字幕| 日本WV一本一道久久香蕉| 一级女性全黄久久生活片免费 | 国产香蕉久久精品综合网| 久久精品99无色码中文字幕| 少妇被又大又粗又爽毛片久久黑人| 久久精品国产亚洲AV不卡| 亚洲精品NV久久久久久久久久|