• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 200, comments - 8, trackbacks - 0, articles - 0

            基于Hadoop Sequencefile的小文件解決方案

            Posted on 2013-03-04 19:28 鑫龍 閱讀(869) 評論(0)  編輯 收藏 引用 所屬分類: Hadoop

            基于Hadoop Sequencefile的小文件解決方案

             

            一、 概述

               小文件是指文件size小于HDFSblock大小的文件。這樣的文件會給hadoop的擴展性和性能帶來嚴重問題。首先,在HDFS中,任何block,文件或者目錄在內存中均以對象的形式存儲,每個對象約占150byte,如果有1000 0000個小文件,每個文件占用一個block,則namenode大約需要2G空間。如果存儲1億個文件,則namenode需要20G空間。這樣namenode內存容量嚴重制約了集群的擴展。 其次,訪問大量小文件速度遠遠小于訪問幾個大文件。HDFS最初是為流式訪問大文件開發的,如果訪問大量小文件,需要不斷的從一個datanode跳到另一個datanode,嚴重影響性能。最后,處理大量小文件速度遠遠小于處理同等大小的大文件的速度。每一個小文件要占用一個slot,而task啟動將耗費大量時間甚至大部分時間都耗費在啟動task和釋放task上。

            二、Hadoop自帶的解決方案

            對于小文件問題,Hadoop本身也提供了幾個解決方案,分別為:Hadoop ArchiveSequence fileCombineFileInputFormat

            1 Hadoop Archive

            Hadoop Archive或者HAR,是一個高效地將小文件放入HDFS塊中的文件存檔工具,它能夠將多個小文件打包成一個HAR文件,這樣在減少namenode內存使用的同時,仍然允許對文件進行透明的訪問。

            使用HAR時需要兩點,第一,對小文件進行存檔后,原文件并不會自動被刪除,需要用戶自己刪除;第二,創建HAR文件的過程實際上是在運行一個mapreduce作業,因而需要有一個hadoop集群運行此命令。

            該方案需人工進行維護,適用管理人員的操作,而且har文件一旦創建,Archives便不可改變,不能應用于多用戶的互聯網操作。

            2 Sequence file

            sequence file由一系列的二進制key/value組成,如果為key小文件名,value為文件內容,則可以將大批小文件合并成一個大文件。

            Hadoop-0.21.0中提供了SequenceFile,包括WriterReaderSequenceFileSorter類進行寫,讀和排序操作。如果hadoop版本低于0.21.0的版本,實現方法可參見[3]

             

            該方案對于小文件的存取都比較自由,不限制用戶和文件的多少,但是SequenceFile文件不能追加寫入,適用于一次性寫入大量小文件的操作。

             

            3CombineFileInputFormat

            CombineFileInputFormat是一種新的inputformat,用于將多個文件合并成一個單獨的split,另外,它會考慮數據的存儲位置。

            該方案版本比較老,網上資料甚少,從資料來看應該沒有第二種方案好。

             

             

            三、小文件問題解決方案

            在原有HDFS基礎上添加一個小文件處理模塊,具體操作流程如下:

                   1.   當用戶上傳文件時,判斷該文件是否屬于小文件,如果是,則交給小文件處理模塊處理,否則,交給通用文件處理模塊處理。

                   2.  在小文件模塊中開啟一定時任務,其主要功能是當模塊中文件總size大于HDFSblock大小的文件時,則通過SequenceFile組件以文件名做key,相應的文件內容為value將這些小文件一次性寫入hdfs模塊。

                   3. 同時刪除已處理的文件,并將結果寫入數據庫。

                   4.  當用戶進行讀取操作時,可根據數據庫中的結果標志來讀取文件。


            轉自:http://lxm63972012.iteye.com/blog/1429011
            久久久无码精品亚洲日韩蜜臀浪潮| 精品国产91久久久久久久| 热久久最新网站获取| 亚洲国产精品无码久久久秋霞2| 热re99久久精品国99热| 国产激情久久久久影院老熟女| 国产日韩久久免费影院 | 久久精品国产亚洲AV高清热| 久久精品国产只有精品2020| yy6080久久| 精品久久久久久久久久久久久久久| 亚洲精品无码久久千人斩| 久久99精品久久久久久噜噜| 99久久精品午夜一区二区| 狠狠综合久久综合88亚洲| 国产99久久久国产精免费| 久久精品亚洲精品国产色婷| 亚洲欧美国产日韩综合久久| 亚洲国产精品婷婷久久| 久久精品国产亚洲av麻豆小说| 无码8090精品久久一区| 国产精品热久久无码av| 国产一级做a爰片久久毛片| 久久永久免费人妻精品下载| 久久人人添人人爽添人人片牛牛| 中文字幕亚洲综合久久| 国产精品久久久久久福利69堂| 亚洲va久久久噜噜噜久久狠狠| 亚洲午夜无码久久久久小说| 性做久久久久久久久老女人| 亚洲美日韩Av中文字幕无码久久久妻妇 | 国产69精品久久久久99尤物| www.久久热| 色综合久久88色综合天天| 69久久精品无码一区二区| 久久超碰97人人做人人爱| 久久精品国产亚洲77777| 亚洲AV乱码久久精品蜜桃| 久久综合狠狠综合久久 | 久久99精品久久久久久不卡| 国产精品久久久久久久午夜片|