實驗室宅男的一畝三分地

posts - 15, comments - 10, trackbacks - 0, articles - 0

Orcfile文件格式解析（1）

Posted on 2013-08-14 23:12 whspecial 閱讀(6777) 評論(0) 編輯收藏引用所屬分類: hadoop

Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存儲格式，是對之前的RCFile存儲格式的優化。寫這個的哥們來自于HortonWorks，代碼寫的很不錯，比之前的rcfile強多了（據說rcfile是個中科院的童鞋跑去facebook寫的，看來中國的計算機教育水平還是有限啊。。。囧，跑題了）

先介紹下Orc的文件格式，截一張官方的圖：

可以看到每個Orc文件由1個或多個stripe組成，每個stripe250MB大小，這個Stripe實際相當于之前的rcfile里的RowGroup概念，不過大小由4MB->250MB，這樣應該能提升順序讀的吞吐率。每個Stripe里有三部分組成，分別是Index Data,Row Data,Stripe Footer：

1，Index Data：一個輕量級的index，默認是每隔1W行做一個索引。這里做的索引應該只是記錄某行的各字段在Row Data中的offset，據說還包括每個Column的max和min值，具體沒細看代碼。

2，Row Data：存的是具體的數據，和RCfile一樣，先取部分行，然后對這些行按列進行存儲。與RCfile不同的地方在于每個列進行了編碼，分成多個Stream來存儲，具體如何編碼在下一篇解析里會講。

3，Stripe Footer：存的是各個Stream的類型，長度等信息。

每個文件有一個File Footer，這里面存的是每個Stripe的行數，每個Column的數據類型信息等；每個文件的尾部是一個PostScript，這里面記錄了整個文件的壓縮類型以及FileFooter的長度信息等。在讀取文件時，會seek到文件尾部讀PostScript，從里面解析到File Footer長度，再讀FileFooter，從里面解析到各個Stripe信息，再讀各個Stripe，即從后往前讀。

接下來看下ORcfile相對于RCfile做了哪些改進，從Orc作者的ppt里截了張圖，分別解釋下各行：

Hive type model:RCfile在底層存儲時不保存類型，都當做Byte流來存儲

Separtor complex columns:Orc將復雜類型拆開存儲

Splits Found Quickly：不很理解

Default Column group size：不用解釋了

Files per a bucket：不很理解

Store min，max，count，sum：存了這些便于快速地skip掉一個stripe

Versioned metadata:不很理解

Run-Length Data-coding：整數類型做Run-Length變長編碼

Store Strings in dictionary：String類型做字典編碼

Store Row Count：每個Stripe會存儲行數

Skip Compressed blocks:可以直接skip掉壓縮過的block

Store internal indexes:存儲了一個輕量級的index

整個Orc看下來，代碼寫的還是比較清晰明了的，而且我們也進行了測試，壓縮效果比RCfile提升了不少，有興趣的朋友可以來看下，之后會寫第二篇解析，主要是講Orc用到的幾種編碼格式。

只有注冊用戶登錄后才能發表評論。


相關文章: 跨機房的hadoop集群 Dremel存儲格式解析 Orcfile文件格式解析（2） Orcfile文件格式解析（1）關于map/reduce的combiner運行時機的問題

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

實驗室宅男的一畝三分地

導航

常用鏈接

留言簿

隨筆分類

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜

Orcfile文件格式解析（1）