• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            posts - 15, comments - 10, trackbacks - 0, articles - 0

            Orcfile文件格式解析(1)

            Posted on 2013-08-14 23:12 whspecial 閱讀(6736) 評(píng)論(0)  編輯 收藏 引用 所屬分類(lèi): hadoop

                Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存儲(chǔ)格式,是對(duì)之前的RCFile存儲(chǔ)格式的優(yōu)化。寫(xiě)這個(gè)的哥們來(lái)自于HortonWorks,代碼寫(xiě)的很不錯(cuò),比之前的rcfile強(qiáng)多了(據(jù)說(shuō)rcfile是個(gè)中科院的童鞋跑去facebook寫(xiě)的,看來(lái)中國(guó)的計(jì)算機(jī)教育水平還是有限啊。。。囧,跑題了)

                先介紹下Orc的文件格式,截一張官方的圖:

                可以看到每個(gè)Orc文件由1個(gè)或多個(gè)stripe組成,每個(gè)stripe250MB大小,這個(gè)Stripe實(shí)際相當(dāng)于之前的rcfile里的RowGroup概念,不過(guò)大小由4MB->250MB,這樣應(yīng)該能提升順序讀的吞吐率。每個(gè)Stripe里有三部分組成,分別是Index Data,Row Data,Stripe Footer:

                1,Index Data:一個(gè)輕量級(jí)的index,默認(rèn)是每隔1W行做一個(gè)索引。這里做的索引應(yīng)該只是記錄某行的各字段在Row Data中的offset,據(jù)說(shuō)還包括每個(gè)Column的max和min值,具體沒(méi)細(xì)看代碼。

                2,Row Data:存的是具體的數(shù)據(jù),和RCfile一樣,先取部分行,然后對(duì)這些行按列進(jìn)行存儲(chǔ)。與RCfile不同的地方在于每個(gè)列進(jìn)行了編碼,分成多個(gè)Stream來(lái)存儲(chǔ),具體如何編碼在下一篇解析里會(huì)講。

                3,Stripe Footer:存的是各個(gè)Stream的類(lèi)型,長(zhǎng)度等信息。

                每個(gè)文件有一個(gè)File Footer,這里面存的是每個(gè)Stripe的行數(shù),每個(gè)Column的數(shù)據(jù)類(lèi)型信息等;每個(gè)文件的尾部是一個(gè)PostScript,這里面記錄了整個(gè)文件的壓縮類(lèi)型以及FileFooter的長(zhǎng)度信息等。在讀取文件時(shí),會(huì)seek到文件尾部讀PostScript,從里面解析到File Footer長(zhǎng)度,再讀FileFooter,從里面解析到各個(gè)Stripe信息,再讀各個(gè)Stripe,即從后往前讀。

                接下來(lái)看下ORcfile相對(duì)于RCfile做了哪些改進(jìn),從Orc作者的ppt里截了張圖,分別解釋下各行:

                Hive type model:RCfile在底層存儲(chǔ)時(shí)不保存類(lèi)型,都當(dāng)做Byte流來(lái)存儲(chǔ)

                Separtor complex columns:Orc將復(fù)雜類(lèi)型拆開(kāi)存儲(chǔ)

                Splits Found Quickly:不很理解

                Default Column group size:不用解釋了

                Files per a bucket:不很理解

                Store min,max,count,sum:存了這些便于快速地skip掉一個(gè)stripe

                Versioned metadata:不很理解

                Run-Length Data-coding:整數(shù)類(lèi)型做Run-Length變長(zhǎng)編碼

                Store Strings in dictionary:String類(lèi)型做字典編碼

                Store Row Count:每個(gè)Stripe會(huì)存儲(chǔ)行數(shù)

                Skip Compressed blocks:可以直接skip掉壓縮過(guò)的block

                Store internal indexes:存儲(chǔ)了一個(gè)輕量級(jí)的index


                整個(gè)Orc看下來(lái),代碼寫(xiě)的還是比較清晰明了的,而且我們也進(jìn)行了測(cè)試,壓縮效果比RCfile提升了不少,有興趣的朋友可以來(lái)看下,之后會(huì)寫(xiě)第二篇解析,主要是講Orc用到的幾種編碼格式。

            国产成人久久精品一区二区三区| 久久久久免费精品国产| 欧美久久亚洲精品| 大香伊人久久精品一区二区| 久久久久国产一区二区| 色婷婷噜噜久久国产精品12p| 久久婷婷五月综合色高清| 久久精品国产91久久综合麻豆自制| 国产成人精品综合久久久| 久久久噜噜噜久久中文字幕色伊伊 | 久久99国产精品久久| 国产免费福利体检区久久| 精品国产乱码久久久久软件| 精品国产91久久久久久久| 色播久久人人爽人人爽人人片AV| 97久久香蕉国产线看观看| 国产精品久久久久久五月尺| 久久久91精品国产一区二区三区| 久久亚洲国产精品成人AV秋霞| 久久免费高清视频| 韩国免费A级毛片久久| 18禁黄久久久AAA片| 久久精品国产一区二区| 热99re久久国超精品首页| 日韩精品久久久肉伦网站| 日本精品一区二区久久久| 色综合久久中文色婷婷| 久久99精品国产麻豆| 亚洲综合精品香蕉久久网| 2021久久精品免费观看| 色欲综合久久躁天天躁| 久久久无码精品亚洲日韩软件| 精品久久久久久中文字幕| 亚洲va国产va天堂va久久| 亚洲欧美日韩中文久久| 亚洲伊人久久大香线蕉综合图片| 日本五月天婷久久网站| 日韩乱码人妻无码中文字幕久久| 无码人妻久久一区二区三区| 久久九九久精品国产免费直播| 日韩精品无码久久久久久|