青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

牽著老婆滿街逛

嚴以律己,寬以待人. 三思而后行.
GMail/GTalk: yanglinbo#google.com;
MSN/Email: tx7do#yahoo.com.cn;
QQ: 3 0 3 3 9 6 9 2 0 .

奇妙的二叉樹:Huffman的貢獻

奇妙的二叉樹:Huffman的貢獻
關鍵字 Huffman

提起 Huffman 這個名字,程序員們至少會聯想到二叉樹和二進制編碼。的確,我們總以 Huffman 編碼來概括 D.A.Huffman 個人對計算機領域特別是數據壓縮領域的杰出貢獻。我們知道,壓縮 = 模型 + 編碼,作為一種壓縮方法,我們必須全面考慮其模型和編碼兩個模塊的功效;但同時,模型和編碼兩個模塊又相互具有獨立性。舉例來說,一個使用 Huffman 編碼方法的程序,完全可以采用不同的模型來統計字符在信息中出現的概率。因此,我們這一章將首先圍繞 Huffman 先生最為重要的貢獻 —— Huffman 編碼展開討論,隨后,我們再具體介紹可以和 Huffman 聯合使用的概率模型。

為什么是二叉樹

為什么壓縮領域中的編碼方法總和二叉樹聯系在一起呢?原因非常簡單,回憶一下我們介紹過的“前綴編碼”:為了使用不固定的碼長表示單個字符,編碼必須符合“前綴編碼”的要求,即較短的編碼決不能是較長編碼的前綴。要構造符合這一要求的二進制編碼體系,二叉樹是最理想的選擇。考察下面這棵二叉樹:

根(root)
0 | 1
+------+------+
0 | 1 0 | 1
+-----+-----+ +---+----+
| | | |
a | d e
0 | 1
+-----+-----+
| |
b c
要編碼的字符總是出現在樹葉上,假定從根向樹葉行走的過程中,左轉為0,右轉為1,則一個字符的編碼就是從根走到該字符所在樹葉的路徑。正因為字符只能出現在樹葉上,任何一個字符的路徑都不會是另一字符路徑的前綴路徑,符合要求的前綴編碼也就構造成功了:

a - 00 b - 010 c - 011 d - 10 e - 11
Shannon-Fano 編碼

進入 Huffman 先生構造的神奇二叉樹之前,我們先來看一下它的前身,由 Claude Shannon 和 R.M.Fano 兩人提出的 Shannon-Fano 編碼。

討論之前,我們假定要編碼字符的出現概率已經由某一模型統計出來,例如,對下面這串出現了五種字符的信息( 40 個字符長 ):

cabcedeacacdeddaaabaababaaabbacdebaceada
五種字符的出現次數分別:a - 16,b - 7,c - 6,d - 6,e - 5。

Shannon-Fano 編碼的核心仍然是構造二叉樹,構造的方式非常簡單:

1) 將給定符號按照其頻率從大到小排序。對上面的例子,應該得到:

a - 16
b - 7
c - 6
d - 6
e - 5
2) 將序列分成上下兩部分,使得上部頻率總和盡可能接近下部頻率總和。我們有:

a - 16
b - 7
-----------------
c - 6
d - 6
e - 5
3) 我們把第二步中劃分出的上部作為二叉樹的左子樹,記 0,下部作為二叉樹的右子樹,記 1。

4) 分別對左右子樹重復 2 3 兩步,直到所有的符號都成為二叉樹的樹葉為止。現在我們有如下的二叉樹:

根(root)
0 | 1
+------+------+
0 | 1 0 | 1
+-----+-----+ +---+----+
| | | |
a b c |
0 | 1
+-----+-----+
| |
d e
于是我們得到了此信息的編碼表:

a - 00 b - 01 c - 10 d - 110 e - 111
可以將例子中的信息編碼為:

cabcedeacacdeddaaabaababaaabbacdebaceada
10 00 01 10 111 110 111 00 10 00 10 ......
碼長共 91 位。考慮用 ASCII 碼表示上述信息需要 8 * 40 = 240 位,我們確實實現了數據壓縮。

Huffman 編碼

Huffman 編碼構造二叉樹的方法和 Shannon-Fano 正好相反,不是自上而下,而是從樹葉到樹根生成二叉樹。現在,我們仍然使用上面的例子來學習 Huffman 編碼方法。

1) 將各個符號及其出現頻率分別作為不同的小二叉樹(目前每棵樹只有根節點)。

a(16) b(7) c(6) d(6) e(5)
2) 在 1 中得到的樹林里找出頻率值最小的兩棵樹,將他們分別作為左、右子樹連成一棵大一些的二叉樹,該二叉樹的頻率值為兩棵子樹頻率值之和。對上面的例子,我們得到一個新的樹林:

| (11)
a(16) b(7) c(6) +---+---+
| |
d e
3) 對上面得到的樹林重復 2 的做法,直到所有符號都連入樹中為止。這一步完成后,我們有這樣的二叉樹:

根(root)
0 | 1
+------+----------------+
| 0 | 1
| +---------+-----------+
| 0 | 1 0 | 1
a +-------+------+ +-------+-------+
| | | |
b c d e
由此,我們可以建立和 Shannon-Fano 編碼略微不同的編碼表:

a - 0 b - 100 c - 101 d - 110 e - 111
對例子中信息的編碼為:

cabcedeacacdeddaaabaababaaabbacdebaceada
101 0 100 101 111 110 111 0 101 0 101 ......
碼長共 88 位。這比使用 Shannon-Fano 編碼要更短一點。

讓我們回顧一下熵的知識,使用我們在第二章學到的計算方法,上面的例子中,每個字符的熵為:

Ea = - log2(16 / 40) = 1.322
Eb = - log2( 7 / 40) = 2.515
Ec = - log2( 6 / 40) = 2.737
Ed = - log2( 6 / 40) = 2.737
Ee = - log2( 5 / 40) = 3.000
信息的熵為:

E = Ea * 16 + Eb * 7 + Ec * 6 + Ed * 6 + Ee * 5 = 86.601
也就是說,表示該條信息最少需要 86.601 位。我們看到,Shannon-Fano 編碼和 Huffman 編碼都已經比較接近該信息的熵值了。同時,我們也看出,無論是 Shannon-Fano 還是 Huffman,都只能用近似的整數位來表示單個符號,而不是理想的小數位。我們可以將它們做一個對比:

符號 理想位數 S-F 編碼 Huffman 編碼
( 熵 ) 需要位數 需要位數
----------------------------------------------------
a 1.322 2 1
b 2.515 2 3
c 2.737 2 3
d 2.737 3 3
e 3.000 3 3
----------------------------------------------------
總 計 86。601 91 88
這就是象 Huffman 這樣的整數位編碼方式無法達到最理想的壓縮效果的原因。

為 Huffman 編碼選擇模型(附范式 Huffman 編碼)

最簡單,最容易被 Huffman 編碼利用的模型是“靜態統計模型”,也就是說在編碼前統計要編碼的信息中所有字符的出現頻率,讓后根據統計出的信息建立編碼樹,進行編碼。這種模型的缺點是顯而易見的:首先,對數據量較大的信息,靜態統計要消耗大量的時間;其次,必須保存統計出的結果以便解碼時構造相同的編碼樹,或者直接保存編碼樹本身,而且,對于每次靜態統計,都有不同的結果,必須分別予以保存,這要消耗大量的空間(這意味著壓縮效率的下降);再次,事實上,即使不將編碼樹計算在內,對通常含有 0 - 255 字符集的計算機文件來說,靜態統計模型統計出的頻率是字符在整個文件中的出現頻率,往往反映不出字符在文件中不同局部出現頻率的變化情況,使用這一頻率進行壓縮,大多數情況下得不到太好壓縮效果,文件有時甚至在壓縮后反而增大了。所以,“靜態統計模型”一般僅作為復雜算法的某一部分出現,在信息的某一局部完成壓縮功能。我們很難將其用于獨立的壓縮系統。

有一種有效的“靜態統計模型”的替代方案,如果我們要壓縮的所有信息具有某些共同的特性,也即在分布上存在著共同的特征,比如我們要壓縮的是普通的英文文本,那么,字母 a 或者字母 e 的出現頻率應當是大致穩定的。使用語言學家事先已經建立好的字母頻率表來進行壓縮和解壓縮,不但不用保存多份統計信息,而且一般說來對該類文件有著較好的壓縮效果。這種方案除了適應性不太強以外,偶爾還會有一些尷尬的時候。讀一遍下面這段話:

If Youth,throughout all history, had had a champion to stand up for it; to show a doubting world that a child can think;and, possibly, do it practically; you wouldn't constantly run across folks today who claim that "a child don't know anything." - Gadsby by E.V.Wright, 1939.

發現什么問題了嗎?哦,整段話中竟沒有出現一次英文中出現頻率最高的字母 e !真讓人驚訝,但沒有辦法,事先擬定的頻率分布總有意外的時候。

對英文或中文文本,有一種比較實用的靜態模型:不是把字符而是把英文單詞或中文詞語作為統計頻率和編碼的單位進行壓縮。也就是說,每次編碼的不再是 a b c 這樣的單個符號,而是 the look flower 這樣的單詞。這種壓縮方式可以達到相當不錯的壓縮效果,并被廣泛地用于全文檢索系統。

對基于詞的編碼方式,需要解決幾個技術難點。首先是分詞的問題,英文單詞可以由詞間空格分隔,但中文怎么辦呢?其實,有很多中文分詞算法可以解決這個問題,本書就不再詳細介紹了。王笨笨就曾開發過一個不錯的分詞模塊,但希望通過收取一定報酬的方式提供該模塊,如有需要,請和王笨笨 E-Mail 聯系。一旦我們將詞語分離出來,我們就可以對每個詞進行頻率統計,然后建立 Huffman 編碼樹,輸出編碼時,一個編碼將代替一個詞語。但要注意,英文和漢語的單詞數量都在幾萬到十幾萬左右,也就是說,我們的 Huffman 編碼樹將擁有十幾萬個葉子節點,這對于一棵樹來說太大太大了,系統將無力承擔所需要的資源,這怎么辦呢?我們可以暫時拋開樹結構,采用另一種構造 Huffman 編碼的方式——范式 Huffman 編碼。

范式 Huffman 編碼(Canonical Huffman Code)的基本思路是:并非只有使用二叉樹建立的前綴編碼才是 Huffman 編碼,只要符合(1)是前綴編碼(2)某一字符編碼長度和使用二叉樹建立的該字符的編碼長度相同這兩個條件的編碼都可以叫做 Huffman 編碼。考慮對下面六個單詞的編碼:

符號 出現次數 傳統 Huffman 編碼 范式 Huffman 編碼
------------------------------------------------------------
單詞1 10 000 000
單詞2 11 001 001
單詞3 12 100 010
單詞4 13 101 011
單詞5 22 01 10
單詞6 23 11 11
注意到范式 Huffman 編碼的獨特之處了嗎?你無法使用二叉樹來建立這組編碼,但這組編碼確實能起到和 Huffman 編碼相同的作用。而且,范式 Huffman 編碼具有一個明顯的特點:當我們把要編碼的符號按照其頻率從小到大排列時,如果把范式 Huffman 編碼本身作為單詞的話,也呈現出從小到大的字典順序。

構造范式 Huffman 編碼的方法大致是:

1) 統計每個要編碼符號的頻率。

2) 根據這些頻率信息求出該符號在傳統 Huffman 編碼樹中的深度(也就是表示該符號所需要的位數 - 編碼長度)。因為我們關心的僅僅是該符號在樹中的深度,我們完全沒有必要構造二叉樹,僅用一個數組就可以模擬二叉樹的創建過程并得到符號的深度,具體方法這里就不詳述了。

3) 分別統計從最大編碼長度 maxlength 到 1 的每個長度對應了多少個符號。根據這一信息從 maxlength 個 0 開始以遞增順序為每個符號分配編碼。例如,編碼長度為 5 的符號有 4 個,長度為 3 的有 1 個,長度為 2 的有 3 個,則分配的編碼依次為: 00000 00001 00010 00011 001 01 10 11

4) 編碼輸出壓縮信息,并保存按照頻率順序排列的符號表,然后保存每組同樣長度編碼中的最前一個編碼以及該組中的編碼個數。

現在完全可以不依賴任何樹結構進行高速解壓縮了。而且在整個壓縮、解壓縮過程中需要的空間比傳統 Huffman 編碼少得多。

最后要提到的是,Huffman 編碼可以采用自適應模型,根據已經編碼的符號頻率決定下一個符號的編碼。這時,我們無需為解壓縮預先保存任何信息,整個編碼是在壓縮和解壓縮過程中動態創建的,而且自適應編碼由于其符號頻率是根據信息內容的變化動態得到的,更符合符號的局部分布規律,因此在壓縮效果上比靜態模型好許多。但是,采用自適應模型必須考慮編碼表的動態特性,即編碼表必須可以隨時更新以適應符號頻率的變化。對于 Huffman 編碼來說,我們很難建立能夠隨時更新的二叉樹,使用范式 Huffman 編碼是個不錯的選擇,但依然存在不少技術上的難題。幸好,如果愿意的話,我們可以暫時不考慮自適應模型的 Huffman 編碼,因為對于自適應模型我們還有許多更好的選擇,下面幾章將要談到的算術編碼、字典編碼等更為適合采用自適應模型,我們將在其中深入探討自適應模型的各種實現方法。

posted on 2006-04-17 17:13 楊粼波 閱讀(1084) 評論(0)  編輯 收藏 引用

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            国产精品久久激情| 好吊成人免视频| 欧美一级专区| 久久一综合视频| 欧美精品在线一区二区| 欧美日韩视频在线一区二区| 国产精品自拍小视频| 狠狠网亚洲精品| 免费欧美网站| 亚洲伦伦在线| 性欧美8khd高清极品| 欧美精品尤物在线| 性色av一区二区怡红| 美日韩在线观看| 欧美成ee人免费视频| 国产精品外国| 亚洲深夜福利在线| 久久久精品动漫| 99国产精品私拍| 蜜桃av噜噜一区| 国产欧美综合一区二区三区| 亚洲精品在线观看视频| 久久九九精品99国产精品| 蜜臀久久久99精品久久久久久| 亚洲美女黄色片| 欧美在线亚洲综合一区| 国产精品国产三级国产| 久久久高清一区二区三区| 欧美va天堂| 亚洲激情一区二区三区| 久久精品国产一区二区三| 亚洲一区二区成人在线观看| 欧美黄色网络| 一本一本久久a久久精品综合麻豆 一本一本久久a久久精品牛牛影视 | 国产在线一区二区三区四区 | 亚洲第一精品电影| 久久av一区二区三区| 99热在这里有精品免费| 狠狠色噜噜狠狠色综合久 | 久久精品中文字幕一区| 欧美日本三级| 欧美成人第一页| 欧美亚洲在线观看| 精品动漫3d一区二区三区免费版| 麻豆av一区二区三区| 欧美在线看片a免费观看| 国产精品日韩在线一区| 亚洲精品欧美在线| 在线亚洲免费| 欧美成人激情视频| 国内精品国产成人| 久久av一区二区三区| 久久久久久久999精品视频| 亚洲国产日韩欧美| 欧美日韩免费一区二区三区视频| 亚洲资源在线观看| 亚洲图中文字幕| 欧美午夜免费电影| 亚洲自拍偷拍福利| 欧美日本韩国一区二区三区| 欧美成人国产| 激情六月婷婷久久| 久久av资源网| 久久激情视频免费观看| 国产酒店精品激情| 午夜亚洲性色视频| 久久福利毛片| 国产亚洲成av人片在线观看桃| 久久免费高清视频| 欧美成人一区二免费视频软件| 免费欧美在线| 伊人久久噜噜噜躁狠狠躁| 99re这里只有精品6| 欧美视频官网| 久久久亚洲国产天美传媒修理工| 国产欧美综合在线| 久久久99爱| 一区二区三区四区五区精品视频| 欧美黄色小视频| 99热这里只有精品8| 亚洲欧美在线一区二区| 欧美aa国产视频| 亚洲精品一二区| 亚洲一区二区免费视频| 久久午夜激情| 亚洲国产婷婷综合在线精品| 亚洲乱码国产乱码精品精98午夜| 欧美精品在线观看播放| 正在播放欧美一区| 亚洲日本电影| 久久精品国产一区二区电影| 久久看片网站| 亚洲精品欧洲精品| 欧美日韩中文| 久久福利资源站| 午夜在线精品偷拍| 狠狠噜噜久久| 欧美日韩国产色综合一二三四| 欧美高清在线视频观看不卡| 国产欧美欧美| 欧美xx视频| 羞羞答答国产精品www一本| 狠狠色丁香久久综合频道 | 国产日韩精品视频一区二区三区| 久久精品欧洲| 日韩一级精品视频在线观看| 久久婷婷影院| 国产精品一二三| 久久久综合精品| 久久精品一区二区国产| 日韩一区二区电影网| 欧美电影免费观看网站| 午夜国产一区| 久久性天堂网| 亚洲欧美国产精品va在线观看| 欧美无砖砖区免费| 久久蜜臀精品av| 亚洲在线视频一区| 91久久综合亚洲鲁鲁五月天| 亚洲精品在线观| 国内精品久久久久影院 日本资源| 欧美日韩免费观看中文| 久久久久九九九九| 亚洲欧美日韩成人| 99在线精品观看| 91久久久久久久久| 欧美a级一区二区| 久久一区国产| 久久国产精品久久久久久| 亚洲私人影吧| 一本到12不卡视频在线dvd| 国内精品久久久久国产盗摄免费观看完整版| 欧美精品一区二区在线观看 | 亚洲国产精品va在线看黑人| 久久综合给合| 久久一区二区三区国产精品| 久久精品九九| 欧美资源在线观看| 香蕉乱码成人久久天堂爱免费| 亚洲午夜精品| 亚洲小视频在线| 亚洲无毛电影| 亚洲视频成人| 亚洲网站啪啪| 亚洲在线一区二区| 欧美一二三视频| 欧美在线一二三四区| 久久国产精品电影| 老司机午夜免费精品视频| 亚洲深爱激情| 亚洲欧美在线x视频| 欧美伊人影院| 日韩一二三区视频| 一区二区三区四区在线| 99视频精品全国免费| 一区二区三区四区五区在线| 亚洲一二三区在线| 销魂美女一区二区三区视频在线| 先锋影音国产一区| 久久午夜羞羞影院免费观看| 免费亚洲婷婷| 日韩写真视频在线观看| 亚洲欧美国产另类| 一区二区日韩欧美| 欧美大片18| 99国产精品久久久久老师| 亚洲综合色在线| 久久久久久久激情视频| 欧美国产欧美综合| 国产精品s色| 一区二区三区在线视频观看| 亚洲欧洲日韩女同| 亚洲国产合集| 亚洲国产影院| 亚洲欧美另类国产| 男人的天堂成人在线| 亚洲欧美日本日韩| 亚洲视频观看| 亚洲男人的天堂在线aⅴ视频| 久久狠狠一本精品综合网| 你懂的网址国产 欧美| 亚洲国产精品久久久久久女王| 日韩午夜高潮| 久久亚洲不卡| 国产精品乱码一区二区三区| 免费在线日韩av| 欧美亚日韩国产aⅴ精品中极品| 国产一区二区精品久久99| 国产目拍亚洲精品99久久精品| 黄色精品一区二区| 亚洲综合精品四区| 欧美激情四色 | 一本色道久久综合亚洲精品按摩| 欧美一区二区日韩| 亚洲欧洲日产国码二区| 久久黄色级2电影| 国产精品日本精品| 中文有码久久| 欧美激情一区二区三区| 欧美在线视频日韩|