青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

牽著老婆滿街逛

嚴以律己,寬以待人. 三思而后行.
GMail/GTalk: yanglinbo#google.com;
MSN/Email: tx7do#yahoo.com.cn;
QQ: 3 0 3 3 9 6 9 2 0 .

奇妙的二叉樹:Huffman的貢獻

奇妙的二叉樹:Huffman的貢獻
關鍵字 Huffman

提起 Huffman 這個名字,程序員們至少會聯想到二叉樹和二進制編碼。的確,我們總以 Huffman 編碼來概括 D.A.Huffman 個人對計算機領域特別是數據壓縮領域的杰出貢獻。我們知道,壓縮 = 模型 + 編碼,作為一種壓縮方法,我們必須全面考慮其模型和編碼兩個模塊的功效;但同時,模型和編碼兩個模塊又相互具有獨立性。舉例來說,一個使用 Huffman 編碼方法的程序,完全可以采用不同的模型來統計字符在信息中出現的概率。因此,我們這一章將首先圍繞 Huffman 先生最為重要的貢獻 —— Huffman 編碼展開討論,隨后,我們再具體介紹可以和 Huffman 聯合使用的概率模型。

為什么是二叉樹

為什么壓縮領域中的編碼方法總和二叉樹聯系在一起呢?原因非常簡單,回憶一下我們介紹過的“前綴編碼”:為了使用不固定的碼長表示單個字符,編碼必須符合“前綴編碼”的要求,即較短的編碼決不能是較長編碼的前綴。要構造符合這一要求的二進制編碼體系,二叉樹是最理想的選擇。考察下面這棵二叉樹:

根(root)
0 | 1
+------+------+
0 | 1 0 | 1
+-----+-----+ +---+----+
| | | |
a | d e
0 | 1
+-----+-----+
| |
b c
要編碼的字符總是出現在樹葉上,假定從根向樹葉行走的過程中,左轉為0,右轉為1,則一個字符的編碼就是從根走到該字符所在樹葉的路徑。正因為字符只能出現在樹葉上,任何一個字符的路徑都不會是另一字符路徑的前綴路徑,符合要求的前綴編碼也就構造成功了:

a - 00 b - 010 c - 011 d - 10 e - 11
Shannon-Fano 編碼

進入 Huffman 先生構造的神奇二叉樹之前,我們先來看一下它的前身,由 Claude Shannon 和 R.M.Fano 兩人提出的 Shannon-Fano 編碼。

討論之前,我們假定要編碼字符的出現概率已經由某一模型統計出來,例如,對下面這串出現了五種字符的信息( 40 個字符長 ):

cabcedeacacdeddaaabaababaaabbacdebaceada
五種字符的出現次數分別:a - 16,b - 7,c - 6,d - 6,e - 5。

Shannon-Fano 編碼的核心仍然是構造二叉樹,構造的方式非常簡單:

1) 將給定符號按照其頻率從大到小排序。對上面的例子,應該得到:

a - 16
b - 7
c - 6
d - 6
e - 5
2) 將序列分成上下兩部分,使得上部頻率總和盡可能接近下部頻率總和。我們有:

a - 16
b - 7
-----------------
c - 6
d - 6
e - 5
3) 我們把第二步中劃分出的上部作為二叉樹的左子樹,記 0,下部作為二叉樹的右子樹,記 1。

4) 分別對左右子樹重復 2 3 兩步,直到所有的符號都成為二叉樹的樹葉為止。現在我們有如下的二叉樹:

根(root)
0 | 1
+------+------+
0 | 1 0 | 1
+-----+-----+ +---+----+
| | | |
a b c |
0 | 1
+-----+-----+
| |
d e
于是我們得到了此信息的編碼表:

a - 00 b - 01 c - 10 d - 110 e - 111
可以將例子中的信息編碼為:

cabcedeacacdeddaaabaababaaabbacdebaceada
10 00 01 10 111 110 111 00 10 00 10 ......
碼長共 91 位。考慮用 ASCII 碼表示上述信息需要 8 * 40 = 240 位,我們確實實現了數據壓縮。

Huffman 編碼

Huffman 編碼構造二叉樹的方法和 Shannon-Fano 正好相反,不是自上而下,而是從樹葉到樹根生成二叉樹。現在,我們仍然使用上面的例子來學習 Huffman 編碼方法。

1) 將各個符號及其出現頻率分別作為不同的小二叉樹(目前每棵樹只有根節點)。

a(16) b(7) c(6) d(6) e(5)
2) 在 1 中得到的樹林里找出頻率值最小的兩棵樹,將他們分別作為左、右子樹連成一棵大一些的二叉樹,該二叉樹的頻率值為兩棵子樹頻率值之和。對上面的例子,我們得到一個新的樹林:

| (11)
a(16) b(7) c(6) +---+---+
| |
d e
3) 對上面得到的樹林重復 2 的做法,直到所有符號都連入樹中為止。這一步完成后,我們有這樣的二叉樹:

根(root)
0 | 1
+------+----------------+
| 0 | 1
| +---------+-----------+
| 0 | 1 0 | 1
a +-------+------+ +-------+-------+
| | | |
b c d e
由此,我們可以建立和 Shannon-Fano 編碼略微不同的編碼表:

a - 0 b - 100 c - 101 d - 110 e - 111
對例子中信息的編碼為:

cabcedeacacdeddaaabaababaaabbacdebaceada
101 0 100 101 111 110 111 0 101 0 101 ......
碼長共 88 位。這比使用 Shannon-Fano 編碼要更短一點。

讓我們回顧一下熵的知識,使用我們在第二章學到的計算方法,上面的例子中,每個字符的熵為:

Ea = - log2(16 / 40) = 1.322
Eb = - log2( 7 / 40) = 2.515
Ec = - log2( 6 / 40) = 2.737
Ed = - log2( 6 / 40) = 2.737
Ee = - log2( 5 / 40) = 3.000
信息的熵為:

E = Ea * 16 + Eb * 7 + Ec * 6 + Ed * 6 + Ee * 5 = 86.601
也就是說,表示該條信息最少需要 86.601 位。我們看到,Shannon-Fano 編碼和 Huffman 編碼都已經比較接近該信息的熵值了。同時,我們也看出,無論是 Shannon-Fano 還是 Huffman,都只能用近似的整數位來表示單個符號,而不是理想的小數位。我們可以將它們做一個對比:

符號 理想位數 S-F 編碼 Huffman 編碼
( 熵 ) 需要位數 需要位數
----------------------------------------------------
a 1.322 2 1
b 2.515 2 3
c 2.737 2 3
d 2.737 3 3
e 3.000 3 3
----------------------------------------------------
總 計 86。601 91 88
這就是象 Huffman 這樣的整數位編碼方式無法達到最理想的壓縮效果的原因。

為 Huffman 編碼選擇模型(附范式 Huffman 編碼)

最簡單,最容易被 Huffman 編碼利用的模型是“靜態統計模型”,也就是說在編碼前統計要編碼的信息中所有字符的出現頻率,讓后根據統計出的信息建立編碼樹,進行編碼。這種模型的缺點是顯而易見的:首先,對數據量較大的信息,靜態統計要消耗大量的時間;其次,必須保存統計出的結果以便解碼時構造相同的編碼樹,或者直接保存編碼樹本身,而且,對于每次靜態統計,都有不同的結果,必須分別予以保存,這要消耗大量的空間(這意味著壓縮效率的下降);再次,事實上,即使不將編碼樹計算在內,對通常含有 0 - 255 字符集的計算機文件來說,靜態統計模型統計出的頻率是字符在整個文件中的出現頻率,往往反映不出字符在文件中不同局部出現頻率的變化情況,使用這一頻率進行壓縮,大多數情況下得不到太好壓縮效果,文件有時甚至在壓縮后反而增大了。所以,“靜態統計模型”一般僅作為復雜算法的某一部分出現,在信息的某一局部完成壓縮功能。我們很難將其用于獨立的壓縮系統。

有一種有效的“靜態統計模型”的替代方案,如果我們要壓縮的所有信息具有某些共同的特性,也即在分布上存在著共同的特征,比如我們要壓縮的是普通的英文文本,那么,字母 a 或者字母 e 的出現頻率應當是大致穩定的。使用語言學家事先已經建立好的字母頻率表來進行壓縮和解壓縮,不但不用保存多份統計信息,而且一般說來對該類文件有著較好的壓縮效果。這種方案除了適應性不太強以外,偶爾還會有一些尷尬的時候。讀一遍下面這段話:

If Youth,throughout all history, had had a champion to stand up for it; to show a doubting world that a child can think;and, possibly, do it practically; you wouldn't constantly run across folks today who claim that "a child don't know anything." - Gadsby by E.V.Wright, 1939.

發現什么問題了嗎?哦,整段話中竟沒有出現一次英文中出現頻率最高的字母 e !真讓人驚訝,但沒有辦法,事先擬定的頻率分布總有意外的時候。

對英文或中文文本,有一種比較實用的靜態模型:不是把字符而是把英文單詞或中文詞語作為統計頻率和編碼的單位進行壓縮。也就是說,每次編碼的不再是 a b c 這樣的單個符號,而是 the look flower 這樣的單詞。這種壓縮方式可以達到相當不錯的壓縮效果,并被廣泛地用于全文檢索系統。

對基于詞的編碼方式,需要解決幾個技術難點。首先是分詞的問題,英文單詞可以由詞間空格分隔,但中文怎么辦呢?其實,有很多中文分詞算法可以解決這個問題,本書就不再詳細介紹了。王笨笨就曾開發過一個不錯的分詞模塊,但希望通過收取一定報酬的方式提供該模塊,如有需要,請和王笨笨 E-Mail 聯系。一旦我們將詞語分離出來,我們就可以對每個詞進行頻率統計,然后建立 Huffman 編碼樹,輸出編碼時,一個編碼將代替一個詞語。但要注意,英文和漢語的單詞數量都在幾萬到十幾萬左右,也就是說,我們的 Huffman 編碼樹將擁有十幾萬個葉子節點,這對于一棵樹來說太大太大了,系統將無力承擔所需要的資源,這怎么辦呢?我們可以暫時拋開樹結構,采用另一種構造 Huffman 編碼的方式——范式 Huffman 編碼。

范式 Huffman 編碼(Canonical Huffman Code)的基本思路是:并非只有使用二叉樹建立的前綴編碼才是 Huffman 編碼,只要符合(1)是前綴編碼(2)某一字符編碼長度和使用二叉樹建立的該字符的編碼長度相同這兩個條件的編碼都可以叫做 Huffman 編碼。考慮對下面六個單詞的編碼:

符號 出現次數 傳統 Huffman 編碼 范式 Huffman 編碼
------------------------------------------------------------
單詞1 10 000 000
單詞2 11 001 001
單詞3 12 100 010
單詞4 13 101 011
單詞5 22 01 10
單詞6 23 11 11
注意到范式 Huffman 編碼的獨特之處了嗎?你無法使用二叉樹來建立這組編碼,但這組編碼確實能起到和 Huffman 編碼相同的作用。而且,范式 Huffman 編碼具有一個明顯的特點:當我們把要編碼的符號按照其頻率從小到大排列時,如果把范式 Huffman 編碼本身作為單詞的話,也呈現出從小到大的字典順序。

構造范式 Huffman 編碼的方法大致是:

1) 統計每個要編碼符號的頻率。

2) 根據這些頻率信息求出該符號在傳統 Huffman 編碼樹中的深度(也就是表示該符號所需要的位數 - 編碼長度)。因為我們關心的僅僅是該符號在樹中的深度,我們完全沒有必要構造二叉樹,僅用一個數組就可以模擬二叉樹的創建過程并得到符號的深度,具體方法這里就不詳述了。

3) 分別統計從最大編碼長度 maxlength 到 1 的每個長度對應了多少個符號。根據這一信息從 maxlength 個 0 開始以遞增順序為每個符號分配編碼。例如,編碼長度為 5 的符號有 4 個,長度為 3 的有 1 個,長度為 2 的有 3 個,則分配的編碼依次為: 00000 00001 00010 00011 001 01 10 11

4) 編碼輸出壓縮信息,并保存按照頻率順序排列的符號表,然后保存每組同樣長度編碼中的最前一個編碼以及該組中的編碼個數。

現在完全可以不依賴任何樹結構進行高速解壓縮了。而且在整個壓縮、解壓縮過程中需要的空間比傳統 Huffman 編碼少得多。

最后要提到的是,Huffman 編碼可以采用自適應模型,根據已經編碼的符號頻率決定下一個符號的編碼。這時,我們無需為解壓縮預先保存任何信息,整個編碼是在壓縮和解壓縮過程中動態創建的,而且自適應編碼由于其符號頻率是根據信息內容的變化動態得到的,更符合符號的局部分布規律,因此在壓縮效果上比靜態模型好許多。但是,采用自適應模型必須考慮編碼表的動態特性,即編碼表必須可以隨時更新以適應符號頻率的變化。對于 Huffman 編碼來說,我們很難建立能夠隨時更新的二叉樹,使用范式 Huffman 編碼是個不錯的選擇,但依然存在不少技術上的難題。幸好,如果愿意的話,我們可以暫時不考慮自適應模型的 Huffman 編碼,因為對于自適應模型我們還有許多更好的選擇,下面幾章將要談到的算術編碼、字典編碼等更為適合采用自適應模型,我們將在其中深入探討自適應模型的各種實現方法。

posted on 2006-04-17 17:13 楊粼波 閱讀(1084) 評論(0)  編輯 收藏 引用

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            99精品视频免费全部在线| 亚洲午夜91| 免费美女久久99| 久久久综合香蕉尹人综合网| 黄页网站一区| 欧美成人国产| 欧美日本簧片| 午夜精品久久久久久久男人的天堂| 一本一道久久综合狠狠老精东影业| 欧美午夜精品久久久| 久久成人精品视频| 久久久视频精品| 99re8这里有精品热视频免费| 亚洲精品一区二区三区在线观看| 欧美无乱码久久久免费午夜一区| 欧美一级日韩一级| 免费影视亚洲| 午夜精品成人在线视频| 久久视频一区| 亚洲天堂av图片| 久久久精品日韩欧美| 99热免费精品| 欧美一区二区在线免费观看| 亚洲毛片在线免费观看| 亚洲一区精品在线| 亚洲人成小说网站色在线| 一本大道av伊人久久综合| 国产中文一区二区| 亚洲伦理在线免费看| 国产主播精品| 亚洲一区二区三区精品动漫| 在线观看日韩www视频免费| 一区二区高清视频在线观看| 亚洲成人在线| 午夜在线一区| 亚洲私人影院| 欧美片网站免费| 欧美成年网站| 国产一区二区黄色| 一本色道久久综合亚洲精品不| 伊人精品成人久久综合软件| 亚洲视频在线观看三级| 亚洲欧洲另类国产综合| 欧美一区二区视频在线观看| 午夜久久久久| 国产精品免费aⅴ片在线观看| 亚洲高清在线视频| 亚洲午夜精品17c| 老牛嫩草一区二区三区日本| 欧美日本免费| 欧美激情免费观看| 狠狠色综合网| 欧美诱惑福利视频| 久久福利影视| 国产欧美视频一区二区三区| 在线亚洲成人| 国产精品99久久久久久www| 欧美激情四色| 亚洲精品中文字幕在线| 亚洲精品视频二区| 欧美国产日韩视频| 亚洲激情视频在线播放| 亚洲高清电影| 欧美成人一区二区| 亚洲国产视频a| 99在线精品视频在线观看| 免费高清在线视频一区·| 麻豆乱码国产一区二区三区| 黄色日韩网站| 裸体素人女欧美日韩| 免费黄网站欧美| 亚洲国内精品在线| 欧美电影在线观看完整版| 91久久午夜| 中日韩高清电影网| 国产精品麻豆成人av电影艾秋| 亚洲视频在线免费观看| 久久动漫亚洲| 亚洲福利视频一区| 欧美日韩一区二区国产| 亚洲一级在线| 久久综合给合久久狠狠狠97色69| 一区二区亚洲欧洲国产日韩| 看欧美日韩国产| 亚洲精品视频免费在线观看| 亚洲摸下面视频| 国产一区在线看| 欧美成年视频| 亚洲图片在线观看| 久久综合一区| 亚洲伊人久久综合| 狠狠色狠狠色综合日日tαg| 欧美国产在线观看| 午夜日本精品| 91久久国产自产拍夜夜嗨| 亚洲欧美影院| 亚洲人屁股眼子交8| 国产精品久久久久影院色老大 | 亚洲午夜三级在线| 国产日韩综合一区二区性色av| 久久欧美中文字幕| 亚洲视频欧洲视频| 欧美大片在线看| 亚洲综合色丁香婷婷六月图片| 在线观看不卡| 国产精品欧美日韩久久| 欧美14一18处毛片| 欧美一区免费视频| 99re8这里有精品热视频免费 | 欧美一级片久久久久久久| 亚洲第一中文字幕| 久久xxxx精品视频| 一区二区三区免费观看| 欧美一区二区大片| 欧美日韩国内| 欧美在线视屏| 中文一区在线| 亚洲国产一区在线观看| 久久久久久久国产| 亚洲性线免费观看视频成熟| 亚洲国产成人av| 国产日韩欧美一区二区| 欧美网站在线| 欧美日韩另类综合| 欧美sm视频| 久久久久久久久久久久久女国产乱| 夜夜嗨一区二区三区| 亚洲国产精品va在线看黑人动漫| 欧美专区中文字幕| 亚洲免费影视第一页| 亚洲视频第一页| 日韩视频免费在线| 亚洲精品韩国| 亚洲激情精品| 亚洲国产综合视频在线观看| 精品99一区二区三区| 国产欧美一区二区色老头| 国产精品久久久久影院色老大| 欧美极品在线视频| 欧美精品一区二区三区在线播放 | 欧美成人dvd在线视频| 玖玖精品视频| 美女主播精品视频一二三四| 免费短视频成人日韩| 牛牛国产精品| 亚洲激情视频在线播放| 亚洲国产99| 亚洲精品久久久久久久久久久久| 亚洲激情网站| 一本色道久久综合亚洲精品婷婷| 99精品福利视频| 亚洲色图在线视频| 欧美亚洲一区二区在线| 久久精品中文字幕免费mv| 久久久国产视频91| 欧美91精品| 欧美三级在线| 国产亚洲精品7777| 在线观看中文字幕不卡| 亚洲人久久久| 亚洲欧美日韩系列| 久久色在线观看| 亚洲高清av| 国产精品99久久久久久久女警| 午夜在线精品| 欧美国产激情| 国产精品美女在线观看| 黄色成人在线网址| 在线亚洲精品| 久久精品99国产精品| 欧美成人a视频| 亚洲天堂成人| 久久中文欧美| 国产精品人人做人人爽| 18成人免费观看视频| 亚洲一区999| 麻豆国产精品777777在线| 日韩视频精品在线| 久久国产婷婷国产香蕉| 欧美日韩国产123区| 国产综合色在线视频区| 亚洲天堂av在线免费| 美女精品在线| 亚洲自拍偷拍网址| 欧美成人综合一区| 国产日韩欧美制服另类| 一本久道久久久| 乱人伦精品视频在线观看| 亚洲午夜极品| 中文久久乱码一区二区| 99亚洲精品| 乱人伦精品视频在线观看| 亚洲午夜国产一区99re久久 | 久久成人人人人精品欧| 欧美经典一区二区| 在线看国产日韩| 久久久精品日韩| 亚洲女人天堂av| 欧美日韩网站| 亚洲精品中文字幕在线观看|