青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

牽著老婆滿街逛

嚴以律己,寬以待人. 三思而后行.
GMail/GTalk: yanglinbo#google.com;
MSN/Email: tx7do#yahoo.com.cn;
QQ: 3 0 3 3 9 6 9 2 0 .

奇妙的二叉樹:Huffman的貢獻

奇妙的二叉樹:Huffman的貢獻
關(guān)鍵字 Huffman

提起 Huffman 這個名字,程序員們至少會聯(lián)想到二叉樹和二進制編碼。的確,我們總以 Huffman 編碼來概括 D.A.Huffman 個人對計算機領(lǐng)域特別是數(shù)據(jù)壓縮領(lǐng)域的杰出貢獻。我們知道,壓縮 = 模型 + 編碼,作為一種壓縮方法,我們必須全面考慮其模型和編碼兩個模塊的功效;但同時,模型和編碼兩個模塊又相互具有獨立性。舉例來說,一個使用 Huffman 編碼方法的程序,完全可以采用不同的模型來統(tǒng)計字符在信息中出現(xiàn)的概率。因此,我們這一章將首先圍繞 Huffman 先生最為重要的貢獻 —— Huffman 編碼展開討論,隨后,我們再具體介紹可以和 Huffman 聯(lián)合使用的概率模型。

為什么是二叉樹

為什么壓縮領(lǐng)域中的編碼方法總和二叉樹聯(lián)系在一起呢?原因非常簡單,回憶一下我們介紹過的“前綴編碼”:為了使用不固定的碼長表示單個字符,編碼必須符合“前綴編碼”的要求,即較短的編碼決不能是較長編碼的前綴。要構(gòu)造符合這一要求的二進制編碼體系,二叉樹是最理想的選擇。考察下面這棵二叉樹:

根(root)
0 | 1
+------+------+
0 | 1 0 | 1
+-----+-----+ +---+----+
| | | |
a | d e
0 | 1
+-----+-----+
| |
b c
要編碼的字符總是出現(xiàn)在樹葉上,假定從根向樹葉行走的過程中,左轉(zhuǎn)為0,右轉(zhuǎn)為1,則一個字符的編碼就是從根走到該字符所在樹葉的路徑。正因為字符只能出現(xiàn)在樹葉上,任何一個字符的路徑都不會是另一字符路徑的前綴路徑,符合要求的前綴編碼也就構(gòu)造成功了:

a - 00 b - 010 c - 011 d - 10 e - 11
Shannon-Fano 編碼

進入 Huffman 先生構(gòu)造的神奇二叉樹之前,我們先來看一下它的前身,由 Claude Shannon 和 R.M.Fano 兩人提出的 Shannon-Fano 編碼。

討論之前,我們假定要編碼字符的出現(xiàn)概率已經(jīng)由某一模型統(tǒng)計出來,例如,對下面這串出現(xiàn)了五種字符的信息( 40 個字符長 ):

cabcedeacacdeddaaabaababaaabbacdebaceada
五種字符的出現(xiàn)次數(shù)分別:a - 16,b - 7,c - 6,d - 6,e - 5。

Shannon-Fano 編碼的核心仍然是構(gòu)造二叉樹,構(gòu)造的方式非常簡單:

1) 將給定符號按照其頻率從大到小排序。對上面的例子,應該得到:

a - 16
b - 7
c - 6
d - 6
e - 5
2) 將序列分成上下兩部分,使得上部頻率總和盡可能接近下部頻率總和。我們有:

a - 16
b - 7
-----------------
c - 6
d - 6
e - 5
3) 我們把第二步中劃分出的上部作為二叉樹的左子樹,記 0,下部作為二叉樹的右子樹,記 1。

4) 分別對左右子樹重復 2 3 兩步,直到所有的符號都成為二叉樹的樹葉為止。現(xiàn)在我們有如下的二叉樹:

根(root)
0 | 1
+------+------+
0 | 1 0 | 1
+-----+-----+ +---+----+
| | | |
a b c |
0 | 1
+-----+-----+
| |
d e
于是我們得到了此信息的編碼表:

a - 00 b - 01 c - 10 d - 110 e - 111
可以將例子中的信息編碼為:

cabcedeacacdeddaaabaababaaabbacdebaceada
10 00 01 10 111 110 111 00 10 00 10 ......
碼長共 91 位。考慮用 ASCII 碼表示上述信息需要 8 * 40 = 240 位,我們確實實現(xiàn)了數(shù)據(jù)壓縮。

Huffman 編碼

Huffman 編碼構(gòu)造二叉樹的方法和 Shannon-Fano 正好相反,不是自上而下,而是從樹葉到樹根生成二叉樹。現(xiàn)在,我們?nèi)匀皇褂蒙厦娴睦觼韺W習 Huffman 編碼方法。

1) 將各個符號及其出現(xiàn)頻率分別作為不同的小二叉樹(目前每棵樹只有根節(jié)點)。

a(16) b(7) c(6) d(6) e(5)
2) 在 1 中得到的樹林里找出頻率值最小的兩棵樹,將他們分別作為左、右子樹連成一棵大一些的二叉樹,該二叉樹的頻率值為兩棵子樹頻率值之和。對上面的例子,我們得到一個新的樹林:

| (11)
a(16) b(7) c(6) +---+---+
| |
d e
3) 對上面得到的樹林重復 2 的做法,直到所有符號都連入樹中為止。這一步完成后,我們有這樣的二叉樹:

根(root)
0 | 1
+------+----------------+
| 0 | 1
| +---------+-----------+
| 0 | 1 0 | 1
a +-------+------+ +-------+-------+
| | | |
b c d e
由此,我們可以建立和 Shannon-Fano 編碼略微不同的編碼表:

a - 0 b - 100 c - 101 d - 110 e - 111
對例子中信息的編碼為:

cabcedeacacdeddaaabaababaaabbacdebaceada
101 0 100 101 111 110 111 0 101 0 101 ......
碼長共 88 位。這比使用 Shannon-Fano 編碼要更短一點。

讓我們回顧一下熵的知識,使用我們在第二章學到的計算方法,上面的例子中,每個字符的熵為:

Ea = - log2(16 / 40) = 1.322
Eb = - log2( 7 / 40) = 2.515
Ec = - log2( 6 / 40) = 2.737
Ed = - log2( 6 / 40) = 2.737
Ee = - log2( 5 / 40) = 3.000
信息的熵為:

E = Ea * 16 + Eb * 7 + Ec * 6 + Ed * 6 + Ee * 5 = 86.601
也就是說,表示該條信息最少需要 86.601 位。我們看到,Shannon-Fano 編碼和 Huffman 編碼都已經(jīng)比較接近該信息的熵值了。同時,我們也看出,無論是 Shannon-Fano 還是 Huffman,都只能用近似的整數(shù)位來表示單個符號,而不是理想的小數(shù)位。我們可以將它們做一個對比:

符號 理想位數(shù) S-F 編碼 Huffman 編碼
( 熵 ) 需要位數(shù) 需要位數(shù)
----------------------------------------------------
a 1.322 2 1
b 2.515 2 3
c 2.737 2 3
d 2.737 3 3
e 3.000 3 3
----------------------------------------------------
總 計 86。601 91 88
這就是象 Huffman 這樣的整數(shù)位編碼方式無法達到最理想的壓縮效果的原因。

為 Huffman 編碼選擇模型(附范式 Huffman 編碼)

最簡單,最容易被 Huffman 編碼利用的模型是“靜態(tài)統(tǒng)計模型”,也就是說在編碼前統(tǒng)計要編碼的信息中所有字符的出現(xiàn)頻率,讓后根據(jù)統(tǒng)計出的信息建立編碼樹,進行編碼。這種模型的缺點是顯而易見的:首先,對數(shù)據(jù)量較大的信息,靜態(tài)統(tǒng)計要消耗大量的時間;其次,必須保存統(tǒng)計出的結(jié)果以便解碼時構(gòu)造相同的編碼樹,或者直接保存編碼樹本身,而且,對于每次靜態(tài)統(tǒng)計,都有不同的結(jié)果,必須分別予以保存,這要消耗大量的空間(這意味著壓縮效率的下降);再次,事實上,即使不將編碼樹計算在內(nèi),對通常含有 0 - 255 字符集的計算機文件來說,靜態(tài)統(tǒng)計模型統(tǒng)計出的頻率是字符在整個文件中的出現(xiàn)頻率,往往反映不出字符在文件中不同局部出現(xiàn)頻率的變化情況,使用這一頻率進行壓縮,大多數(shù)情況下得不到太好壓縮效果,文件有時甚至在壓縮后反而增大了。所以,“靜態(tài)統(tǒng)計模型”一般僅作為復雜算法的某一部分出現(xiàn),在信息的某一局部完成壓縮功能。我們很難將其用于獨立的壓縮系統(tǒng)。

有一種有效的“靜態(tài)統(tǒng)計模型”的替代方案,如果我們要壓縮的所有信息具有某些共同的特性,也即在分布上存在著共同的特征,比如我們要壓縮的是普通的英文文本,那么,字母 a 或者字母 e 的出現(xiàn)頻率應當是大致穩(wěn)定的。使用語言學家事先已經(jīng)建立好的字母頻率表來進行壓縮和解壓縮,不但不用保存多份統(tǒng)計信息,而且一般說來對該類文件有著較好的壓縮效果。這種方案除了適應性不太強以外,偶爾還會有一些尷尬的時候。讀一遍下面這段話:

If Youth,throughout all history, had had a champion to stand up for it; to show a doubting world that a child can think;and, possibly, do it practically; you wouldn't constantly run across folks today who claim that "a child don't know anything." - Gadsby by E.V.Wright, 1939.

發(fā)現(xiàn)什么問題了嗎?哦,整段話中竟沒有出現(xiàn)一次英文中出現(xiàn)頻率最高的字母 e !真讓人驚訝,但沒有辦法,事先擬定的頻率分布總有意外的時候。

對英文或中文文本,有一種比較實用的靜態(tài)模型:不是把字符而是把英文單詞或中文詞語作為統(tǒng)計頻率和編碼的單位進行壓縮。也就是說,每次編碼的不再是 a b c 這樣的單個符號,而是 the look flower 這樣的單詞。這種壓縮方式可以達到相當不錯的壓縮效果,并被廣泛地用于全文檢索系統(tǒng)。

對基于詞的編碼方式,需要解決幾個技術(shù)難點。首先是分詞的問題,英文單詞可以由詞間空格分隔,但中文怎么辦呢?其實,有很多中文分詞算法可以解決這個問題,本書就不再詳細介紹了。王笨笨就曾開發(fā)過一個不錯的分詞模塊,但希望通過收取一定報酬的方式提供該模塊,如有需要,請和王笨笨 E-Mail 聯(lián)系。一旦我們將詞語分離出來,我們就可以對每個詞進行頻率統(tǒng)計,然后建立 Huffman 編碼樹,輸出編碼時,一個編碼將代替一個詞語。但要注意,英文和漢語的單詞數(shù)量都在幾萬到十幾萬左右,也就是說,我們的 Huffman 編碼樹將擁有十幾萬個葉子節(jié)點,這對于一棵樹來說太大太大了,系統(tǒng)將無力承擔所需要的資源,這怎么辦呢?我們可以暫時拋開樹結(jié)構(gòu),采用另一種構(gòu)造 Huffman 編碼的方式——范式 Huffman 編碼。

范式 Huffman 編碼(Canonical Huffman Code)的基本思路是:并非只有使用二叉樹建立的前綴編碼才是 Huffman 編碼,只要符合(1)是前綴編碼(2)某一字符編碼長度和使用二叉樹建立的該字符的編碼長度相同這兩個條件的編碼都可以叫做 Huffman 編碼。考慮對下面六個單詞的編碼:

符號 出現(xiàn)次數(shù) 傳統(tǒng) Huffman 編碼 范式 Huffman 編碼
------------------------------------------------------------
單詞1 10 000 000
單詞2 11 001 001
單詞3 12 100 010
單詞4 13 101 011
單詞5 22 01 10
單詞6 23 11 11
注意到范式 Huffman 編碼的獨特之處了嗎?你無法使用二叉樹來建立這組編碼,但這組編碼確實能起到和 Huffman 編碼相同的作用。而且,范式 Huffman 編碼具有一個明顯的特點:當我們把要編碼的符號按照其頻率從小到大排列時,如果把范式 Huffman 編碼本身作為單詞的話,也呈現(xiàn)出從小到大的字典順序。

構(gòu)造范式 Huffman 編碼的方法大致是:

1) 統(tǒng)計每個要編碼符號的頻率。

2) 根據(jù)這些頻率信息求出該符號在傳統(tǒng) Huffman 編碼樹中的深度(也就是表示該符號所需要的位數(shù) - 編碼長度)。因為我們關(guān)心的僅僅是該符號在樹中的深度,我們完全沒有必要構(gòu)造二叉樹,僅用一個數(shù)組就可以模擬二叉樹的創(chuàng)建過程并得到符號的深度,具體方法這里就不詳述了。

3) 分別統(tǒng)計從最大編碼長度 maxlength 到 1 的每個長度對應了多少個符號。根據(jù)這一信息從 maxlength 個 0 開始以遞增順序為每個符號分配編碼。例如,編碼長度為 5 的符號有 4 個,長度為 3 的有 1 個,長度為 2 的有 3 個,則分配的編碼依次為: 00000 00001 00010 00011 001 01 10 11

4) 編碼輸出壓縮信息,并保存按照頻率順序排列的符號表,然后保存每組同樣長度編碼中的最前一個編碼以及該組中的編碼個數(shù)。

現(xiàn)在完全可以不依賴任何樹結(jié)構(gòu)進行高速解壓縮了。而且在整個壓縮、解壓縮過程中需要的空間比傳統(tǒng) Huffman 編碼少得多。

最后要提到的是,Huffman 編碼可以采用自適應模型,根據(jù)已經(jīng)編碼的符號頻率決定下一個符號的編碼。這時,我們無需為解壓縮預先保存任何信息,整個編碼是在壓縮和解壓縮過程中動態(tài)創(chuàng)建的,而且自適應編碼由于其符號頻率是根據(jù)信息內(nèi)容的變化動態(tài)得到的,更符合符號的局部分布規(guī)律,因此在壓縮效果上比靜態(tài)模型好許多。但是,采用自適應模型必須考慮編碼表的動態(tài)特性,即編碼表必須可以隨時更新以適應符號頻率的變化。對于 Huffman 編碼來說,我們很難建立能夠隨時更新的二叉樹,使用范式 Huffman 編碼是個不錯的選擇,但依然存在不少技術(shù)上的難題。幸好,如果愿意的話,我們可以暫時不考慮自適應模型的 Huffman 編碼,因為對于自適應模型我們還有許多更好的選擇,下面幾章將要談到的算術(shù)編碼、字典編碼等更為適合采用自適應模型,我們將在其中深入探討自適應模型的各種實現(xiàn)方法。

posted on 2006-04-17 17:13 楊粼波 閱讀(1088) 評論(0)  編輯 收藏 引用


只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲一区二区三区精品视频| 久热综合在线亚洲精品| 欧美日本精品| 亚洲精品乱码久久久久久蜜桃91 | 亚洲欧洲99久久| 亚洲特黄一级片| 国产婷婷色一区二区三区四区| 久久国产夜色精品鲁鲁99| 欧美一级在线亚洲天堂| 亚洲国产精品一区二区久| 亚洲高清电影| 99在线精品视频| 国产精品va在线播放| 久久国产欧美| 国产精品入口夜色视频大尺度| 欧美在线视频网站| 久久久久综合网| 亚洲视频免费| 久久精品国产清高在天天线| 亚洲激情视频在线播放| 夜夜嗨av色一区二区不卡| 亚洲激情一区二区| 噜噜噜在线观看免费视频日韩| 亚洲视频在线观看三级| 欧美国产欧美亚洲国产日韩mv天天看完整 | 一区国产精品| 99re国产精品| 国产欧美一区二区精品仙草咪| 欧美成人高清| 欧美午夜精品久久久久久久 | 欧美一区二区三区四区在线| 亚洲免费视频网站| 久热精品视频在线| 欧美11—12娇小xxxx| 伊人久久亚洲美女图片| 一区二区三区四区国产精品| 在线欧美影院| 午夜精彩视频在线观看不卡| 亚洲另类自拍| 久久午夜精品一区二区| 午夜一区二区三区在线观看| 欧美国产日韩精品免费观看| 亚洲国产精品123| 国产精品白丝av嫩草影院| 亚洲少妇诱惑| 一区二区三区色| 免费美女久久99| 久久人人97超碰国产公开结果 | 国语自产偷拍精品视频偷| 日韩亚洲欧美精品| 欧美一区二区三区的| 欧美日韩国产二区| 欧美激情免费在线| 国产一在线精品一区在线观看| 夜夜嗨av一区二区三区中文字幕 | 欧美一区二区福利在线| 久久伊人精品天天| 国产视频久久| 另类尿喷潮videofree | 亚洲午夜在线观看| 麻豆成人91精品二区三区| 国产欧美视频一区二区| 久久免费99精品久久久久久| 亚洲人午夜精品免费| 亚洲精品欧美精品| 国产精品久久久久久影视| 99精品视频免费全部在线| 西西人体一区二区| 亚洲黄色免费电影| 国产精品日韩在线观看| 久久综合福利| 亚洲天堂av综合网| 欧美成人在线影院| 亚洲韩国一区二区三区| 国产精品视频一区二区三区| 美女精品在线| 亚洲欧美在线免费| 亚洲精品中文在线| 亚洲一区欧美一区| 国产精品揄拍500视频| 性欧美在线看片a免费观看| 久久精品99无色码中文字幕| 亚洲日本成人网| 国产一区二区日韩精品欧美精品| 欧美亚洲综合久久| 亚洲精品久久久久久久久久久久久| 欧美综合77777色婷婷| 一本色道久久综合狠狠躁篇怎么玩| 欧美精品成人91久久久久久久| 亚洲区在线播放| 久久躁日日躁aaaaxxxx| 欧美在线free| 亚洲一区日韩| 一区二区三区不卡视频在线观看| 一区精品在线播放| 韩国av一区二区三区| 国产精品一区久久久| 欧美三级不卡| 欧美中文字幕在线| 最新日韩中文字幕| 午夜日韩电影| 亚洲欧美日韩另类精品一区二区三区 | 欧美精品一区二区久久婷婷| 久久久久久久久久久久久久一区| 欧美一级欧美一级在线播放| 亚洲字幕一区二区| 欧美刺激午夜性久久久久久久| 久久天天躁狠狠躁夜夜爽蜜月| 久久福利毛片| 欧美一级视频精品观看| 午夜精品久久久久久久99樱桃| 亚洲中午字幕| 篠田优中文在线播放第一区| 午夜在线视频观看日韩17c| 午夜综合激情| 久久久久久久波多野高潮日日| 日韩午夜激情| 国模私拍一区二区三区| 国产午夜精品麻豆| 狠狠干成人综合网| 一区在线视频观看| 亚洲国产精品毛片| 亚洲精品国精品久久99热一| 一区二区高清在线| 亚洲一区在线播放| 欧美一区午夜精品| 鲁大师影院一区二区三区| 蜜乳av另类精品一区二区| 亚洲欧美国产毛片在线| 午夜国产精品影院在线观看| 久久精品国产综合| 久久综合久久88| 亚洲韩国青草视频| 日韩视频永久免费| 亚洲欧美日本国产有色| 久久久久国产精品一区| 免费观看一区| 国产精品女主播一区二区三区| 国产亚洲成av人在线观看导航| 激情综合视频| 一区二区三区四区五区在线 | 一区二区三区蜜桃网| 性欧美长视频| 免费亚洲电影| 一区二区三区欧美在线| 久久国产天堂福利天堂| 欧美激情亚洲自拍| 国产午夜精品一区理论片飘花| 亚洲国产精品va在看黑人| 亚洲视频中文字幕| 久久亚洲一区二区三区四区| 亚洲欧洲日产国产综合网| 亚洲综合视频1区| 欧美大胆成人| 欧美黄色日本| 国产亚洲精品一区二555| 亚洲精品视频在线看| 欧美中文字幕在线| 亚洲精品欧美一区二区三区| 亚洲欧美在线另类| 欧美日韩和欧美的一区二区| 激情成人在线视频| 亚洲你懂的在线视频| 亚洲国产激情| 久久色在线观看| 国产精品自拍一区| 一区二区三区黄色| 亚洲国产成人午夜在线一区| 欧美一区二区在线看| 国产精品高精视频免费| 国产精品一区二区三区四区 | 一区二区电影免费观看| 欧美国产欧美亚洲国产日韩mv天天看完整 | 久久成人av少妇免费| 欧美日韩在线一二三| 91久久精品网| 亚洲午夜av| 久久精品久久99精品久久| 日韩视频免费在线| 欧美第一黄网免费网站| 极品少妇一区二区| 久久九九99| 欧美一区二区福利在线| 国产精品亚洲а∨天堂免在线| 一区二区免费在线播放| 亚洲国产婷婷综合在线精品| 久久亚洲高清| 尤物yw午夜国产精品视频| 老司机午夜精品视频在线观看| 欧美一区二区在线观看| 国产亚洲精品aa午夜观看| 欧美在线3区| 欧美一区二区精品在线| 国产免费成人| 久久精品99国产精品日本| 欧美一区免费视频| 韩国成人福利片在线播放| 久久免费精品视频| 久久久久久有精品国产| 亚洲国产精品第一区二区|