各種音頻編碼方式的比對
PCM編碼(原始數字音頻信號流)類型:Audio
制定者:ITU-T
所需頻寬:1411.2 Kbps
特性:音源信息完整,但冗余度過大
優點:音源信息保存完整,音質好
缺點:信息量大,體積大,冗余度過大
應用領域:voip
版稅方式:Free
備注:在計算機應用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用于素材保存及音樂欣賞,CD、DVD以及我們常見的WAV文件中均有應用。因此,PCM約定俗成了無損編碼,因為PCM代表了數字音頻中最佳的保真水準,并不意味著PCM就能夠確保信號絕對保真,PCM也只能做到最大程度的無限接近。要算一個PCM音頻流的碼率是一件很輕松的事情,采樣率值×采樣大小值×聲道數bps。一個采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的WAV文件,它的數據速率則為 44.1K×16×2 =1411.2Kbps。我們常見的Audio CD就采用了PCM編碼,一張光盤的容量只能容納72分鐘的音樂信息。
WMA(Windows Media Audio)
類型:Audio
制定者:微軟公司
所需頻寬:320~112kbps(壓縮10~12倍)
特性:當Bitrate小于128K時,WMA幾乎在同級別的所有有損編碼格式中表現得最出色,但似乎128k是WMA一個檻,當Bitrate再往上提升時,不會有太多的音質改變。
優點:當Bitrate小于128K時,WMA最為出色且編碼后得到的音頻文件很小。
缺點:當Bitrate大于128K時,WMA音質損失過大。WMA標準不開放,由微軟掌握。
應用領域:voip
版稅方式:按個收取
備注:WMA的全稱是Windows Media Audio,它是微軟公司推出的與MP3格式齊名的一種新的音頻格式。由于WMA在壓縮比和音質方面都超過了MP3,更是遠勝于RA(Real Audio),即使在較低的采樣頻率下也能產生較好的音質,再加上WMA有微軟的Windows Media Player做其強大的后盾,所以一經推出就贏得一片喝彩。
ADPCM( 自適應差分PCM)
類型:Audio
制定者:ITU-T
所需頻寬:32Kbps
特性:ADPCM(adaptive difference pulse code modulation)綜合了APCM的自適應特性和DPCM系統的差分特性,是一種性能比較好的波形編碼。
它的核心想法是:
①利用自適應的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值;
②使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小。
優點:算法復雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備注:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一種針對16bit (或者更高?) 聲音波形數據的一種有損壓縮算法, 它將聲音流中每次采樣的 16bit 數據以 4bit 存儲, 所以壓縮比 1:4而壓縮/解壓縮算法非常的簡單, 所以是一種低空間消耗,高質量聲音獲得的好途徑。
LPC(Linear Predictive Coding,線性預測編碼)
類型:Audio
制定者:
所需頻寬:2Kbps-4.8Kbps
特性:壓縮比大,計算量大,音質不高,廉價
優點:壓縮比大,廉價
缺點:計算量大,語音質量不是很好,自然度較低
應用領域:voip
版稅方式:Free
備注:參數編碼又稱為聲源編碼,是將信源信號在頻率域或其它正交變換域提取特征參數,并將其變換成數字代碼進行傳輸。譯碼為其反過程,將收到的數字序列經變換恢復特征參量,再根據特征參量重建語音信號。具體說,參數編碼是通過對語音信號特征參數的提取和編碼,力圖使重建語音信號具有盡可能高的準確性,但重建信號的波形同原語音信號的波形可能會有相當大的差別。如:線性預測編碼(LPC)及其它各種改進型都屬于參數編碼。該編碼比特率可壓縮到2Kbit/s-4.8Kbit/s,甚至更低,但語音質量只能達到中等,特別是自然度較低。
CELP(Code Excited Linear Prediction碼激勵線性預測編碼)
類型:Audio
制定者:歐洲通信標準協會(ETSI)
所需頻寬:4~16Kbps的速率
特性:改善語音的質量:
① 對誤差信號進行感覺加權,利用人類聽覺的掩蔽特性來提高語音的主觀質量;
②用分數延遲改進基音預測,使濁音的表達更為準確,尤其改善了女性語音的質量;
③ 使用修正的MSPE準則來尋找 “最佳”的延遲,使得基音周期延遲的外形更為平滑;
④根據長時預測的效率,調整隨機激勵矢量的大小,提高語音的主觀質量;
⑤ 使用基于信道錯誤率估計的自適應平滑器,在信道誤碼率較高的情況下也能合成自然度較高的語音。
結論:
① CELP算法在低速率編碼環境下可以得到令人滿意的壓縮效果;
②使用快速算法,可以有效地降低CELP算法的復雜度,使它完全可以實時地實現;
③CELP可以成功地對各種不同類型的語音信號進行編碼,這種適應性對于真實環境,尤其是背景噪聲存在時更為重要。
優點:用很低的帶寬提供了較清晰的語音
缺點:-
應用領域:voip
版稅方式:Free
備注:1999年歐洲通信標準協會(ETSI)推出了基于碼激勵線性預測編碼(CELP)的第三代移動通信語音編碼標準自適應多速率語音編碼器(AMR),其中最低速率為4.75kb/s,達到通信質量。CELP碼激勵線性預測編碼是Code Excited Linear Prediction的縮寫。CELP是近10年來最成功的語音編碼算法。CELP語音編碼算法用線性預測提取聲道參數,用一個包含許多典型的激勵矢量的碼本作為激勵參數,每次編碼時都在這個碼本中搜索一個最佳的激勵矢量,這個激勵矢量的編碼值就是這個序列的碼本中的序號。
CELP已經被許多語音編碼標準所采用,美國聯邦標準FS1016就是采用CELP的編碼方法,主要用于高質量的窄帶語音保密通信。CELP(Code-Excited Linear Prediction) 這是一個簡化的 LPC 算法,以其低比特率著稱(4800-9600Kbps),具有很清晰的語音品質和很高的背景噪音免疫性。CELP是一種在中低速率上廣泛使用的語音壓縮編碼方案。
MPEG-1 audio layer 1
類型:Audio
制定者:MPEG
所需頻寬:384kbps(壓縮4倍)
特性:編碼簡單,用于數字盒式錄音磁帶,2聲道,VCD中使用的音頻壓縮方案就是MPEG-1層Ⅰ。
優點:壓縮方式相對時域壓縮技術而言要復雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:頻寬要求較高
應用領域:voip
版稅方式:Free
備注:MPEG-1聲音壓縮編碼是國際上第一個高保真聲音數據壓縮的國際標準,它分為三個層次:
--層1(Layer 1):編碼簡單,用于數字盒式錄音磁帶
--層2(Layer 2):算法復雜度中等,用于數字音頻廣播(DAB)和VCD等
--層3(Layer 3):編碼復雜,用于互聯網上的高質量聲音的傳輸,如MP3音樂壓縮10倍
MUSICAM(MPEG-1 audio layer 2,即MP2)
類型:Audio
制定者:MPEG
所需頻寬:256~192kbps(壓縮6~8倍)
特性:算法復雜度中等,用于數字音頻廣播(DAB)和VCD等,2聲道,而MUSICAM由于其適當的復雜程度和優秀的聲音質量,在數字演播室、DAB、DVB等數字節目的制作、交換、存儲、傳送中得到廣泛應用。
優點:壓縮方式相對時域壓縮技術而言要復雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加。可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:
應用領域:voip
版稅方式:Free
備注:同MPEG-1 audio layer 1
MP3(MPEG-1 audio layer 3)
類型:Audio
制定者:MPEG
所需頻寬:128~112kbps(壓縮10~12倍)
特性:編碼復雜,用于互聯網上的高質量聲音的傳輸,如MP3音樂壓縮10倍,2聲道。MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓縮技術,在當時的技術條件下,MP3的復雜度顯得相對較高,編碼不利于實時,但由于MP3在低碼率條件下高水準的聲音質量,使得它成為軟解壓及網絡廣播的寵兒。
優點:壓縮比高,適合用于互聯網上的傳播
缺點:MP3在128KBitrate及以下時,會出現明顯的高頻丟失
應用領域:voip
版稅方式:Free
備注:同MPEG-1 audio layer 1
MPEG-2 audio layer
類型:Audio
制定者:MPEG
所需頻寬:與MPEG-1層1,層2,層3相同
特性:MPEG-2的聲音壓縮編碼采用與MPEG-1聲音相同的編譯碼器,層1、層2和層3的結構也相同,但它能支持5.1聲道和7.1聲道的環繞立體聲。
優點:支持5.1聲道和7.1聲道的環繞立體聲
缺點:-
應用領域:voip
版稅方式:按個收取
備注:MPEG-2的聲音壓縮編碼采用與MPEG-1聲音相同的編譯碼器,層1、層2和層3的結構也相同,但它能支持5.1聲道和7.1聲道的環繞立體聲。
AAC(Advanced Audio Coding ,先進音頻編碼)
類型:Audio
制定者:MPEG
所需頻寬:96-128 kbps
特性:AAC可以支持1到48路之間任意數目的音頻聲道組合、包括15路低頻效果聲道、配音/多語音聲道,以及15路數據。它可同時傳送16套節目,每套節目的音頻及數據結構可任意規定。
AAC主要可能的應用范圍集中在因特網網絡傳播、數字音頻廣播,包括衛星直播和數字AM、以及數字電視及影院系統等方面。AAC使用了一種非常靈活的熵編碼核心去傳輸編碼頻譜數據。具有48個主要音頻通道,16 個低頻增強通道,16 個集成數據流, 16 個配音,16 種編排。
優點:支持多種音頻聲道組合,提供優質的音質
缺點:-
應用領域:voip
版稅方式:一次性收費
備注:AAC于1997年形成國際標準ISO 13818-7。先進音頻編碼(Advanced Audio Coding--AAC)開發成功,成為繼MPEG-2音頻標準(ISO/IEC13818-3)之后的新一代音頻壓縮標準。
在MPEG-2制訂的早期,本來是想將其音頻編碼部分保持與MPEG-1兼容的。但后來為了適應演播電視的要求而將其定義成為一個可以獲得更高質量的多聲道音頻標準。理所當然地,這個標準是不兼容MPEG-1的,因此被稱為MPEG-2AAC。換句話說,從表面上看,要制作和播放AAC,都需要使用與MP3完全不同的工具。
HR
類型:Audio
制定者: 飛利浦
所需頻寬:8Kbps
特性:以增加GSM網絡容量為目的,但是會損害語音質量;由于現在網絡頻率緊缺,一些大的運營商已經在大城市密集地帶開通此方式以增加容量。
優點:系統容量大
缺點:語音質量差
應用領域:GSM
版稅方式:按個收費
備注:HR半速率,是一種GSM語音編碼方式。
FR
類型:Audio
制定者:飛利浦
所需頻寬:13Kbps
特性:是一般的GSM手機的通信編碼方式,可以獲得達到4.1左右Qos的語音通信質量(國際電聯規定語音通信質量Qos滿分為5)
優點:語音質量得到了提高
缺點:系統容量降低
應用領域:GSM
版稅方式:按個收費
備注:FR全速率,是一種GSM語音編碼方式
EFR
類型:Audio
制定者:飛利浦
所需頻寬:13Kbps
特性:用于GSM手機基于全速率13Kbps的語音編碼和發送,可以獲得更好更清晰的語音質量(接近Qos4.7)需要網絡服務商開通此項網絡功能,手機才能配合實現。
優點:音質好
缺點:需要網絡服務商開通此項網絡功能,且系統容量降低
應用領域:GSM
版稅方式:按個收費
備注:EFR增強型全速率,一種GSM網絡語音的編碼方式。
GSM-AMR(Adaptive Multi-Rate)
類型:Audio
制定者:飛利浦
所需頻寬:8Kbps(4.75 Kbps~12.2 Kbps)
特性: 可以對語音進行替換和消音,平滑噪音,支持間斷式傳輸,對語音進行動態偵查。能在各種網絡條件下提供優質的語音效果。
優點:音質出色
缺點:-
應用領域:GSM
版稅方式:按個收費
備注:GSM-ASM是一種廣泛使用在GPRS和W-CDMA網絡上的音頻標準。在規范ETSI GSM06.90中對GSM-AMR進行了定義。AMR語音編碼是GSM2+和WCDMA的默認編碼標準,是第三代無線通訊系統的語音編碼標準。GSM-AMR標準基于ACELP(代數激勵線性預測)編碼。它能在廣泛的傳輸條件下提供高品質的語音效果。
EVRC(Enhanced Variable Rate Coder,增強型可變速率編碼器)
類型:Audio
制定者:美國Qualcomm通信公司(即高通)
所需頻寬:8Kbps或13Kbps
特性:支持三種碼率(9.6 Kbps, 4.8 Kbps 和 1.2 Kbps),噪聲抑制,郵件過濾。能在各種網絡條件下提供優質的語音效果。
優點:音質出色
缺點:-
應用領域:CDMA
版稅方式:按個收費
備注:EVRC編碼廣泛使用于CDMA網絡。EVRC標準遵循規范TIA IS-127的內容。EVRC編碼基于RCELP(松弛碼激勵線性預測)標準。該編碼可以以Rate 1(171bits/packet),Rate1/2(80bits/packet)或是Rate1/8(16bits/packet)的容量進行操作。在要求下,它也能產生空包(0bits/packet)。
QCELP(QualComm Code Excited Linear Predictive,受激線性預測編碼)
類型:Audio
制定者:美國Qualcomm通信公司(即高通)
所需頻寬:8k的語音編碼算法(可工作于4/4.8/8/9.6Kbps等固定速率上,而且可變速率地工作于800Kbps~9600Kbps之間)
特性:使用適當的門限值來決定所需速率。QCELP是一種8k的語音編碼算法(可以在8k的速率下提供接近13k的話音壓縮質量)。這是一種可變速率話音編碼,根據人的說話特性(大家應該能夠體會我們日常的溝通和交流時并不是一直保持某種恒定的方式講話,有間斷、有不同的聲音頻率等都是人的自然表達)而采取的一種優化技術。
優點:話音清晰、背景噪聲小,系統容量大
缺點: 不是Free
應用領域:CDMA
版稅方式:每年支付一筆使用權費用
備注:QCELP,即Qualcomm Code Excited Linear Predictive(Qualcomm受激線性預測編碼)。美國Qualcomm通信公司的專利語音編碼算法,是北美第二代數字移動電話(CDMA)的語音編碼標準(IS95)。這種算法不僅可工作于4/4.8/8/9.6kbit/s等固定速率上,而且可變速率地工作于800bit/s~9600bit/s之間。QCELP算法被認為是到目前為止效率最高的一種算法,它的主要特點之一,是使用適當的門限值來決定所需速率。門限值隨背景噪聲電平變化而變化,這樣就抑制了背景噪聲,使得即使在喧鬧的環境中,也能得到良好的話音質量,CDMA8Kbit/s的話音近似GSM 13Mbit/s的話音。CDMA采用QCELP編碼等一系列技術,具有話音清晰、背景噪聲小等優勢,其性能明顯優于其他無線移動通信系統,語音質量可以與有線電話媲美。 無線輻射低。