混音算法的學習與研究
金慶 2007.10.31
(轉載請注明來源于金慶的專欄)
想把原來一個舊程序中的混音算法改善一下,就大致研究了一下混音算法。
原來的混音是直接加和,因為音源音量很小,連溢出也沒考慮。
出來的效果只能是大概有個響動,不過程序應用的領域只需達到這點就足夠了。
現在音源音質改善了一點,有必要也對混音算法做點改進了。
主要還是曾經看到這樣一篇混音新算法的轉載文章[3],一直想應用一下。
再次翻到那篇文章,算法很簡單,表達也很清晰,就是不知道原理。
算法簡述如下:
For n-bit sampling audio signal
If both A and B are negative Y = A + B - (A * B / (-(2 pow(n-1) -1)))
Else Y = A + B - (A * B / (2 pow(n-1))
注意代碼與算法稍有不符。代碼中兩種情況都除以(-(2 pow(n-1) -1))),根據算法,大部分情況下都應該除以(2 pow(n-1))。是否減1有什么作用?如果不必減1,對于整數運算就可以用移位實現。
如果對多路混音該如何擴展算法呢?
算法的出處未注明,所以我搜索了一下,找到一篇論壇帖子(但與原文中引文并不一致):
http://www.dsprelated.com/showmessage/27372/1.php
從中可以看到,算法并沒有什么數學根據,而且從兩路擴展到多路效果并不好?;刭N的沒有一個贊同這一算法的。
看來不能盲目照搬沒有根據的算法。
[3]中還有一個NOKIA的代碼下載,根據所附鏈接,下載了這個NOKIA的例子,其中混音的代碼在CMixerThread::FillBuffer()中,發現只是簡單的加和再限值,沒有什么利用價值。
后來終于找到該算法的出處:
http://newlc.com/topic-10064
作者自己說,該算法對于5個通道以上就不太好,算法的好處是不會溢出。但有人反映聲音有飽和的趨向。
總結一下我對混音算法的學習,大概有以下幾種方式:
1. 直接加和
2. 加和后再除以混音通道數,防止溢出
3. 加和并箝位,如有溢出就設最大值
4. 飽和處理,接近最大值時進行扭曲(“軟件混音的實現”一文算法就是這類)
5. 歸一化處理,全部乘個系數,使幅值歸一化。(只適用于文件)
6. 衰減因子法,用衰減因子限制幅值[1]。
直接加和,或除以通道數的混音方法有嚴重缺陷,效果可能很差。箝位法最大混音數大約是4個,飽和處理最大混音數可能再高幾個。對于大量的混音,應該采用衰減因子法。
文獻[2]提出了一個自對齊權重法(align-to-self weighted,簡稱ASW),以一個時間幀為單位進行衰減,可能在幀之間有斷續,效果應該不如平滑的衰減。
如果[1]中的衰減因子計算時能考慮整個時間片的數據,而不僅僅是當前點,那樣效果會更好吧。
(轉載請注明來源于金慶的專欄)
參考文獻:
[1] 視頻會議中關于混音算法的一些筆記
[2] 多媒體會議中的快速實時自適應混音方案研究 (PDF)
[3] 軟件混音的實現
金慶 2007.10.31
(轉載請注明來源于金慶的專欄)
想把原來一個舊程序中的混音算法改善一下,就大致研究了一下混音算法。
原來的混音是直接加和,因為音源音量很小,連溢出也沒考慮。
出來的效果只能是大概有個響動,不過程序應用的領域只需達到這點就足夠了。
現在音源音質改善了一點,有必要也對混音算法做點改進了。
主要還是曾經看到這樣一篇混音新算法的轉載文章[3],一直想應用一下。
再次翻到那篇文章,算法很簡單,表達也很清晰,就是不知道原理。
算法簡述如下:
For n-bit sampling audio signal
If both A and B are negative Y = A + B - (A * B / (-(2 pow(n-1) -1)))
Else Y = A + B - (A * B / (2 pow(n-1))
注意代碼與算法稍有不符。代碼中兩種情況都除以(-(2 pow(n-1) -1))),根據算法,大部分情況下都應該除以(2 pow(n-1))。是否減1有什么作用?如果不必減1,對于整數運算就可以用移位實現。
如果對多路混音該如何擴展算法呢?
算法的出處未注明,所以我搜索了一下,找到一篇論壇帖子(但與原文中引文并不一致):
http://www.dsprelated.com/showmessage/27372/1.php
從中可以看到,算法并沒有什么數學根據,而且從兩路擴展到多路效果并不好?;刭N的沒有一個贊同這一算法的。
看來不能盲目照搬沒有根據的算法。
[3]中還有一個NOKIA的代碼下載,根據所附鏈接,下載了這個NOKIA的例子,其中混音的代碼在CMixerThread::FillBuffer()中,發現只是簡單的加和再限值,沒有什么利用價值。
后來終于找到該算法的出處:
http://newlc.com/topic-10064
作者自己說,該算法對于5個通道以上就不太好,算法的好處是不會溢出。但有人反映聲音有飽和的趨向。
總結一下我對混音算法的學習,大概有以下幾種方式:
1. 直接加和
2. 加和后再除以混音通道數,防止溢出
3. 加和并箝位,如有溢出就設最大值
4. 飽和處理,接近最大值時進行扭曲(“軟件混音的實現”一文算法就是這類)
5. 歸一化處理,全部乘個系數,使幅值歸一化。(只適用于文件)
6. 衰減因子法,用衰減因子限制幅值[1]。
直接加和,或除以通道數的混音方法有嚴重缺陷,效果可能很差。箝位法最大混音數大約是4個,飽和處理最大混音數可能再高幾個。對于大量的混音,應該采用衰減因子法。
文獻[2]提出了一個自對齊權重法(align-to-self weighted,簡稱ASW),以一個時間幀為單位進行衰減,可能在幀之間有斷續,效果應該不如平滑的衰減。
如果[1]中的衰減因子計算時能考慮整個時間片的數據,而不僅僅是當前點,那樣效果會更好吧。
(轉載請注明來源于金慶的專欄)
參考文獻:
[1] 視頻會議中關于混音算法的一些筆記
[2] 多媒體會議中的快速實時自適應混音方案研究 (PDF)
[3] 軟件混音的實現