楊超 孫云 黃雋逸 徐向旭 孫保良



摘 ?要: 在音頻信號編碼中,提出在線性預測編碼、SOM神經網絡矢量編碼以及Huffman編碼相結合的聲音信號聯合編碼算法的基礎上,通過將聲音量化編碼算法中原有的2維量化矢量的維數增加,以進一步減小聲音信號碼率的方法。利用Matlab軟件編程進行不同量化矢量維數條件下的聲音信號編解碼實驗。實驗結果表明,在保證聲音質量的前提下,通過提高量化矢量維數,可使聯合編碼的最低碼率在音頻編碼格式Opus碼率的范圍內,且接近Opus碼率的下限。文中提出的編碼算法可為音頻壓縮編碼的進一步研究提供參考。
關鍵詞: 音頻信號; 矢量編碼; 神經網絡; 壓縮編碼; 高維矢量; 預測編碼
中圖分類號: TN911?34 ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)15?0043?04
Research on high dimension vector encoding algorithm for audio signal
YANG Chao1, SUN Yun2,HUANG Junyi1,XU Xiangxu3,SUN Baoliang1,
(1. Naval Aeronautics and Aviation University, Yantai 264001, China;
2. Unit 91604 of PLA, Longkou 265706, China; 3. Unit 92635 of PLA, Qingdao 266041, China)
Abstract: On the basis of a combination of linear predictive coding, SOM neural network vector coding and Huffman coding (Hereinafter referred to as the joint coding for short), a method of reducing the coding rate of sound signals is proposed in the audio signal coding by means of increasing the dimension of the original 2D quantization vector in the audio quantization coding algorithm. Matlab software is used to carry out the experiment of sound signal coding and decoding under the condition of different quantization vector dimensions. The experimental results show that, on the premise of guaranteeing the sound quality, the method can make the minimum code rate of the joint coding be within the range of the Opus code rate in the audio coding format and close to the lower limit of the Opus code rate by improving the quantization vector dimension. The coding algorithm proposed in this paper can provide a reference for further research of audio compression coding.
Keyword: audio signal; vector coding; neural network; compression coding; high dimensional vector; predictive coding
0 ?引 ?言
音頻壓縮已經廣泛應用于消費類和專業級的音頻產品、互聯網應用、遠程醫療和錄放系統中。在現代通信系統中,隨著帶寬和存儲容量需求的不斷增長[1?3],音頻編碼研究也越來越受到重視。當前最新的低延時音頻編碼格式Opus對于互聯網上的交互式聲音和音樂傳輸來說是最佳的選擇,同時也應用于存儲和流媒體中。一些新的音頻編碼算法也在不斷涌現,例如,一種將預測編碼[4]、基于SOM自組織神經網絡[5?8]的矢量編碼[4,9?10]及Huffman[11]編碼相結合的音頻編碼算法[12](以下簡稱聯合編碼算法)。在保證聲音質量的前提下,該編碼方法的碼率小于MEPG?1 Layer3的最低64 Kb/s標準碼率,本文通過提高聲音信號聯合編碼中的量化矢量的維數以減小聯合編碼的碼率。
1 ?2維聯合編碼算法
圖1是2維聯合編碼算法編碼程序流程圖。首先,將1列聲音采樣信號按照奇偶順序轉換成2列,即將原序號為([2×n-1])的信號組成新的第1列,原序號為[2×n]的信號組成新的第2列,其中[n]為正整數。每列信號分別按照線性預測編碼原理各自進行預測,計算當前的預測值和誤差值,共得到2個誤差值,將該2個誤差值組成一組2維矢量,進行基于自組織神經網絡的矢量編碼。恢復聲音時,譯碼過程與編碼過程相反得到誤差值,同時對兩列信號的誤差值進行基于自組織神經網絡的矢量編碼。恢復聲音時,譯碼過程與編碼過程相反,最后對譯碼數據用切比雪夫Ⅰ型濾波器濾波。

2 ?高維聯合編碼算法實驗結果與分析
本文將提高2維聯合編碼算法中量化矢量的維數,研究量化維數對碼率的影響,旨在尋找進一步減小碼率的算法。考慮到編碼效率,一般維數選為[2n],[n]為正整數。實驗中,選取量化維數分別為2維、4維和8維的編碼算法進行實驗。[m]維矢量編碼過程如下:首先將1列聲音采樣信號按照順序轉換成[m]列,即將原序號為([m×n+i])的數據組成為新的第[i]列,其中[n]取值為自然數,[i]取值為[1~m]的整數。每列信號分別按照線性預測編碼原理各自進行預測,計算當前的預測值和誤差值,共得到[m]個誤差值,將這[m]個誤差值組成一組[m]維矢量,進行基于SOM自組織神經網絡的4維矢量量化,然后進行Huffman編碼;譯碼過程與編碼過程相反,最后對譯碼數據用切比雪夫Ⅰ型濾波器濾波。
為了研究高維矢量聯合編碼,選擇標準聲音庫中“雷聲”這個日常生活中具有代表性的聲音作為研究對象。其中,聲音“雷聲”時域信號的采樣率為11 025 Hz,量化精度為8 bit。
基于SOM的神經網絡的碼本訓練次數為300。聯合編碼的譯碼端低通濾波器的通帶截止頻率設為2 500 Hz,阻帶截止頻率設為3 750 Hz,通帶波紋設為0.3 dB,阻帶衰減設為10 dB。
表1是對聲音“雷聲”信號譯碼結果,其中,第4列是MOS值,是主觀聲音質量的定量描述。目前在國際上比較通用的音頻質量主觀評價標準是平均意見得分(Mean Opinion Score,MOS),MOS評分標準分為五級,在數字音頻通信中,一般高質量數字化音頻的MOS值在4.0~4.5分之間,質量滿足長途電話網的要求,接近于透明信道編碼,也常稱為網絡質量。音頻通信質量一般MOS值在3.5分左右,此時能夠感覺到恢復的音頻質量有所下降,但能夠知道聲音中的內容,可以滿足多數音頻通信系統的適用要求。合成語音質量MOS值一般在2.0~3.0分之間,是指一些聲碼器的合成語音所能達到的質量,一般具有一定的可懂度,但是自然度和音色的確認方面不夠理想。第5列是主觀聲音質量的定性描述,質量為“壞”,表示聲音質量“不可忍受”;質量為“差”,表示“明顯察覺且可厭但可忍受”;質量為“可”,表示“有察覺且稍覺可厭”。第6列是碼率。

由表1可知,2維聯合編碼在碼書長度為2時,雖然碼率為5.513 Kb/s,但是譯碼聲音質量“壞”,不能用。當碼元矢量為2維、碼書長度為4時,以及碼元矢量為4維、碼書長度為16時,碼率為11.025 Kb/s,譯碼聲音質量為“差”,雖然音色不夠理想,但是具有可懂度,可以用于通信。由表1可知,當碼元矢量為8維、碼書長度為64時,譯碼聲音質量為“差”,但此時碼率值為8.268 Kb/s,比相同的譯碼聲音質量碼元維數為2和4時的碼率值11.025 Kb/s要小。所以,將碼元矢量的維數提高,也就是采樣更高維的聯合編碼算法,在譯碼聲音質量相同的條件下,高維聯合編碼的碼率較低維的聯合編碼算法可以達到更小的碼率。
圖2是采用8維聯合編碼方法對聲音樣本“雷聲”的譯碼運算結果,其中聯合編碼的碼書長度為64,碼率為8.268 Kb/s,基于SOM的神經網絡訓練碼本的碼本訓練次數為300。8維聯合編碼的譯碼端低通濾波器的通帶截止頻率設為2 500 Hz,阻帶截止頻率設為3 750 Hz,通帶波紋設為0.3 dB,阻帶衰減設為10 dB。
圖2a)和圖2b)分別是原始聲音樣本信號“雷聲”的時域波形和頻譜;圖2c)和圖2d)分別是對圖2a)進行聯合編碼所得到的聲音樣本“雷聲”的譯碼信號的時域波形和頻譜。由圖2a)和圖2c)可見,“雷聲”聲音信號譯碼信號的時域波形與原始信號的時域波形形狀基本一致;由圖2b)和圖2d)可見,“雷聲”聲音信號譯碼頻譜在頻率小于2 500 Hz的低頻部分與原始信號頻譜基本一致,大于2 500 Hz的高頻部分,能量較原始信號的小,但是,由于人耳對頻率大于2 500 Hz的高頻頻率部分敏感度小,所以,人耳聽到的譯碼聲音的內容和原始聲音的內容基本一致,但是音色略差。
3 ?結 ?論
2維聯合編碼算法是一種預測編碼、SOM自主神經網絡2維矢量編碼和Huffman編碼的聯合編碼,并在譯碼時用切比雪夫Ⅰ型濾波器對譯碼信號進行濾波的算法。本文將2維聯合編碼算法中量化矢量的維數增加,研究了量化維數對壓縮率和碼率的影響,對同一聲音樣本分別用2維聯合編碼算法、4維聯合編碼算法和8維聯合編碼算法進行編碼運算,計算結果表明,在保證譯碼恢復聲音質量良好的條件下,增加2維聯合編碼算法的量化矢量維數可以減小碼率。其中 ,采樣率為11 025 Hz、量化精度為8 bit、量化矢量為8維且碼書長度為64的聯合編碼算法甚至可以達到最小碼率8.268 Kb/s。當前用于存儲和流媒體應用、互聯網上的交互式聲音和音樂傳輸的最新的低延時音頻編碼格式Opus的采樣率為8~48 kHz,它的碼率范圍為6~510 Kb/s,可見,高維聯合編碼的最低碼率在音頻編碼格式Opus碼率的范圍內,且接近Opus碼率的下限。因此,音頻高維聯合編碼算法將會有廣闊的應用前景。

參考文獻
[1] 丁榮格.音頻編碼技術在數字化傳輸中的應用[J].計算機與網絡,2013,39(13):50?52.
DING Rongge. The application of audio coding technology in digital transmission [J]. Computer and network, 2013, 39(13): 50?52.
[2] 楊可歆.音頻編碼技術在數字化傳輸中的應用探究[J].科技創新與應用,2015(16):89.
YANG Kexin. Application of audio coding technology in digital transmission [J]. Technology innovation and application, 2015(16): 89.
[3] 張楊.音頻編碼技術及廣播電臺數字編碼壓縮傳輸系統建設[J].科技傳播,2015(11):113?115.
ZHANG Yang. Audio coding technology and digital coding compression transmission system construction of radio station [J]. Science and technology communication, 2015(11): 113?115.
[4] 樊昌信,曹麗娜.通信原理[M].7版.北京:國防工業出版社,2015:302?305.
FAN Changxin, CAO Lina. Principle of communication [M]. 7th ed. Beijing: National Defense Industry Press, 2015: 302?305.
[5] 陳明.神經網絡原理與實例精解[M].北京:清華大學出版社,2013:246?250.
CHEN Ming. The neural network principle and example [M]. Beijing: Tsinghua University Press, 2013: 246?250.
[6] 王龍,杜敦偉,白艷萍.基于SVM和SOM的雷達目標識別[J].科技視界,2015(16):505?509.
WANG Long, DU Dunwei, BAI Yanping. Radar target recognition based on SVM and SOM [J]. Science & technology vision, 2015(16): 505?509.
[7] 楊晨,閆薇.利用SOM網絡模型進行聚類研究[J].網絡安全技術與應用,2014(2):44?45.
YANG Chen, YAN Wei. Research on the clustering by using SOM network model [J]. Net security technologies and application, 2014(2): 44?45.
[8] 鄒瑜,帥仁俊.基于改進的SOM神經網絡的醫學圖像分割算法[J].計算機工程與設計,2016,37(9):2533?2537.
ZOU Yu, SHUAI Renjun. Improved segmentation algorithm of medical images based on SOM neural network [J]. Communication technology, 2016, 37(9): 2533?2537.
[9] 楊超,賀一君,任建存,等.碼本均衡矢量編碼算法[J].現代電子技術,2016,39(13):38?40.
YANG Chao, HE Yijun, REN Jiancun, et al. Codebook equilibrium algorithm for vector coding [J]. Modern electronics technique, 2016, 39(13): 38?40.
[10] 楊超,董世錕.矢量量化圖像壓縮方法[J]. 海軍航空工程學院學報,2011,26(1):11?14.
YANG Chao, DONG Shikun. Image compresion method beased on vector quantization [J]. Journal of Naval Aeronautical and Astronautic University, 2011, 26(1): 11?14.
[11] 孟歡,包海燕,潘飛.Xilinx哈夫曼編碼系統設計[J].電子產品世界,2017(11):51?54.
MENG Huan, BAO Haiyan, PAN Fei. Design of Xilinx Huffman coding system [J]. Electronic engineering & product world, 2017(11): 51?54.
[12] 楊超,徐向旭,劉云飛,等. 音頻信號矢量編碼算法[J].海軍航空工程學院學報,2018,33(2):201?204.
YANG Chao, XU Xiangxu, LIU Yunfei, et al. Vector coding algorithm for audio signal [J]. Journal of Naval Aeronautical and Astronautic University, 2018, 33(2): 201?204.