李俊鑫



摘 要:隨著5G時代的來臨,互聯網技術在我們的生活中起著不可或缺的作用,而基于移動互聯網的語音通話也成了我們生活中的日常。在面向VOIP的語音編解碼中,由于壓縮感知能以更少的采樣點恢復完整的原始信號,有利于語音通信中的丟包恢復,因此文章將壓縮感知理論用于語音編解碼方法,致力于研究一種低復雜度的壓縮感知語音編解碼方法。實驗證明,文章的方法比經典的壓縮感知算法在語音重構的速度上具有一定的優勢。
關鍵詞:VOIP;低復雜度;壓縮感知
0? ? 引言
眾所周知,傳統的信號采樣方法遵循著名的奈奎斯特采樣定理,即采樣速率必須至少是信號中存在的最大頻率的兩倍。而由陶哲軒等[1]提出的壓縮感知理論可以通過比傳統方法更少的樣本點或測量值盡可能地恢復出原始信號。如今,越來越多的領域[2]應用了壓縮感知理論,在語音信號處理方面,由于語音信號具有良好的稀疏性,因此將壓縮感知應用于語音編解碼中具有一定的可行性。
相比傳統的壓縮編碼方案,壓縮感知是邊采樣邊壓縮的,少了壓縮大量冗余數據的過程,因此將壓縮感知理論應用于語音信號的編解碼中能提高壓縮效率,為研究更低復雜度的語音編解碼方法提供了一定的理論基礎。
1? ? 壓縮感知基本原理
在壓縮感知理論中,一個典型的問題就是如何從一個線性方程中估計長度為 N? 的未知向量 x,
其中,A是一個M×N的測量矩陣,且M小于N。我們用N表示信號的維數。一般來說,如果 x 沒有額外的結構,就不可能從比信號維數更少的測量值中恢復 x。但是,如果已知信號在某些基上是稀疏的,其中只有 K 個系數是非零的或重要的,則是有可能從更少的測量值中恢復未知信號的。壓縮感知的過程主要分為兩步:(1)設計一個測量矩陣對原始信號進行觀測,得到一個測量值;(2)由測量值通過重構算法重構出原始信號。
2? ? 基于壓縮感知的語音編碼方法
2.1? 稀疏表示
在壓縮感知理論中,一個重要的前提是信號具有一定的稀疏性,而信號的稀疏性是指信號中的大部分元素為0或者趨近于0,而少部分元素非零。然而我們知道在真實世界里不一定所有信號都是稀疏的,因此信號在一定的變換域內可以進行稀疏表示,也是滿足壓縮感知理論要求的。而這個變換的前提就是需要稀疏基,可以用數學語言描述為:
其中,ψ為N×N的稀疏變換矩陣,x為原始信號,s為經過稀疏變換后的稀疏系數。在實驗中,ψ為小波變換基。在稀疏表示方面,小波變換是一種經典的稀疏表示方法。小波變換每次將信號分為低頻和高頻部分,而低頻系數往往表示信號的主要信息,高頻系數決定信號的細節信息,從而說明小波變換下的低頻系數對語音信號重構有著極其重要的作用。
2.2? 語音信號的壓縮感知重構
目前,壓縮感知的重構方法主要分為凸優化方法和貪婪方法。凸優化方法以基追蹤(Basis Pursuit,BP)[3]方法為代表,用凸優化方法重構的信號恢復效果好,但是計算復雜度高,導致重構時間慢;貪婪算法以正交匹配追蹤(Orthogonal Matching Pursuit,OMP)算法為代表,貪婪算法恢復時間快,但是重構效果欠佳。綜合兩者的優缺點以及語音編解碼對編碼質量和延時的要求,我們選擇了一種新的壓縮感知方法,稱為Incrowd方法。該方法通過一次取多個非零元,代替一次取單個非零元,可以大大減少重構時間,提高恢復效率。算法步驟如下:
步驟1.設置初始的x0為n×1的零向量,殘差r=y-Ax0;
步驟2.設活動集I 為空集;
步驟3.存在j屬于I 的補集Ic,使uj=|
步驟4.如果在I 的補集Ic上沒有uj>λ,則程序終止;
步驟5.否則,將uj 中最大的L個加到集合I里,但是不要將uj<λ的部分加進來;
步驟6.在由I中的所有分量張成的子空間上求解,使用x0的當前值來熱啟動求解器;
步驟7.從I中拿掉在步驟6中求出的精確解的零值元素;
步驟8.將 x0 的所有部分設置為0,除了 I 中的部分;將這些設置為步驟6的精確解找到的值;
步驟9.更新殘差r=y-Ax;注意:當存在 j 屬于 I c,xj=0,可以在步驟6的子問題中找到 Ax;
步驟10.返回第3步。
2.3? 編解碼方法
本文設計的語音編解碼方法先用高斯隨機矩陣對語音原始信號進行壓縮感知觀測,利用得到的觀測值和由測量矩陣與稀疏字典構成的感知矩陣,用Incrowd算法重構出語音信號稀疏系數,再將重構出的稀疏系數通過稀疏逆變換還原出語音信號,從而實現了低復雜度的語音編解碼過程。編解碼過程如圖1所示。
3? ? 實驗結果
本次實驗采用的語音信號來自清華大學中文語料庫,其中采樣頻率為16 000 Hz,一次取1 024個樣本點進行重構,將本文所用算法與壓縮感知中具有代表性的基追蹤BP算法在語音恢復時間上進行對比,選用的稀疏基為小波矩陣,選用大小為 512×1 024的高斯隨機觀測矩陣,設置自變量為50到500的測量值。如圖2所示,在不同的測量值下,本文所使用的算法在信號重構時間上均優于經典的BP算法。由此可見,本文所用算法在研究低延時的語音編解碼方法上具有一定的可行性。
4? ? 結語
綜上所述,本文使用的壓縮感知語音快速編解碼方法在運行時間上具有一定的優勢,對于追求低延遲的移動網絡電話的應用具有一定的意義。
[參考文獻]
[1]DONOHO D L. Compressed sensing[J].IEEE Transactions on Information Theory,2006(4):1289-1306.
[2]石光明,劉丹華,高大化,等.壓縮感知理論及其研究進展[J].電子學報,2009(5):1070-1081.
[3]CHEN S S,DONOHO D L,SAUNDERS M A. Atomic decomposition by basis pursuit[J].Siam Review,2001(1):129-159.
(編輯 王雪芬)