錢宇紅,許士敏,儲飛黃
(國防科技大學 電子對抗學院,安徽 合肥 230037)
在話音通信系統中,由于受到系統傳輸特性和干擾信號的影響,輸出信號必然會產生失真。為了評估話音通信系統的性能,通常需要比較輸入語音與輸出語音的相似度。信號傳輸和處理需要時間,導致發送與接收之間很難在時間上實現精確同步。所以,輸入信號和輸出信號之間不可避免地存在延時。如果不能使輸入信號與輸出信號在時間上精確對齊,即使輸出信號沒有失真,比較的結果誤差也會非常大。使輸出語音信號與輸入語音信號在時域上精確對齊的過程就是時間規整。時間規整的本質是估計并消除輸出語音信號與輸入語音信號之間的時間延遲。通常情況下,語音信號處理以幀為基本分析單元,且幀長取值范圍為25~64 ms,時間規整的誤差應遠小于幀長,一般要求小于3 ms[1]。
時間規整是衡量兩個時間序列之間相似度所采取的方法,現在廣泛使用動態時間規整算法(Dynamic Time Warping,DTW)。DTW采用動態規劃思想,通過把時間序列進行延伸和縮短,使兩個時間序列中所有對應點的距離之和最小,以此衡量兩個時間序列之間的相似性。DTW在孤立詞識別系統中得到了廣泛應用[2],但當環境噪聲增大時,識別性能會急劇下降,甚至無法工作。例如,Dautrichr[3]等演示的孤立字詞識別系統在安靜環境下的識別正確率可達95%,而當信噪比為18 dB時,正確率下降到60%左右。又如,由純凈語音訓練得到的一個孤立詞語音識別系統,在相對安靜環境下識別正確率可達100%,而在以90 km/h速度行駛的汽車內使用時識別率驟降到30%[4]。產生上述現象的一個重要原因,是用DTW算法進行時間規整的適應性差,對環境依賴性強。當環境改變時,系統性能下降;在強噪聲環境下,系統幾乎不能工作[5]。因此,本文提出了一種基于定位標簽的時間規整方法。與傳統的時間規整方法相比,提出的方法時間規整精度高,在低信噪比條件下仍能獲得較高的時間規整精度。
構造一種基于正交正弦脈沖序列的定位標簽,把標簽插入原始語音信號前,與原始語音信號一起組成輸入信號,并送入話音通信系統,把得到的輸出信號與定位標簽進行互相關運算,根據互相關運算的最大值位置估計系統時延,從而實現話音通信系統輸入與輸出信號的時間規整。
定位標簽信號l(t)的構成為:

式中,f0為正交正弦脈沖序列定位標簽的基頻,T0=1/f0為基頻周期,φ0為每個正弦脈沖序列的初始相位,u(t)為階躍函數。Kf0是脈沖序列中最高的頻率分量,K和f0的選取必須保證標簽信號能夠通過話音通信系統傳輸。
定位標簽l(t)是利用三角函數集{sin(Ωt),sin(2Ωt),…,sin(nΩt),…}中任意兩個函數在區間內正交的性質構成的。

l(t)具有如下特征:
(1)定位標簽由一組確定的正弦脈沖序列組成,正弦脈沖序列各分量之間兩兩正交,每個脈沖序列的時間長度均等于T0;
(2)定位標簽的自相關函數具有尖銳的峰值,K值越大,峰值越高;
(3)定位標簽與語音、噪聲及自身時間延時序列的相關度很低,所以具有很好的標簽和抗噪能力。
設原始語音信號為s(t),在s(t)的起始位置之前插入定位標簽信號l(t),形成了輸入信號x(t):

式中,L為定位標簽的時長,L=KT0。經過系統傳輸和解調處理,輸出信號中包含了定位標簽信號、語音信號和噪聲信號。把輸出信號與定位標簽進行互相關運算,實際上就是定位標簽的自相關運算和定位標簽與語音、噪聲和自身延時的互相關運算。由于定位標簽有尖銳的自相關峰,而定位標簽與語音信號和噪聲信號的互相關度很低,即使在低信噪比環境下也可以準確估計系統時延,從而實現話音通信系統輸入與輸出信號的時間規整。
以語音測試信號x(t)為話音通信系統的輸入信號,將系統的輸出語音信號y(t)與定位標簽l(t)進行互相關運算,然后將互相關函數取得最大值的位置偏移量作為話音通信系統時延τ0的估計值τ^0,進而以τ^0+L為起點,從話音通信系統的輸出語音信號y(t)中截取與原始語音信號s(t)等長度的信號作為測試語音的時間規整后的輸出響應,再送入下一步的失真度評估模塊,如圖1所示。

圖1 插入定位標簽的時間規整原理
3.2.1 定位標簽設計
正交正弦脈沖序列定位標簽l(t)的構成如式(1)所示。為了保證定位標簽的高性能,必須讓定位標簽能高保真地通過系統,通常應確保定位標簽最高頻率分量Kf0的三次諧波3Kf0能通過系統。假設被測系統允許的基帶信號最高頻率fmax為4.0 kHz,可以合理選取f0=40 Hz,K=30。于是,定位標簽由30個正弦脈沖串構成,時間長度L為750 ms,得到波形如圖2所示,其自相關特性如圖3所示。可以看到,定位標簽尖銳的自相關峰值。

圖2 定位標簽波形

圖3 定位標簽自相關波形
3.2.2 生成語音測試信號
圖4為一段原始語音信號仿真s(t),插入定位標簽后生成語音測試信號x(t)(如式(3)所示),波形如圖5所示。

圖4 原始語音信號s(t)

圖5 插入定位標簽的語音測試信號x(t)
3.2.3 將語音測試信號輸入話音通信系統并存儲系統的輸出信號
為了研究本算法的時延估計精度,把輸入語音測試信號x(t)時延500 ms,并加入比信號低18 dB的高斯白噪聲作為話音通信系統的輸出信號y(t),如圖6所示。

圖6 輸出語音信號y(t)
3.2.4 時延估計
將系統輸出信號y(t)與定位標簽l(t)進行互相關運算,把互相關函數取得最大值的位置代表的時延作為系統時延估計值τ^0。圖7為本例中定位標簽與輸出信號y(t)的互相關函數波形,可得互相關函數取得最大值的位置為500 ms,即本例中時延估計沒有誤差。實際應用系統中,接收系統采樣會產生一定誤差,一般很小。

圖7 輸出信號與定位標簽的互相關波形
3.2.5 平移、截斷
根據時延估計值τ^0和輸入信號長度從輸出信號中截取有用信號。在系統輸出語音信號y(t)中,以500 ms再加上定位標簽的長度750 ms即1 250 ms為起點,截取與原始語音信號等長的信號,得到了時間規整后的輸出語音信號,如圖8所示。此時,經過時間規整后的輸出語音信號與輸入語音信號在時域上精確對齊,可以進入下一步的失真度評估模塊,評估輸出語音信號的失真度。

圖8 時間規整后的語音信號
為了研究本算法時延估計誤差與信號信噪比的關系,將輸出信號加上不同信噪比的白噪聲,然后和定位標簽分別進行互相關運算,比較在低信噪比下的時間對齊精度,結果如圖9、圖10所示。

圖9 不同信噪比下的互相關函數

圖10 時延估計誤差與信噪比關系
由仿真結果可得:對信噪比大于-5 dB的信號,時間規整的誤差小于0.1 ms;當信噪比大于-20 dB時,時延估計誤差小于0.125 ms,滿足時間規整的誤差要求;當在信噪比小于-23 dB后,時間規整的誤差會急劇增大。可見,基于正交正弦脈沖序列定位標簽的時間規整方法,能夠應用于信噪比最低達-20 dB的低信噪比話音通信環境。
基于定位標簽的時間規整方法計算簡單,時間規整精度高,尤其是當信噪比為-20 dB時,仍能達到非常高的精度,遠遠超過傳統方法的時延估計精度,具有很強的抗干擾能力。