孫干超,王吉林
(鹽城工學院信息工程學院,江蘇 鹽城 224051)
?
基于ARM的說話人識別系統的研究與實現*
孫干超*,王吉林
(鹽城工學院信息工程學院,江蘇 鹽城 224051)
提出了一種基于壓縮感知(CS)的說話人識別算法以及在ARM系統中的實現,首先,介紹壓縮感知理論框架,提出說話人識別可以與壓縮感知理論相結合的依據;其次,提出基于壓縮感知的說話人識別算法的基本方法,即建立說話人語音特征數據庫和基追蹤匹配得到最大均值系數,其中,語音特征向量由GMM均值超向量核算法得到,大量實驗數據表明,該方法一定程度上提高了識別率,并且在說話人集合較大的情況下識別效果較好。
壓縮感知;說話人識別;基追蹤;高斯混合模型
語音是人的自然屬性之一,由于各個說話人發音器官的生理差異以及后天形成的發音習慣等行為差異的影響,每個人的語音中蘊含著與眾不同的個人特征[1]。說話人識別就是著眼于提取包含在語音信號中的個人特征,以達到識別說話人的目的。說話人識別按其被輸入的測試語音來分可以分為與文本有關和與文本無關的說話人識別。而與文本無關的說話人識別在今天無疑有著更廣泛的應用。
對于與文本無關的說話人識別,由于說話人的個性特征具有長時變動性,而且其發音常常與環境、說話人情緒、說話人健康有密切關系[1],實際過程中還可能引入背景噪聲等干擾,這些都是與文本無關說話人識別的識別率得不到進一步提高的主要因素。為了降低這些因素的影響,人們從事了大量的研究,這些研究可分為3個方面:(1)語音降噪,這一方面是研究的熱點,譜減法[2-3]是對靜態噪聲最常用的方法,由于通常說話人是在非靜態噪聲環境下,譜減法帶來了嚴重的MUSIC噪聲[2-3],所以Tradj C[4]等人采用了自適應噪聲抵消技術來降低噪聲的影響獲得不錯的效果,Soon I Y[5]等人對帶噪語音采用2維傅氏變換,然后進行Wiener濾波;(2)模型優化,松井等人[6]把魯棒的距離尺度DIM(Distortion-Intersection Measure)應用于說話人識別,把GMM的各高斯分布的兩端用一定值(如3σ)平滑,結果能較好地吸收特征參數的變動。Liu C S[7]等提出了基于最近冒名者的模型,Xiang B[8]等人基于結構背景模型提出了一種結構高斯混合模型;(3)對模型輸出的似然概率(得分)進行處理,當說話人的個性特征不斷變化、語音與噪聲不能很好地分離或者降噪算法對語音有損傷、模型不能很好地匹配時,需要對似然概率(得分)進行補償[9],Reynolds[10]提出了采用說話人背景模型的平均似然函數來計算得分;Matsui和Furui[11]提出了基于后驗概率的模型。Markov和Nakagawa[12]將整個語句分成若干幀,計算每幀得分,從而獲得總得分,通過實驗得出識別率有大的提高。Chen K[13]等人基于最小風險對得分進行了判決獲得了滿意的結果。雖然以上沒有考慮目標模型和非目標模型的幀似然概率的特性,但同時也說明對模型輸出的似然概率進行變換,可以提高識別率。
針對傳統說話人識別算法會隨著背景噪音的增大而性能降低的問題,本文提出將壓縮感知理論應用到說話人識別領域。首先論證了語音信號在說話人識別意義上的可壓縮性,為兩種理論的結合奠定基礎,繼而提出一種基于壓縮感知的說話人識別算法,并進行了實驗論證,結果表明,基于壓縮感知的說話人識別算法能提高噪音環境下的說話人識別率。
1.1 壓縮感知的基本原理
壓縮感知CS(Compressive Sensing)是一種新型的數據采集和編解碼理論[14-15],該理論包括兩個部分:將信號在觀測向量上投影得到觀測值,以及利用重構算法由觀測值重構信號。
壓縮感知理論要求信號必須是稀疏的,自然界中的大多數信號都是稀疏或變換稀疏的(可以壓縮的),即不同類型的信號在不同的變換域下稀疏,比如語音信號在局部傅里葉變換域,圖像信號在離散余弦變換域和小波域,都符合稀疏條件。
設一個長度為N的信號x,變換域為Ψ=[ψ1,ψ2,…,ψN],其中ψi(i=1,2,…,N)是長度為N的列向量,則信號x可表示為:
(1)
其中θ是在變換域Ψ下的稀疏系數。
若x是K稀疏的,稀疏指x本身或者在某種變換域Ψ下有K個非零元素。用一個與稀疏基不相關的觀測矩陣Φ對信號進行線性變換,得到觀測向量:
y=Φx
(2)
其中,Φ為M×N(M?N)維,通常選取高斯隨機矩陣。具體過程如圖1所示。

圖1 壓縮感知獲得觀測向量
重構信號可以通過l0范數優化問題找到具有系數結構的解:
min‖θ‖0s.t. y=Ξθ
(3)
其中,
Ξ=ΦΨ
(4)
由于式(4)是一個很難求解的NP-hard問題,可以用l1約束取代l0約束:
min‖θ‖1s.t. y=Ξθ
(5)
從而,原信號得到恢復。
整個壓縮感知的過程如圖2所示。

圖2 壓縮感知的處理過程
本文的說話人系統中,不需要最終重構信號,可以利用檢測算法直接從稀疏系數中計算權重進行判斷,完成說話人識別。
1.2 基于壓縮感知的說話人識別
本文選取語音特征向量來構建稀疏基,其中語音特征向量由GMM均值超向量核算法生成,從而長度不等的語音片段被映射到一個空間,在這個空間內特征向量維數固定。
假設ψi,j∈Rm表示第i個人的第j個語音特征向量,每個人有J個語音特征向量,那么,用Ψi表示屬于第i個人的表達矩陣:
Ψi=[ψi,1,ψi,2,…,ψi,3]
(6)
由線性表達可知[15],若測試語音特征向量y屬于第i個人,則
y=ai,1ψi,1+ai,2ψi,2+…+ai,Jψi,J
(7)
另一方面,所有人的語音特征向量組成的特征數據庫可表示為:
Ψ=[Ψ1,Ψ2,…,ΨI]
(8)
其中I為說話人識別的類別數。
那么第i類測試y在特征數據庫下系數為:
θ=[0,0,…,0,ai,1,ai,2,…,ai,J,0,…,0]
(9)
可以看出,除了該類對應原子系數不為零,其他原子的系數全為零。因此,該系數向量是稀疏的,滿足壓縮感知的恢復條件。
系統的識別過程如下:
第1步:提取待識別的語音信號的GMM均值超向量作為特征向量;
第2步:將觀測向量代入式(5)求解一范數約束問題得到稀疏系數;
第3步:計算類平均稀疏系數,并且將測試說話人判定為均值系數最大的類:

(10)
SK=MAX(S1,S2,…,SI)
(11)
其中SK為測試說話人所在的類。
2.1 硬件平臺設計
綜合考慮硬件效率及成本因素,我們所選用的硬件平臺是TI的Devkit8500開發套件。選用德州儀器(TI)的DM3730處理器作為中央處理器。其中硬件板的結構如圖3所示。

圖3 硬件平臺的構造
通過對其輸入、輸出口IO(Input Output)的設置,使其通過集成音頻接口IIS(Integrate Interface of Sound)和集成電路間(Inter-Integrated Circuit)總線與音頻處理芯片進行通信。另外,外擴一片同步動態隨機存儲器SDRAM(Synchronous Dynamic Random Access Memory)和一片Flash,分別作為程序運行空間和音頻文件、HMM模型數據存儲空間。
LCD顯示屏通過TFT_LCD接口與主板相連,采用觸摸方式進行操控。通過開始按鈕啟動程序,此時通過麥克風讀取語音,即可進行識別,并在屏幕上顯示識別結果,以進行后續操作。IIS總線用于在ARM A8和音頻接口芯片之間傳輸音頻數據,IIC總線作控制,數據傳輸使用直接存儲訪問DMA(Direct Memory Access)方式。由于TI的DMA控制器沒有內置存儲區域,因此在驅動程序中要對音頻設備分配緩存區。緩存區的地址由DMA控制器的地址寄存器設置。
2.2 軟件平臺及實現算法設計
本平臺所選用的內核是Linux-2.6內核。因為嵌入式Linux是低成本開發系統。可以應用于多種硬件平臺。可以定制,可以根據庫戶的需要,實時地將某些模塊插入到內核或者從內核中移走,并能根據設備的個性量體裁衣。性能優異。Linux系統內核精簡、高效和穩定。能夠充分發揮硬件的功能,因此它比其他操作系統運行效率要高。并且具有良好的網絡支持。
在算法結構中,語音識別是核心模塊,需要完成的操作包括語音信號采集、語音端點檢測、碼本的匹配計算,以及結果的輸出。ARM板完成的算法結構及其流程如圖4所示。

圖4 ARM板說話人識別算法實現流程
為了檢驗提出的方法的有效性,我們進行了比較實驗。比較的基線系統是M=16時的GMM識別模型系統。實驗中采用NTT數據庫。NTT數據庫包括35個說話人(22男,13女)的記錄。它是分5個時期持續10個月收集得到的。訓練時使用10句語料,5句對所有說話人都相同,5句則各不相同,但都來自同一時期。測試時采用來自同一時期的10句語料。每句話的平均持續時間為4 s。語音信號經12 kHz采樣,1 Z-1~0.98 Z-1的預加重,窗長21.33 ms,窗移8 ms的漢明窗后,進行14階LPC分析,然后從14階LPC系數中求出12階的倒譜系數和12階Δ倒譜系數作為說話人識別的特征參數。
實驗中使用的噪聲數據是日本電子協會標準噪聲數據庫中的行駛中的汽車(2 000 cc組,一般道路)內的噪聲(平穩噪聲)和展覽會中的展示隔間內的噪聲(非平穩噪聲)。這些噪聲被按一定的信噪比(SNR)疊加進無噪語音中組成帶噪語音。比較識別結果如表1所示。

表1 10名說話人的平均識別率(%)
通過表1我們發現基于稀疏理論的壓縮感知方法確實能夠提高說話人識別系統的識別率。尤其在噪聲環境下,與基線系統相比識別率有較大的提高。
針對傳統說話人識別算法會隨著說話人背景噪音的增大而性能降低的問題,本文提出將壓縮感知理論應用到說話人識別領域。論證了語音信號在說話人識別意義上的可壓縮性,提出一種基于壓縮感知的說話人識別算法,并進行了實驗論證,結果表明,基于壓縮感知的說話人識別系統比基于GMM的基線系統有較好的識別率。
[1]趙力. 語音信號處理[M]. 北京:機械工業出版社,2003:236-253.
[2]Pandey P C,Bhandorkar S M. Enhancement of Alaryngeal Speech Using Spectral Subtraction[C]//14th International Conference on DSP 2002. 2002:591-594.
[3]Zhong Lin,Rafik Goubran. Musical Noise Reduction in Speech Using Two-Dimensional Spectrogram Enhancement[C]//Proceedings of HAVE 2003. 2003:61-64.
[4]Tadj C,Gabrea M. Towards Robustness in Speaker Verification:Enhancement and Adaptation[C]//MWSCAS-2002. 2002:320-323.
[5]Soon I Y,Koh S N. Speech Enhancement Using 2-D Fourier Transform[J]. IEEE Transactions on Speech and Audio Processing,2003,11(6):717-724.
[6]松井知子,古井貞熙. VQ、離散/連續HMMによるテキスト獨立話者認識法の比較[J]. 電子情報通信學會論文志,1994;J77-A(4):601-607.
[7]Liu C S,Wang H C. Speaker Verification Using Normalization Log-Likelihood Score[J]. IEEE Trans Speech and Audio Precessing,1980,4(3):56-60.
[8]Bing Xiang,Toby Berger,Efficient Text-Independent Speaker Verification with Structural Gaussian Mixture Models and Neural Network[J]. IEEE Trans. Speech and Audio Precessing,2003,11(5):447-456.
[9]Dat tran,Michael Wagner. A Proposed Likelihood Trasformation for Speaker Verification[C]//ICASSP’00. 2000:1069-1072.
[10]Douglas A Reynolds. Speaker Identification and Verification Using Gaussian Mixture Speaker Models[J]. Speech Communication,1995:91-108.
[11]Matsui T,Furui S. Concatenated Phoneme Models for Text Variable Speaker Recognition[C]//Proceeding of ICASSP’93. 1993:391-394.
[12]Markov K,Nakagawa S. Text-Independent Speaker Recognition System Using Frame Level Likelihood Processing[J]. Technical Report of IEICE,1996,96(17):37-44.
[13]Ke Chen. Towards Better Making a Decision in Speaker Verification[J]. Pattern Recognition,2003:329-346.
[14]Baraniuk R. Compressive Sensing[J]. IEEE Signal Processing Magazine,2007,24(3):1092-1099.
[15]Donoho D. Compressed Sensing Theory[J]. 2006,IEEE Trans Inform,52(4):1289-1306.

孫干超(1961-),男,漢族,江蘇鹽城人,高級工程師,研究方向為電子技術與信息處理,ycsgc@163.com。
SpeakerRecognitionBasedonARM*
SUNGanchao*,WANGJilin
(Yancheng Institute of Technology,College of Information Engineering,Yancheng Jiangsu 224051,China)
To improve the rates of speaker recognition,a method based on the compressed sensing(CS)is proposed. First,the frame of compressed sensing theory is introduced to analyzing the premise of combining the compressed sensing theory with the speaker recognition. Then the major algorithm of speaker recognition based on compressed sensing is advanced,that is the establishment of speakers’ characteristic database and matrix trace to obtain the maximum average coefficients matching. Oceans of experimental data indicate that this method has strong recognition ability and the performance is good when the collection of speakers is huge.
compressed sensing;speaker recognition;matrix trace;Gaussian mixture model
2013-12-15修改日期:2013-01-08
TN912.34
:A
:1005-9490(2014)06-1151-04
10.3969/j.issn.1005-9490.2014.06.029