何 俊,賀前華,張清華,孫國璽,肖 明,左敬龍
(1.廣東石油化工學院,廣東 茂名 525000;2.華南理工大學電子與信息學院,廣東 廣州 510641)
基于共同向量的非常態語音說話人識別算法*
何 俊1,賀前華2,張清華1,孫國璽1,肖 明1,左敬龍1
(1.廣東石油化工學院,廣東 茂名 525000;2.華南理工大學電子與信息學院,廣東 廣州 510641)
針對預先給定參數求解共同向量所存在的不足,提出了一種基于共同向量的非常態語音說話人識別算法,首先,通過系統識別率自適應調整求解共同向量的參數;然后,將系統識別率最高的參數視為最優參數,為測試語音提取共同向量,并用SVM分類器進行非常態語音說話人分類。實驗結果表明:該算法所提取的共同向量,對輕微感冒語音說話人識別率為85.4%,比對特征不進行處理的GMM算法、SVM和結合共同向量的GMM算法的識別率分別提高了16.9%、15.2%和3.2%。
非常態語音; 說話人識別;共同向量;支持向量機
目前,各種說話人識別和認證系統的性能受語音質量的影響較大,面臨非常態語音時,識別率徘徊在30%~40%[1]。如何提高系統應對非常態語音的能力,是近年來語音處理中發展起來的熱點問題之一,開始受到廣大學者的關注[2,3]。非常態語音種類繁多,力求研究所有類型的非常態語音事實是不可行的,生活中常見的因發音器官功能性病變引起的非常態語音在生物醫學工程得到廣泛的研究[4,5],如感冒、咽喉炎、淋巴炎、反胃酸。這類非常態語音的持續時間相對較長,其產生不需要特定時間和環境,并且其對語音的影響來自于生理層,對它們的研究更有利于對變異的本質進行理解。但是,目前在非常態語音數據相對缺少、而語音變異種類又較繁多的情況下,使用統計分析法難以獲得不同變異對語音特征層產生的影響。尋求一種能表征每個說話人共同特性的特征向量是廣大研究者努力的方向,基于子空間映射的共同向量方法最早用于識別孤立詞[6],通過對每一類的差分子空間進行Gram-Schimidt正交變換得到與樣本空間維數相同的共同向量CV(Common Vector)。CV表示每一類特征的共同性質[7],廣泛應用于模式識別領域的人臉圖像識別中[8~10],并能取得較好的識別率。但是,在選取共同向量參數時,人們常采用給定一個經驗值的方法,使得系統的識別率隨實驗數據的變化而嚴重地下降。文獻[11]將共同向量方法引入到說話人識別,采用結合共同向量和高斯混合模型GMM(Gaussian Mixture Model)策略進行文本無關的正常語音說話人識別。從文獻[11]中的實驗結果得知,在保證GMM訓練數據時其識別率并不比GMM好,在訓練語音不足的情況下其識別率較GMM算法有所提高。
本文以非常態語音中的感冒語音CU(Cold Utterance)為研究對象,重點討論最優說話人的共同向量提取和SVM(Support Vector Machine)的感冒語音說話人識別。在尋求每個說話人的共有特征屬性的情況下,以最低限度減小感冒對其說話人識別率影響為基礎,結合共同向量和SVM多對多的分類器,提出一種基于CV和SVM的非常態語音說話人識別算法。通過自適應調整類散度矩陣的特征值和和其共同正交特征向量的特征值和的比值,來解決系統的性能依賴人為參數的設定,根據說話人共同正交特征向量矩陣將待測語音分解成共同向量和差分向量,然后利用SVM對待測語音的共同向量進行說話人識別分類。
從共同向量的角度出發,特征向量可分為兩個主要部分:(1)殘差分量,即來自于共同成分的所有變化;(2)共有成分,即展示一個類里所有樣本的共同特性的成分或包含類不變的屬性。
2.1 共同向量CV
常用Gram-Schimidt正交化和類內協方差矩陣變換法構建共同向量。其中,把線性無關的向量x1,x2,…,xn轉換為標準正交向量組{μ1,μ2,…,μn}的方法,稱為Gram-Schimidt正交化[12]。

(1)

然后對Bj進行Gram-Schimidt變換,得到正交向量集Vj,Vj可以表示如下:
(2)

(3)
其中,Bj和(Bj)⊥是一對互補子空間,其滿足如下兩個條件:
(4)
則有兩種途徑計算第j類樣本的共同向量:(1)通過類內任意樣本特征向量本身減去其投影到差分子空間的正交向量的差,如式(5)所示;(2)類內任意樣本特征向量投影到共性子空間的和,如式(6)所示:
(5)

(6)


(7)

每個說話人的散度矩陣可以定義如下:
(8)
其中,μi表示第i個說話人的所有語音樣本特征的均值。其定義如下:
(9)
在共同向量的訓練方法中,訓練集中的每個樣本的特征可以用如下等式表示:
(10)

(11)

(12)

(13)
其中,(P⊥)i表示第i個說話人其特征散度矩陣Φi中零特征值所對應的正交特征向量(較小特征值對應的正交特征向量)所張成的共量子空間,Pi表示第i個說話人其特征散度矩陣Φi中非零特征值所對應的正交特征向量所張成的差分子空間。
2.2 最優CV參數
在共同向量的構建中,有一個關鍵的步驟就是如何有效地求解特征散度矩陣Φi中零特征值的正交特征向量。準確地說,特征散度矩陣Φi沒有真正意義上的零特征值,只有非常接近零的特征值。在構成共量子空間中,將第i個說話人特征散度矩陣Φi的特征值進行升序排列,設其前z個特征值所對應的正交特征向量構成(P⊥)i,文獻[11]討論使用式(14)共同向量構建:
(14)

(15)
式(15)中,μi表示Pj中那些特征向量的偏差小于其差異子空間特征向量
根據經驗設定δ,而實際應用中δ的取值依賴具體應用的數據。為了獲得最優CV,本文通過調整δ,搜索使病變語音說話人的整體識別率ASRR(All Speaker Recognition Ratio)達到最大的CV,則整體識別率函數可定義為:
(16)
其中,Ti表示第i個說話人語音被正確識別為第i個說話人的數目,Ni表示第i個說話人的語音總數。
最優CV參數δopt可表示為:
(17)
2.3 支持向量機SVM
SVM的出現及廣泛應用于各種模式分類引起機器學習和模式識別領域的一場研究風暴,近年來SVM廣泛應用于語音識別領域[13~15]并取得一定成果。SVM是結構化風險最小的一種統計學習方法,它通過尋找一個最優超平面來訓練一個分類器,使得核內誘導特征空間中兩類數據的邊緣盡可能最大化。假設有m個訓練樣本,每個樣本由(xk,yk)對組成,其中,xk∈RN是第k個樣本的特征向量,yk∈{+1,-1}是樣本的類標簽。SVM的目標就是在兩類數據之間找到一個最優超平面w·x+b=0,對于一個測試樣本x,其決策函數可表述如下:
(18)
然后通過判定fd(x)的符號來決定測試樣本x所屬類別,即使用sgn(fd(x))。
SVM通過解決二次規劃問題來獲得最優超平面,其二次規劃問題可以描述如下:
(19)
其中滿足:
(20)
3.1 實驗設置
從PANSD[16,17]中選取8個說話人,平均每個說話人12條正常語音和15條非常態語音,每條語音時長約15 s,作為提取說話人最優共同向量時正交特征向量的訓練數據。選用8個說話人的500條非常態語音和300條正常語音為提取最優CV參數的訓練語音。選取8個說話人的706非常態語音和408條正常語音,每條語音在去掉靜音后時長13 s~15 s作為測試數據。為了便于本文算法的實驗結果與GMM模型的結果相比較,使用每個說話人時長為1 min~2 min的正常語音訓練16個高斯的GMM說話人模型,文中所提及的SVM算法中采用徑向基核函數。所有的數據都是單聲道的WAV格式,用Cooledit Pro 2.0將采樣調整為16 kHz,量化精度為16 bits。32 ms幀長,16 ms幀移,提取24階Mel頻率倒譜系數MFCC(Mel Frequency Cepstrum Coefficient)特征。
根據語音的變異程度,將706條非常態語音分三類:輕微變異、稍重變異、較重變異。詳細分類標準請參見文獻[17]。
3.2 實驗結果與分析
本文先實驗分析各種說話人識別算法對三類非常態變異語音的識別情況,為便于比較實驗結果,把本文的算法簡稱為CV+SVM,具體識別情況可參見表1。

Table 1 Speaker recognition ratio of various algorithmsfor varying degrees abnormal speech表1 各類算法的不同程度非常態語音說話人識別
從表1可知,本文提出的算法對輕微非常態語音有較好的效果,相對文獻[11]算法識別率提高3.2%,但文獻[11]算法和本文算法對較重變異非常態語音基本不能識別。
整體識別即對所有的病變異常語音不分類的識別情況。使用整體識別率為各類說話人識別算法的性能評價指標時,得到如表2所示的結果。

Table 2 Speaker recognition ratio ofabnormal utterance for methods mentioned表2 各類算法的非常態語音說話人識別情況
從表2可知,簡單的GMM和SVM說話人識別算法,其性能在面對病變語音時急劇下降。同樣使用CV方法,文獻[11]算法的整體識別相對本文提出的算法要低2%,主要原因是文獻[11]中根據經驗設定最優CV參數,而本文依據數據的本身特點主動調整最優CV參數,自適應地使病變語音說話人識別能達到最優。
從表1和表2可知,結合CV和SVM方法具有一定的非常態語音應對能力。為說明本文算法對正常語音說話人識別的影響,本文采用正常語音進行了說話人識別實驗,具體實驗結果參見表3。

Table 3 Speaker recognition ratio ofvarious algorithms for normal speech表3 各類算法的正常語音說話人識別結果
從表3可知,本文所提算法和文獻[11]算法對正常語音說話人識別的性能有點影響,主要是因為正常語音情況下,提取共同向量會使語音失去能表征其個性特征的更細節成分。但是,當語音發生非常態時,提取共同向量保留其大部分表征說話人特性的特征,舍棄語音中的一些發生變化的成分。
本文提出一種基于共同向量的非常態語音說話人識別算法,語音發生非常態現象時,其各階特征發生何種變化及變化程度如何與引起語音非常態因素有關,而能引起語音非常態因素種類繁多,定性統計分析特征層的變化不現實。本文使用共同向量方法,建立每個說話人的特征的共同向量,然后對測試語音按最優共同向量提取原則提取其共同向量并送進SVM分類器。實驗結果表明,采用本文所提算法對輕微異常語音說話人的識別率為85.4%,分別比GMM、SVM和文獻[11]識別率提高了16.9%、15.2%和3.1%。在輕微變異語音的說話人識別方面取得一點可喜結果,但在稍重變異和較重變異方面還需要繼續努力。
[1] Zhang Lei,Han Jin-qing,Wang Cheng-fa.Research progress of stressed speech processing[J].Acta Electronica Sinica,2003,31(3):411-418.(in Chinese)
[2] Furui S. 50 years of progress in speech and speaker recognition research[J]. ECTI Transactions on Computer and Information Technology, 2005, 1(2):1.
[3] Togneri R,Pullella D.An overview of speaker identification:Accuracy and robustness issues[J]. Circuits and Systems Magazine, IEEE, 2011, 11(2):23-61.
[4] Vaziri G,Almasganj F,Behroozmand R.Pathological assessment of patients’ speech signals using nonlinear dynamical analysis[J]. Computers in Biology and Medicine, 2010, 40(1):54-63.
[5] Baken R J. Clinical measures of speech and voice[M]. Baltimore:Singular, 1996.
[6] Gulmezoglu M B, Dzhafarov V, Keskin M, et al. A novel approach to isolated word recognition[J]. IEEE Transactions on Speech and Audio Processing, 1999, 7(6):620-628.
[7] Gulmezoglu M B, Dzhafarov V, Barkana A. The common vector approach and its relation to principal component analysis[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(6):655-662.
[8] Cevikalp H, Neamtu M, Wilkes M, et al. Discriminative common vectors for face recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(1):4-13.
[9] Cevikalp H, Neamtu M, Barkana A. The kernel common vector method:A novel nonlinear subspace classifier for pattern recognition[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B:Cybernetics, 2007, 37(4):937-951.
[10] Wen Ying,Shi Peng-fei.An approach to face recognition based on common vector and 2DPCA[J]. ACTA Automatica Sinica,2009,35(2):202-205.(in Chinese)
[11] Sadi? S, Gülmezoglu M B. Common vector approach and its combination with GMM for text-independent speaker recognition[J]. Expert Systems with Applications, 2011, 38(9):11394-11400.
[12] Zhang Xian-da. Matrix analysis and applications[M]. Beijing:Tsinghua University Press,2004.(in Chinese)
[13] You Chang-huai, Lee Kong Aik, Li Hai-zhou. GMM-SVM kernel with a bhattacharyya-based distance for speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(6):1300-1312.
[14] Ferras M,Leung Cheung-Chi,Barras C,et al.Comparison of
speaker adaptation methods as feature extraction for SVM-based speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(6):1366-1378.
[15] Lin Keng-pei, Chen Ming-syan. On the design and analysis of the privacy-preserving SVM classifier[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(11):1704-1717.
[16] He Jun,Li Yan-xiong,He Qian-hua,et al.Speaker recognition algorithm for abnormal speech based on abnormal feature weighting[J].Journal of South China University of Technology,2012(3):106-111.(in Chinese)
[17] He Jun.Research on stragegies against abnormal speech in voiceprint recognition system[D]:Guangzhou:South China University of Technology,2012.(in Chinese)
附中文參考文獻:
[1] 張磊, 韓紀慶, 王承發. 變異語音處理的研究進展[J]. 電子學報, 2003,31(3):411-418.
[10] 文穎, 施鵬飛. 一種基于共同向量結合2DPCA的人臉識別方法[J]. 自動化學報, 2009, 35(2):202-205.
[12] 張賢達. 矩陣分析與應用[M]. 北京:清華大學出版社, 2004.
[16] 何俊, 李艷雄, 賀前華, 等. 變異特征加權的異常語音說話人識別算法[J]. 華南理工大學學報(自然科學版), 2012(3):106-111.
[17] 何俊. 聲紋身份識別中非常態語音應對方法研究[D]. 廣州:華南理工大學, 2012.
HEJun,born in 1978,PhD,lecturer,his research interests include speech signal processing, speaker recognition, and information security.
Speakerrecognitionofabnormalvoicebasedoncommonvector
HE Jun1,HE Qian-hua2,ZHANG Qing-hua1,SUN Guo-xi1,XIAO Ming1,ZUO Jing-long1
(1.Guangdong University of Petrochemical Technology,Maoming 525000;2.School of Electronic and Information Engineering,South China University of Technology,Guangzhuo 510641,China)
A speaker recognition algorithm of abnormal voice based on common vector is proposed to overcome the drawback that exists when the traditional common vector is calculated by using the predefined parameters. The proposed algorithm uses the system recognition ratio to adaptively adjust the parameters of calculating the common vector, takes the parameter with the highest system recognition ratio as the optimal parameter so as to extract the common vector, and uses the SVM Classifier to categorize the speakers of abnormal voice. Experimental results show that, by using the common vector extracted by the proposed algorithm, the speaker recognition ratio of slight cold is 85.4%, which has the improvement of 16.9%,15.2% and 3.2% respectively in comparison to the methods of GMM,SVM and ref[6].
abnormal voice;speaker recognition;common vector;SVM
1007-130X(2014)08-1599-05
2012-11-01;
:2013-03-14
國家自然科學基金資助項目(60972132,61174113,61101160);廣東省自然科學基金資助項目(8152500002000011)
TP391.4
:A
10.3969/j.issn.1007-130X.2014.08.031

何俊(1978-),男,湖南邵陽人,博士,講師,研究方向為語音信號處理、說話人識別和信息安全。E-mail:hejun_723@126.com
通信地址:525000 廣東省茂名市廣東石油化工學院石化裝備故障診斷檢測省重點實驗室
Address:Guangdong Province Key Laboratory of Petrochemical Equipment Fault Diagnosis,Guangdong University of Petrochemical Technology,Maoming 525000,Guangdong,P.R.China