基于聯(lián)合特征與隨機森林的偽裝語音檢測

2022-07-07 05:52:44于佳祺簡志華徐嘉游林汪云路吳超

電信科學(xué) 2022年6期

關(guān)鍵詞：分類特征檢測

于佳祺，簡志華，徐嘉，游林，汪云路，吳超

研究與開發(fā)

基于聯(lián)合特征與隨機森林的偽裝語音檢測

于佳祺1，簡志華1，徐嘉1，游林2，汪云路2，吳超1

（1. 杭州電子科技大學(xué)通信工程學(xué)院，浙江杭州 310018；2. 杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院，浙江杭州 310018）

為了能較為全面地描述語音信號的特征信息，提高偽裝檢測率，提出了一種基于均勻局部二值模式紋理特征與常數(shù)Q倒譜系數(shù)聲學(xué)特征相結(jié)合，并以隨機森林為分類模型的偽裝語音檢測方法。利用均勻局部二值模式提取語音信號語譜圖中的紋理特征矢量，并與常數(shù)Q倒譜系數(shù)構(gòu)成聯(lián)合特征，再用所獲得的聯(lián)合特征矢量訓(xùn)練隨機森林分類器，從而實現(xiàn)了偽裝語音檢測。實驗中，分別對其他特征參數(shù)以及支持向量機分類器模型所構(gòu)建的幾種偽裝檢測系統(tǒng)進(jìn)行了性能對照，結(jié)果表明，所提聯(lián)合特征與隨機森林模型相結(jié)合的語音偽裝檢測系統(tǒng)具有最優(yōu)的檢測性能。

偽裝語音檢測；聲學(xué)特征；紋理特征；均勻局部二值模式；隨機森林

0 引言

自動說話人驗證（automatic speaker verification，ASV）系統(tǒng)是通過對說話人語音信號進(jìn)行分析并對說話人身份進(jìn)行認(rèn)證的技術(shù)。ASV系統(tǒng)是一種無須直接接觸便可完成識別的身份認(rèn)證方式，檢測設(shè)備成本低且便于操作[1-2]。雖然目前ASV系統(tǒng)的正確識別率高，但數(shù)據(jù)顯示，以冒充目標(biāo)說話人真實身份為目的的惡意欺騙攻擊極大地降低了ASV系統(tǒng)的安全性。欺騙攻擊的類型主要有語音合成、語音轉(zhuǎn)換[3]、人為模仿與語音回放[4-5]。為了應(yīng)對這些不同種類的欺騙攻擊，需要提高說話人識別系統(tǒng)檢測欺騙攻擊的能力，使ASV系統(tǒng)具有反欺騙攻擊的能力[6-7]。

偽裝語音檢測的研究重點是提取特征參數(shù)與建立欺騙檢測模型，其中，特征提取主要是提取語音信號中的聲學(xué)特征來描述目標(biāo)語音特性[8]。目前的語音信號特征提取方法有很多，梅爾頻率倒譜系數(shù)（Mel-frequency cepstral coefficient，MFCC）就是常用的聲學(xué)特征之一，MFCC是模仿人耳對不同頻率的語音信號具有不同感知程度的聽覺特性[9]。線性頻率倒譜系數(shù)（linear frequency cepstral coefficient，LFCC）與MFCC的獲取方法類似，但是濾波器組不是按照Mel（梅爾）頻率分布，而是使用線性頻率。在ASVspoof2019挑戰(zhàn)賽中，這兩種特征參數(shù)都被ASV官方基線系統(tǒng)所選用。MFCC與LFCC這兩種特征在說話人驗證中都有不錯的表現(xiàn)，但是在欺騙檢測中性能并不理想[10-12]。隨著研究的深入，逐漸出現(xiàn)了其他針對欺騙語音檢測的聲學(xué)特征。Todisco等[13]提出了基于常量Q變換（constant Q transform，CQT）的常量Q倒譜系數(shù)（constant Q cepstral coefficient，CQCC）。CQCC能夠提供可變的時間和頻率分辨率，克服了其他聲學(xué)特征時頻分辨率均勻的缺點，且CQT能夠更加有效地提取頻譜的細(xì)節(jié)信息，這使得其在偽裝語音檢測中可以取得更好的效果。實驗結(jié)果也表明，CQCC在多數(shù)據(jù)集上有很好的泛化效果[14-15]。然而，這些特征參數(shù)都沒有考慮頻域特征與時域特征間的相關(guān)性。Massoud等[16]借鑒圖像領(lǐng)域的研究成果，使用卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）直接對語音的梅爾頻譜圖進(jìn)行識別分類，得到了很好的性能。也有學(xué)者在語譜圖上提取特征并用于檢測，實驗結(jié)果表明都有更好的泛化性與魯棒性[17]。欺騙檢測模型有多種，深度神經(jīng)網(wǎng)絡(luò)（deep neural network，DNN）是常見的檢測模型之一，它很適合做非線性映射的搜索，在偽裝語音檢測中有很好的表現(xiàn)，但需要較多的數(shù)據(jù)進(jìn)行訓(xùn)練[18]。高斯混合模型（Gaussian mixture model，GMM）作為一種概率統(tǒng)計模型，也常用于語音分類與識別領(lǐng)域。支持向量機（support vector machine，SVM）可以通過解決二次優(yōu)化問題實現(xiàn)二分類，有著強大的實用性與泛化能力。

本文在語譜圖的基礎(chǔ)上，通過均勻局部二值模式（uniform local binary pattern，ULBP）分析并提取其紋理特征，然后與CQCC聲學(xué)特征進(jìn)行聯(lián)合，提出了一種聯(lián)合特征進(jìn)行欺騙檢測的方法。紋理特征作為描述語音信號的一種重要特征參數(shù)，可以反映出語音信號語譜圖中的排列規(guī)則與重復(fù)出現(xiàn)的局部模式，可以描述語譜圖的表面特性，并且具有良好的抗噪聲性能[19]。考慮到聯(lián)合特征的維數(shù)過高問題，引入主成分分析（principal component analysis，PCA）算法對特征矢量進(jìn)行降維處理，很好地解決了聯(lián)合特征維數(shù)過大的問題。同時考慮到聯(lián)合特征與分類器的匹配問題，選取隨機森林（random forest，RF）模型用于偽裝語音與真實語音的分類。RF能夠根據(jù)各個特征矢量的重要性程度進(jìn)行評估，更能應(yīng)對特征數(shù)值差異大的聯(lián)合特征矢量，在處理聯(lián)合特征時有更高的匹配度，能得到更好的分類效果[20]。

1 聯(lián)合特征提取

1.1 ULBP算法

圖1 LBP求解過程示例

圖2 ULBP紋理特征矢量提取過程

1.2 聯(lián)合特征

考慮到聲學(xué)特征與紋理特征在欺騙檢測中各有優(yōu)勢，使用CQCC聲學(xué)特征與ULBP紋理特征聯(lián)合的方式用于欺騙檢測。在欺騙攻擊場景中，聯(lián)合特征帶有更多的語音信息，有更好的表現(xiàn)。考慮到特征參數(shù)維度過大，導(dǎo)致欺騙檢測系統(tǒng)計算量大而影響系統(tǒng)的實時性，同時聲學(xué)特征矢量與紋理特征矢量中存在信息冗余。因此，采用主成分分析算法分別對CQCC與ULBP特征進(jìn)行處理[24]，達(dá)到降維的效果，然后再將降維后的特征進(jìn)行拼接，從而生成聯(lián)合特征，降維的具體流程如下。

圖3 聯(lián)合特征提取流程

2 偽裝語音檢測

2.1 隨機森林分類算法

隨機森林采用集成學(xué)習(xí)的思想，將多個弱學(xué)習(xí)器組成一個強學(xué)習(xí)器。隨機森林通過隨機選取數(shù)據(jù)樣本來形成多個決策樹從而形成森林結(jié)構(gòu)，每一棵樹都會得出一個分類結(jié)果。原則上，隨機森林算法在進(jìn)行分類時，使用票數(shù)占少的需要遵從票數(shù)占多的規(guī)則進(jìn)行投票分配，整個森林系統(tǒng)的分類結(jié)果應(yīng)以票數(shù)最高的分類結(jié)果為準(zhǔn)。RF的訓(xùn)練流程如下。

2.2 偽裝語音檢測方法

首先，提取出語音信號的語譜圖，并確保語譜圖紋理清晰，將語譜圖轉(zhuǎn)換成灰度圖，通過統(tǒng)計直方圖得到ULBP紋理特征。同時根據(jù)特征聯(lián)合的方式，將ULBP紋理特征與CQCC聲學(xué)特征進(jìn)行聯(lián)合，即從兩個方面分析語音信號。將一段任何時長的語音信號經(jīng)過整個聯(lián)合特征提取流程后，轉(zhuǎn)換成一個CQCC-ULBP聯(lián)合特征矢量，并用于訓(xùn)練隨機森林分類模型。在對隨機森林分類模型完成訓(xùn)練后，得到對應(yīng)的最佳決策樹參數(shù)，再對待檢測的語音進(jìn)行測試，然后根據(jù)每棵樹所給出的投票情況給出判決結(jié)果。使用隨機森林用于分類時，每棵樹的權(quán)重相同且互不相關(guān)，依據(jù)投票的情況給出最后結(jié)論。選取隨機森林分類算法來訓(xùn)練聯(lián)合特征實現(xiàn)語音信號的特征分類時，使用隨機森林對提取的真實語音與欺騙語音數(shù)據(jù)集所得到的聯(lián)合特征向量進(jìn)行訓(xùn)練，再對待認(rèn)證語音集進(jìn)行測試。因此，便可以得到一個基于聯(lián)合特征與隨機森林的偽裝語音檢測系統(tǒng)，基于聯(lián)合特征與隨機森林的偽裝語音檢測系統(tǒng)流程如圖4所示。

3 實驗與結(jié)果

3.1 數(shù)據(jù)集

實驗使用的語音庫是Interspeech在2019年舉辦的ASVspoof挑戰(zhàn)賽中所使用的邏輯訪問（logical access，LA）場景數(shù)據(jù)集。ASVspoof2019LA數(shù)據(jù)庫基于語音克隆工具包（voice cloning tool kit，VCTK）語料庫提取，是一個在消聲暗室中以16 kHz的采樣率錄制的多人英語語音數(shù)據(jù)庫。ASVspoof2019LA語音庫中的偽裝語音由語音轉(zhuǎn)換和語音合成兩種偽裝方式生成，偽裝方式A01-A19的具體信息詳見文獻(xiàn)[25]。同時選取ASVspoof2015語音庫進(jìn)一步對實驗結(jié)果進(jìn)行驗證。ASVspoof2015語音庫中的欺騙攻擊語音由語音轉(zhuǎn)換和語音合成兩種偽裝方式生成，偽裝語音S1-S10的生成信息詳見文獻(xiàn)[26]。

圖4 基于聯(lián)合特征與隨機森林的偽裝語音檢測系統(tǒng)流程

3.2 性能評價方法

3.3 偽裝語音檢測系統(tǒng)性能測試

選取ASVspoof2019LA語音庫中的語音樣本用于實驗，隨機選取了5 850條語音用于系統(tǒng)性能測試，其中有5 000條語音作為訓(xùn)練集，850條語音作為測試集。

表1 應(yīng)對不同欺騙攻擊時MFCC與CQCC特征在SVM與RF系統(tǒng)中的t-DCF值

由表1中的t-DCF值可以看出，在偽裝語音檢測中，MFCC的檢測結(jié)果較差。MFCC雖然能很好地反映人耳的聽覺機理，在說話人驗證系統(tǒng)中可以取得較好的性能，然而在偽裝語音檢測時并不能很好地辨別出真實語音與欺騙語音的區(qū)別，由于欺騙語音與真實語音的語音內(nèi)容十分相似，難以區(qū)分，欺騙檢測性能較差。相比而言，CQCC是針對偽裝語音檢測所使用的聲學(xué)特征，避免了時頻分辨率均勻的缺點，更能在偽裝語音檢測中代表語音特征，相比MFCC有更好的檢測效果。同時，在對語音MFCC與CQCC兩種特征進(jìn)行分類時，SVM與RF的性能表現(xiàn)差異不大，t-DCF值相差比較相近，RF略微要好一些。

實驗提取語譜圖紋理特征，使用ULBP算法提取訓(xùn)練集中語音信號的ULBP特征矢量，使用PCA對ULBP特征、CQCC特征和MFCC特征進(jìn)行降維處理并得到聯(lián)合特征，再將聯(lián)合特征矢量分別用于訓(xùn)練SVM與RF系統(tǒng)，將所有訓(xùn)練的SVM系統(tǒng)與RF系統(tǒng)在測試集中進(jìn)行測試，在應(yīng)對不同欺騙攻擊時兩種聯(lián)合特征在SVM與RF系統(tǒng)中的t-DCF值如圖5所示。

圖5 在應(yīng)對不同欺騙攻擊時兩種聯(lián)合特征在SVM與RF系統(tǒng)中的t-DCF值

通過對比圖5與表1中的實驗數(shù)據(jù)發(fā)現(xiàn)，基于MFCC-ULBP特征矢量的檢測系統(tǒng)明顯優(yōu)于基于MFCC特征矢量的檢測系統(tǒng)。同樣地，基于CQCC-ULBP特征矢量的檢測系統(tǒng)明顯優(yōu)于基于CQCC特征矢量的檢測系統(tǒng)。因為聯(lián)合特征中包含語音信號中所攜帶的能量與紋理特征，比傳統(tǒng)聲學(xué)特征更具有代表性。同時也發(fā)現(xiàn)，采用CQCC-ULBP聯(lián)合特征的偽裝語音檢測方法具有最佳的檢測效果。在分類器方面，使用SVM與RF模型分別對MFCC-ULBP與CQCC-ULBP兩種聯(lián)合特征訓(xùn)練時，通過RF模型訓(xùn)練特征的檢測效果明顯優(yōu)于SVM。使用RF模型進(jìn)行偽裝語音檢測時，采用的聯(lián)合特征用于偽裝語音檢測的系統(tǒng)性能整體上都提高了檢測效果。但在使用SVM對聯(lián)合特征進(jìn)行偽裝語音檢測時，系統(tǒng)檢測性能在部分偽裝種類中會有一定程度的下降。在處理普通的二分類問題時，SVM具有優(yōu)秀的性能與泛化能力。但在偽裝語音檢測實驗場景中，真實語音樣本數(shù)量應(yīng)普遍少于欺騙語音樣本數(shù)量，并且由于真實語音與欺騙語音樣本同等重要，故不宜在實驗前對數(shù)據(jù)進(jìn)行預(yù)處理，而數(shù)據(jù)預(yù)處理可有效地提升SVM在二分類數(shù)據(jù)上的泛化能力。但RF在進(jìn)行訓(xùn)練和分類時都不需要進(jìn)行數(shù)據(jù)預(yù)處理。

同時，實驗也選取ASVspoof2015語音庫中的語音樣本用于實驗來進(jìn)一步驗證實驗中的結(jié)論，仍然隨機選取5 850條語音用于系統(tǒng)性能測試，其中有5 000條語音用于訓(xùn)練作為訓(xùn)練集，850條語音用于測試作為測試集。將該數(shù)據(jù)集中語音樣本在本文所提出的偽裝語音檢測方法進(jìn)行驗證，使用聯(lián)合特征的提取方式提取該語音數(shù)據(jù)集中語音的特征參數(shù)，將得到的真?zhèn)握Z音特征參數(shù)在RF與SVM中進(jìn)行訓(xùn)練，所有訓(xùn)練的SVM系統(tǒng)與RF系統(tǒng)在測試集中進(jìn)行測試，將各類特征矢量在各個偽裝語音檢測系統(tǒng)上進(jìn)行測試，應(yīng)對不同欺騙攻擊時各類特征在SVM與RF系統(tǒng)中的t-DCF值如圖6所示。

圖6 應(yīng)對不同欺騙攻擊時各類特征在SVM與RF系統(tǒng)中的t-DCF值

從圖6中的實驗結(jié)果可以看出，在ASVspoof 2015數(shù)據(jù)集中，基于CQCC-ULBP的聯(lián)合特征與隨機森林的偽裝語音檢測模型在整體上實現(xiàn)了最佳的分類性能。在使用聲學(xué)特征對S2類型欺騙攻擊進(jìn)行分類時，t-DCF參數(shù)的值普遍很大，因為S2類型是改變聲學(xué)特征的生成的偽裝語音，更容易破壞使用聲學(xué)特征識別的系統(tǒng)，而聯(lián)合特征彌補了這一點，在應(yīng)對S2類型欺騙攻擊時檢測效果較好。在應(yīng)對S3、S4類型語音合成欺騙攻擊時，各系統(tǒng)都有不錯的表現(xiàn)，并且聯(lián)合特征得到了最佳的效果。但在應(yīng)對S9類型欺騙攻擊時，對聯(lián)合特征的檢測性能造成了一定影響，t-DCF參數(shù)的值明顯增加。這是由于S9類型的語音轉(zhuǎn)換攻擊，幾乎不改變語譜圖的聲紋特征，導(dǎo)致紋理特征識別效果不好。紋理特征表現(xiàn)不佳，影響了聯(lián)合特征的整體性能。同時從圖5可以看出，相同條件下采用聯(lián)合特征與RF模型進(jìn)行偽裝語音檢測時的性能要優(yōu)于采用聯(lián)合特征與SVM模型進(jìn)行檢測的效果。

表2 SVM與RF平均執(zhí)行時間

4 結(jié)束語

為了改善基于傳統(tǒng)聲學(xué)特征參數(shù)的偽裝語音檢測系統(tǒng)的性能，提出了一種利用ULBP算法在語譜圖中提取紋理特征并與CQCC聲學(xué)特征進(jìn)行聯(lián)合的偽裝語音檢測方法。在該方法中，分別使用PCA將一段語音的ULBP特征參數(shù)矩陣和CQCC特征矢量序列進(jìn)行壓縮，然后進(jìn)行聯(lián)合，成為一個矢量。同時，將該聯(lián)合矢量所構(gòu)成的語音特征參數(shù)集訓(xùn)練RF分類器，就可以得到偽裝語音檢測系統(tǒng)。實驗結(jié)果表明，聯(lián)合特征可以更加全面地描述語音信號的特征信息，便于分類檢測，本文采用隨機森林作為分類器與ULBP-CQCC聯(lián)合特征參數(shù)進(jìn)行匹配具有最優(yōu)的檢測性能。

[1] GOMEZ-ALANIS A, GONZALEZ-LOPEZ J A, PEINADO A M. A kernel density estimation based loss function and its application to ASV-spoofing detection[J]. IEEE Access, 2020, 8: 108530-108543.

[2] 肜婭峰, 陳晨, 陳德運, 等. 基于貝葉斯主成分分析的i-vector說話人確認(rèn)方法[J]. 電子學(xué)報, 2021, 49(11): 2186-2194.

RONG Y F, CHEN C, CHEN D Y, et al. Bayesian principal component analysis for I-vector speaker verification[J]. Acta Electronica Sinica, 2021, 49(11): 2186-2194.

[3] LI N, MAK M W, CHIEN J T. Deep neural network driven mixture of PLDA for robust i-vector speaker verification[C]//Proceedings of 2016 IEEE Spoken Language Technology Workshop. Piscataway: IEEE Press, 2016: 186-191.

[4] ALEGRE F, JANICKI A, EVANS N. re-assessing the threat of replay spoofing attacks against automatic speaker verification[C]//Proceedings of 2014 International Conference of the Biometrics Special Interest Group (BIOSIG). Piscataway: IEEE Press, 2014: 1-6.

[5] 林朗, 王讓定, 嚴(yán)迪群, 等. 基于逆梅爾對數(shù)頻譜系數(shù)的回放語音檢測算法[J]. 電信科學(xué), 2018, 34(5): 90-98.

LIN L, WANG R D, YAN D Q, et al. A playback speech detection algorithm based on log inverse Mel-frequency spectral coefficient[J]. Telecommunications Science, 2018, 34(5): 90-98.

[6] NAUTSCH A, WANG X, EVANS N, et al. ASVspoof 2019: spoofing countermeasures for the detection of synthesized, converted and replayed speech[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2021, 3(2): 252-265.

[7] 任延珍, 劉晨雨, 劉武洋, 等. 語音偽造及檢測技術(shù)研究綜述[J]. 信號處理, 2021, 37(12): 2412-2439.

REN Y Z, LIU C Y, LIU W Y, et al. A survey on speech forgery and detection[J]. Journal of Signal Processing, 2021, 37(12): 2412-2439.

[8] YU H, TAN Z H, MA Z Y, et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(10): 4633-4644.

[9] PAUL D, PAL M, SAHA G. Novel speech features for improved detection of spoofing attacks[C]//Proceedings of 2015 Annual IEEE India Conference. Piscataway: IEEE Press, 2015: 1-6.

[10] HIDAYAT R, BEJO A, SUMARYONO S, et al. Denoising speech for MFCC feature extraction using wavelet transformation in speech recognition system[C]//Proceedings of 2018 10th International Conference on Information Technology and Electrical Engineering (ICITEE). Piscataway: IEEE Press, 2018: 280-284.

[11] ?ZS?NMEZ D B, ACARMAN T, PARLAK ? B. Optimal classifier selection in Turkish speech emotion detection[C]// Proceedings of 2021 29th Signal Processing and Communications Applications Conference (SIU). Piscataway: IEEE Press, 2021: 1-4.

[12] PENG X, LU C Y, YI Z, et al. Connections between nuclear-norm and frobenius-norm-based representations[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(1): 218-224.

[13] TODISCO M, DELGADO H, EVANS N. Constant Q cepstral coefficients: a spoofing countermeasure for automatic speaker verification[J]. Computer Speech & Language, 2017 (45): 516-535.

[14] SARANYA S, BHARATHI B, KAVITHA S. An approach to detect replay attack in automatic speaker verification system[C]//Proceedings of 2018 International Conference on Computer, Communication, and Signal Processing (ICCCSP). Piscataway: IEEE Press, 2018: 1-5.

[15] YE Y C, LAO L J, YAN D Q, et al. Detection of replay attack based on normalized constant Q cepstral feature[C]//Proceedings of 2019 IEEE 4th International Conference on Cloud Computing and Big Data Analysis. Piscataway: IEEE Press, 2019: 407-411.

[16] MASSOUDI M, VERMA S, JAIN R. Urban sound classification using CNN[C]//Proceedings of 2021 6th International Conference on Inventive Computation Technologies (ICICT). Piscataway: IEEE Press, 2021: 583-589.

[17] LI P H, LI Y Y, LUO D C, et al. Speaker identification using FrFT-based spectrogram and RBF neural network[C]//Proceedings of 2015 34th Chinese Control Conference (CCC). Piscataway: IEEE Press, 2015: 3674-3679.

[18] WANG J, HAN Z Y. Research on speech emotion recognition technology based on deep and shallow neural network[C]//Proceedings of 2019 Chinese Control Conference (CCC). Piscataway: IEEE Press, 2019: 3555-3558.

[19] 徐劍, 簡志華, 于佳祺, 等. 采用完整局部二進(jìn)制模式的偽裝語音檢測[J]. 電信科學(xué), 2021, 37(5): 91-99.

XU J, JIAN Z H, YU J Q, et al. Completed local binary pattern based speech anti-spoofing[J]. Telecommunications Science, 2021, 37(5): 91-99.

[20] K L, DABHADE S B, RODE Y S, et al. Identification of breast cancer from thermal imaging using SVM and random forest method[C]//Proceedings of 2021 5th International Conference on Trends in Electronics and Informatics (ICOEI). Piscataway: IEEE Press, 2021: 1346-1349.

[21] TAO Y, HE Y Z. Face recognition based on LBP algorithm[C]//Proceedings of 2020 International Conference on Computer Network, Electronic and Automation (ICCNEA). Piscataway: IEEE Press, 2020: 21-25.

[22] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.

[23] FAUDZI S A A M, YAHYA N. Evaluation of LBP-based face recognition techniques[C]//Proceedings of 2014 5th International Conference on Intelligent and Advanced Systems (ICIAS). Piscataway: IEEE Press, 2014: 1-6.

[24] WANG L L. Research on distributed parallel dimensionality reduction algorithm based on PCA algorithm[C]//Proceedings of 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference. Piscataway: IEEE Press, 2019: 1363-1367.

[25] WANG X, YAMAGISHI J, TODISCO M, et al. ASVspoof 2019: a large-scale public database of synthesized, converted and replayed speech[J]. Computer Speech & Language, 2020, 64: 101114.

[26] WU Z Z, KINNUNEN T, EVANS N, et al. ASVspoof 2015: the first automatic speaker verification spoofing and countermeasures challenge[C]//Proceedings of Interspeech 2015. ISCA: ISCA, 2015.

[27] CHENG X L, XU M X, ZHENG T F. Replay detection using CQT-based modified group delay feature and ResNeWt network in ASVspoof 2019[C]//Proceedings of 2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Piscataway: IEEE Press, 2019: 540-545.

Spoofing speech detection algorithm based on joint feature and random forest

YU Jiaqi1, JIAN Zhihua1, XU Jia1, YOU Lin2, WANG Yunlu2, WU Chao1

1. School of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China 2. School of Cyberspace Security, Hangzhou Dianzi University, Hangzhou 310018, China

In order to describe the characteristic information of the speech signal more comprehensively and improve the detection rate of camouflage, a spoofing speech detection method based on the combination of uniform local binary pattern texture feature and constant Q cepstrum coefficient acoustic feature was proposed, which used random forest as the classifier model. The texture feature vector in the speech signal spectrogram was extracted by using the uniform local binary mode, and the joint feature was formed with the constant Q cepstrum coefficient. Then, the obtained joint feature vector was used to train the random forest classifier, so as to realize the camouflage speech detection. In the experiment, the performances of several spoofing detection systems constructed by other feature parameters and the support vector machine classifier model were compared, and the results show that the proposed speech spoofing detection system combined with the joint feature and the random forest model has the best performance.

spoofing speech detection, acoustic feature, texture feature, uniform local binary pattern, random forest

: The National Natural Science Foundation of China (No.61201301, No.61772166, No.61901154)

TP391.42

10.11959/j.issn.1000?0801.2022089

2022?01?02；

2022?05?15

國家自然科學(xué)基金資助項目（No.61201301，No.61772166，No.61901154）

于佳祺（1997?），男，杭州電子科技大學(xué)通信工程學(xué)院碩士生，主要研究方向為語音偽裝檢測、特征提取與分析。

簡志華（1978?），男，博士，杭州電子科技大學(xué)通信工程學(xué)院副教授、碩士生導(dǎo)師，主要研究方向為語音轉(zhuǎn)換、偽裝語音檢測、聲紋識別等。

徐嘉（1998?），女，杭州電子科技大學(xué)通信工程學(xué)院碩士生，主要研究方向為語音偽裝及檢測。

游林（1966?），男，博士，杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院教授、碩士生導(dǎo)師，主要研究方向為生物信息處理、信息安全、密碼學(xué)等。

汪云路（1980?），女，博士，杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院講師，主要研究方向為音頻信息處理、信息隱藏。

吳超（1988?），男，博士，杭州電子科技大學(xué)通信工程學(xué)院講師，主要研究方向為導(dǎo)航信號處理及欺騙干擾檢測。