陳 旭,蔣 曄
(南京財經大學信息工程學院,南京 210023)
聲紋識別即說話人識別,是根據人說話的聲音判定人身份的技術,因其獲取成本低、安全系數高及使用便捷而應用于安全、司法、通信等多個領域[1]。但在實際應用中,聲紋識別系統容易受到聲音模擬[2]、語音合成[3]、聲音轉換[4]、錄音回放(含錄音拼接回放)等仿冒語音的攻擊,此類攻擊極大地影響了聲紋識別系統本身的安全性,進而也給采用聲紋識別技術進行訪問控制的系統帶來了安全隱患。錄音回放攻擊是指攻擊者使用高保真錄音設備錄制合法用戶進入認證系統時的語音,或通過其他手段獲得用戶的語音樣本,然后在聲紋身份認證系統的拾音器端通過高保真功放回放,從而達到對聲紋身份認證系統實施攻擊的目的。由于高保真錄音設備的普及,合法用戶語音極易被偷錄,錄音回放攻擊已成為聲紋識別技術中抗仿冒攻擊的首要解決問題。
由英國愛丁堡大學、法國國家信息與自動化研究所等組織發起的ASVspoof 是迄今為止對仿冒語音鑒別規模最大、最全面的挑戰賽[5]。ASVspoof 2015 是用語音合成、聲音轉換技術產生數字語音,直接輸入系統(不用麥克風)進行邏輯層面的攻擊(Logical Access),ASVspoof2017 是使用錄音回放的方法,經過麥克風進入系統進行物理層面的攻擊(Physical Access)。在實際應用中,語音合成及聲音轉換技術生成的語音也需要經過重放環節轉化為Physical Access。國內外研究學者如NAGAR SHETH 等人[6]用高通濾波器對高頻信息進行提取,提取出來的HFCC 參數盡管能提高識別率,但是該參數特征會丟失語音部分特征信息。文獻[7-8]提出的常量Q 倒譜特征(Constant Q Cepstral Coefficients,CQCC)替代傅里葉變換增加了低頻域的分辨率,而實際上錄音回放攻擊語音與原始語音相比,由于存在錄音和回放這兩個額外過程,錄音設備和回放設備的頻響特性是非均勻的,使得其頻譜在低頻段和高頻段都會不同程度地出現衰減或畸變現象,因此僅僅強調低頻段頻譜信息是不充分的。文獻[9]重點研究了瞬時頻率余弦系數特征,以及倒譜特征常數Q 倒譜系數和MEL 頻率倒譜系數,執行所有這些功能的組合以獲得高精度的欺騙檢測。該方法單純地組合了各個特征系數,特征過于冗余。文獻[10]使用Gammatone 濾波器仿真了人耳基底膜的特性,GFCC[11]模擬了人耳的聽覺響應,具有較強的噪聲魯棒性。但是該特征在低頻段的分辨率要高于高頻段,模糊了高頻的特征,因而該方法在錄音回放攻擊中的效果達不到預期結果。
本文在真實語音和錄音回放語音差異化研究的基礎上,針對如何提高語音頻譜高頻信息,減少頻譜在低頻段和高頻段不同程度的衰減或畸變現象,提出兩種有效的特征參數G-IEFCC 和G-IFCC。為達到更好的檢測效果,本文研究基于Fisher 比的特征融合方法。
原始語音和錄音回放語音在時域波形圖中的差異并不明顯,本文采用語譜圖探究兩者在頻域中的差別。選取ASVspoof2017 中的一段語音:“Birthday parties have cupcakes and ice cream”。真實語音和錄音回放語音語譜圖分析如圖1 所示,其中,錄音設備為Rode smartlav,回放設備為VIFA M10MD-39-08 Speaker。
由圖1 對比分析可知,兩者的差異主要集中在高頻段上(4 000 Hz~8 000 Hz),中低頻略有差異且包含一些對于攻擊和真實語音之間的干擾信息,且在回放過程中會夾雜著噪聲。目前無論LPCC、MFCC,還是CQCC 都采用了強化低頻段頻譜信息的方法。而高頻段集中了真實語音和錄音回放語音的主要差異信息,這些特征無法有力刻畫兩者的個性信息。因此,傳統特征參數在錄音回放攻擊檢測實驗中表現一般[12]。針對傳統方法的不足,本文在特征提取階段對頻率尺度和濾波器組進行改進,使得設計的特征更能有效地區分真實語音和錄音回放語音。

圖1 真實語音和錄音回放語音語譜圖分析Fig.1 Analysis of real speech and recording playback speech spectrum
傳統聲紋識別領域中使用MEL 頻率尺度提取語音特征。該特征參數較好地表達了語音的頻譜包絡結構,也一定程度上反映了人類聽覺系統的特點。但由于真實語音與錄音回放語音在頻譜包絡結構上的高度相似性,以及錄音回放攻擊檢測需要具有超越人類鑒別能力的水平,因此基于MEL 頻率尺度的參數在實驗中所表現出的性能一般。而等效矩形帶寬(Equivalent Rectangular Bandwidth,ERB)頻率尺度對公共場合異常聲音鑒別有較強魯棒性[13]。鑒于以上分析,本文嘗試用高斯濾波器組代替傳統三角濾波器組,為強化高頻段頻譜信息,采用ERB 頻率尺度代替傳統MEL 頻率尺度,同時將ERB 尺度轉換成逆ERB 尺度,通過該過程提取的特征稱之為高斯逆ERB 頻率倒譜系數(Gaussian-Inverse ERB Frequency Cepstral Coefficients,G-IEFCC)。為均衡細化高頻與低頻頻譜信息,用線性頻率代替傳統MEL 頻率,通過該過程提取的特征稱為高斯線性頻率倒譜系數(Gaussian-Linear Frequency Cepstral Coefficients,G-LFCC)。本文采用的3 種頻率轉換關系如下:


其中,F是實際頻率,FERB是ERB 頻率,FIERB是逆ERB 頻率,FL是線性頻率,Fmax是語音信號的最大頻率。
傳統的特征參數提取主要是基于三角濾波器組,以MFCC 為例,如圖2 所示,其中,圖2(a)代表傳統MFCC 提取采用的濾波器,該濾波器低頻段分布密切,強調低頻部分,而高頻段分布稀疏,提升了低頻的差異卻忽略了差異明顯的高頻段。圖2(b)代表IMFCC 提取采用的濾波器,相對于圖2(a)的逆操作,在弱化低頻部分的同時強化了高頻部分。圖2(c)代表線性倒譜系統采用的濾波器,該率波器呈等帶寬分布和高低頻段信息平均分布。

圖2 三角濾波器組分析Fig.2 Triangle filter bank analysis
研究發現,三角形狀的濾波器下降趨勢過于陡快,不夠平滑,因此傳統的三角濾波器會使相鄰子帶丟失部分聯系,高斯濾波器[14-15]的時頻寬積最小,既能減小信號的失真,又可以有效地選頻衰減。本文采用高斯濾波器組加強子帶聯系,以彌補三角濾波器的不足。高斯濾波器組頻率響應如下:

其中,at為標準偏差,mt為第t個濾波器的邊界點,其標準偏差at公式如下:

其中,n為方差,可由具體實驗選取最優值。如圖3所示,圖3(a)為G-IEFCC 選用的逆高斯濾波器組,圖3(b)為G-IFCC 選用的等寬高斯濾波器組。

圖3 高斯濾波器組分析Fig.3 Gaussian filter bank analysis
本文參數提取過程如圖4 所示。

圖4 混合參數提取過程示意圖Fig.4 Schematic diagram of extraction process of mixed parameters
本文參數提取具體過程如下:
1)預處理
在預處理階段采用預加重、分幀和加窗3 個步驟。在預處理階段,將數字語音信號x(n)通過一個高通濾波器,減少尖銳噪聲影響。

取幀長n為256 個采樣點,幀移為128 個采樣點。并加漢明窗減少Jibbs 效應。

其中,w(n)是窗信號,S(n)是加窗后的信號。
2)傅里葉變換
對經過預處理后的信號S(n)進行快速傅里葉變換得到頻譜:

其中,N是傅里葉變換點數,k是頻率序號
傅里葉變換后將時域信號轉化為頻域分量得到頻譜,求頻譜的平方(|X(k)|2),即為能量譜。
4)頻率尺度變換及濾波器設計
G-LFCC 和G-IEFCC 的區別主要體現在頻率尺度的變換上,頻率尺度的變換使得后續進行高斯濾波時呈現等寬高斯和逆高斯兩種形態,其具體算法如下:
(1)設置相關參數,采樣頻率Fs=16 000,頻域范圍Fl~Fh(Fl=0,Fh=Fs/2),傅里葉點數N=256,濾波器個數M=27。
(2)由式(3)得出G-LFCC 的線性頻域Fl'~Fh',由式(2)得出G-IEFCC 的逆ERB 頻域
(3)將以上兩個頻域分別等分成M+2 個頻率值,由式(2)和式(3)的逆變換得出G-LFCC 對應實際頻率Fa(i) 和G-IEFCC 對應實際頻率Fb(i)(i=1,2,…,M+2)。
(4)計算頻率分辨率:
本文的研究對象確定為TF boys這一偶像團體的粉絲群體。TF boys是目前首屈一指國內偶像團體,他們在團體的高熱度和廣泛的關注度以及粉絲的強大力量方面有著其他組合不可比擬的優勢,且其粉絲群體內部的屬性構成完善,因此,TF boys的粉絲社群無疑本研究最合適的研究對象。

(5)根據高斯濾波器式(4)、式(5)循環計算每個濾波器數組并組合成最終G-LFCC 的等寬高斯濾波器組Ha(t):

同理,得到G-IEFCC 的逆高斯濾波器組Hb(t):

其中,m=1,2,…,129,t=1,2,…,M。
5)對數功率譜
分別用以上兩種濾波器組進行濾波,并對濾波后的能量取對數得到對數功率譜Pa(t)、Pb(t):

6)離散余弦變換
將所得的對數功率譜進行離散余弦變換得到L階倒譜系數,分別求出G-LFCC 和G-IEFCC 倒譜系數:
其中,n=1,2,…,L,本文L取13。
在聲紋識別中常會提取多維特征,可是在增加特征維數的過程中,各維特征的貢獻率不同,所以一般會對特征參數進行特征選擇。其中,Fisher 準則就是常用的方法。Puzansky 利用方差分析進行聲紋識別研究,提出了有效的Fisher 比[16],而在重放語音攻擊檢測中尚未發現有人研究,本文探究該方法是否可行。Fisher 比的計算公式如下:

其中,σbetween是類間離散度,在聲紋識別中表示說話人第k維參數類間方差之和,σwithin是類內離散度,表示某個說話人第k維參數類內方差和,在重放語音攻擊檢測中存在真實語音和重放語音兩類。說話人樣本總數為M,說話人i擁有的語音段數量為ni,說話人i的第k維特征參數均值為所有說話人第k維特征參數均值為μk,說話人i的第j段語音的第k維特征參數為。σbetween和σwithin計算公式如下:

Fisher 比越大,表明該維特征更能表征個性信息。而在重放語音攻擊檢測中,通過Fisher 比準則,對比值進行降序排列,用貢獻率來確定特征維數,基于Fisher 比的特征可去除冗余信息,突出真實語音和回放語音的個性信息。本文計算G-LFCC 和GIEFCC 各維的Fisher 比,然后分別選擇Fisher 比較高的6 維特征,組合成最終12 維的融合特征。該融合特征通過G-IEFCC 的提取強化高頻段頻譜信息,通過G-LFCC 的提取均勻細化低頻段和高頻段信息,兩者結合更大限度地突出了真實語音和回放語音的差別,同時減少回放語音中因不同錄音設備、回放設備所產生的差異。
在訓練階段運用本文方法提取訓練集語音的特征參數,分別訓練出兩個GMM 模型、一個是錄音回放語音的GMM 模型A;另一個是真實語音GMM 模型B。在測試過程中將測試語音的特征參數集φ與A和B計算似然比,計算公式如下:

用所得的似然比作為得分判決待測語音跟哪個模型更為接近。而后設定閾值作為最后的分類判斷,判決成果采用等錯誤概率(Equal Error Rate,EER)給出,定義如下:

其中,Pfa(θ)表示在閾值θ處的虛警率,反映被判定為真實語音的樣本中,有多少個是回放語音,Pmiss(θ)表示在閾值θ處的漏警率,反映有多少個真實語音被判定為回放語音,當兩者相等時錯誤率為等錯誤率,Pfa(θ)表示單調遞減函數,而Pmiss(θ)則表示單調遞增函數,通過調節閾值使得虛警率和漏警率得以調節。根據具體情況選擇合適的閾值達到理想狀況,比如對于機密安全領域,通過調節閾值使得漏警率較低;而對于日常應用,則可以適當調節閾值在漏警率和虛警率兩者間取得一個平衡。
實驗語音數據采用ASVspoof2017 數據集[17]。在2017 年,國際語音通信協會(ISCA)組織了ASVspoof 國際挑戰賽,主要針對聲紋識別中錄音回放攻擊檢測技術進行研究和交流,該數據庫包含了訓練集和開發集。語料使用RedDots 庫[18]里最常用的10 個短語,運用不同錄音設備在多種環境下錄制,樣本采樣頻率為16 kHz。具體數據集參數如表1所示。

表1 ASVspoof2017 數據集Table 1 ASVspoof2017 dataset
錄音回放環境主要涉及到錄音設備、回放設備、偷錄環境等。在每種回放環境下,同一個說話人錄制同一短語多次。本文實驗訓練集所用大賽數據集中的Train 集,而測試集選擇Dev 集。
高斯濾波器的方差是調節濾波器性能的參數,它關系著高斯濾波器的形成,方差越大濾波器越陡,反之亦然,在說話人識別中方差[19]通常取1.1、1.5、2.0。而在錄音回放語音檢測領域,尚未有方差取值的分析,因此本文針對G-IFCC 采用的等寬高斯濾波器組和G-IEFCC 采用的逆高斯濾波器組中方差取值進行研究。
實驗條件:特征參數維數為13 維,GMM 混合度為512。拓展方差參數選取從1.0 到4.0,以0.5 為間隔的7 個方差,評測標準采用EER,所得結果如表2 所示。

表2 方差取值對檢測結果的影響分析Table 2 Analysis of the effect of variance on the test results
從表2 可以看出,當方差選取2.0 時,G-IEFCC和G-LFCC 檢測結果EER 較小,當方差大于2.0 時,濾波器越陡則過度加強了子帶的聯系,致使特征參數里混雜了噪聲,而小于2.0 時濾波器較為平坦,子帶聯系不明顯,致使個性信息不突出。因而當方差選取2.0 時,可以得到較好的結果。
為選擇G-LFCC 和G-IEFCC 中各維Fisher 比貢獻度較大所對應的維度,分別計算每一維所對應的Fisher 比,為特征融合奠定基礎,圖5 為13 維特征每一維所對應的Fisher 比結果。

圖5 特征參數各維數Fisher 比Fig.5 Fisher ratio of each dimension of characteristic parameters
Fisher 比越大表明蘊含的個性信息越豐富,因此,將G-LFCC 和G-IEFCC 的Fisher 比較高的6 維特征進行融合得到最終Fisher 比混合特征。
在檢測重放語音過程中訓練兩個GMM 模型,模型的參數對結果有一定的影響,因此在實驗中將GMM 混合度作為變量分別對G-IEFCC 和G-LFCC以及混合特征進行檢測,探究GMM 混合度對實驗結果的影響。具體實驗結果如表3 所示。
從表3 可以看出,基于Fisher 比的混合特征普遍比單一特征G-LFCC 和G-IEFCC 實驗效果要好。而在128 混合度下GMM 模型糅合了高頻與低頻信息的混合特征的EER 最低。實驗結果表明,本文提出的混合特征相比單一特征能更有效地檢測真實語音和錄音回放語音。
針對不同特征參數進行錄音回放檢測實驗比較。CQCC 是ASVspoof2017 官方給出的基線特征,該特征由信號經過常量Q 變換(CQT),對其頻譜求對數功率譜,再對經過離散變換的倒譜進行歸一化處理。該變換的頻域采樣點隨頻率呈現指數分布,低頻段頻率分辨率遠遠高于高頻段頻率分辨率,所以CQCC 特征主要包含語音頻譜低頻段信息,弱化了語音頻譜高頻段的信息。對于基于高斯均值超矢量(Gaussian Super Vector,GSV)的特征提取則是將含有語音信息的GMM 均值排列成超矢量作為分類器的輸入,分類器采用的是最常見的SVM,而GSVSVM[20-21]通常使用在說話人確認領域,把GSV-SVM應用在回放語音攻擊檢測中也是可行的。此外,本文將未采用高斯濾波器組(采用三角濾波器組)的LFCC 和IMFCC[22]特征和采用Gammatone 濾波器的GFCC 也納入實驗分析,將實驗系統耗時作為花費時間代價作為參考。
實驗條件為CQCC(90 維)、GFCC(31 維)、GSV(23 040 維)、LFCC 和IMFCC(13 維)和混合特征(12 維),為得到每一種參數的較好結果,前3 項特征采用512GMM 混合度,后3 項采用128GMM 混合度。測試平臺配置:CPU(Intel i5-8400@2.80 GHz,雙核四線程),16 GB 內存;64 位Win10 教育版系統;matlaR2016b 實驗平臺,結果如表4 所示。

表4 不同特征參數實驗對比分析Table 4 Comparative analysis of experiments with different characteristic parameters
從表4 可以看出,GFCC 雖然適合于聲紋識別但是在重放語音攻擊中效果最差,而GSV 效果比基線特征CQCC 等錯誤概率低,但因其特征維數較高導致實驗中所花費的時間代價要高。采用三角濾波器組的LFCC 和IMFCC 因弱化了語音頻譜高頻段的信息,也未能達到最好效果。本文所提出的高斯濾波器組下基于Fisher 比的混合特征因強化了語音頻譜高頻段的信息,同時均勻細化了低頻部分,比其他特征效果都好。與基線特征CQCC 相比,EER 降低了58.3%。通過圖6 的EER 曲線能夠更直觀地展現該方法的良好性能。

圖6 不同特征等錯誤概率曲線Fig.6 Equal error rate curves of different features
本文在頻率尺度和濾波器組上對傳統特征參數進行改進。采用逆ERB 頻率尺度代替傳統MEL 尺度,利用高斯濾波代替傳統三角濾波,形成逆高斯濾波器組,即高斯逆ERB 頻率倒譜特征(G-IEFCC)。為均勻細化低頻和高頻信息,降低因錄音設備和回放設備不同而造成的頻譜信息衰減或畸變現象,運用線性頻率尺度和等寬高斯濾波器形成高斯線性頻率倒譜系數(G-LFCC)。同時通過Fisher 比準則將改進的兩個特征參數融合,最終形成基于Fisher 比的混合特征。實驗結果表明,本文提出的混合特征相比其他常用特征參數,在錄音回放攻擊檢測中的檢測效果顯著。在實際應用中聲紋識別系統的攻與防不只是針對虛假語音,其在攻與防中防處于不利地位。為此,提高仿冒語音攻擊檢測的泛化能力將是下一步的研究方向。