柯宏宇,高奕寧,郝雪營,黃 濤,2
(1.武漢郵電科學研究院,湖北 武漢 430074;2.武漢烽火眾智數字技術有限責任公司,湖北 武漢 430074)
近年來,人工智能快速發展,促進了人機交互應用的加深。生物識別作為人機交互的重要一環,具有廣闊的研究前景[1]。該技術利用人體與生俱來的較穩定特征進行身份驗證,包括指紋、聲紋、虹膜等,其中聲紋識別具有非接觸、高可靠、低成本等優勢,成為了目前主流身份判定特征之一。然而,隨著具備高保真錄音功能電子設備的普及,清晰度較高的錄音獲取變得簡單,這在一定程度上降低了不法分子偷錄語音假冒認證的難度。如何在聲紋識別任務中,有效區分輸入語音是否為回放語音,對守護公民財產安全具有重大意義。目前,關于回放攻擊檢測的研究,大多與說話人識別聯系在一起,缺乏對這一問題的單獨探究。該文針對偷錄語音與真實語音在信道中存在的信道噪聲長時統計特征差異,提出一種有效的檢測手段,從模型魯棒性、有效性兩個方面對回放攻擊展開研究。
回放語音攻擊可分為4類:錄音重放、波形拼接、語音合成和語音模仿[2]。后三類攻擊模式需對說話人聲道模型建模,由于個體間的聲道差異性較大,語音模仿的普適性較差,且合成拼接技術精度難以保證,因此實際案例應用較少。錄音重放與真實語音具有相同的聲紋信息與語音特征,因此最具威脅。盡管語音識別研究始于二十世紀五十年代,但是直到1999年才首次使用一男一女的語音樣本評估錄音重放攻擊對系統的破壞性[3]。文獻[4]使用遠場偷錄的語音進行錄音回放攻擊,實驗結果表明,該錄音回放檢測系統在信噪比較低環境中的錯誤接受率(false acceptance rate,FAR)較高。為提高識別精度,文獻[5]提出基于語譜圖的檢測算法,并在后續工作中引入了均值和方差參數進行相似度比對[6],有效降低等錯誤率(equal error rate,EER)。文獻[7]在語譜圖上引入中點相對位置這一概念,并著重研究麥克風采集距離對識別的影響,同時比對了不同信噪比下的檢測結果。針對遠場偷錄所產生的低頻無關因素,文獻[8]提出了一種基于光譜比率(spectral ratio,SR)、低頻比率(low frequency ratio,LFR)和調制系數構成特征集的語音檢測算法,并使用支持向量機(support vector machine,SVM)進行分類,提高了不同場景下的識別正確率。除了采用語音特征參數對錄音回放進行研究,有部分研究者從信道信息著手。文獻[9]基于高通濾波器和統計幀,文獻[10]采用經驗模態分解濾波器,均實現了信道特征的提取,并在錄音回放檢測時獲得了較好效果;文獻[11]通過借鑒高斯混合模型和通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)在說話人識別中的應用模式,成功提取了語音靜音段特征,有效降低了EER,但是實驗規模較小,有待進一步擴充。除此之外,文獻[12]采用了自適應子帶譜熵法進行靜音區提取,并改進了梅爾倒譜系數(Mel frequency cepstrum coefficient,MFCC)提取過程,包括在預處理時不進行預加重,加窗時使用多級窗代替單級窗,以及采用歸一化Mel濾波器組進行特征提取等措施,實驗結果表明,系統EER有效降低,但該研究假設環境安靜無干擾,而這與實際使用存在差異。2018年,文獻[13]在總結現有對抗措施后,提出采用線性預測(linear prediction,LP)參數替代傳統的光譜相關信息,實驗結果證明,相較于已有參數,LP參數具有更強的魯棒性。但是選取單個參數作為性能指標進行訓練時,所需訓練數據量較大才可得到泛化性能較好的系統模型,且容易出現過擬合現象。
基于此,該文提出了一種基于決策融合的信道信息回放檢測算法,提取Legendre系數及其統計特征,語音基頻特征以及MFCC特征,并使用三個SVM進行決策,而后以一定權重融合以上三個參數進行總體決策,實現回放攻擊檢測。
本節將針對文中所提問題,簡要回顧語音信號的一般處理流程,包括語音信號的預處理與一些常用語音特征的提取方法。
語音信號包含人類發聲器官本身以及采集設備帶來的混疊,通常存在高次諧波失真、高頻分量不足等缺陷。實際中,需要進行預處理以平滑信號,為后續處理提供良好基礎。常用預處理手段包括:預加重、端點檢測、分幀、加窗處理四部分。預加重能消除發聲過程中聲帶和嘴唇對高頻語音信號的抑制效應[14],從而使高頻段信號的能量衰減得到補償。具體的預加重公式如下:
H(z)=1-αz-1
其中,α表示預加重系數,依據經驗,文中設置α=0.98。端點檢測是指在輸入信號中檢測語音的起止位置,將語音的沉默片段去除[15]。端點檢測可以在減少計算量的同時消除無關變量對系統識別的影響,常用檢測指標包括信號能量和短時過零率等統計特性。分幀可以將長時、非穩態信號分成短時、近似平穩信號,進而可采用語音短時分析技術,通常采用的幀長為10 ms~30 ms,為保證信號過渡的連續性,幀移往往小于幀長,文中將幀長設置為10 ms。加窗是指將語音幀與一個窗函數相乘,減小語音信號的截斷效應,使語音幀兩端平滑過渡到零。
生理學研究表明,人的聽覺系統是一個出色的說話人識別系統,對不同頻率的聲波有不同程度的靈敏度,其敏感程度可以由對數函數較好的表征。為了更好地擬合人耳聽覺特性,通常采用倒譜系數刻畫語音特征,倒譜系數由對語音信號的功率譜取對數得到,目前已廣泛應用于語音識別領域。常用的語音倒譜系數特征包括線性預測倒譜系數(linear predictive cepstrum coefficient,LPCC)、梅爾倒譜系數(Mel frequency cepstrum coefficient,MFCC)、逆梅爾倒譜系數(inverted-mel frequency cepstrum coefficient,IMFCC)、耳蝸倒譜系數(cochlear frequency cepstrum coefficient,CFCC)等[16]。其中,MFCC源于對人耳聽覺特性的分析,計算較為方便,因而使用廣泛。實際頻率f與Mel頻率間對應關系可由下式表示:
Fmel=2 595lg(1+f/700)
其中,f單位為赫茲,梅爾頻率單位為Mel。具體說來,在對MFCC特征進行提取時,可以依據兩者間的對應關系,劃分出三角濾波器組,即Mel濾波器組,該濾波器組在以赫茲為頻率的軸上呈非等距分布,而在Mel頻率軸上呈等間距分布。濾波器組一般由若干個三角濾波器排列構成,濾波器組帶寬大致范圍為4 000赫茲,包含人耳聽覺敏感頻率范圍3 000赫茲至4 000赫茲。MFCC濾波器組分布如圖1所示。

圖1 MFCC濾波器組分布圖
該文提出一種基于信道信息的多參數回放攻擊檢測系統,系統整體框圖如圖2所示。對預處理后的語音信號提取Legendre多項式系數與其統計特征用以擬合信道模式噪聲,同時提取基頻特征與MFCC特征作為輔助特征,用于描述信道信息,在最后進行融合決策。

圖2 系統整體框圖
該文采用Legendre多項式擬合信道模式噪聲。Legendre多項式是一種正交基底,較好地反映了幀間的關聯,在作為錄音回放檢測指標時有較強的魯棒性[17]。目前常采用六階多項式系數對信道模式噪聲進行模擬,其擬合表達式如下:
其中,Ln表示多項式系數,n表示階數,Pn(x)則為Legendre多項式通項公式:
目前常采用六階多項式(L0,L1,L2,L3,L4,L5)系數對噪聲進行模擬。零階矢量表示信道模式噪聲直流分量;一階矢量表示信道噪聲分布曲線斜率;二階矢量表示信道噪聲分布曲線曲率;高階矢量則表示信道噪聲分布曲線細節信息。考慮到信道短時特征隨時間變化較為緩慢,該文采用12階向量表征信道模式噪聲特征,其中前六階參數表征零階到五階Legendre多項式系數,后六階參數加入Legendre多項式系數的長時統計特征,分別表征信道模式噪聲的最大值,最小值,均值,中值,極差與標準差。
基音是指話音中頻率最低的分音,其頻率被稱為基頻,可以用于反映說話人生物學特征,如年齡、性別等,是一種較為穩定的特征,目前常應用于刑偵破案中。常用的提取方法主要分為時域法、頻域法以及統計法[18]。時域法包含兩類,分別為自相關算法以及平均幅度差算法。自相關算法通過自相關函數求取基頻特征,自相關函數是用于計算語音信號序列的功率譜密度,可以反映語音信號在時間上的關聯性,其公式表示如下:
其中,Sn(m)為采樣后的語音信號表達式,N為窗長,k為采樣點數。由于相關函數在基音周期整數倍處取得極值,因此,通過計算相鄰兩個最大峰值間距,并將距離參數由時域變換到頻域,即可得出基頻值。同時噪聲信號經自相關運算后主要集中于零點低頻段,故該算法可以一定程度上區分噪聲與輸入語音[19];平均幅度差算法與自相關算法原理類似,不同之處在于自相關函數計算功率譜時為求乘積,算法時間復雜度往往較高,為了規避較大的運算量,可以采用平均幅度差計算方式求取基頻。語音信號的短時平均幅度差函數公式表示如下:
其中,Sn(m)為某采樣點的幅度,Sn(m+k)為相鄰采樣點的幅度,N為窗長,k為采樣點數。該算法原理是周期信號中,相距為周期整數倍的采樣點的幅值相等。除了計算方式的區別,平均幅度差算法所關注的性能指標是波谷而非自相關算法中的波峰。這是因為波谷相較于波峰更加陡峭,錯判率更低,且采用中心削波后準確率更高[20]。
頻域法以倒譜法為主,該方法利用語音信號倒譜特征提取基頻,由于語音信號倒譜特征中含有聲門激勵周期,即基頻信息,通過計算該周期即可得出基頻[21]。在倒譜域中,由于激勵信息與聲道響應為加性關系,但由于所處頻段不同,所以波形上分離度明顯,計算基頻精度較高,但是計算量過大,不適用于實時性要求較高的場合。
統計法是通過機器學習方法,提取時域特征或者頻域特征后,分析自相關函數的周期性或者相鄰采樣點間幅度差,算出基頻值后,得出基頻值與輸入語音時頻域特征間的對應關系,生成訓練模型,進而在新輸入語音時可直接求出其基頻值[22]。為對抗噪聲帶來的干擾,同時更好地確保說話對象的唯一性,該文融合基頻特征作為一個輔助指標,減少語音回放信道攻擊對檢測系統的影響。
一般的機器學習方法將訓練重心放在單個性能指標上,忽略了其他可能優化性能指標的信息。而實際應用場景中測試集與訓練集往往存在一定差異。因此測試時,訓練模型如果僅采用單個指標進行決策,出現擬合失真的概率往往較高[23]。決策融合是一種通過共享多個性能指標的表征,同時使各指標之間相互影響的策略,具有較好的泛化性能。該文采用如下公式進行決策融合:
f(x)=αx1+βx2+γx3
其中,α、β、γ分別為各個決策的融合權重,x1、x2、x3分別為Legendre多項式決策結果,基頻決策結果以及基于MFCC特征的決策結果。由于信道模式噪聲特征在安靜無噪聲場景下已具有較好的錄音回放檢測表現,而該文在此基礎上進一步考慮了多種信噪比條件下的錄音回放檢測,因此本實驗中,α=0.7、β=0.2、γ=0.1,采用信道模式噪聲作為主要判別依據,基頻特征權重次之,最后是MFCC特征參數權重。經過調試,最終的接受閾值設置為0.75。
本節將對文中實驗中涉及的數據集構造以及實驗方法進行說明。實驗計算機的CPU為AMD Ryzen 7 3800X 8-Core,32G內存,Windows 10操作系統。實驗平臺為MATLAB 2017b。
由于目前針對錄音重放的開源數據集較少且不易直接獲得,文中基于語音數據集AISHELL-2019B-EVAL[24]對所需數據進行了制作,用以研究不同偷錄設備翻錄語音對檢測的影響。制作時通過運行轉錄程序播放原數據集語音,同時采用監測麥克風進行收聲,具體轉錄設備信息如表1所示。

表1 基于AISHELL數據集語音樣本制作詳情
在信號處理中,信號功率與噪聲功率的比值稱為信噪比,其定義式如下:
SNR=10lg(S/N)
其中,S為信號功率,N為噪聲功率,SNR單位為dB。為確保系統性能的魯棒性,將表1所獲得數據按0 dB、3 dB、5 dB、10 dB、20 dB的信噪比與白噪聲進行混合后,作為現有方法的對照組進行后續實驗。
在對輸入語音進行預加重、分幀、加窗等預處理流程后,計算信道模式噪聲特征。同時對比文獻[9,11-12]的方法,實驗結果如表2所示。可以看到,噪聲的引入對回放語音檢測有一定的影響,隨著信噪比的降低,識別精度總體呈下降趨勢,其中,噪聲對文獻[11]的方法影響較為嚴重,原因之一在于低信噪比環境下無法有效進行端點檢測。文獻[9]采用信道模式噪聲統計特征作為判別依據,隨著輸入語音信噪比的增加,識別率穩定上升。但是由于決策指標單一,相比而言,文中提出的決策融合算法,能在有效對抗干擾的同時,提高模型在噪音環境中的表現。

表2 不同信噪比下對比識別精度結果
實驗結果表明,該文所提出的基于決策融合的信道信息檢測方法簡潔有效,系統的識別精度在不同信噪比環境下較為穩定,實現了攻擊檢測目標。
提出了一種回放攻擊檢測算法,并在噪聲環境下研究了模型的魯棒性,取得較為穩定的效果。除此之外,該模型是輕量級的,因此可以部署在移動端,具有一定實際應用價值。一部分研究認為,信道信息主要集中在高頻部分,為了在高頻上獲得較高的分辨率,挖掘高頻部分的有效信息,一些新的濾波器組或特征被設計并用于實踐,該文也對部分特征進行了實驗,識別效果有待進一步提升。如何提取更有效更穩定的特征,也是未來工作的一個方向。