曹 慧
(安徽新聞出版職業技術學院,合肥230601)
語音雖具有個體差異,但能被模仿。當模仿者模仿水平很高時,一些語音認證系統就會被蒙騙,對信息安全帶來破壞。因此,對模仿語音進行特征分析,找出原始語音和模仿語音差異是十分必要的。隨著科技的發展,一些高性能的錄音設備相繼出現,犯罪分子利用錄音設備進行高保真錄音,利用這些高保真錄音去詐騙,作案手段向智能性、隱蔽性方向發展。錄音回放攻擊是語音認證系統所面臨的最常見安全問題之一。價格便宜、性能高的錄音和回放設備的出現導致利用錄音回放攻擊犯罪變得越來越簡單,給個人和國家信息安全帶來嚴重的威脅,高保真錄音回放攻擊取證問題現已得到了國家和許多學者的重視[1][3]。本文分析了信道模式噪聲和MFCC特征提取兩種算法,并通過labview編程進行仿真驗證。
在華南理工大學王志鋒等相關學者所著的文獻中首先提到了用信道噪聲特征來識別回放攻擊語音。文獻[2]中指出原始語音是系統正常采集到的用戶語音,回放語音是通過錄音設備錄制并進行回放攻擊的用戶語音?;胤殴粽Z音與原始語音生成模式不同,回放攻擊語音至少需要經歷一次錄音和一次回放的過程。由于錄音和回放設備存在差異,各個設備會引入不同的信道噪聲,這些設備信道噪聲最終會疊加在回放攻擊語音上,導致回放攻擊語音與用戶原始語音存在一定的差異。錄音和回放過程中的麥克風、揚聲器、不同電路、各類放大器、各類濾波器等設備引入的噪聲稱為信道模式噪聲。用戶原始語音只包含系統正常錄音設備的信道噪聲,而回放攻擊語音中不僅包含系統正常的信道模式噪聲,而且還含語音偷錄、回放等設備的信道模式噪聲。因此,提取疑似回放攻擊語音中的信道模式噪聲并對信道模式噪聲進行頻譜分析是高保真錄音回放攻擊取證一種有效方法。由于信道模式噪聲伴隨在整個語音偷錄和回放過程中,且具有相對均勻性,因此采用具有長時特征的統計幀來提取信道模式噪聲是獲得穩定的信道模式噪聲頻譜圖最科學的方法之一[2]。
文獻[2]中對信道噪聲特征的提取主要采用以下算法:語音信號中短時幀相同頻率成分的平均值即為統計幀,設S={s1[n],......,st[n]}表示幀數為T的語音信號,則第i=(1 ≤i≤t) 幀語音信號si[n](0 ≤n≤t-1)的離散傅里葉變換可表述為
將上述函數轉換成統計幀X[k]:
由于原始語音與回放攻擊語音差異性主要體現在低頻部分,因此信道模式噪聲主要集中在語音信號的低頻部分,我們可以采用去噪濾波器來提取信道模式噪聲,可以通過下式表示
由于上述所引入的信道模式噪聲為時域卷積信號,需要通過對數譜域將非線性噪聲信號轉換為線性噪聲信號。
Vy,Vr,Wy,Wr分別表示原始用戶語音,回放攻擊語音、原始用戶語音的信道噪聲、回放攻擊語音信道噪聲,DFT代表離散傅里葉變換,[n]、[n]分別表示去噪濾波后的原始用戶語音和回放攻擊語音[2]。
在語音信號處理研究領域,能夠表述說話人個性的語音特征有共振峰、短時能量、短時過零率短時基音、短時頻譜、線形預測倒譜系數(LPCC)、美爾倒譜系數(MFCC)等,其中LPCC和MFCC是語音信號處理中最常用的兩種特征。根據現有研究得知,MFCC特征比LPCC特征有更強的抗干擾性能,語音信號大多集中在低頻區域,MFCC特征強調語音信號的低頻分量,能夠突出有利于語音識別的個性信息[3]。MFCC頻率與實際頻率的關系為:Mel(f)=2595log10(1+f/700)。
文獻[3]對回放語音MFCC特征提取基本上是按照以下幾個步驟來完成的[3]:
1)對回放語音信號進行預處理
原始用戶語音信號V(n)經過加重、加窗、分幀等處理,得到回放語音每個幀的時域信號Z(n),將幀時域信號Z(n)進行離散傅里葉變換后,得到語音信號線性頻譜X(k)
2)將得到的頻譜進行平方運算,將語音信號進行Mel濾波器并取對數,獲得相應的對數功率譜
3)將對數功率譜進行反離散余弦變換,提取MFCC特征
現有研究表明最前若干維MFCC和最后若干維MFCC對語音信號區分性能影響最大。
為了驗證本文所述錄音回放攻擊取證算法的有效性,依靠labview軟件編程,基于虛擬儀器技術并運用本文所提的算法來設計虛擬仿真平臺。本文依托labview軟件編程,采用圖形化程序進行算法和系統界面設計,該仿真平臺采用模塊化設計,主要包含語音信號采集、頻譜分析、信號存儲三大模塊,可以對信號進行預處理、信道噪聲特征提取、MFCC特征提取。實驗時首先對語音信號進行預處理,然后對處理后的語音信號進行特征提取,得出疑似回放攻擊語音信道噪聲和MFCC頻譜圖。仿真實驗的軟硬件均采用美國虛擬儀器公司的產品,軟件為Labview2012和Labview Sound and Vibration Tookits,硬件為MyDAQ。本文設計的仿真平臺通過美國國家儀器公司設計的MYDAQ采集卡既可以對語音信號進行實時采集,也可以通過調取文件的方式從本地硬盤或網絡中查找要處理的語音信號,該仿真平臺可以對多路語音信號進行采集和分析[4]。
提取信道模式噪聲特征,流程如圖1所示。疑似回放攻擊語音分兩路進入以本文所述的取證算法為基礎的語音采集和識別系統,去噪后取差值得出信道噪聲特征,通過特征分析判斷是否為回放攻擊型語音。
從圖1可以看出本仿真實驗采用高通濾波器濾掉語音信號中的信噪聲,采用先去噪再求殘差的方法提取信道噪聲。這種仿真設計思路主要考慮兩點[2]:
1)由于回放語音信道噪聲在整個通帶內緩慢變化,并且錄音系統的信道相對固定,因此可以先根據信道噪聲中的某些分布特性去構建去噪濾波器;
2)語音信道噪聲一般處于低頻部分比較窄的帶寬范圍內,構建很窄通帶或很寬阻帶的濾波器是比較困難的。
下面對回放攻擊語音進行信道噪聲提取仿真實驗。圖2和圖3是兩路語音功率譜圖,圖2是原始語音,圖3是高保真回放語音,兩路語音頻譜圖非常相似,現實中很多語音認證平臺對這樣的語音無法識別。通過本文設計的labview仿真平臺,可以有效檢測出兩路語音信道噪聲差。將兩路語音通過兩通道同時送入仿真平臺中,得出如圖4所示信道噪聲頻譜圖。通過圖4可以看出兩路語音信號頻譜相減后,還存在很大一段信道噪聲頻譜,且在信道噪聲頻譜圖中有多個共振峰出現,因此可以判斷疑似回放語音為攻擊性高保真回放語音。
回放語音MFCC特征提取是基于人類已知聽覺邊界帶寬頻率波動曲線,在仿真實驗過程中先將實際頻率轉換為基于Mel的非線性頻譜,然后仿真編程再求倒譜。在語音信號低頻區域是線性變化,而在高頻區域則是對數曲線,這樣就能夠獲取語音中的最重要MFCC特征。按照MFCC特征提取算法設計如圖5所示的labview程序流程圖:
本文設計兩個仿真小實驗:一個是同一人說不同的話,另一個是不同的人模仿相同的話,通過仿真實驗得出MFCC特征對比圖。
圖6為同一人說內容不同的話MFCC特征對比圖,圖7是不同的人模仿說相同的話MFCC特征對比圖。由圖6和圖7中可知,無論是同一個人說不同內容的話,還是不同的人模仿說相同的話,MFCC特征參數都具有一定的差別性。綜合可知,語音信號中的MFCC特征參數既能夠反映說話人的說話內容相關特征,也可以反映說話人的說話方式和發音方式等個性特征,對高保真回放攻擊性語音取證具有很好的參考意義。
本文分析了在高保真錄音回放攻擊取證中兩種算法,通過仿真實驗驗證了信道噪聲和MFCC特征參數提取兩種算法可以有效檢測出回放語音與原始語音的差異。
[1]張利鵬,曹犟,徐明星,等.防止假冒者闖入說話人識別系統[J].清華大學學報(自然科學版),2008,48(S1):700-701.
[2]王志鋒.基于信道信息的數字音頻盲取證關鍵問題研究[D].廣州:華南理工大學,2013.
[3]展領.蓄意模仿說話人語音中特征參數的研究[D].桂林.桂林電子科技大學,2010.
[4]張振.基于labview的聲音信號采集分析系統開發[J].北方工業大學學報,2012,24(3):42-43.