魏為民, 劉 暢, 才 智, 孟繁星
(上海電力大學 計算機科學與技術學院, 上海 200090)
相比傳統的身份認證,生物身份認證被認為是一種更加便捷有效的認證方案,這是由于生物的身份信息蘊含于自身且獨一無二,因此不存在遺失的風險且不容易更改。聲紋認證作為一種生物認證方式被越來越廣泛地應用,如門禁、銀行等。同時,由于互聯網的飛速發展,用戶的信息非常容易泄露,導致犯罪分子在獲取用戶的語音信息后,利用合成技術進行語音詐騙,威脅群眾的財產安全。因此,開發針對語音識別系統的惡意欺騙的對策已經越來越重要。
使用合成語音對抗說話人驗證系統(Automatic Speaker Verification,ASV)的欺騙問題是由MASUKO T等人在1999年首次發表的[1]。合成語音檢測通常需要先提取語音信息特征,包括語音的信號處理等。在對語音信號處理時需要進行基音周期檢測,以得到與聲音振動頻率吻合較好的基音周期變化軌跡曲線,這樣才能高效地識別語音[2]。然后,針對語音信息特征建立分類器。融合了合成語音檢測算法的說話人驗證系統可以有效地抵抗合成語音的攻擊。傳統的合成語音檢測方法包括利用頻譜信息[3-4]、相位特征[5-6]、倒譜系數特征與相位信息結合[7-9]、余弦歸一化相位和修正的群時延倒譜系數特征[10-11]、動態聲學特征[12],而近年來機器學習算法[13-15]的發展使得語音識別得到了跨越性的提升,深度神經網絡[16-17]和卷積神經網絡[18-19]都被證明在合成語音檢測方面有著很好的效果。……