999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向復雜聲學環(huán)境的偽裝語音檢測*

2022-11-21 10:09:50曄章堅武程繼承
傳感技術學報 2022年10期
關鍵詞:特征檢測模型

周 曄章堅武*程繼承

(1.杭州電子科技大學通信工程學院,浙江 杭州 310018;2.浙江宇視科技有限公司,浙江 杭州 310051)

自動說話人驗證(Automatic Speaker Verification,ASV)作為一種身份識別技術,旨在根據傳感器采集的語音樣本對給定人聲稱的身份進行驗證[1]。近年來,由于采集傳感設備的發(fā)展,該技術受到了廣泛的關注,并應用于智能設備登錄、門禁控制、網上銀行等方面。但是各類語音偽裝技術威脅著ASV系統的安全性能,目前確定了四種類型的偽裝語音欺騙攻擊[2]:語音合成、語音轉換(Voice Conversion,VC)、語音模仿、重播,它們可生成類似于合法用戶語音的偽裝語音。以語音合成[3-4]和語音轉換[5-6]為主的邏輯訪問(Logical Access,LA)攻擊在過去十年中取得了巨大進展,因此區(qū)分偽裝語音與真實用戶語音變得更具挑戰(zhàn)性。越來越多的研究證實,ASV系統在面對針對數據庫的各種惡意欺騙攻擊時存在嚴重脆弱性[7-8]。

為了應對欺騙攻擊威脅,研究人員一直致力于尋求有效的反欺騙方法,目前語音欺騙檢測系統主要由前端特征提取和后端分類器兩部分組成。與一般的說話人驗證和語音處理所使用的聲學特征不同,語音欺騙檢測需要開發(fā)更適用于語音欺騙檢測的聲學特征[9]。經聲學特征提取后,使用性能出色的分類器以完成真?zhèn)握Z音區(qū)分。在傳統的機器學習方法中,高斯混合模型[10](Gaussian Mixture Model,GMM)是最經典的分類模型,其優(yōu)勢在于訓練時間短,但檢測準確性有限;隨著深度學習的興起,各類能夠學習復雜非線性特征的深度神經網絡也被應用于語音欺騙檢測,Zhang等[11]提出CNN-RNN檢測系統,以CNN提取音頻特征、以RNN捕獲跨時域的長期依賴關系進而實現檢測。Wu等[12]將特征基因轉換器與LCNN分類器結合,使真?zhèn)握Z音差異最大化。雖然現有方法的訓練性能均有所提升,但在實際應用中會遭遇未知類型攻擊,而這些攻擊通常與已知攻擊具有不同的統計分布,從而造成訓練和應用之間巨大的性能差距,這表明欺騙檢測系統對未知攻擊的泛化能力仍待改進。

此外,由于現實情況中多為復雜聲學環(huán)境,如存在多源環(huán)境噪聲、混響和信道干擾等[13],并都可造成語音質量退化,因而將其統稱為環(huán)境干擾。各類欺騙檢測系統面對復雜的聲學環(huán)境時,存在性能大幅倒退情況。針對此問題,Park等[14]提出SpecAugment數據增強方法,該方法對輸入音頻的對數梅爾頻譜圖進行操作,但它從數據中完全去除干擾音頻的同時,也刪除了有用信息,一定程度上不利于后續(xù)檢測。Li等[15]通過基于注意力機制的LSTM來調整權重進而自動選擇特定的、有代表性的幀級特征用于嘈雜環(huán)境中的欺騙檢測,但改善程度有限。本文針對去除環(huán)境干擾過程進行改進,構建了深度殘差收縮網絡。

本文的主要貢獻包括2個方面:

①針對復雜聲學環(huán)境下的語音欺騙檢測,本文構建深度殘差收縮網絡(Deep Residual Shrinkage Networks,DRSN),設計了包含基于深度注意力機制的自適應閾值學習模塊和軟閾值模塊的殘差收縮構建單元(Residual Shrinkage Building Unit,RSBU),在無需專業(yè)人士手動執(zhí)行環(huán)境狀態(tài)監(jiān)測的情況下,每個語音信號可依據各自聲學環(huán)境中不同干擾水平確定獨立閾值,在不損害有用信息的同時將干擾特征強制置零,實現自主動態(tài)去擾,保留更具辨別性的高級特征,在復雜聲學環(huán)境下既能提高判別特征學習能力,又能執(zhí)行高效訓練。

②針對檢測方法泛化性能差問題,使用三種不同聲學特征提取算法(CQCC、MFCC和Spectrogram)以更全面地表示語音特性,并將特征分別作為網絡輸入,依據其輸出性能為各模型生成權重,在執(zhí)行多特征聯合檢測中平衡不同模型特點、實現優(yōu)勢補充以提升系統泛化性。

1 相關工作

1.1 殘差網絡ResNet

深度殘差網絡(ResNet)是卷積網絡中極具吸引力的變體,它使用恒等路徑(Identity Shortcut)來減輕參數優(yōu)化的難度[16]。對于一般的卷積網絡,當網絡加深時,反向傳播的梯度間相關性會越來越差,網絡表征能力不增反退,但由于ResNet中存在由非線性層和恒等路徑所組成的殘差單元(Residual Building Unit,RBU),可很好地改善該問題,如圖1所示。在ResNet中,梯度不僅能便捷地逐層反向傳播,而且通過恒等路徑可直接回流至起始層,從而高效地更新參數以減輕網絡的訓練難度[17]。

圖1 RBU的結構

鑒于ResNet的優(yōu)良性能,有學者將其引入作為語音欺騙檢測的后端分類器。Alzantot等[18]使用不同的特征提取算法將原始語音波形轉換為2D特征表示,再將該2D特征表示輸出至采用跳躍連接的ResNet中,一定程度地提高了檢測準確率。Chen等[19]在ResNet的基礎上通過使用大邊距余弦損失函數(LMCL)和在線頻率掩蔽增強來迫使網絡學習更強大的特征嵌入。

本文所使用的深度殘差收縮網絡(DRSN)[20]在ResNet的基礎上,增加基于深度注意力機制的自適應閾值學習模塊和軟閾值模塊以進一步提升其性能,詳細介紹見第2節(jié)。

1.2 聲學特征

本節(jié)將重點介紹本語音欺騙檢測方法所使用的聲學特征。

①常數Q倒譜系數CQCC

CQCC(Constant Q Cepstral Coefficient)[21]時間和頻率分辨率可變,能夠可靠地捕獲欺騙攻擊的一些信息,并且它的結構對情景和欺騙攻擊是同時敏感的。CQCC特征是利用常數Q變換(CQT)結合傳統倒譜分析而獲得的,CQT使用幾何的頻率間隔,在較低頻率下提供高頻率分辨率,在較高頻率下提供高時間分辨率,因而對大多欺騙攻擊感知敏感。為計算CQCC,在應用CQT后再計算功率譜并取對數,接著進行均勻重采樣,最后通過離散余弦變換以獲得CQCC特征。

②梅爾頻率倒譜系數MFCC

MFCC(Mel Frequency Cepstral Coefficient)[22]是基于人耳聽覺特性提出,具有良好的識別性能和抗噪性能,廣泛應用于自動語音和ASV。MFCC模擬了人類聽覺處理語音時的非線性特點,對于不同頻率語音信號的靈敏度不同。MFCC特征是先計算短時傅立葉變換(STFT),再通過濾波器組將頻譜映射到梅爾頻譜,最后經過離散余弦變換而得到。

③聲譜圖Spectrogram

對原始信號進行分幀加窗后完成短時傅里葉變換,并計算每個分量的大小最后將其轉換為對數刻度,捕獲輸入音頻波形的時頻特性。相比于CQCC和MFCC特征,由于該特征并未過多地進行人工工學特征處理,因而更加貼合輸入的原始數據,且研究表明[23-24],深度學習模型能夠通過輸入原始數據自動進行學習,在隱藏層內執(zhí)行更高級別的特征表示。

2 語音檢測模型

在本節(jié)中,首先介紹基于深度殘差收縮網絡(DRSN)的多特征聯合語音欺騙檢測方法的整體架構,然后分別介紹實現動態(tài)消除環(huán)境干擾的殘差收縮構建單元(RSBU)和平衡不同模型特點、實現優(yōu)勢互補的聯合檢測單元。

以CQCC、MFCC及Spectrogram三個聲學特征作為輸入,先對特征圖進行卷積以減少網絡訓練的參數量,降低過擬合現象發(fā)生的可能性,隨后將經過卷積處理的特征分別傳入DRSN,構建MFCCDRSN、CQCC-DRSN和Spectrogram-DRSN模型。考慮到在一般欺騙檢測任務中,真實語音數量遠少于偽裝語音數量,所有模型都使用最小化加權交叉熵損失函數進行訓練,其中分配給真實語音和偽裝語音的權重之比為9∶1,以減輕訓練數據分布的不平衡。此外,在全連接層(FC)中設置比率為0.5的Dropout,從而增強每層各個特征之間的正交性。隨后將3個單類特征-DRSN檢測模型結果輸入至聯合檢測單元,得到最終判決結果,如圖2所示。

圖2 基于DRSN檢測方法整體架構

2.1 殘差收縮構建單元RSBU

鑒于音頻數據制作中會不可避免地存在環(huán)境噪聲、混響和信道干擾等環(huán)境干擾,干擾的存在會降低神經網絡提取偽裝語音特征信號的能力,為去除復雜聲學環(huán)境對檢測的影響,本文參考ResNet中的殘差單元(RBU),設計了DRSN中的殘差收縮構建單元(RSBU),殘差收縮構建單元包含基于深度注意力機制的自適應閾值學習模塊和軟閾值模塊,如圖3所示。

圖3 殘差收縮構建單元RSBU

①自適應閾值學習模塊

在消除環(huán)境干擾過程中,閾值參數通常根據專家的先驗知識而給出,監(jiān)測成本高且波動較大。其次音頻數據制作環(huán)境各異,因而很難逐一設置最佳閾值。針對此問題,通過增設自適應閾值學習模塊,可以注意每個音頻的聲學環(huán)境情況自主確定最佳閾值,并將該值提供給軟閾值模塊實現動態(tài)消除環(huán)境干擾。在該模塊中首先對特征圖x∈?C×W×H取絕對值、使用全局平均池化降低特征維度為x∈?C×1×1,增強感受野。其次在兩層全連接層之間添加BN和ReLU[25],前者可以將特征調整為標準正態(tài)分布或理想的分布,從而減少內部協變漂移,防止梯度消失,提升收斂速度,后者可以引入非線性變換,學習特征間的相關性,增強網絡的表達能力。隨之經過全連接層后獲得縮放參數,最后利用sigmoid函數使縮放參數至(0,1)的范圍內,可表示為:

式中:z c是第C個神經元的特征,αc是與之對應的縮放系數。縮放系數看作是經過特征學習后對每個特征通道聲學環(huán)境的評判結果。

由于后續(xù)軟閾值模塊所需閾值不僅需要為正,而且不能太大。為了讓閾值保持在合理范圍內,將各通道縮放系數αc與經過取模、全局平均池化操作的特征數據相乘得到獨立的閾值,閾值公式定義為:

式中:τc是特征圖第C個通道的閾值,C、W和H分別是特征圖x的通道數、寬和高。

②軟閾值模塊

軟閾值模塊作為非線性變換層插入到殘差收縮構建單元(RSBU)中,可以根據當前環(huán)境干擾狀況靈活地實現去擾,突出高判別性的聲音信息。軟閾值函數可以表示為:

式中:x為輸入特征,y為輸出特征,τ為閾值。

軟閾值處理過程將小于閾值的干擾數據置零,保留有用的正負特征,生成無擾且具高判別性的特征y∈?C×W×H。軟閾值函數的導數如式(4)所示,由于輸出對輸入的導數取0或1,可有效防止梯度消失和爆炸問題。

軟閾值作為收縮函數,更有利于消除與干擾相關的信息,多個RSBU堆疊使用可加強各種非線性變換以提高判別特征的學習能力。

2.2 多特征聯合檢測單元

隨著欺騙算法的更迭,可制作出在感知上與真正語音無法區(qū)分的偽裝語音。但如沙啞、呼吸急促聲、說話速度等行為特征是不可能完全合成的。此外,說話人的音高、音長、音色等高級特征也是作為判別標準的潛在特征,而這些特征在MFCC、CQCC和Spectrogram語音特征圖上可體現為共振峰、聲波頻率、振動幅度、振動波形等差異。為有效整合各特征信息并使DRSN高效學習,本文將MFCC-DRSN、CQCC-DRSN和Spectrogram-DRSN模型聯合起來構建多特征聯合檢測單元,該檢測單元通過組合能夠平衡不同模型特點、實現優(yōu)勢補充進而提高檢測系統整體性能。將使用性能最好的訓練模型參數應用于評估數據集,經過模型檢測后得到單類特征-DRSN模型分數文件,分數計算公式為:

式中:ν表示給定的音頻文件,θ表示模型參數。

通過對分數文件的加權融合以實現聯合檢測,檢測分數在多項式回歸的邏輯函數中融合,表示為:

式中:N為融合模型數量,w i為融合權重,s i為單類模型分數。

以三個單類特征-DRSN模型檢測分數為自變量、以檢測結果為因變量建立邏輯回歸模型:

經模型處理得出回歸常數并對其進行歸一化處理,最終獲得模型的權重,通過式(7)的線性融合可進一步校準輸出分數。

3 實驗及結果

3.1 數據集

實驗采用ASVspoof 2019 LA數據集,數據集的基本語音樣本采集于107位說話者,且每個說話者都采集一定數量的樣本,一部分作為真實語音,另一部分使用欺騙算法產生偽裝語音。所有真實語音和偽裝語音被隨機分為三個子集:訓練集、開發(fā)集和評估集,且各子集間說話人不存在重疊。其中訓練集為2 580條真實語音和22 800條偽裝語音;開發(fā)集為2 548條真實語音和22 296條偽裝語音;測試集為7 335條真實語音和64 578條偽裝語音。具體數據情況見表1。

表1 ASVspoof2019 LA數據集說話人和語音數量

偽裝語音是由17種語音合成、語音轉換和混合系統組成的不同陣列創(chuàng)建。它們的波形生成方法、聲學模型和欺騙算法都各不相同[26]。A01-A06被指定為已知的欺騙攻擊用于訓練集和開發(fā)集,評估集使用A07-A19欺騙攻擊,除A16和A19使用的算法分別與A04和A06相同外,共含有11種未知的欺騙攻擊,具體情況見表2。

表2 ASVspoof2019 LA數據集欺騙攻擊系統

雖然大多數用于檢測的數據集由高質量信號組成,但語音信號到達檢測系統前通常會受到許多外在條件的影響,包括加性噪聲、傳輸通道(包括壓縮偽影和低帶寬)和混響等由環(huán)境或信道引起的失真,所以在實際檢測中聲學環(huán)境多樣且復雜。

3.2 評價指標

本文采用最小串聯檢測成本函數(t-DCF)和等錯誤率(EER)作為評價語音欺騙檢測系統的指標。

①最小串聯檢測成本函數t-DCF

將固定參數的ASV系統與語音欺騙檢測系統進行串聯,使用t-DCF指標評估串聯系統的整體性能:

②等錯誤率EER

使用等錯誤率(EER)指標獨立評估語音欺騙檢測系統的性能,EER表示錯誤接受的概率等于錯誤拒絕的概率,等錯誤率值越低,檢測系統的準確度越高。

3.3 模型實驗結果與分析

為驗證所設計系統模型的有效性和輸入特征對檢測性能的影響,本文設置了10組實驗,具體情況為

①Baseline CQCC-GMM:Asvspoof2019比賽中的基線系統之一,以16 kHz的采樣頻率和16的重采樣周期獲得CQCC系數,后端分類器為高斯混合模型。

②Baseline LFCC-GMM:Asvspoof2019比賽中的基線系統之一,使用20通道數的三角形線性間隔濾波器組獲得LFCC系數,后端分類器為高斯混合模型。

③CQCC-ResNet:Asvspoof2019比賽的先進系統模型,以CQCC為輸入特征,后端分類器為ResNet,ResNet中堆疊9個RBU。

④MFCC-ResNet:與③類似,以MFCC為輸入特征,ResNet中堆疊6個RBU。

⑤Spectrogram-ResNet:與③類似,以Spectrogram為輸入特征,ResNet中堆疊6個RBU。

⑥CQCC-DRSN:本文單類特征檢測模型之一,以CQCC為輸入特征,后端分類器為DRSN,batch size為32,DRSN中堆疊7個RSBU。

⑦MFCC-DRSN:與⑥類似,以MFCC為輸入特征,DRSN中堆疊10個RSBU。

⑧Spectrogram-DRSN:與⑥類似,以Spectrogram為輸入特征,DRSN中堆疊8個RSBU。

⑨普通融合:將本文所提出的3個單類特征檢測模型執(zhí)行常規(guī)融合。

⑩加權聯合檢測:依據3個單類特征檢測模型表現出的性能特點來計算權重,而后進行加權融合從而實現聯合檢測。

實驗結果如表3所示,在開發(fā)集數據中,CQCCResNet和Spectrogram-ResNet模型檢測性能明顯優(yōu)于基線系統,但是在評估集中僅有CQCC-ResNet模型檢測效果較好,說明ResNet模型利用已知攻擊算法推廣未知攻擊算法的能力有限。而本文提出三個單類特征檢測模型在開發(fā)集中均較基線系統有所提升,且在評估集中同樣表現出不錯的泛化能力。進一步地,對此三個模型進行普通融合,t-DCF和EER分別達到0.1228、4.30%,而加權聯合檢測模型的t-DCF和EER為0.1122、3.82%,相較于最佳基線系統,其性能分別提升47%和53%,這表明聯合檢測單元能夠有效平衡不同模型特點,實現優(yōu)勢互補、擴大類間差距進而提高真?zhèn)握Z音的區(qū)分性。

表3 不同模型在LA數據集上的檢測性能比較

3.4 不同欺騙攻擊效果分析

由于評估集中存在大量未知欺騙攻擊類型,為了探究不同模型的泛化性能,分析評估集A07至A19中11種未知攻擊和2種已知攻擊(A16和A19)的t-DCF指標,如圖4所示。

圖4 不同模型針對不同欺騙攻擊的t-DCF分數

由圖4可知,在單類特征-DRSN模型中,Spectrogram-DRSN檢測效果最佳,MFCC-DRSN次之,CQCCDRSN相對較差,這表明Spectrogram這類貼合原始數據的聲學特征更適合在DRSN網絡中學習。兩種多特征檢測方法相比,本文所提出的加權聯合檢測方法總是優(yōu)于普通融合系統,且在所有模型中達到最佳檢測效果,證明本文所提出方法的有效性。但是面對在語音轉換挑戰(zhàn)賽中被認為具有最高欺騙能力的A17欺騙攻擊類型時,所有檢測模型的t-DCF都有所上升。由于A17是基于波形濾波的語音轉換攻擊,因而其制作偽裝語音的原始波形中可能包含更多偽裝線索,后續(xù)擬直接使用音頻原始波形作為檢測網絡的特征輸入,以有效捕獲更多合成語音中的偽影,進而提升對該類型欺騙攻擊的檢測性能。

4 總結

隨著對語音合成和語音轉換等技術的深入研究,偽裝語音更逼真自然以至于難以辨別,這使得人們對ASV系統的安全性和欺騙檢測系統的可靠性愈發(fā)關注。本文提出一種基于深度殘差收縮網絡用于邏輯訪問場景的語音欺騙檢測方法,以CQCC、MFCC和Spectrogram作為前端特征,以DRSN網絡作為后端分類器,并使用合理的聯合檢測方式實現多特征語音欺騙檢測。依據在ASVspoof2019 LA數據集上的表現,本文所提模型具有較好的檢測性能,但是在面對個別未知類型的欺騙攻擊時,未達到最佳檢測效果,未來將研究更具普適性的后端分類器,尋找聲學特征-分類器的最佳組合模型,同時加強模型間協作融合以提升系統的泛化性。

猜你喜歡
特征檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人AV大片大片在线播放 | 婷婷丁香色| 国产精品浪潮Av| 亚洲国产欧美国产综合久久| 成人精品亚洲| 成人在线欧美| 国产精品美女免费视频大全| 99久久精品免费看国产免费软件| 久久精品视频一| 久久综合伊人 六十路| 欧美a在线看| 亚洲第一香蕉视频| 一级毛片免费的| 91外围女在线观看| 超清人妻系列无码专区| 女人毛片a级大学毛片免费| 99精品在线视频观看| 九九热精品免费视频| AV无码无在线观看免费| 伊人久久大香线蕉影院| jizz在线免费播放| 国产成人福利在线| 人人爽人人爽人人片| 欧美在线网| 国产精品免费露脸视频| 国产亚洲日韩av在线| 亚洲成人播放| 国产香蕉一区二区在线网站| 最新亚洲人成无码网站欣赏网| 在线观看国产黄色| 在线99视频| 精品三级网站| 国产精品私拍99pans大尺度| 国产在线精彩视频二区| 在线观看av永久| 亚洲不卡无码av中文字幕| 欧美日韩一区二区三区四区在线观看 | 国产精品所毛片视频| 青青草a国产免费观看| 日韩无码真实干出血视频| 精品少妇人妻av无码久久| 欧美性精品不卡在线观看| 亚洲精品国产综合99| 久久综合五月| 欧美亚洲中文精品三区| 国产最新无码专区在线| 1024国产在线| 国产又黄又硬又粗| 在线观看av永久| 999福利激情视频| 新SSS无码手机在线观看| AⅤ色综合久久天堂AV色综合 | 中文字幕乱码中文乱码51精品| 精品五夜婷香蕉国产线看观看| 亚洲国产亚洲综合在线尤物| 天天色综网| 国产亚洲视频中文字幕视频| 视频二区亚洲精品| 无码AV日韩一二三区| 99热亚洲精品6码| 97久久免费视频| 亚洲成人在线免费| 毛片久久久| 99热最新网址| 亚洲第一区欧美国产综合| 久久综合九色综合97婷婷| 亚洲三级影院| 深夜福利视频一区二区| 亚洲 日韩 激情 无码 中出| 亚洲人成人无码www| 欧美亚洲国产精品第一页| 91探花在线观看国产最新| 一区二区自拍| av色爱 天堂网| 真实国产乱子伦高清| 欧洲日本亚洲中文字幕| 国产精品护士| 亚洲精品福利网站| 无码高潮喷水专区久久| 国产超碰一区二区三区| 亚洲中文字幕久久无码精品A| 亚洲日本一本dvd高清|