


關鍵詞:音頻深度偽造檢測;深度學習;特征融合;聲碼器偽跡
中圖分類號:TN912.3 文獻標志碼:A 文章編號:1001-3695(2025)07-025-2109-07
doi:10.19734/j.issn.1001-3695.2024.11.0460
Abstract:Advancements inartificialinteligence have madedistinguishingsynthesized speech fromgenuinespeech increasinglychallenging,complicating audio deepfake detection.Existing methods often exhibit low acuracy,poor generalization, and weakrobustness.Thisstudy proposed MFF-STViT,amethod integratingthreeaudio features with vocoderartifactfeatures through anovelfeature fusionmoduletoenhance representation.The fused features were processdusing animproved Transformer model,STViT,toreduce redundancyand improve detectionperformance.Onthe ASVspoof2019LA testset,the method reduced the equal error rate(EER)by 71.38% on average. On the ASVspoof2O21 LA dataset, it achieved average reductions of 44.41% in EERand 18.11% intheminimum tandem detection cost function(min-tDCF).For the ASVspoof2021 DF dataset, the average EER decreased by 57.81% ,with reductions exceeding 80% in specific partitions. These findings demonstrate the efectiveness of MFF-STViT in improving accuracy,generalization,and robustness.
Keywords:audio deepfake detection;deep learning;feature fusion;vocoder artifacts
0 引言
近年來,自動說話人確認(automaticspeakerverification,ASV)系統因其采集方式簡便、特異性高、成本低等優點被廣泛應用于語音郵件、電話銀行、呼叫中心、生物特征認證、法醫應用等領域[1]。然而,隨著越來越多算法的出現和人工智能技術的發展,合成人類語音越來越難以辨別。常見的合成語音方法包括文本到語音(texttospeech,TTS)[2]、語音轉換(conver-ting speech from source speaker to target speaker,VC)[3]等。
文本到語音(TTS)技術是一種將輸人的文本內容轉換為語音輸出的技術,能夠模仿特定或任意說話者的聲音特征,完成文本至語音的轉換。語音轉換(VC)則是通過特征提取、特征映射及語音重建等操作完成不同說話人語音之間的轉換。
如果這些方法被惡意地應用在ASV系統中,會構成嚴重的安全威脅。因此,音頻深度偽造檢測任務(audiodeepfakedetection,ADD)受到了廣泛關注。深人研究語音真偽鑒別技術,對于有效抵御由語音合成技術引發的風險具有至關重要的作用。目前主要的工作集中在兩類:a)改善并使用不同的聲學特征;b)改進或設計新的分類模塊。
選取適合偽造檢測的音頻特征在ADD任務中具有重要意義。Alzantot 等人[4]使用了 MFCC(Mel-frequency cepstral coef-ficients)作為偽造檢測的特征,MFCC通過計算短時傅里葉變換(STFT),然后通過濾波器組將頻譜映射到梅爾頻譜,最后計算離散余弦變換(DCT)來實現。Sahidullah等人[5]通過線性濾波器取代了梅爾尺度濾波器,提出了線性頻率倒譜系數(linearfrequencycepstralcoefficients,LFCC),LFCC比MFCC更加聚焦于高頻段特征。Tak等人[在RawGAT-ST中利用神經網絡進行特征提取,模型直接對原始波形進行操作,并使用Sinc卷積濾波器進行前端特征學習。Wang等人[將一個LFCC前端替換為wav2vec2.0前端并進行微調。Tak等人[8]利用wav2vec 2.0微調前端結合自注意力機制在偽造檢測領域進行了探索,兩者均取得了較大的效果提升。此外, Sun 等人提出通過檢測音頻信號中的聲碼器偽跡來識別合成人聲。除了使用單一特征外,Arif等人[10]和Wang等人[1]還提出使用多特征融合的方式進行音頻偽造檢測。
另一種方法是對分類模型進行改進和設計。分類模型可以根據提取出來的特征進行音頻真偽識別。高斯混合模型(Gaussianmixturemodel,GMM)和支持向量機(supportvectormachine,SVM)是比較常用的分類模型,通過學習和分析真偽語音之間的特征差異進行分類判斷。隨著深度學習的發展,基于深度神經網絡(deepneuralnetwork,DNN)的音頻偽造檢測技術逐漸成為主流,提取出來的特征被輸入到DNN中進行學習和分類,常見的DDN深度偽造檢測網絡有ECAPA-TDNN[12]和殘差網絡(residual network,ResNet)[13]等。這兩類方法均被證明在音頻偽造檢測領域方面是有效的,表明了恰當的聲學特征和高效的后端分類模塊對ADD任務都是至關重要的。
雖然上述工作已經在音頻偽造檢測領域取得了可觀的表現,但其仍存在以下三點不足:a)當前工作集中關注特征的局部信息,無法綜合利用全局信息和局部信息進行綜合判斷;b)從單一維度提取的特征往往缺乏泛化能力,導致音頻偽造檢測模型對未知類型的欺騙攻擊的通用性和抗干擾性較差;c)融合特征存在特征之間冗余、融合方式多樣和權重分配復雜等問題,在一定程度上影響了模型性能的進一步提升。
針對以上問題,本文提出了一種基于多特征融合的音頻偽造檢測方法MFF-STViT。與之前大部分研究方法只考慮單一音頻特征不同,本文方法綜合考慮音頻的手工特征、預訓練特征和深度特征,同時引入了聲碼器偽跡作為輔助特征進行訓練;設計一個特征融合模塊,融合多種特征中的信息。另外,為了進一步提高融合信息的質量,使用STViT網絡[14]進一步對全局特征進行特征提取,以減少特征冗余。實驗結果表明,MFF-STViT能有效提高音頻深度偽造檢測的準確性和泛化能力,增強了模型的通用性和抗干擾性。綜上所述,本文的主要貢獻可歸納為:a)將聲碼器偽跡作為輔助特征進行特征融合,豐富特征表示信息;b)設計了一個特征融合模塊,將三種音頻特征和聲碼器偽跡特征進行融合,進而得到表達能力更強的融合特征;c)使用STViT網絡對特征進行進一步優化處理,去除冗余信息,有效結合特征圖的全局與局部信息,實現高質量的特征融合,從而提升模型在偽造語音檢測任務中的性能。
1聲碼器偽跡
神經聲碼器是一種專門的神經網絡,它從梅爾頻譜等時頻表示中合成音頻波形。神經聲碼器是大多數深度偽造音頻合成模型中的最后一步。TTS系統通常由三部分組成:文本分析模塊、語言特征生成梅爾頻譜圖形式的聲學模型和聲碼器。基于深度神經網絡的 TTS 模型有 WaveNet[15] 和 Tacotron[16]等。VC模型通常使用變分自編碼器(variationalauto-encoder,VAE)或生成對抗網絡(generativeadversarialnetwork,GAN)等神經風格遷移方法來捕獲輸入語音中的語句元素,然后將其與輸出語音的風格相結合,最后使用神經聲碼器將得到的梅爾頻譜圖重建為音頻波形。因此,聲碼器偽跡可以為識別合成人聲提供線索。
神經聲碼器主要包括自回歸模型、擴散模型和基于GAN的模型,這三類方法各有優缺點和適用場景。自回歸模型如WaveNet,通過預測每個音頻波形樣本的分布生成語音,生成質量較高但速度較慢,可應用于高保真語音合成任務,比如TTS和VC。擴散模型如DiffWave[17],生成效率更高,但與自回歸模型相比,其重建質量略遜,生成語音可能包含較多噪聲和偽跡,對細節的保留能力有限。基于GAN的模型如Mel-GAN[18] ,通過生成器建模時域波形,使用判別器對生成質量進行評估,兼顧生成速度和質量,整體性能優于自回歸模型和擴散模型。文獻[9]將聲碼器偽跡作為單一特征應用于ADD任務,盡管該方法能夠有效捕捉合成語音中的聲碼器偽跡特征,但忽略了真實人聲中固有的音頻特征,限制了檢測的全面性和準確性,導致整體效果存在一定局限性。本文認為,將其他音頻特征作為主要特征,同時將聲碼器偽跡作為輔助特征,可以在保留真實人聲固有特征的基礎上充分挖掘聲碼器偽跡的辨別信息。通過這種方式,不僅能夠彌補單一特征的不足,還能構造一種表達能力更強的融合特征,顯著提升檢測性能和適應性。
2 本文方法
本文提出的MFF-STViT音頻深度偽造檢測模型結構如圖1所示,它由特征提取模塊、特征融合模塊、分類器三個部分組成。首先,在特征提取模塊部分,分別使用相應的特征提取方法對輸入的待鑒音頻信號 s 進行處理,得到聲碼器偽跡特征Svoc 、手工特征 Slfcc 、預訓練特征 Swav 和深度特征 Sresnet ;然后,四種特征被送入特征融合模塊,并結合相應權重進行融合,進而得到融合后的特征 Sfasion ;最后,將融合后的特征送入分類器進行特征冗余處理,完成真假音頻的判斷。
2.1 特征提取模塊
選取并構造合適的音頻特征是提高深度偽造檢測模型性能的關鍵。手工特征中的LFCC獲取方式簡單快捷,并且與人類聽覺系統處理聲音的方式更為接近,是應用最廣泛的聲學特征之一;預訓練特征利用經過大量數據訓練的模型提取信息,具有較強的泛化性,在多種預訓練模型中,wav2vec2在偽造檢測任務中的通用性尤其顯著;聲碼器偽跡特征提取模塊基于Sinc濾波器和特征塊的結構,能夠從音頻中提取細粒度的聲碼器偽跡信息,進一步增強聲碼器偽跡特征的表示能力,這種設計可以有效地提高檢測系統的魯棒性;深度特征使用神經網絡挖掘更深層次的語音信息,捕捉了音頻的隱藏信息,能夠為檢測模型提供更具區分性的特征支持。因此,本文的特征提取模塊包含手工特征、預訓練特征、聲碼器偽跡特征和深度特征四種提取方式,用于后續構建融合特征,匯聚來自不同特征的信息以提升模型的檢測表現。
2.1.1聲碼器偽跡特征提取模塊
大多數深度偽造音頻合成模型使用的是神經聲碼器,其本質是一種神經網絡,它從時間-頻率表示中生成波形,在生成波形的過程中會引入聲碼器偽跡,這種偽跡可以作為識別偽造語音的重要特征。使用聲碼器偽跡定義的二分類音頻檢測模型為
Fθ(x)=BθB(RθR(x))
其中: RθR(x) 是前端特征提取網絡,其參數為 θR;BθB 是分類器, θB 是具體的參數信息;
。Yang等人[19通過式(2)直接求解分類器。

但是這種方法假設有大量的合成人聲樣本可用,有很大的局限性,并且這種方法沒有考慮到神經聲碼器的獨特統計特性,而神經聲碼器可以作為合成音頻的重要檢測指標。因此,Sun 等人[9提出了一種結合二分類和聲碼器識別任務的多任務學習方法來強調識別合成音頻信號中聲碼器偽跡的重要性。在檢測模型中增加了聲碼器標識符 MθM ,該標識符將合成語音分類為可能的神經聲碼器模型( c∈[0,C],C?2; )中的一個,確保特征提取器被訓練來捕獲聲碼器的獨特統計特征,使其對這些特征更加敏感。求解分類器的方式為

其中: L?m 是一個多分類損失函數; T′ 是包含不同神經聲碼器產生的合成人類聲音的數據集LibriSeVoc; λ 是可調的超參數,控制了兩個損失項之間的平衡。該模型在ASVspoof2019數據集上的表現存在一定的局限性,可能是因為單一特征的泛化能力不足導致的。所以,本文提出將該模型提取出的聲碼器偽跡作為輔助特征,與其他音頻特征融合后共同進行偽造音頻的檢測。

本文在文獻[9]方法的基礎上重新訓練基于神經聲碼器偽跡的合成語音檢測模型,控制超參數入,使其專注于聲碼器識別的損失函數為主要部分,二分類模型損失函數為輔助部分,將重點引導到聲碼器偽跡特征提取上,并將其中的聲碼器偽跡識別器提取出來作為本文的聲碼器偽跡特征提取模塊。
圖2展示了聲碼器偽跡提取模塊的骨干網絡,該模塊基于改進的 RawNet2[20] 架構設計。首先,音頻信號 s 通過Sinc濾波器提取原始特征 Ssinc 。接著,特征 Ssinc 被送人六個特征模塊進行處理,生成最終的特征 Sextract 。
在使用Sinc濾波器提取特征時,本文對濾波器長度進行了優化,使其更適用于檢測音頻中的欺騙特征。六個特征模塊主要由殘差塊(ResBlock)和基于sigmoid機制的特征圖縮放(featuremapscaling,FMS)組成。文獻[21]表明,分析高維空間中的微小變化可以顯著提升模型的判別能力。因此,FMS的引入有助于放大細微擾動,從而提升聲碼器偽跡特征提取模塊的性能。例如,在第一個特征模塊中,FMS的計算方式為
z=x*y+y
提取出的特征經過批歸一化處理,并通過一個包含1024隱藏節點的GRU層作進一步處理。最終,利用一個額外的全連接層對聲碼器偽跡特征進行輸出,生成用于聲碼器偽跡檢測的特征表示,為后續特征融合提供基礎。
2.1.2深度特征提取模塊
ResNet在語音深度偽造檢測領域得到了廣泛的應用。在語音特征提取中,通過引入殘差機制,不僅能夠有效保留原始特征信息,還可以在殘差塊中對特征進行進一步提取后與原始特征相加,從而得到更加豐富的音頻信息表示。
本文在文獻[22]的基礎上對其殘差塊結構進行了精簡,將其從六個殘差塊精簡為四個殘差塊,減少了網絡冗余,并在下采樣的過程中使用二維卷積代替傳統的最大池化層。使用該殘差網絡作為殘差特征提取模塊對音頻進行深度特征提取,在保留了特征提取效果的基礎上減少了模型的參數量,提升了音頻特征提取的效率。具體結構如圖3所示。
Sinc濾波器用于從音頻中提取信息,四個改進的殘差塊主要由二維卷積、批歸一化以及SeLU激活函數構成。其中,二維卷積和SeLU激活函數組合可以優化特征提取的非線性能力,批歸一化使得模型對不同數據分布更加魯棒,提高模型的泛化性。整體計算過程如式(5)所示。其中DS代表下采樣操作,conv代表卷積操作。



2.2特征融合模塊
使用不同方式提取的特征包含不同的信息,有效的特征融合方法可以融合多種特征信息,解決單一特征泛化能力不足的問題,進而增強偽造檢測模型的通用性和抗干擾性。受文獻[23]的啟發,本文設計了一種特征融合模塊,專為本文特征提取模塊而構建。該特征融合模塊包含兩部分,分別是音頻特征融合模塊和聲碼器偽跡特征處理模塊。
給定待鑒音頻數據 xi ,在空間
中進行預處理,其中 L(i) 表示語音長度。特征提取包括三個音頻特征 fvoice,i 和一個聲碼器偽跡特征 fvocder,i ,在
空間中融合為 fi=[fvoice,i,fvocder,i] 。
特征提取模塊提取出的音頻特征包含語音節奏、音調和能量分布等信息,這在一定程度上可以反映音頻是否屬于真人。許多研究者使用深度學習模型,尤其是卷積網絡(CNN)進行特征的處理,處理后的特征可以有效反映語音中包含的信息;聲碼器在進行語音合成時需要學習語言學表征和音頻波形之間的關系,這通常涉及到豐富的時頻信息,LSTM可以有效捕獲時間依賴性。基于此,CNN被用于處理音頻特征 fvoice,i ,優化音頻特征提取;聲碼器偽跡特征 fvocder,i 則使用長短時記憶網絡(LSTM)進行時序分析,同時,使用注意力機制為特征賦予權重,增強相關性和上下文。
2.2.1音頻特征融合模塊
音頻特征融合模塊針對手工特征、預訓練特征和深度特征分為三個音頻特征處理模塊,每個音頻特征處理模塊主要包含CNN和池化模塊,網絡結構如圖4所示。

將提取的三種語音特征送人由多層卷積級聯組成的CNN模塊,提取局部時頻信息,從而得到具有強辨別能力的高層次特征。將得到的高層次特征送入最大池化模塊,降低特征圖維度,同時對特征圖的顯著特征進行保留。最后,三個特征在拼接前分別乘相應的權重,該權重代表對應特征在融合特征中的重要程度,得到最后的音頻融合特征 Svoice 。
2.2.2聲碼器偽跡特征處理模塊
為了處理聲碼器偽跡中的豐富時頻信息,本文結合LSTM和多頭注意力機制(multi-headattention),設計了聲碼器偽跡特征處理模塊,如圖5所示。

在時間維度上,LSTM通過順序處理每個時間步的數據,確保當前時間步的計算依賴于前一時間步的隱藏狀態與當前輸入,因此該過程具有嚴格的時間依賴性。相較之下,注意力機制通過全局上下文的信息捕捉賦予每個時間步不同的權重,使得每一步的輸出都能夠關注到序列中最相關的特征。
在頻率維度,LSTM單元通過狀態的更新與傳遞來保持時間步之間的連續信息流,而注意力機制則通過加權平均的方式對不同時間步的信息進行選擇性聚合。通過這種加權處理,注意力模塊能夠動態調節每個時間步的特征貢獻,最終輸出經過強化或削弱的信息。LSTM隱狀態計算方式如式(6)所示。

其中: ot 是輸出門激活值; ct 是細胞狀態; ? 表示逐元素乘。
注意力機制的加權平均計算公式如式(7)所示。

其中: αj 是時間步 j 的注意力權重,由softmax函數確定; hj 是相應的隱藏狀態。
2.3 后端分類模塊
經過融合后的特征包含豐富的信息,在獲得了表達能力更強的特征的同時,也存在特征冗余問題。為了解決這個問題,本文對融合后的特征進一步處理,提高融合特征的質量。
基于本文得到的融合特征特點,處理融合特征 Sfusion 時應更加關注特征的全局表示,在減少冗余的前提下保留融合特征的豐富信息,在早期階段獲得高效且有效的全局表示。文獻[14]提出了將STT(super tokenTransformer)引人到Transformer中來解決原始Transformer在捕獲早期特征時容易產生高度冗余的問題。因此,本文使用 STViT[14] 對融合特征進行進一步處理,如圖6所示。

STT模塊包含STA(supertokenattention)、條件位置編碼( CPE[24] )和卷積前饋網絡(convFFN)三部分:

給定輸人張量 Vin∈RC×H×W ,首先使用CPE模塊將位置信息添加到所有特征圖中,與絕對位置編碼和相對位置編碼相比,CPE可以通過零填充學習絕對位置,使用更加靈活;隨后使用STA進行高效探索和充分地利用長程依賴來提取全局上下文表示;最后采用ConvFFN模塊來增強局部探索表示。其中,CPE和ConvFFN中的兩個深度卷積可以補償局部相關學習的能力。因此,使用STViT對融合特征進行處理后可以同時捕獲局部和全局依賴關系,提高了融合特征的質量。
3實驗結果及分析
3.1 實驗配置
在PyTorch深度學習框架上進行實驗,主要配置為NVIDIATesla V100(32 GB)。
3.1.1數據集
本文使用ASVspoof2019LA數據集進行模型訓練,該數據集的真實語音采集自46名男性和61名女性,共計107人;偽造語音則由17種不同的TTS和VC系統生成,其中,6種( A01~ A06)用于訓練集和驗證集,另外13種(A07\~A19)用于測試集,所有語音信號均為純凈信號,未受到任何加性噪聲、混響或其他信道變動因素的影響。ASVspoof2019LA數據集的詳細信息如表1所示。

本文選取ASVspoof2019LA數據集中的測試集以及ASVspoof2021LA和ASVspoof2021DF數據集進行模型評估。ASVspoof2021數據集中的LA場景是對ASVspoof2019中的LA場景的處理。為了縮小實驗室條件與真實環境下的差距,ASVspoof2021LA測試集由通過各種電話系統(公共電話交換網絡(publicswitchedtelephonenetwork,PSTN)和網絡電話(voice-over-Internet-protocol,VoIP))傳輸的真實語音和欺騙語音組成,可分為七個不同的場景C1\~C7。其中C1場景作為基準,與ASVspoof2019LA相同。具體場景分類如表2所示。

同時ASVspoof2021挑戰賽引入了DF場景,該場景中的數據來源除了ASVspoof2019LA評估集,還包含了2018和2020語音轉換挑戰賽(VoiceConversionChallenge,VCC)的數據,音頻樣本更豐富。這些樣本首先被特定的編解碼器進行編碼,隨后通過相應的解碼過程,試圖恢復到未壓縮的原始音頻形式。這個過程引入依賴于編解碼器及其配置的失真。9個條件分別對應C1\~C9,其中C1條件中的“無編解碼器”條件對應于原始音頻樣本。使用相同編解碼器的條件之間的差異在于使用不同的可變比特率(VBR)配置,一個較低,一個較高,如表3所示。

3.1.2 評估指標
本文使用官方評價指標:等錯誤率(equalerrorrate,EER)和串聯檢測代價函數(minimum tandem detection cost function,min-tDCF)作為實驗的評價指標。
EER用于評估單一的反欺騙系統性能,EER越小,說明偽造檢測模型的效果越好。min-tDCF用于評估組合了偽造檢測模型和ASV系統的整體性能,它綜合考慮了錯誤接受率(1acceptancerate,FAR)、|錯誤拒絕率(1rejectionrate,FRR)以及兩者之間的代價權衡,min-tDCF越小,表示偽造檢測模型與ASV模型融合后的系統泛化性越好。EER和min-tDCF的計算公式為
EER=Pmiss(τ)=Pfa(τ)

其中: Pmiss 和 Pfa 分別表示在閾值 τ 下偽造語音檢測系統的錯誤拒絕率和錯誤接受率; C0L0L1 和 C2 表示三種錯誤成本,其值取決于t-DCF參數和ASV錯誤率。
3.2 對比實驗
本文將所提方法MFF-STViT分別在ASVspoof2019LA、ASVspoof2021LA和ASVspoof2021DF數據集上與其他幾種先進的偽造檢測方法在整體上進行了對比;同時,針對ASVspoof2021LA和DF數據集進一步在分區上進行了對比。
3.2.1 整體評估
表4展示了本文模型MFF-STViT在ASVspoof2019LA測試集上的實驗結果,并與較為先進的模型FTC-SGAAMO、FTC-SGAAMO2、AASIST-SAMO(b23)、AASIST-SAMO(b16)和wav2vec-FC進行了比較。需要特別指出的是,在AASIST-SAMO模型中,b16和b23分別表示批處理大小為16和23。從實驗結果可以看出,MFF-STViT的EER為 0.41% ,顯著低于其他幾種對比模型,展示了優越的檢測性能。

尤其值得注意的是,相比于同樣使用了預訓練特征的wav2vec-FC模型,本文模型MFF-STViT的EER下降了86.24% ,表明其在檢測任務中的顯著優勢。此外,表4還對各種模型的計算量(FLOPs)進行了統計。MFF-STViT不僅在檢測性能上優于對比模型,計算量也是最小的。具體而言,相較于EER為 0.95% 的FTC-SGAAMO模型,MFF-STViT的計算量降低了 31.26% ,在保證高檢測性能的同時,資源消耗更小。
表5展示了MFF-STViT在ASVspoof2021LA數據集上的實驗結果,并與多個基準模型進行了比較。從表中可以看出,MFF-STViT在對比模型中表現最佳,EER為 3.59% , min -tDCF為0.2798,顯著優于其他模型。

AASIST是一個在ASVspoof2019LA數據集中表現良好的模型,采用了異構圖架構以識別偽造語音。然而,其在ASVspoof2021LA數據集上的性能明顯下降,EER僅為 11.47% min-tDCF為0.5081,遠遠不及本文模型MFF-STViT。此外,與幾種其他類型模型的對比進一步驗證了MFF-STViT的優勢。具體而言,MFF-STViT在EER方面相較于使用手工特征的LFCC-LCNN、使用預訓練特征的 wav2+LCNN+BLSTM 模型以及使用了殘差結構提取特征的Rawformer模型,分別降低了60% 50% 和 20% ;在min-tDCF上分別降低了 11%22% 和 9% 。此外,MFF-STViT在與另外一種融合方案[1的對比中也有顯著改進,EER降低了 23% ,min-tDCF降低了 3% 。這些結果充分說明,MFF-STViT模型中的融合特征能夠有效捕捉偽造語音中更豐富的偽造信息,同時,所采用的STViT分類網絡能夠通過結合全局和局部信息的提取,進一步提升了融合特征的表達能力和質量。這些改進顯著提高了檢測性能,驗證了MFF-STViT在處理復雜偽語音檢測任務中的有效性和優越性。
表6展示了本文模型在ASVspoof2021DF數據集上與其他基準模型的比較實驗結果。從表6中可以看出,本文提出的模型MFF-STViT均優于其他對比模型,EER為 3.73% 。與本文提出的將聲碼器偽跡特征引入不同,其他對比模型僅使用語音特征,沒有考慮聲碼器偽跡的影響。

相比于ResNet(Ensemble) Φ.GMM+LCNN (Ensemble)和LCNN+ResNet+RawNet 模型,MFF-STViT的EER降低超過 75% 以上,偽造檢測效果取得了明顯的提升。相比于 wav2+LCNN+ BLSTM和wav2 + FFlayer,MFF-STViT的EER也分別下降了31% 和 25% ,說明了在偽造檢測任務上,聲碼器偽跡可以被分類器捕捉并利用,聲碼器偽跡特征的引入可以提高深度偽造檢測效果。
3.2.2不同場景下的評估
為了進一步討論模型面對未知編解碼、壓縮方式以及傳輸的通用性和抗干擾性,本文對ASVspoof2021LA和ASVspoof2021DF中不同場景的EER和min-tDCF進行了計算,并與四個基線系統LFCC-GMM[5]、 CQCC-GMM[34] 、LFCC-LCNN[35]、Raw-Net2[19] 和一個由Chen等人[36]提出的較為先進的系統進行了比較。LA和DF的實驗結果分別如圖7和8所示。可以看出,MFF-STViT在LA和DF的不同場景下均取得了更好的性能。
從圖7(a)中可以看出,在LA任務中,MFF-STViT在C1\~C7所有場景下,EER均取得了最小值。相比于其他方法,本文方法在LA-C1場景下的EER降幅最大,超過了 80% ,效果提升最明顯;另在 C2~C7 場景中,取得了 50% %,20%,73%,59% 、56% 42% 以上的降幅。從圖7(b)中可以看出,在LA-C3場景中,所有方法的min-tDCF均為最高值,且本文方法MFF-STViT的min-tDCF略高于Chen等人[36]提出的方法,這可能是因為LA-C3使用了PSTN進行傳輸,而其他場景使用的是VoIP傳輸,文中對比方法及所提MFF-STViT方法,在處理PSTN傳輸后的數據時,其特征提取能力仍有待增強。
從圖8中可以看出,在DF任務中,面對不同的壓縮編解碼方式,MFF-STViT的魯棒性最強,在 C1~C9 各個場景下的EER均取得了最低值,相比于其他結果,均取得了 70% 以上的降幅,其中在DF-C5場景中效果最好,下降幅度均超過 81% ,說明MFF-STViT在面對
壓縮編解碼時,通用性最強。這進一步證明了本文方法具有較強的通用性和抗干擾性。


3.3 消融實驗
本章針對特征融合模塊和聲碼器偽跡特征進行了消融。其中 w/o fusion_model代表不使用特征融合模塊,w/ovocder代表去除聲碼器偽跡特征。結果如表7所示。

在LA數據集上,去除特征融合模塊的EER上升了4.1百分點,min-tDCF提升了 44% ;去除聲碼器偽跡特征的EER上升了2.17百分點,min-tDCF提升了 25% 。表明特征融合模塊和聲碼器偽跡特征對保證深度語音偽造檢測的有效性具有積極意義,融合模塊能夠提供高質量的融合特征,聲碼器偽跡特征能夠提供聲碼器合成音頻的偽影,兩者結合可以提供更好的偽造檢測能力。在DF數據集上,去除特征融合模塊和去除聲碼器偽跡特征的效果相差O.9百分點,說明在DF任務中,聲碼器偽跡特征對深度偽造語音檢測起到了較大的積極作用,將聲碼器偽跡特征引人有助于更好地識別偽造語音,進一步提升系統的性能。
4結束語
語音深度偽造檢測近年來逐漸成為研究熱點。針對現有工作中融合特征研究不足以及偽造檢測模型通用性和抗干擾能力的局限,本文設計了一種特征融合模塊,綜合多種特征的優勢并有效融合,提出將聲碼器偽跡作為輔助特征加入融合過程,以增強特征表達能力;同時,引入STViT分類器優化融合特征的質量,減少特征冗余。實驗結果表明,本文方法MFF-STViT在ASVspoof2019LA測試集及ASVspoof2021的LA和DF數據集上表現優異,生成的高質量融合特征具有良好的通用性和抗干擾能力,在應對未知編解碼器及噪聲干擾時效果突出,且計算量低于對比模型。然而,對于經過PSTN傳輸或有損音頻編碼器處理過的偽造音頻,模型檢測性能還有一定的提升空間,這可能是因為經過上述操作后,音頻質量變低,丟失了一定程度上偽造音頻的特征信息。未來工作將進一步探索不同特征組合的融合效果及融合方式,優化權重分配策略,探索相位信息等新特征,并拓展至跨域偽造檢測任務,以驗證方法的廣泛適用性。
參考文獻:
[1]CohenA,RimonI,Aflalo E,et al.A study on data augmentation in voice anti-spoofing[J].Speech Communication,2022,141: 56-67.
[2]Kaur N,Singh P.Conventional and contemporary approaches used in text to speech synthesis: a review [J]. Artificial Inteligence Review,2023,56(7):5837-5880.
[3]王光,劉宗澤,董浩,等.融合信息擾動與特征解耦的單樣本語 音轉換[J].計算機應用研究,2024,41(10):3081-3086. (Wang Guang,Liu Zongze,Dong Hao,et al. One-shot voice conversionintegrating information perturbation and feature decoupling [J]. ApplicationResearchof Computers,2024,41(10):3081-3086.)
[4]Alzantot M,Wang Ziqi,Srivastava MB.Deep residual neural networks for audio spoofing detection [C]//Proc of InterSpeech.2019:1078-1082.
[5]Sahidullah M, Kinnunen T,Hanilci C. Acomparison of features for synthetic speech detection[C]//Proc of InterSpeech.2015:2087-2091.
[6]Tak H,JungJW,PatinoJ,etal.End-to-end spectro-temporal graph attention networks for speaker verification anti-spoofing and speech deepfake detection[C]//Proc of Automatic Speaker Verification and Spoofing Countermeasures Challenge. 2021: 1-8.
[7]Wang Xin,Yamagishi J. Investigating self-supervised front ends for speech spoofing countermeasures [C] //Proc of Speaker and Language Recognition Workshop.2022:100-106.
[8]Tak H,Todisco M ,WangXin,etal.Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation[C]//Proc of Speaker and Language Recognition Workshop. 2022:333-340.
[9]Sun Chengzhe,Jia Shan,Hou Shuwei,et al.AI-synthesized voice detection using neural vocoder artifacts[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ: IEEE Press,2023:904-912.
[10]Arif T,Javed A,Alhameed M,et al. Voice spoofing countermeasure for logical access attacks detection[J].IEEE Access,2021,9: 162857-162868.
[11]Wang Chenglong, Yi Jiangyan,Tao Jianhua,et al.Detection of crossdataset fake audio based on prosodic and pronunciation features [C]//Proc of InterSpeech. 2023:3844-3848.
[12]Zhang Li,Li Yue,Zhao Huan,et al.Backend ensemble for speaker verification and spoofing countermeasure [C]//Proc of InterSpeech. 2022:4381-4385.
[13]Lei Zhenchun,Yan Hui,Liu Changhong,et al. Two-path GMMResNet and GMM-SENet for ASV spoofing detection[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ: IEEE Press,2022:6377-6381.
[14]Huang Huaibo,Zhou Xiaoqiang,Cao Jie,et al.Vision Transformer with super token sampling [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,,2023:22690-22699.
[15]van den OordA,Dieleman S,Zen Heiga,et al.WaveNet:a generative model for raw audio[EB/OL].(2016-09-12).htps://arxiv. org/abs/1609.03499.
[16]Wang Yuxuan,Skerry-Ryan RJ,Stanton D,et al. Tacotron;afully end-to-end text-to-speech synthesis model[EB/OL].(2017-04-06) [2024-07-08].https://arxiv.org/abs/1703.10135.
[17]Kong Zhifeng,PingWei,Huang Jiaji,et al.DiffWave:a versatile diffusion model for audio synthesis[EB/OL]. (2020-09-21).https://arxiv.org/abs/2009.09761.
[18]Kumar K,Kumar R,De Boissiere T,et al. MelGAN:generative adversarial networks for conditional waveform synthesis[C]//Proc of Conference on Neural Information Processing Systems. Cambridge, MA:MIT Press,2020:14843-14854.
[19]Yang Geng,Yang Shan,Liu Kai,et al. Multi-band MelGAN: faster waveform generation for high-qualitytext-to-speech[C]//Proc of IEEE Spoken Language Technology Workshop. Piscataway,NJ: IEEE Press,2021:492-498.
[20]Tak H,Patino J,Todisco M,et al.End-to-endanti-spoofing with RawNet2[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2021: 6369-6373.
[21]Zhang Jiacen,Inoue N, Shinoda K. I-vector transformation using conditional generative adversarial networks for short utterance speaker verification[C]//Proc of InterSpeech.2018:3613-3617.
[22]JungJW,HeoHS,KimJH,et al.RawNet:advanced end-to-end deep neural network using raw waveforms for text-independent speaker verification [C]//Proc of InterSpeech.2019:1268-1272.
[23] Xu Xiao, Wang Yang,Wei Xinru,et al.Atention-based acoustic feature fusion network for depression detection [J].Neurocomputing,2024,601:128209.
[24]Chu Xiangxiang,Tian Zhi,Zhang Bo,etal.Conditional positional encodings for vision Transformers[C]//Proc of International Conference on Learning Representations.2024.
[25]陸華慶,葛子瑞,王天朗,等.基于圖注意力機制和對抗訓練的 語音反欺騙方法[J].信號處理,2025,41(1):161-173.(Lu Huaqing,Ge Zirui,Wang Tianlang,et al.Speech anti-spoofing method based on graph atention mechanism and adversarial training [J].Journal of Signal Processing,2025,41(1):161-173.)
[26]Ding Siwen,Zhang You,Duan Zhiyao.SAMO:speaker atractor multi-center one-class learning for voice anti-spoofing[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ: IEEE Press,2023:1-5.
[27]Yamagishi J,Wang Xin,Todisco M,et al.ASVspoof 2021:accelerating progress in spoofed and deepfake speech detection [C]//Proc of Edition of the Automatic Speaker Verification and Spofing Countermeasures Challenge. 2021.
[28]Liu Xiaohui,Liu Meng,Wang Longbiao,et al.Leveraging positionalrelated local-global dependency for synthetic speech detection [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2023:1-5.
[29]JungJW,Heo HS,Tak H,et al.AASIST:audio anti-spoofing using integrated spectro-temporal graph attention networks [C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2022: 6367-6371.
[30]Martin-Dofias JM,Alvarez A.The vicomtech audio deepfake detection system based on wav2vec2 for the 2022 ADD challenge[C]// Proc of the 47th International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2022: 9241-9245.
[31]Tomilov A, Svishchev A, Volkova M,et al. STC antispofing systems for theASVspoof2021 challenge[C]//Proc ofEdition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge. 2021: 61- 67 :
[32]ChenTianxiang,KhouryE,Phatak K,et al.Pindrop labs’submission to the ASVspoof 2O21 challenge[C]//Proc of Edition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge.2021:89-93.
[33]Das R K.Known-unknown data augmentation strategies for detection of logical access,physical access and speech deepfake attacks: ASVspoof 2021[C]//Proc of Edition of the Automatic Speaker Verification and Spoofing Countermeasures Challenge. 2O21:29-36.
[34] Todisco M ,Delgado H,EvansN.A new feature for automatic speaker verificationanti-spoofing:constant Q cepstral coefficients[C]//Proc of Speaker and Language Recognition Workshop.20l6: 283-290.
[35]Wang Xin, Yamagishi J. A comparative study on recent neural spoofing countermeasures for synthetic speech detection[C]//Proc of InterSpeech.2021:4259-4263.
[36] Chen Xinhui,Zhang You, Zhu Ge,et al.UR channel-robust synthetic speech detection system for ASVspof 2021[EB/OL].(2021- 08-23)[2024-09-22]. htps://arxiv.org/abs/2107.12018.