楊 帥,喬 凱,陳 健,王林元,閆 鑌
(中國人民解放軍戰略支援部隊信息工程大學,鄭州 450001)
語音作為人類接受外界信息的重要來源,在日常交流活動中扮演了不可替代的角色. 特別是近些年來隨著電話、電腦、智能手機等信息設備的普及,人們對于豐富多彩的語音服務例如語音通話、語音助手、短視頻配音等需求量越來越大. 隨著網絡語音資源的爆發式產出和算力水平的顯著躍升,人工智能在語音處理技術方面大放異彩,有效地滿足了社會需求; 但同時,一些不法分子利用現代語音技術進行電信詐騙或其他違法活動,引起了人們的擔憂和廣泛關注.
語音偽造技術一般包含文本到語音(text-to-speech,TTS)和語音轉換(voice conversion,VC)兩種形式. 文本到語音是指從文本中生成自然語音[1],通常不具有欺騙性,常被用于手機中的語音助理、導航語音以及智能音響等. 語音轉換是指將源人物語音的特定信息轉換為目標人物語音,同時保證其他屬性不改變[2]. 語音轉換常涉及頻譜和韻律兩個方面的轉換,并且依賴大量的目標語音數據. 將TTS 和VC 結合,可以從文字中生成具有某人聲音特點的語音,具有極強的欺騙性.
語音偽造技術的發展滿足現實應用需求的同時,也帶來很多潛在的威脅. 個性化語音生成增強了軟件對用戶的吸引力,如美團的提示音、高德地圖的導航語音; 短視頻平臺的文字朗讀功能方便了用戶短視頻的制作; 延續風格的影視配音作品可以帶給觀眾懷舊的體驗. 另一方面,偽造語音具有破解微信、支付寶等聲紋識別模塊的能力,放大了泄露隱私、損失財產等風險,給不法分子騙取財物提供可乘之機. 因此,如何有效的檢測偽造語音成為語音處理技術發展道路上不得不直面的難題.
本文組織結構如下: 第2 節介紹了經典的語音合成系統,并對文本到語音和語音轉換兩項技術進行了系統的梳理; 第3 節對目前流行的語音鑒偽技術進行了分類歸納; 第4 節分析了目前語音偽造和鑒偽領域的挑戰,并對未來的發展方向進行展望.
語音合成技術是利用電子計算機或其他裝置模擬人說話的技術,主要包括文本到語音和語音轉換兩種技術路線. 語音偽造則是語音合成的一個應用方向,一方面語音偽造生成結果形式與語音合成一致,另一方面語音偽造有更明確的應用目標和需求導向. 因此語音合成系統是語音偽造技術的基礎,理解語音合成的基本過程對深入研究語音偽造大有裨益.
本節主要結構如圖1 所示,首先對語音合成系統的一般劃分進行介紹,進而對文本到語音和語音轉換兩類語音偽造技術進行梳理.

圖1 本節結構梳理
如圖2 所示,經典的語音合成系統一般由3 個模塊構成,依次為特征分析提取、聲學模型和聲碼器. 將原始語音輸入到特征分析提取模塊中提取出源特征,經聲學模型處理得到對應的目標語音特征后通過聲碼器得到音頻輸出.

圖2 語音合成流程
具體介紹3 個模塊的功能. 特征分析提取模塊可以根據任務需求提取原始輸入的特征,例如短時傅里葉變換幅度譜、基頻和梅爾倒譜[3]等. 聲學模型是整個系統中的關鍵部分,將原始的聲學特征轉化為目標的聲學特征,主要由統計學模型和深度學習模型來構建. 早期的統計學方法主要基于矢量量化和頻譜映射的模型[4]、聯合概率密度的高斯混合模型[5]和隱馬爾科夫模型[6,7]. 近年來聲學模型中的深度學習模塊使用呈現多樣化、普遍化的趨勢,典型的方法有深度神經網絡、卷積網絡、遞歸神經網絡、長短時記憶網絡、注意力機制[8]等,并且單個模型中往往會使用多種不同的模塊來增強模型的學習和表達能力. 聲碼器的作用是將聲學特征重新恢復成語音信號,不同的聲學特征采用不同的聲碼器進行處理. 傳統的聲碼器假設語音的生成是信號源對濾波器系統激勵產生的結果[9],近期基于深度學習的聲碼器[10–12]突破了傳統的規則假設,在龐大語音數據的驅動下能夠學習到更好的語音恢復能力.
文本到語音從語音合成系統的角度來看輸入和輸出分別對應文本和語音. 首先要對文本進行包括文本規范化、形態分析、句法分析、音素化、韻律生成等多個步驟[13]的自然語言預處理過程. 其中文本規范化是指糾正文本中的錯誤,并將縮寫、縮略詞等轉化為完整文本; 形態分析是指將句子分割為多個單詞; 句法分析是指根據分詞和詞義對語句構造進行拆分; 音素化是指根據單詞到發音的字典進行確定; 韻律生成是進一步確定音素的音調變化、時長、重音、節奏等特征. 進行自然語言處理之后,需進一步進行數字信息處理. 數字信息處理方法以基于規則的方法、基于統計的方法和基于深度學習的方法為代表,下面進行具體介紹.
2.2.1 基于規則的方法
基于規則的合成方法主要通過模擬聲學物理過程來建立發聲模型,主要包括發音合成、共振峰合成. 發音合成是通過對人類聲道發音過程的模擬來實現語音的合成. 為實現聲道模型效果,需要指定發音動作和對應此動作的發聲器官變量變化,例如嘴唇閉合的姿勢需要下巴、下唇和上唇的協同配合[14]. 發音合成的難點在于無法對人類聲道進行完全模擬,因此合成的質量欠佳,但在解釋性和靈活性方面具有一定優勢. 共振峰合成是基于源和濾波器模型的一種文本到語音聲音合成方法,包含級聯型、并聯型和混合型3 種常用模型. 共振峰是指聲音中能夠反映人類聲道特征的能量集中頻段,因此對共振峰進行合成即可實現對人類聲音的模擬,大概20 多個不同的共振峰即可實現較好的人聲恢復[15]. 該技術的優點在于可以在內存和計算速率不高的平臺實現,而缺點在于合成聲音的自然性不足.
2.2.2 基于數據的方法
基于數據的方法一般需要在提前構建的語音數據庫支持下進行,可分為拼接合成和單元選擇合成兩類.拼接合成通過串聯提前準備的音頻單元來生成語音,這些語音單元可分為音素、半音節、單音節、雙音節或者三音節. 單元長度越長,同樣的一句話中連接節點越少,合成語音的效果越自然,但同時內存的占用越大[16]. 并且在拼接之前需要根據語義對語音單元的韻律進行變化,從而提高合成語音的真實度. 單元選擇合成方法比拼接合成的數據庫更加復雜,因為其對相同語音單元不同韻律的數據也進行了存儲,因此占用內存更大.
基于數據的方法直接對真實語音進行操作,從而其合成語音比基于規則的方法結果清晰度更高; 但其數據庫的構建需要巨大的儲存空間,原始數據的標記也是一項非常繁瑣的任務,因此該方法實用性不足.
2.2.3 基于統計的方法
基于統計的方法主要使用隱馬爾可夫模型、高斯混合模型作為基本框架,從而利用數據中的統計規律生成語音. 典型的基于馬爾可夫模型的方法[17]對上下文相關的頻譜和激勵參數進行建模,并使用期望最大化進行最大似然估計,最后通過激勵生成模塊和合成濾波器模塊產生語音波形. 基于高斯混合模型的方法[18]在發音、頻譜參數向量以及動態參數等的聯合概率空間內進行建模,并結合最小均方誤差或者最大似然估計實現音素到語音的映射. 與基于數據的方法相比,基于統計的方法不用建立復雜龐大的數據庫,并且可通過自適應、插值和特征聲音對合成語音的特征進行改變[19]; 但此方法的合成質量距離真實語音還有差距.
2.2.4 基于深度學習的方法
深度學習主要由感知機、卷積神經網絡、循環神經網絡、長短時記憶網絡等深度網絡結構構建,在特定的數據集上通過針對性的訓練策略來完成某種學習任務. 早期深度學習與文本到語音技術的結合主要通過將深度學習作為傳統語音合成的流程中一部分來體現,也被稱為非端到端的深度學習TTS. 例如Zen 等人[20]利用深度神經網絡替代上下文相關隱馬爾可夫模型中的決策樹聚類模塊,有效改善了原模型無法表達復雜的上下文依賴的問題; Kang 等人[21]使用深度信念網絡對頻譜和基頻等語音參數直接進行建模,取得了比傳統隱馬爾科夫模型保真度更好的效果; Fan 等人[22]采用帶有雙向長短時記憶模塊的遞歸神經網絡來計算語音的時間相關信息,從而完成參數化TTS 合成,提升了語音合成的質量和穩定性.
隨著大型語音數據集不斷提出、網絡結構的不斷優化和計算能力的不斷提升,更多的研究重點集中到了端對端的TTS 系統上來. 端對端系統沒有諸如高斯過程此類的假設,也沒有任何關于音頻的先驗知識,因此可以直接看做量化信號的非線性因果濾波器. 這種系統的好處在于模型可以更直接的收斂到數據的本質,而不會出現不當的假設導致生成語音細節過度損失的情況. 但同時這種模型的設計也是十分困難的,模型的好壞決定了收斂的難度和輸出的質量. WaveNet[10]是一種直接生成音頻的網絡模型,能夠基于來自輸入文本的語言特征生成對應的語音. 如圖3 所示,WaveNet首先將輸入經過一層因果卷積,以保證模型不會違反建模數據的順序; 之后經多層殘差模塊,殘差模塊中的空洞卷積使用幾層即可保證指數級的感受野; 每層殘差模塊的輸出和連接到兩層ReLU 函數,最后通過Softmax 層計算當前音頻的量化值. WaveNet 高效的生成了超越以往模型的自然語音,但受到感受野大小的影響,仍存在長期依賴的問題.

圖3 WaveNet 網絡結構
同樣引人注目的工作是百度提出的DeepVoice 系列算法[23–25]. DeepVoice 按照傳統TTS 的流程用深度學習的方法構建了分離相鄰音素的分割模型、字素到音素的變換模型、音素時間長度估計模型、基頻預測模型和音頻合成模型5 個基本模塊,可以實現實時的文字到語音轉換. DeepVoice2 是一種文本到語音的增強技術,可以從不到半個小時的語音數據中學習到針對目標人物的高質量音頻合成能力. DeepVoice3 包括編碼器、解碼器和轉換器3 個主要結構,其核心在于完全卷積和注意力機制. 其中編碼器是全卷積結構,能夠將文本編碼成(key,value)組合向量; 解碼器以完全卷積的結構將文本編碼解碼為對應于輸出音頻的梅爾對數幅度譜; 轉換器將解碼出的聲學特征表示為最終的聲碼器參數. 第3 代模型避免了端對端模型中的常見錯誤模式,取得了更加逼真的語音效果.
谷歌公司提出的Tacotron 文本到語音合成系統[26,27]也是該領域的一個重要算法分支. Tacotron 是一種和DeepVoice3 類似的編解碼結構,以字符為輸入生成線性光譜圖,最后轉化為語音波形. 該模型不需要音素對齊,只需給定文本和對應的音頻,因此大容量樣本庫的構建并不困難. Tacotron2 對Tacotron 結構進行精簡,并采用WaveNet 聲碼器替代Griffin-Lim 從而提高了語音質量. Tacotron2 由編碼器、解碼器以及聲碼器組成,其中編碼器包括字符嵌入模塊、3 層卷積和一個雙向長短時記憶網絡,能夠將文本轉為編碼特征; 解碼器由局部敏感注意力模塊、兩層長短時網絡、兩個線性投影模塊和一個五層卷積的Post-Net 組成,將編碼特征轉化為梅爾頻譜; 最后的聲碼器改進自WaveNet,更加適合將12.5 毫秒幀跳的梅爾譜圖特征轉化為時域波形.
語音轉換是將語音中話者語音特點進行變換的技術,一方面用于生成具有特定人物語音特征的聲音,另一方面可以解決文本到語音技術中存在的合成效果不夠自然的問題. 語音轉換涉及多項語音處理技術[28],其中語音分析是指將原始語音信號分解成某種形式的中間表達形式; 頻譜轉換是指對頻譜中的幅度譜、對數譜、倒譜等基本參數進行映射和轉換,是目前受到廣泛關注和重點解決的問題[29]; 韻律轉換主要通過對基頻包絡進行操作,進而實現話者的節奏、情感和情緒的轉換; 語音編碼和話者表征是將語音中的某類信息進行編碼和壓縮,從而便于表示和減少數據量.
早期的語音轉換技術一般通過統計方法建立模型,近年來深度學習方法在本領域做出很多新的貢獻. 本節將從統計建模方法和深度學習方法兩個角度進行梳理,并根據是否使用并行訓練數據進一步劃分.
2.3.1 基于統計建模的語音轉換
在語音轉換中,統計建模的方法主要有碼書映射、高斯混合模型、頻率扭曲、單元選擇算法、INCA算法和話者建模算法等. 其中高斯混合模型、碼書映射、頻率扭曲需要并行訓練數據的支持,即訓練數據集中要有不同人物說的相同語音; 而單元選擇算法、INCA算法和話者建模算法則可以用非并行數據進行訓練.
碼書映射的方法將話者的語音個性表示為碼本中的碼向量,因此語音轉換的問題即可表示為找到兩個碼本之間的映射函數. Abe 等人[4]通過實現矢量量化和頻譜映射對音頻進行變換,在模型構建階段得到頻譜參數、功率值和音調頻率的映射碼本,并在source碼本和target 碼本之間進行映射. Matsumoto 等人[30]通過對典型頻譜的估計說話人向量進行內插,從而最小化模糊目標函數,有效降低了矢量量化的量化誤差.
基于高斯混合模型的方法[31]不是對特定的聲學特征進行操作,而是對整個頻譜包絡進行轉換. 此方法首先通過動態時間扭曲對源話者和目標話者語音進行對齊,之后用高斯混合模型參數進行描述并用最小二乘優化求解. 此方法結合高斯混合模型作為矢量量化方法的拓展,起到了改善語音質量的效果,但存在過渡平滑的問題. Toda 等人[5]提出了使用動態的特征統計和考慮全局方差特性顯著地緩解了過渡平滑效應; Takamichi 等人[32]提出使用基于調制頻譜修正的濾波器來減輕高斯混合模型中的過平滑問題.
基于高斯混合模型的方法通常無法保留語音的細節,從而出現語音模糊效應. 這是因為此方法利用了平均的聲學特征但缺少細節的保留,而直接改變原始頻譜的頻譜扭曲方法可以較好地解決此類問題. 基于頻譜扭曲的語音轉換方法主要通過放大或縮小頻率區間來調整波峰的位置和頻譜寬度,通過放大或縮減波峰高度來調節能量大小,最終完成原始語言到目標語音的變換[29]. Valbret 等人[33]最早提出使用線性多元回歸和動態頻率扭曲的方法,系統被分為如圖4 所示的3 個階段. 第1 階段,語音波形被分解為平緩的源信號和全局包絡信號兩個分量; 第2 階段,使用Time-Domain-PSOLA 算法改變韻律,使用動態頻率扭曲來改變頻譜包絡; 第3 階段將修改后的兩個分量轉換為最終音頻.此方法較好地保留了頻譜的結構信息,但其轉換后的保真度存在明顯的差距. 為改善此問題,很多相關研究提出一些更加復雜的頻譜扭曲技術,例如Sündermann等人[34]提出了單參數扭曲函數和多參數分段線性函數的處理方法,Tian 等人[35]結合頻率扭曲和基于樣本的轉換方法以保持轉換后的細節.

圖4 基于頻譜扭曲的語音轉換系統
在語音轉換的實際應用中一般很難找到大量并行的數據,因而模型訓練的難度也會大大提升. 如果能把語音分解成足夠細小的顆粒,那么在數據量足夠的情況下,即便是兩個人的非并行數據,也能找到對應的細小顆粒. Duxans 等人[36]采用單元選擇技術構建偽并行樣本數據庫,進而結合并行轉換方法對語音進行轉換.此方法的問題在于數據庫的構建較為困難.
INCA 算法[37]結合了最近鄰搜索和轉換步驟,在目標聲學空間和源聲學空間中分別找到對應的最近鄰向量,進一步迭代構造中間樣本和目標樣本的對準數據集. Stylianou 等人[38]在高斯混合模型的基礎上實現了INCA 算法,實驗結果表明此方法與使用相當數據量的并行樣本效果基本類似.
基于話者建模的轉換方法是一種首先利用文本無關的語音數據建立源人物和目標任務的發音模型,然后再進行語音轉換的技術. Wu 等人[39]將語音向量分解為語音成分和說話人特征成分,并對說話人空間采用混合因子分析器[40]進行因子分析,從而細化語音轉換中JD-GMM 的協方差. 此方法大大降低了訓練樣本的需求量,并且方法性能在主觀和客觀指標上都優于傳統JD-GMM 方法.
2.3.2 基于深度學習的語音轉換
基于統計建模的語音轉化方法往往面臨著模型泛化能力不足的問題,從而致使轉換后的語音缺失細節、真實度不足. 深度學習的優勢在于能夠擬合任何復雜的函數,因此可以更好地學習語音特點這一類的高級語義. 在數據量足夠大的情況下,深度學習的優勢更加突出,因此語音訓練數據的準備也是十分重要的問題.
(1)基于并行數據的方法
早期的深度學習模型大多只能在并行訓練數據的支撐下完成語音轉換任務. Xie 等人[41]用神經網絡將基音和譜特征直接進行轉換,提高了語音合成的質量.Chen 等人[42]提出使用深度神經網絡對玻爾茲曼機進行生成性訓練,并模擬源話者和目標話者的頻譜包絡分布,較好地改善了生成語音中平滑效應帶來的問題.一些基于LSTM 的工作[43,44]建模了語音幀之間的時間相關性,增強了轉換語音的連續性和自然性.
(2)基于編解碼器結構的方法
并行數據雖然易于使用,但制作數據庫難度較大,不利于徹底發揮深度學習強大的學習能力. 并且上一段提到的方法都是一對一的語音轉換,若目標改變還需要重新制作數據集、訓練新的模型,因此靈活性和操作性明顯不足. 借鑒計算機視覺中的思想,說話人的轉換可以看做語音風格的轉換,也就可以借鑒風格遷移中的非監督訓練方法. Hsu 等人[45]提出利用自動編碼器分提取與說話人無關的信息,并串聯一個熱向量代表目標說話人,再經解碼器實現具有目標話者特征的音頻輸出. 此方法顯式的引入了說話人的身份,但該模型沒有應對未知說話人語音轉換的能力. Chou 等人[46]提出了一種通過實例規范化分離說話人和說話內容的語音轉換方法,僅需一組實例語音就可以執行. 如圖5所示,整個模型包括對應目標話者的話者編碼器、對應源話者的內容編碼器和綜合兩路信息的解碼器. 其中話者編碼器用來對說話人的聲音特征進行提取,內容編碼器負責將除源說話人身份特征的內容提取出,解碼器綜合兩路信息并合成轉換后的語音. 該模型的優點在于提供了一個真正的多對多模型,減輕了數據和訓練上的要求. 但此方法轉換后的效果欠佳,模型和訓練策略都可進一步改進.

圖5 實例規范化語音轉換流程
上述方法遵循逐幀轉換的框架,因此不能實現序列到序列建模持續修改的優點. 文獻[47]構造了語音序列的識別編碼器和基于神經網絡的話者編碼器,能夠將聲音特征轉換為解糾纏的語言內容和話者特征表示; 同時建立了序列到序列的解碼器,從編碼器的輸出中重新獲取聲學特征,并進一步通過WaveNet 聲碼器進行波形重構. 此方法性能接近最先進的并行訓練模型,并且在2018 年語音轉換挑戰競賽[48]中取得冠軍.
(3)基于風格遷移的方法
除了編解碼器結構,計算機視覺中的CycleGAN[49]也常被用到風格轉換的領域中. CycleGAN 能夠在訓練樣本不匹配時實現兩類樣本之間的風格遷移,其核心點在于循環一致性損失和對抗損失. 循環一致性損失限制了X域的樣本變換到Y域后再經Y域到X域的變換也要符合X域的分布,從而使轉換后的樣本在獲得其他域風格的同時仍保留原始的必要特征. 對抗損失則促進判別器的鑒別能力和生成器的生成能力同步提高,進而提高風格遷移的效果. Kaneko 等人[50]在原始CycleGAN 的基礎上提出CycleGAN-VC,引入門控卷積神經網絡和身份映射損失,在非并行數據下的效果與基于并行數據的傳統方法效果相當. 為彌補轉換語音在自然度和真實性方面的不足,CycleGANVC2[51]通過引入兩步對抗損失、2-1-2 維卷積網絡和PatchGAN,進一步提升了模型的性能.
針對CycleGAN-VC 不能實現many-to-many 轉換的缺點,StarGAN-VC[52]通過擴展CycleGAN-VC 條件設置變量實現了單一生成器下非并行多域語音轉換. 但StarGAN-VC 生成語音的質量僅僅能達到和CycleGANVC 相當的水平,與真實語音之間還存在人耳可以分辨的差別. 為了解決這一問題,StarGAN-VC2[53]從損失函數和網絡架構兩個角度進行反思,并進一步提出更先進的方法. 其中在損失函數方面,StarGAN-VC2 提出源-目標條件對抗損失函數,促使所有轉換后的數據在源和目標方面都接近真實數據; 在網絡架構方面,此方法引入一種基于調制的條件方法,從而以領域相關的方式實現聲學調制的轉換.
上述風格遷移的方法可以實現說話人身份的改變,但對于情緒的控制并沒有涉及,這使得轉換語音的情感缺失. 為更好地實現語音情緒操縱,Zhou 等人[54]提出一種采用非配對數據進行訓練的語音情感轉換方法.如圖6 所示,該方法運行時首先使用WORLD 聲碼器從源語音中提取頻譜特征Sp、基頻F0 和非周期Ap;通過對F0 進行連續小波變換(continuous wavelet transform,CWT)分析得到10 尺度的F0 特征; 將F0 和梅爾譜系數(Mel-cepstral coefficients,MCEPs)分別輸入到對應訓練好的CycleGAN 模型中進行頻譜和韻律轉換; 最后利用CWT 合成逼近法重構F0,并由WORLD聲碼器重新構造轉換后的語音.

圖6 文獻[54]工作流程
隨著語音處理技術不斷提升,偽造語音的身影在社會生活中出現的更加頻繁. 一方面語音提醒、語音解鎖、短視頻配音等自動化語音技術方便了人們的生活,滿足了大眾追求美好生活的需要. 另一方面,語音技術的不當使用甚至濫用影響了人們的正常生活,更有甚者給社會和國家造成惡劣影響,成為不得不關注的安全隱患. 例如不法分子暗中收集手機用戶的語音數據,并偽造聲紋破解移動支付的密碼進而對錢財進行竊取; 結合深度視覺偽造技術,對他人聲譽形象進行破壞,一些針對各國重要人物的語音偽造甚至會引起政局和社會的動蕩. 在此背景下,如何實現合成語音的有效識別成為語音技術廣泛應用不得不面臨的重要問題.
最原始的語音鑒偽方法是直接讓聽眾判斷,然后計算平均意見分數(mean opinion score,MOS)[55],從而對音頻的真實度和相似程度進行評判. 此種方法簡單有效,在科研學術中常被用作算法評價的重要依據,但同時存在花費大量精力、主觀評價成分多的不足. 近年來深度學習在語音偽造領域的興起促進了語音合成往質量高、速度快的方向發展,我們需要更客觀、準確、有效的鑒偽方法來應對該領域的新變化. 目前主流的語音鑒偽技術主要包括基于特征的語音鑒偽和基于數據的語音鑒偽.
基于特征的語音鑒偽一般分為2 步,第1 步通過人工構建或者神經網絡提取的方式獲取特征,第2 步將特征輸入分類器進行下一步的判別. Patel 等人[56]提出基于耳蝸濾波器倒譜系數和瞬時頻率變化構造幀級特征,再借助高斯混合模型進行判別,以此捕獲跨幀的特征變化. Villalba 等人[57]使用基于深度神經網絡的頻譜對數濾波器組和相對相移特征作為分類器的輸入,并使用神經網絡進行特征降維后通過支持向量機進一步分類. 上述2 種方法逐幀的提取特征,無法在時間維度建立數據之間的聯系,因此無法應對更復雜的偽造情況.
Gomez-Alanis 等人[58]提出一種集成輕量級卷積神經網絡和遞歸神經網絡的網絡架構LC-GRNN,從而同時實現提取幀級特征和學習時間相關性. 如圖7 所示,對于一段語音的頻譜圖,該方法按照幀長和幀間隔逐幀提取語音內容,并輸入到輕量級門控循環單元細胞LC-GRU 中,在最后一個時間幀之后的最后一層輸入到全連接層進行判決. 實驗表明,該方法的檢測效果優于未考慮時間相關性的鑒偽模型.

圖7 LC-GRNN 工作流程
基于特征的語音鑒偽往往利用人工構造的聲學特征,對于某項單一的檢測任務能達到要求. 但隨著語音偽造技術的不斷更迭,互聯網上各種復雜的語音情況此起彼伏,對語音鑒偽的廣泛性和集約性提出了更高的要求. 僅僅靠提取單個或幾個語音特征再進行分類的做法不足以徹底挖掘龐大復雜數據的潛力,更多研究的重點轉移到了基于數據的語音鑒偽.
Jung 等人[59]采用端到端的深度神經網絡代替手工提取聲學特征的過程,同時將高分辨率的功率譜密度和頻譜圖輸入到網絡中進行處理,在沒有專業知識的輔助的情況下有效完成了檢測任務. Zeinali 等人[60]融合了具有單通道對數頻譜圖特征的VGG 網絡和兩個不同dropout 概率的SincNet,雖然能夠在訓練集上有很好的表現,但泛化能力不足,無法檢測訓練時看不到的攻擊. 考慮基于語音合成和語音轉換的麥克風級攻擊和再現攻擊,Monteiro 等人[61]引入改進后的輕量級卷積神經網絡和注意力層,從而應對不同的輸入長度和某些重點部分. 該工作表明訓練數據有限時使用輕型模型會導致性能的下降,并觀察到語音輸入形式對不同類型的攻擊檢測效果有相當大的影響. Chettri等人[62]建立了包含卷積神經網絡、卷積循環網絡、Wave-U-Net、支持向量機以及高斯混合模型的集成模型,在訓練和驗證期間存在攻擊類型不同的情況下仍然有著不錯的鑒偽效果. 該研究表明,集成的方法有利于提高語音鑒偽模型的魯棒性.
盡管深度學習的不斷突破和創新給語音偽造和鑒偽領域已經帶來了巨大的進步,但這些領域仍存在諸多亟待克服的困難. 對于語音偽造來說,現有的模型大多是一對一的模型,無法方便有效的遷移到其他未知人物的語音合成任務上; 即便是一對一的模型,若要實現令人滿意的效果也需要大量內容上高度一致的配對訓練數據,這對于數據集的構建提出了嚴格的要求; 同時大多數的模型專注于頻率的偽造,對于韻律的偽造并沒有更多的研究. 另外,如果要落地到現實的應用場景,還需要考慮轉換速率、模型大小以及惡劣噪聲環境影響的問題. 針對于這些挑戰,語音偽造下一步應朝以下方向發展.
(1)多對多模型. 理想的語音偽造框架應該自動的提取目標說話人的風格,而不限于說話人的具體身份,因此對于文本到語音任務我們只需輸入模型一段文本和一段目標話者的語音,對于語音轉換任務我們只需要分別提供一段源話者和目標話者的語音. 這樣的模型需要學習真正將語音的內容和風格完全分離,因此模型的體量和訓練數據集的大小應該都是有一定規模.
(2)自監督的訓練方法. 深度學習是依賴數據的技術,因此要想提升模型的效果,數據集必然越大越好、覆蓋性越廣越好. 自監督的訓練方法大大降低的龐大數據集的使用難度,顯著減輕了人工標注的壓力,有利于徹底挖掘模型和數據潛力. 我們可以借鑒目前較為流行的自監督對比學習方法[63],提出適合語音偽造任務的訓練策略.
(3)考慮韻律轉換的模型. 人的語音特征可分為頻率特征和韻律特征,頻率特征決定了人的音色,而韻律特征代表人的說話的節奏、韻腳等. 現有的模型如Tacotron 都未考慮韻律的轉換,因此合成的語音較為生硬,下一步的模型應著重實現韻律轉換.
(4)更魯棒的模型. 實際的語音質量并不一定良好,很多有背景噪聲、音樂等干擾,如何消除非語音信息的干擾是該領域需要重點關注的方向.
(5)更快更小的模型. 我們要將模型壓縮的技術應用到現有語音偽造模型上,只有模型的體量降低下來,移動端設備才可以廣泛的使用這些模型,適用的應用場景才會越來越豐富.
同樣的,語音鑒偽領域也存在不可避免的挑戰. 從本質上講,偽造語音檢測也是一種分類任務,因此分類中常見的問題在偽造語音檢測中也會遇到. 首先,在模型訓練中看不到的偽造樣本在測試階段同樣也很難檢測出,這就導致了偽造和鑒偽成了一對貓鼠游戲,總會有新的偽造方法來躲避既有鑒偽方法的檢測,而現有的鑒偽模型又不得不不斷地在訓練集中納入新的偽造樣本. 其次,即便是訓練集中存在的偽造樣本,也會存在樣本不均衡的問題,導致某些特定的偽造方法難以被檢測出. 針對以上問題,語音鑒偽未來需要關注以下幾點.
(1)實際使用中關注最新的語音偽造方法,不斷更新訓練集,盡可能多的包含不同種類的樣本.
(2)采用重采樣、人工產生數據樣本等方法改善訓練樣本中數據不均衡的問題.
(3)在集成模型方面進行更多的嘗試. 現有工作表明集成模型對未知攻擊有一定的檢測效果,未來構建更好的集成模型也是重點需要關注的方向.
此外,語音偽造與視覺偽造的結合也是建立未來虛擬世界的支柱,需要研究視覺和聽覺協同時將面臨的新挑戰. 面對語音偽造的威脅,一些個人賬戶平臺可以采用多種手段進行驗證,以提升抵御未知風險的能力.
新的技術帶來新的發展,新的發展迎來新的挑戰.語音技術是現代人工智能發展的一個縮影,給人們的生活、社會的進步帶來新的活力. 同時技術被一些不法分子掌握之后,又給社會帶來了不穩定的因素. 我們要看清楚技術本身并沒有好壞之分,無論怎樣都不能抵制技術的發展,而要引導技術往好的方向去應用. 這就要求我們技術的研發者要多方面的考慮問題,既要做推動技術騰飛的發動機,也要守好基本底線,做遏制技術脫離正軌的防護欄.