馮 暢 吳曉龍 趙熠揚 徐明星 鄭 方
1(清華大學計算機科學與技術系 北京 100084)
2(清華大學北京信息科學與技術國家研究中心 北京 100084)
3(新疆大學計算機科學與技術學院 烏魯木齊 830046)
生成式偽造語音是基于生成式人工智能算法產生的語音.生成式人工智能通常是指“一種利用現有數據生成新的、真實的、反映訓練數據特點但具有原創性內容的新數據的人工智能技術”[1].生成式人工智能一般要通過各種機器學習根據給定的輸入數據或模式,自動生成新的輸出數據或模式.近年來,隨著深度神經網絡研究和計算機算力的持續突破,通過生成式人工智能技術學習大量樣本數據中的模式和規律,可以生成質量越來越高的文本、圖像、語音、視頻等各種模態的內容.生成式人工智能具有可自動生成大量內容、可根據用戶需求和偏好進行定制化生成等優點,能幫助人們更快地獲取信息,提高創造力和效率,也可以為人們提供更多的娛樂和文化體驗.
然而,生成式人工智能的運用也存在一些風險,例如可能生成不準確或不合適的內容,或者被用于惡意目的.在語音領域,生成式偽造語音在人機交互中的不當使用帶來的安全威脅同樣令人擔憂.因此,針對正在發展的生成式偽造語音技術,需要同時發展偽造語音檢測技術,加強治理體系建設,對技術應用進行充分評估和監管,以保證技術發展朝著正確的道路前進,確保技術應用的安全性和合法性.
當前,隨著生成式偽造語音技術的發展,電信詐騙已經演化到一個新的層次.詐騙者不再需要利用傳統的社會工程手段模仿他人的聲音,而是通過軟件創建目標對象的克隆語音進行詐騙.國內外都有此類案例報告.詐騙者使用這種技術假冒親人、銀行工作人員或權威機構人員的聲音,誘使受害者轉賬或泄露個人信息.
2022年,美國和加拿大發生了一系列利用AI合成聲音實施詐騙的案件,這類案件不僅頻發而且手段高明,涉案金額高達1100萬美元,而且主要的受害群體為老年人.這些詐騙行為通常是通過獲取目標受害者親人的聲音樣本進行操作的,這些樣本可能來自于社交媒體上的視頻、電話留言或公開場合的語音錄音.詐騙者利用AI語音合成軟件處理這些聲音樣本,生成與受害者親人極其相似的聲音.接著,他們通過電話聯系受害者,偽裝成親人,并編造緊急情況,比如事故、被捕等,以此來誘使受害者匯款或轉賬.由于合成的聲音與真實語音有極高的相似性,使受害者難以識別出電話中的語音是偽造的,特別是在情緒緊張和發生緊急情況時,受害者往往會出于關心、擔心、害怕而沒有產生懷疑,就給犯罪分子進行匯款.
數據統計顯示,這種新型電信詐騙的成功率遠高于傳統詐騙電話,它所帶來的安全威脅正在呈現日益上升的趨勢[2].
隨著智能家居和個人助理設備的普及,語音應用程序變得越來越重要,它們廣泛應用于智能家居、移動設備以及企業系統中,使日常任務如購物、搜索信息和家居設備控制變得更加便捷.然而,由于上述語音應用通常采用聲紋識別技術作為安全驗證方式,生成式偽造語音技術的發展對這些語音應用程序的安全性構成了直接威脅.
以智能助理為例,這些設備通常通過聲紋識別技術來識別和執行用戶的命令.但現在,生成式偽造語音技術可以生成與用戶聲音聽起來幾乎相同的語音,這使得惡意攻擊者可以通過模仿用戶的聲音控制智能設備,甚至進行非授權的購買或訪問敏感信息.
由于語音設備的廣泛使用以及通信技術的發展,以錄音記錄事件變得更加普遍.錄音的語音作為證據已經在近幾年的案件中作為重要線索和關鍵證據.所以錄音語音的真實性與完整性是司法程序中判案的基石.在2023年通告的一起案例中,公安部鑒定中心的專家運用先進的技術對涉案的錄音筆內的音頻文件進行了深入的恢復和分析,以語音內容作為證據之一.鑒定中心的專家特別抽取了音頻內容,通過與留存的語音樣本進行聲紋比對,并結合現場調查的具體情況,最終確認這些錄音音頻是否由比對者本人所錄制.更重要的是,鑒定中心的專家還通過詳細的聲音分析,確認錄音內容未經過人為的合成或篡改,確保了音頻證據的真實性,保障了證據的公正性,為破案進一步提供了關鍵證據.
偽造語音使得語音證據在司法領域使用的公正性和可信度面臨前所未有的挑戰.這對司法部門提出了更高的要求,不僅需要更新的技術支持,也需要更為嚴謹的法律和程序規范,以應對未來可能出現的更加復雜的偽造案例.
在生成式偽造技術的應用中,視頻偽造尤其引人注目,它結合了精準模仿的語音和與之同步的視覺元素,能夠對目標人物的語音和面部表情進行高度還原,從雙模態上給人更高的信任度,使得偽造的視頻更加逼真,具有極大的欺騙性.特別是國內外知名人士的視頻語音數據,這類資料眾多,更容易被獲取并用于偽造.近年已有多個以知名人士作為主角的視頻被偽造產生,以篡改原視頻或生成全新視頻的方式,負面影響包括有散布虛假言論或表現主角不當行為,可能導致公眾對于真實事件的誤解和混淆,損害其聲譽和形象.虛假視頻還有可能被用于傳播虛假信息或進行欺騙活動,從而干擾社會秩序和破壞公信力.同時,互聯網和社交媒體的普及也為這些虛假視頻的傳播提供了廣闊的平臺,使得它們能夠迅速傳播并引起公眾的關注.根據對視頻平臺的監測,此類偽造視頻的傳播速度之快、觀看量之高,均顯示出其在社交網絡中的強大影響力.
這些案例表明,深度偽造不僅能夠在短時間內吸引巨大的觀眾量,而且其內容的可信度和真實性常常令人難以辨認,對于個人聲譽、公眾信任以及社會秩序都可能造成深遠的負面影響.因此,探尋和發展相應的檢測技術、防范策略,以應對這類視頻偽造欺騙已經成為亟待解決的問題.
生成式偽造語音是指通過語音合成、語音轉換這2種生成式語音技術產生的語音信號,其中:語音合成技術是從給定的文本信息生成朗讀該內容的語音信號;語音轉換技術是從給定的源說話人語音轉換為目標說話人說相同內容的語音.
語音合成技術可劃分為發音器官模擬合成、共振峰合成、拼接合成、聲學參數合成.發音器官模擬合成方法[3]通過模擬人類的發音器官(包括聲門、聲道、嘴唇、舌頭等)的運動行為產生相應的聲音,再根據語音信號的相關知識對每個模仿部位的聲音進行濾波、卷積等操作,組合出最終的語音信號;共振峰合成方法[4]是利用發音器官模型簡化的源-濾波器模型,將語音分解為共振峰結構與其他頻譜結構,這2個結構用一個加性合成模塊組合起來,最后通過估計這3個部分的參數實現合成語音;拼接合成方法[5]是將已有的真實語音片段根據文字內容提示進行拼接,語音片段是以句子、單詞、字、音節等語音單位進行提前錄制并分割好的,拼接算法包含搜索語音片段、平滑語音片段間的連接、統一整句語音風格等工作;聲學參數合成方法是通過先生成語音中的聲學特征參數,再從聲學參數轉換為語音采樣點,就得到數字語音信號.早期的聲學參數合成是采用統計參數合成的方法[6],由文本分析、聲學模型預測聲學參數、聲碼器轉換采樣點3個部分組成:文本分析是對文本進行預處理,轉換為音節、音素等更細粒度的語言特征,根據語言特征采用聲學模型預測基頻、頻譜等聲學參數,將預測的聲學參數用聲碼器的聲碼分析合成語音波形采樣點.近年的聲學參數合成方法采用深度神經網絡分別實現文本分析語言特征、聲學參數建模和聲碼器轉換采樣點這3個模塊,更直接的還有從語言特征生成語音采樣點波形,如WaveNet[7]的提出.完全的端到端模型,將文本分析也與語言特征合并進行聯合訓練,如FastSpeech 2[8]等實現從文本直接生成波形采樣點.此外,視頻合成算法中,利用文本-圖像擴散模型,生成時間一致視頻可以同時完成語音合成與圖像合成的任務[9].
語音轉換技術方案的基本原理是將輸入的源說話人語音信號轉換為源特征表示;然后將源特征表示轉換為目標說話人的特征表示;最后將目標說話人的特征表示運用聲碼器等恢復為目標語音信號.源特征表示和目標特征表示可以是頻譜包絡、頻譜圖等語音聲學特征.對特征表示的轉換方法有早期的高斯混合模型、頻率彎折、樣例語譜圖分解、說話人特征轉換等方法[10],還有近年來以生成對抗網絡[11]、自編碼器[12]為代表的神經網絡轉換模型框架.隨著語音合成中端到端模型的有效運用,語音轉換中也能采用如WaveNet[7]等模型框架將特征轉換和語音采樣點恢復聯合訓練成一個模型.
偽造語音以生成自然流暢、符合人類聽覺感知、具有內容可理解性、語音質量穩定的語音信號作為目標.當前的各類偽造語音已經能夠達到以下效果[13]:
1) 自然度.非常接近自然語音,人類聽力測試上已經難以分辨某些偽造語音.
2) 準確度和理解度.能準確表達相應的文本內容,在發音、語調、語速上均能保持可理解性.
3) 多音色支持.支持多種音色,包括男、女、老年、兒童等不同人群的音色.甚至能夠根據用戶的需求,在聲音特征、語言習慣上進行定制.
4) 多場景支持.支持不同使用場景、不同采樣設備下的定制表現,語音質量也能保持穩定.
語音合成已經廣泛地用于實現人機交互的各種功能:可以將電子書、新聞文章等文本信息轉換為語音,朗讀讀出,用戶用“聽書”實現電子閱讀;在導航程序中將導航信息轉換為導航語音;結合聊天機器人技術,可以在客服系統中將文本轉換為語音,完成智能客服交流;還能用于語音廣播、語音教育、語音翻譯等實現讓用戶以聽的方式接受信息輸入;在新聞采訪視頻等領域,為了保護被采訪人隱私,通過生成具有特定音色和語調的語音,掩蓋原說話人的語音.
人類發出的聲音信號是一種模擬信號,需通過麥克風等傳感器轉換為數字語音信號才能在計算機等電子設備中進行處理和傳輸.為了檢測偽造語音,通常使用語音信號處理技術和機器學習算法來分析語音信號的特征和模式,將偽造語音與真實語音的特征和模式進行比較,以確定語音的真偽.
偽造語音檢測可以用于聲紋認證、語音取證等領域,檢測語音輸入的真偽性以預防語音和視頻欺詐,確保語音認證系統的安全可靠,證明音頻證據的真實有效性,解決本文第1節中提到的各類偽造語音濫用安全問題.
根據聽力測試[14],人類對偽造語音的敏感性主要集中在對韻律、字詞銜接與連續性等語義聽感方面.目前,對偽造語音檢測研究主要集中在2大類上:對偽造語音特征的研究;對真偽語音模式學習的分類器模型研究.
偽造語音檢測以特征提取作為前端操作,將數字語音信號時序采樣點表示為適合分類器的聲學特征輸入.傳統方法是人工設計的聲學特征,基于信號處理的相關知識,從頻域、相位域、倒譜域及相關的信號變換操作中提取聲學特征.如語音頻譜圖、梅爾倒譜系數(Mel frequency cepstrum coefficient, MFCC)、線性倒譜系數(linear frequency cepstrum coefficient, LFCC)[15],采用常數Q變換提取常數Q倒譜系數(constant Q cepstrum coefficient, CQCC)[16],對相位信息進行描述的群延遲特征[17]等.
針對偽造語音與真實語音的不同點,還可以設計韻律相關的可區分性特征.近年學者們開始使用深度神經網絡學習特征表示,通過卷積神經網絡及殘差模塊、記憶模塊等,以學習真偽2類語音分布為目標,提取具有真偽可區分性的語音特征[18].隨著預訓練模型在語音類任務中的推廣,也使用如Wav2Vec2.0[19], XLS-R[20]等大規模自監督模型計算語音特征表示.此外,端到端模型的出現使語音特征也可以直接以采樣點原始數值的方式呈現,而無需經過其他變換.
在偽造語音檢測中使用的分類器是以語音特征作為輸入,輸出真偽判決結果,早期的分類器包括混合高斯模型[21]、支持向量機[22]等.近年深度神經網絡提高了對數據的學習和建模計算能力,以卷積神經網絡、循環神經網絡、全連接層[23]為基本架構的神經網絡分類器也開始應用.端到端模型將語音采樣點作為輸入,通過頻-時域圖注意力網絡模塊[24]、異構堆疊圖注意力網絡模塊[25]等以真偽語音分類為目標直接學習采樣點信息,模型內語音特征和分類器能夠實現共同訓練.
偽造語音檢測可以應用于以下方面:
1) 銀行金融系統.一是識別電話中的欺詐行為,包括虛假身份驗證、冒充客戶進行未經授權的交易;二是對在線應用程序中的用戶登錄、密碼修改等確認賬戶訪問時的真實性.
2) 法律應用方面.一是可以幫助法庭證據驗證,在法庭上用于驗證或駁斥證人證詞,保證證據的可靠性;二是在刑事調查中,相關執法機構可使用偽造語音檢測技術調查與語音記錄有關的犯罪行為.
3) 社交媒體等多媒體平臺.偽造語音檢測可以用于虛假內容檢測,對用戶上傳的虛假或有危害的語音音頻或視頻中的音頻進行檢測,監測和阻止用戶的非法行為,維護平臺的安全性和合規性.也可以在平臺登錄步驟用聲紋驗證時,對用戶驗證的語音進行偽造檢測,防止身份欺詐.
4) 各類生活服務產品方面.在電信公司使用時,運營商可以使用偽造語音檢測識別和阻止釣魚電話,防止電信詐騙,保障用戶個人信息.在醫療領域的電話咨詢中,醫療保健者用偽造語音檢測驗證通話患者咨詢的真實性,確保患者的隱私安全和診斷的有效性.在線教育領域中,在線教育平臺可以用偽造語音檢測驗證學生提交的語音作業或考試是否真實,防止學術不端.
基于深度學習的方法已經在偽造音檢測中取得了巨大的成功,繼續采用這種技術以提高檢測的準確性和魯棒性,是未來的一大探索方向.
偽造語音可以不單單只以語音形式存在,也可以和圖像進行同步形成視頻中的語音部分,視頻偽造也愈發常見,多模態偽造語音檢測也是一個重要的發展方向.
在提高偽造語音檢測實用性的方面,如實時電話欺詐檢測中,需要檢測技術降低延遲,提供實時反饋,對實時檢測性能有高要求.偽造音檢測技術還需要能夠處理多種語言和方言,以適應不同地區和文化的需求.在使用過程中,也要看重用戶聲音數據的隱私和合規性問題,需要與隱私法規和合規性標準保持一致.
此外,基于偽造語音檢測的應用場景,如偽造語音檢測與聲紋身份驗證相結合,可以將聲紋特征與偽造聲學特征進行結合,更好地實現場景需求.
當前,偽造語音檢測技術面臨以下挑戰:
1) 生成式偽造語音算法是多樣化的,由此產生的偽造語音分布也是多種多樣的,基于機器學習的檢測技術需要解決這些多樣化帶來的問題,算法需要具備可泛化性,能夠同時學習多種分布的偽造語音.
2) 除了要得出檢測結果,檢測算法還需要具有可解釋性,即能對偽造語音檢測結果進行溯源,追溯語音中的偽造點信息是什么.
3) 由于生成式偽造語音技術的發展速度很快,檢測算法還需要具備可自我學習更新的能力,在學習新數據集的同時不災難性遺忘舊數據,即增量學習.增量學習是使偽造語音檢測技術快速用于實際應用并實現迭代更新的關鍵問題.
隨著人工智能和數字技術的迅猛發展,音、圖、文深度偽造技術快速普及,已引起全球對互聯網空間信息安全的廣泛關注.這些技術不僅增加了網絡虛假信息的傳播,也對國家安全等多個領域構成直接威脅.為此,我國亟需從技術應用、制度規范、教育宣傳、國際合作等角度建立一個更系統全面的偽造語音綜合治理框架,全面提升智能數字時代的安全水平.
加強深度偽造語音檢測技術研究和應用,挖掘數據真實特征,提高檢測算法對未知偽造方法鑒別的泛化性和魯棒性,特別是對偽造語音當前面臨的分布多樣化、檢測結果可解釋性、學習更新能力等挑戰進行深入研究.
推動偽造語音檢測技術與語音應用程序之間的聯合驗證[24].以語音身份認證應用為例,用偽造語音檢測解決語音身份認證的安全性問題,可以通過與身份認證算法串行、并行2種方法完成.偽造語音檢測與身份認證系統串行流程如圖1所示,把偽造語音檢測置于身份認證系統之前,所有待認證語音第1步先進行偽造語音檢測,如果第1步偽造語音檢測結果將語音判為偽造語音,則身份認證系統可以直接輸出認證拒絕結果;如果第1步偽造語音檢測結果將語音判為真實語音,則可以進入第2步聲紋識別,由聲紋識別算法給出認證接受或拒絕結果.偽造語音檢測在身份認證系統中與聲紋識別模塊并行流程如圖2所示,將偽造語音檢測并入身份認證系統中,語音信號同時被送入聲紋識別和偽造語音檢測中,根據2個算法計算的結果,再設置一層融合,根據融合后的結果判定身份認證接受還是拒絕.

圖2 偽造語音檢測在身份認證系統中與聲紋識別模塊并行流程
強化數字水印和簽名技術,在不影響整段語音音頻的準確性和可理解性的前提下,為原始音頻內容添加數字水印或加密簽名,確保偽造語音設置了獨特的標記,使音頻具有來源可追溯性、防篡改性和真實性驗證,保障語音音頻的下游應用安全.
構建安全的語音數據庫,創建被授權專用的聲音樣本數據庫,保障未授權人的語音隱私,防止語音被隨意采集與濫用.
對生成式偽造語音的技術發展和應用場景需要進一步進行指導與規范,可以從規范技術分類分級和健全偽造語音技術監管體系2個方面進行.
4.2.1 規范技術分類分級標準
1) 定義標準:制定一套全面的標準評估深度偽造語音的質量、真實性和潛在風險,包括技術的復雜性、使用的算法、生成音頻的逼真程度,以及其可能對個人和社會的影響.
2) 技術復雜性分級:根據所使用的人工智能和機器學習算法的復雜性,對偽造語音技術進行分級.高級算法生成的偽造語音可能更難以檢測,因此風險等級更高.
3) 真實性分級:依據偽造語音與真實語音相似度的高低,對相關技術劃分成不同的風險等級.高逼真度的偽造語音可能用于更具有欺騙性的場合.
4) 潛在風險分級:對潛在風險定級需要根據偽造語音的創建目的(如娛樂、教育、欺詐、惡意攻擊)以及個人隱私、企業聲譽、國家安全和社會秩序的影響.用途惡意且影響范圍越廣,風險等級越高.
4.2.2 健全偽造語音技術監管體系
1) 注冊系統建立:建立一個全國性的深度偽造技術注冊系統,記錄所有相關技術的詳細信息,包括技術描述、用途、開發者信息等.
2) 實名制管理:引入實名制管理,確保注冊系統中記錄的每項技術都能追溯到具體的開發者或公司.
3) 安全評估:開發和應用深度偽造技術前,要求進行安全和風險評估,評估報告必須在技術注冊時提交.
4) 持續監管:注冊后,監管機構需對深度偽造技術的使用情況進行持續監督,確保其符合法律法規和倫理標準.
5) 信息披露:鼓勵透明度,要求開發者定期更新技術信息,包括使用情況、影響評估等,并向公眾披露.
6) 可檢測性:難以檢測的偽造語音應歸入更高的風險級別,因為其更有可能逃避現有的安全和驗證措施.
要向公眾傳達偽造語音的危害以及治理的必要性.可以通過廣告、社交媒體、宣傳活動和公共演講等方式教育公眾.重點要強調偽造語音可能導致的社會和個人損害,包括虛假信息的傳播、個人聲音被濫用等.要定期更新公眾和利益相關者關于偽造語音治理進展的信息,以保持公眾的關注和參與.
為公眾提供檢測偽造語音的工具和資源,讓他們能夠分辨真實的語音和偽造的語音,包括開發應用程序、瀏覽器插件或在線課程等,幫助用戶學習如何分辨真實語音和偽造語音.
目前,國內外都面臨偽造語音的威脅,有必要進一步加強國際間的技術合作[27],實現信息共享.
1) 制定國際法律框架:國際社區可以合作制定國際法律框架,明確深度偽造技術的法律地位和國際標準.
2) 數據分享和情報合作:各國可以分享有關深度偽造技術的情報和數據,以便更好地了解和監測其傳播和使用.
3) 技術標準和驗證:國際合作可以推動制定共同的技術標準,以幫助檢測和驗證深度偽造內容.國際執法合作:各國執法機構可以加強合作,跨國打擊深度偽造技術的制造和傳播.