基于篡改偽影的深度偽造檢測(cè)方法

2021-12-20 12:35:18耿鵬志樊紅興張翌陽(yáng)唐云祁

計(jì)算機(jī)工程 2021年12期

耿鵬志，樊紅興，張翌陽(yáng)，唐云祁

（1.中國(guó)人民公安大學(xué) 偵查學(xué)院，北京 100038；2.中國(guó)科學(xué)院自動(dòng)化研究所智能感知與計(jì)算研究中心，北京 100190）

0 概述

近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，人臉操控和合成技術(shù)取得了較大進(jìn)展，但是它們?cè)诮o影視等行業(yè)提供便利的同時(shí)也給社會(huì)公共安全領(lǐng)域帶來(lái)了隱患。自2017 年起，各類換臉視頻及軟件層出不窮，其中，深度偽造（Deepfake）技術(shù)備受關(guān)注，該技術(shù)使用機(jī)器學(xué)習(xí)來(lái)生成逼真的圖像和視頻，信息內(nèi)容“以假亂真”，進(jìn)而達(dá)到欺騙受眾的目的。Deepfake 技術(shù)可以篡改生成虛假視頻，不法分子經(jīng)常使用該技術(shù)來(lái)制造虛假證據(jù)，如散播謠言、編造虛假新聞等，嚴(yán)重影響了公安機(jī)關(guān)正常執(zhí)法辦案，甚至因此產(chǎn)生許多冤假錯(cuò)案。因此，對(duì)Deepfake 進(jìn)行檢測(cè)具有重要的現(xiàn)實(shí)意義。

2020 年，F(xiàn)acebook 等機(jī)構(gòu)為鼓勵(lì)研究人員開(kāi)發(fā)更有效的Deepfake 檢測(cè)方法，發(fā)起一項(xiàng)名為Deepfake Detection Challenge 的比賽。與此同時(shí)，各國(guó)也在立法層面實(shí)施相應(yīng)的應(yīng)對(duì)方案：美國(guó)兩黨議員分別在眾議院、參議院同時(shí)提出《2019 年深度偽造報(bào)告法案》［1］，該法案反映了目前美國(guó)立法者在防范Deepfake 技術(shù)風(fēng)險(xiǎn)中所作的努力；歐盟方面主要通過(guò)個(gè)人信息保護(hù)和虛假信息治理等法律法規(guī)來(lái)從法律層面限制人工智能造假技術(shù)的應(yīng)用；中國(guó)于2019年印發(fā)了《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》［2］，該規(guī)定指出如果相關(guān)人員利用Deepfake 視頻造成嚴(yán)重危害并構(gòu)成犯罪，司法機(jī)關(guān)將依法追究刑事責(zé)任。上述一系列舉措在一定程度上限制了Deepfake 視頻的傳播。

目前，為了能夠有效地檢測(cè)以Deepfake 為代表的深度偽造視頻，研究人員提出了許多檢測(cè)方法，但是，其中多數(shù)檢測(cè)方法依賴于數(shù)據(jù)驅(qū)動(dòng)，在跨壓縮率、跨分辨率方面并不具有魯棒性。盡管MATERN 等［3］對(duì)偽造圖像中人眼可見(jiàn)的一些痕跡（如眼睛顏色、人臉對(duì)齊不準(zhǔn)）所產(chǎn)生的偽影進(jìn)行手工建模，但其只在特定的生成方法下效果較好，因?yàn)槿说拿娌刻卣骶哂卸鄻有?，?dǎo)致該方法不能很好地進(jìn)行建模，即存在不能有效提取偽造特征的問(wèn)題。

本文將篡改偽影特征引入卷積神經(jīng)網(wǎng)絡(luò)中，建立一種基于篡改偽影的雙流檢測(cè)模型。通過(guò)對(duì)FF++（FaceForensics++）［4］中Deepfakes數(shù)據(jù)集進(jìn)行分析，可以看出該數(shù)據(jù)集所使用的算法在生成偽造視頻的過(guò)程中會(huì)在換臉部位遺留相應(yīng)的偽影。因此，本文對(duì)人臉部區(qū)域進(jìn)行有效遮擋，凸顯出臉部偽影，并使用卷積神經(jīng)網(wǎng)絡(luò)提取偽影特征，從而提升模型的抗壓縮能力。在此基礎(chǔ)上，構(gòu)建一種基于Xception［5］的雙流檢測(cè)網(wǎng)絡(luò)，使模型在檢測(cè)時(shí)不僅利用全局空域特征，還可以關(guān)注相應(yīng)的偽影特征，從而提高模型對(duì)Deepfake 視頻的檢測(cè)效果。

1 相關(guān)工作

1.1 Deepfake 生成原理

Deepfake 是Deep learning 和Fake 的組合，主要指使用深度神經(jīng)網(wǎng)絡(luò)制造的虛假視頻或圖片。2017年，一位名為“Deepfakes”的Reddit用戶上傳了一段用該技術(shù)制作的色情視頻，從此Deepfake技術(shù)不斷涌現(xiàn)。Deepfake使用自編解碼架構(gòu)（Encoder-Decoder），與傳統(tǒng)自編碼器不同，Deepfake 采用1 個(gè)編碼器（Encoder）和2 個(gè)解碼器（Decoder A 和Decoder B），其原理如圖1 所示，分別構(gòu)建2 個(gè)自編碼器，兩者共享1 個(gè)編碼器，而解碼器用于重構(gòu)另一個(gè)人的臉，共享1 個(gè)編碼器是為了能同時(shí)提取A 與B 的臉部特征。在模型訓(xùn)練階段，首先將A 與B 的人臉圖片輸入到網(wǎng)絡(luò)中，然后輸出相應(yīng)的人臉圖片，同時(shí)使用監(jiān)督學(xué)習(xí)的方法最小化輸入輸出之間的差異。Deepfake 的圖像生成過(guò)程就是恢復(fù)A 和B人臉的過(guò)程，在圖1 中，將A 人臉?biāo)腿胱跃幋a器中進(jìn)行編碼和解碼，最終得到偽造視頻。

圖1 Deepfake 技術(shù)的基本原理Fig.1 The basic principle of Deepfake technology

1.2 換臉生成工具

換臉技術(shù)既可以促進(jìn)影視行業(yè)的發(fā)展，如進(jìn)行視覺(jué)特效制作、實(shí)現(xiàn)替身演員臉部替換等，同時(shí)也可能造成一些嚴(yán)重危害，如惡搞明星政要、損害公眾人物形象以及其他違法犯罪活動(dòng)。據(jù)sensity 安全公司最新統(tǒng)計(jì)結(jié)果［6］顯示，截止2020 年6 月，YouTube 等主流網(wǎng)站上的造假視頻多達(dá)49 081 個(gè)，同比增加330%左右，可見(jiàn)造假視頻已達(dá)到泛濫程度。為促進(jìn)視頻檢測(cè)領(lǐng)域的發(fā)展，本文總結(jié)當(dāng)前具有代表性的一些換臉開(kāi)源工具，如表1 所示。

表1 具有代表性的Deepfake 生成工具Table 1 Representative Deepfake generation tools

1.3 Deepfake 檢測(cè)方法

在Deepfake檢測(cè)領(lǐng)域，研究人員已經(jīng)提出了多種取證技術(shù)［8］，根據(jù)檢測(cè)目標(biāo)不同，這些技術(shù)可以分為基于圖像檢測(cè)和基于視頻檢測(cè)兩大類。在圖像檢測(cè)方面，主要分為傳統(tǒng)手工設(shè)計(jì)和深度神經(jīng)網(wǎng)絡(luò)2 個(gè)部分。在傳統(tǒng)手工設(shè)計(jì)方面，YANG 等［9］指出在偽造過(guò)程中Deepfake 很難偽造一個(gè)人的講話方式，因此，該文利用面部姿勢(shì)和頭部姿勢(shì)等生物特征進(jìn)行統(tǒng)計(jì)建模，將建模后提取的特征送入SVM 分類器以獲得檢測(cè)結(jié)果。YUE 等［10］通過(guò)檢測(cè)眨眼信息來(lái)判斷視頻的真假，但由于現(xiàn)在偽造技術(shù)的改進(jìn)，導(dǎo)致該方法已無(wú)法偽造視頻進(jìn)行有效檢測(cè)。MATERN 等［3］對(duì)眼睛顏色、牙齒、人臉對(duì)齊不準(zhǔn)所產(chǎn)生的偽影等重點(diǎn)區(qū)域設(shè)計(jì)手工特征并進(jìn)行分類，但他們使用簡(jiǎn)單的分類器，存在不能有效提取偽造特征的情況。在基于深度神經(jīng)網(wǎng)絡(luò)的圖像檢測(cè)方面，ZHOU 等［11］提出一種雙流網(wǎng)絡(luò)用于深度換臉檢測(cè)，其分別用2 個(gè)網(wǎng)絡(luò)學(xué)習(xí)局部噪聲殘差和相機(jī)特征以及人臉篡改痕跡，但該網(wǎng)絡(luò)魯棒性不佳。AFCHAR 等［12］為了更好地提取人臉的偽造特征，提出Meso-4網(wǎng)絡(luò)用于換臉檢測(cè)。NGUYE［13］使用膠囊網(wǎng)絡(luò)來(lái)檢測(cè)偽造圖像和視頻。LI等［14］構(gòu)建一個(gè)取證數(shù)據(jù)集FaceForensics++，其促進(jìn)了假臉檢測(cè)領(lǐng)域的發(fā)展，同時(shí)該文使用Xception 網(wǎng)絡(luò)結(jié)構(gòu)對(duì)換臉圖片進(jìn)行檢測(cè)，其能達(dá)到較好的效果。GUERA 等［15］通過(guò)高斯模糊等后處理方法來(lái)模擬偽造視頻，并使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測(cè)，其能取得較好的效果，但是，基于深度學(xué)習(xí)生成的偽造視頻與其模擬視頻之間仍然存在一定差異。

相比于圖片，視頻中包含的信息更多，具有更大的危害性。針對(duì)視頻檢測(cè)，經(jīng)典的取證思路是將視頻對(duì)象轉(zhuǎn)化為圖片對(duì)象，從視頻中隨機(jī)選擇一些幀并對(duì)這些幀進(jìn)行檢測(cè)，通常使用最大或平均分?jǐn)?shù)作為最終分?jǐn)?shù)對(duì)視頻真假進(jìn)行預(yù)測(cè)。如果一個(gè)視頻只有部分關(guān)鍵幀被篡改，那么使用這種檢測(cè)方式容易出現(xiàn)誤報(bào)或者漏檢情況。文獻(xiàn)［15-16］將卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶（LSTM）網(wǎng)絡(luò)相結(jié)合，用于視頻序列檢測(cè)：首先使用卷積神經(jīng)網(wǎng)絡(luò)提取視頻幀中的特征；然后使用這些特征訓(xùn)練RNN，以提取相應(yīng)的時(shí)序信息。此外，有研究人員基于生物信號(hào)進(jìn)行檢測(cè)，如CIFTCI 等［17］通過(guò)檢測(cè)心跳在面部產(chǎn)生的細(xì)微差別來(lái)區(qū)分視頻真假。

總體來(lái)看，關(guān)于深度造假檢測(cè)的研究工作仍處于初步發(fā)展階段，造假技術(shù)和檢測(cè)技術(shù)是一個(gè)相互博弈的過(guò)程，目前的檢測(cè)方法都有一定的局限性，在遇到跨壓縮率、跨分辨率、跨數(shù)據(jù)集等情況時(shí)缺乏足夠的泛化性。同時(shí)，在實(shí)際案件中，違法人員也會(huì)針對(duì)這些問(wèn)題對(duì)視頻進(jìn)行各種后處理，從而提高了檢測(cè)難度。

2 基于Xception 的雙流Deepfake 檢測(cè)模型

2.1 Xception 網(wǎng)絡(luò)模型

本文模型基于Xception網(wǎng)絡(luò)構(gòu)建，Xception由輸入層、中間層、輸出層3 個(gè)主要部分組成，共包含36 個(gè)卷積層。作為Inceptionv3 的改進(jìn)，Xception 引入了深度可分離卷積，在幾乎不增加網(wǎng)絡(luò)復(fù)雜度的前提下提高了模型效果。與普通卷積核相比，深度可分離卷積可以有效分離空間以及通道間的相關(guān)性。

2.2 雙流Deepfake 檢測(cè)模型設(shè)計(jì)

由于造假視頻在換臉過(guò)程中受限于Deepfake 生成算法，因此會(huì)留下相應(yīng)的偽影，這些偽影主要包括面部扭曲、不同分辨率、邊界色差等特征，具體表現(xiàn)為以鼻子為中心的區(qū)域成像質(zhì)量相對(duì)較好，該區(qū)域以外的區(qū)域則偽影明顯。本文據(jù)此設(shè)計(jì)一種雙流網(wǎng)絡(luò)，分別用來(lái)學(xué)習(xí)造假圖片的全局信息和偽影特征。在特征提取網(wǎng)絡(luò)選擇方面，由于文獻(xiàn)［4］中指出Xception 對(duì)于Deepfake 視頻檢測(cè)能取得優(yōu)秀效果，同時(shí)該網(wǎng)絡(luò)模型在DFDC、CAAD 等虛假人臉識(shí)別中被廣泛應(yīng)用，因此本文選擇Xception 作為模型的基準(zhǔn)網(wǎng)絡(luò)。在偽影特征方面，首先根據(jù)人臉關(guān)鍵點(diǎn)信息生成相應(yīng)的Mask 以掩蓋中心區(qū)域，以此突出相應(yīng)的偽影痕跡；其次由于造假視頻中的人物背景發(fā)生變化，因此利用Xception 網(wǎng)絡(luò)來(lái)有效提取相應(yīng)的偽影特征。本文網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示。

圖2 本文網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.2 Network model structure in this paper

如圖2 所示，本文首先使用FFmpeg 對(duì)Deepfake視頻進(jìn)行分幀，然后利用人臉檢測(cè)器MTCNN 獲取人臉圖片。上分支(Frgb(x))使用Xception 來(lái)學(xué)習(xí)換臉圖片的全局信息，另一個(gè)分支（Fmask）網(wǎng)絡(luò)通過(guò)相應(yīng)的預(yù)處理方式使模型學(xué)習(xí)相應(yīng)的偽影信息，最后將這2 個(gè)網(wǎng)絡(luò)進(jìn)行集成并實(shí)現(xiàn)分類檢測(cè)。在測(cè)試階段，融合2 個(gè)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果作為最終得分，如下：

其中：P(x)為最終的預(yù)測(cè)結(jié)果；Frgb(x)為Full_face 流的預(yù)測(cè)結(jié)果；Fmask為Mask 流的預(yù)測(cè)值；?為平衡因子，實(shí)驗(yàn)時(shí)取0.5。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

FF++［4］是當(dāng)前較為主流的視頻數(shù)據(jù)庫(kù)之一，該數(shù)據(jù)庫(kù)于2019 年被推出，是原始FaceForensics［18］數(shù)據(jù)庫(kù)的擴(kuò)展。FF++包含1 000 張真實(shí)視頻，視頻均來(lái)自YouTube。為證明本文算法的有效性，使用FF++中的Deepfakes 數(shù)據(jù)集，Deepfakes 數(shù)據(jù)集共包括1 000 個(gè)假視頻，其中，訓(xùn)練集有720 個(gè)，測(cè)試集和驗(yàn)證集均為140 個(gè)。同時(shí)，為了模擬現(xiàn)實(shí)情況，使用H.264編解碼器壓縮，生成Raw（c0）、HQ（c23）、LQ（c40）這3 種壓縮視頻。視頻壓縮會(huì)丟掉部分關(guān)鍵偽造特征，使檢測(cè)精度降低，同時(shí)導(dǎo)致模型在跨壓縮率中表現(xiàn)較差。本文選擇c23 和c40 這2 種壓縮方式的數(shù)據(jù)并進(jìn)行抗壓縮實(shí)驗(yàn)，以驗(yàn)證本文算法的有效性。實(shí)驗(yàn)中共制作11 400 張圖片，其中，c40 作為跨壓縮率測(cè)試的圖片，共2 800 張。本文實(shí)驗(yàn)的訓(xùn)練集、測(cè)試集、驗(yàn)證集具體信息如表2 所示。

表2 數(shù)據(jù)集信息Table 2 Datasets information

在本文實(shí)驗(yàn)中，數(shù)據(jù)集制作主要包含4個(gè)步驟：1）按照官方劃分格式進(jìn)行劃分；2）抽取視頻幀；3）對(duì)視頻幀圖像進(jìn)行人臉截取和關(guān)鍵點(diǎn)保存；4）制作人臉Mask 區(qū)域。官方給定的劃分格式是json 文件，其中包括數(shù)據(jù)集的劃分方法以及原視頻和篡改視頻的對(duì)應(yīng)關(guān)系。本文根據(jù)json 文件將對(duì)應(yīng)的視頻劃分為Original 和Manipulated 兩組，每組又劃分為訓(xùn)練集、測(cè)試集、驗(yàn)證集，然后使用FFmpeg 將每個(gè)Deepfake 視頻等間隔截取10 幀，使用MTCNN［19］獲取人臉框，以人臉框?yàn)橹行南蛲鈹U(kuò)張0.3 倍并保存，同時(shí)根據(jù)人臉關(guān)鍵點(diǎn)信息進(jìn)行人臉對(duì)齊，最后使用人臉關(guān)鍵點(diǎn)信息生成相應(yīng)的Mask 區(qū)域，以此遮擋鼻子所在的中心區(qū)域。

3.2 實(shí)驗(yàn)環(huán)境配置

本文實(shí)驗(yàn)硬件配置為Intel?Xeon?CPUE5-2650v4@2.20 GHz，內(nèi)存164 GB，GPU 為T(mén)ITAN X（Pascal），軟件配置為L(zhǎng)inux，CUDA9.2，CUDNN7.5.1。深度學(xué)習(xí)算法框架使用Pytorch1.2。本文實(shí)驗(yàn)平臺(tái)基于Pytorch 深度學(xué)習(xí)框架搭建，為了提高模型的分類性能，使用ImageNet 上的預(yù)訓(xùn)練模型。損失函數(shù)BCEWithLogitsLoss、實(shí)驗(yàn)參數(shù)在模型訓(xùn)練過(guò)程中使用Adam 學(xué)習(xí)率調(diào)整，超參數(shù)設(shè)置為：LearningRate=0.000 2，WeightDecay（權(quán)重衰減）=0.001，batchsize=40，總計(jì)訓(xùn)練10個(gè)epoch，每個(gè)epoch驗(yàn)證5次，最終取在測(cè)試集上表現(xiàn)最好的模型用于驗(yàn)證。在實(shí)驗(yàn)測(cè)試階段，每個(gè)支路的權(quán)重系數(shù)都為0.5，圖片的判斷閾值設(shè)置為0.5，即得分大于0.5的圖片認(rèn)為是偽造圖片。

3.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

可以將Deepfake 檢測(cè)問(wèn)題看作一個(gè)二分類真假問(wèn)題。本文使用Logloss 和Acc 這2 個(gè)評(píng)價(jià)指標(biāo)，兩者計(jì)算公式分別如下：

其中：Rright為輸出概率大于0.5 的樣本數(shù)量；Aall為總樣本數(shù)量；n為測(cè)試圖片的數(shù)量；y′i為判別圖像為假的置信度，取值范圍為（0，1）；yi為測(cè)試圖像的實(shí)際值，如果為假圖像，則為0，反之，則為1。

為了更好地驗(yàn)證模型效果，本文還使用ROC 曲線下面積AUC 值作為評(píng)測(cè)指標(biāo)。ROC 曲線是以TPR（真陽(yáng)性率）為縱坐標(biāo)、FPR（假陽(yáng)性率）為橫坐標(biāo)而繪制，ROC 曲線可以更直觀地反映不同模型的優(yōu)劣程度。

3.4 結(jié)果分析

3.4.1 與單流網(wǎng)絡(luò)的對(duì)比

由于視頻壓縮會(huì)使偽造視頻丟掉很多特征信息，使得模型檢測(cè)能力下降，同時(shí)，在當(dāng)今的互聯(lián)網(wǎng)中，很多社交軟件會(huì)自動(dòng)地壓縮視頻，其中最常見(jiàn)的是CRF 壓縮方式。在同一壓縮率下進(jìn)行測(cè)試，模型檢測(cè)精度高達(dá)98%，但是在面對(duì)壓縮情況時(shí)，準(zhǔn)確率會(huì)大幅下降，可見(jiàn)后處理對(duì)于Deepfake 檢測(cè)的影響。在實(shí)際案件中，公安機(jī)關(guān)無(wú)法獲得高質(zhì)量的原視頻，很容易發(fā)生錯(cuò)檢情況，從而影響偵查方向。因此，在同一壓縮率下進(jìn)行對(duì)比，意義并不是很大。本文為了檢驗(yàn)?zāi)Ｐ褪欠駥W(xué)習(xí)到篡改圖像的偽影特征，選擇跨壓縮率測(cè)試，即在Deepfakes 中的c23 上進(jìn)行訓(xùn)練，在c40 版本上進(jìn)行驗(yàn)證。為了證明本文網(wǎng)絡(luò)和偽影特征的有效性，測(cè)試Mask 單流、Full_face 和雙流網(wǎng)絡(luò)在不同壓縮率下的性能，實(shí)驗(yàn)結(jié)果如表3 所示，最優(yōu)結(jié)果加粗表示。

表3 本文模型與單流網(wǎng)絡(luò)的對(duì)比Table 3 Comparison between this model and single stream network

從表3 可以看出，在同一壓縮率下進(jìn)行測(cè)試，單流和雙流網(wǎng)絡(luò)檢測(cè)精度都很高，這與數(shù)據(jù)分布有關(guān)，同時(shí)偽影特征取得了0.957 8 的精度，證明該特征在Deepfake 偽造視頻檢測(cè)中具有有效性。但是，在跨壓縮率測(cè)試中，模型精度大幅降低，可見(jiàn)視頻壓縮對(duì)于檢測(cè)結(jié)果具有較大影響。

不同模型的ROC 曲線和AUC 值如圖3 所示。從圖3 可以看出，本文通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行設(shè)計(jì)，使得模型在訓(xùn)練過(guò)程中學(xué)習(xí)偽影特征，在跨壓縮率方面有一定性能提升，驗(yàn)證了本文方法的有效性。

圖3 不同模型在驗(yàn)證集上的ROC 曲線和AUC 值Fig.3 ROC curves and AUC values of different models on the validation set

3.4.2 不同Mask 比例對(duì)實(shí)驗(yàn)結(jié)果的影響

本文通過(guò)對(duì)臉部區(qū)域添加相應(yīng)的Mask，以使網(wǎng)絡(luò)更好地學(xué)習(xí)偽造特征。如圖4所示，為了探究不同Mask比例對(duì)于實(shí)驗(yàn)結(jié)果的影響，本文使用MTCNN 所保留的人臉框信息，對(duì)人臉框進(jìn)行不同程度的縮放，將縮放后的區(qū)域像素值變?yōu)?，保留其余區(qū)域的像素值，目的是遮蓋掉中心區(qū)域，突出四周的偽影痕跡。本文將MTCNN 所檢測(cè)的人臉框比例設(shè)置為1，使用該坐標(biāo)值進(jìn)行比例縮放，進(jìn)而生成相應(yīng)的Mask 區(qū)域。由于Deepfake 偽造視頻只針對(duì)部分面部區(qū)域進(jìn)行偽造，因此比例值大于0.5 會(huì)掩蓋掉偽造區(qū)域，而當(dāng)比例值小于0.3 時(shí)，無(wú)法有效覆蓋鼻子等中心區(qū)域。為保證實(shí)驗(yàn)結(jié)果的科學(xué)性，在實(shí)驗(yàn)過(guò)程中，本文固定Full_face 流，只更改Mask 流，實(shí)驗(yàn)結(jié)果如表4 所示。從表4 可以看出：當(dāng)Mask比例為0.35時(shí)，檢測(cè)效果最好；當(dāng)Mask較大時(shí)，檢測(cè)精度與單流網(wǎng)絡(luò)一致，原因可能是Mask 掩蓋了過(guò)多的偽影痕跡，如眼睛、嘴巴等，這些區(qū)域可能受限于生成算法，留下了較多的偽造特征。為進(jìn)一步證明本文方法的有效性，避免模型集成帶來(lái)的影響，重新訓(xùn)練Full_face 流，并將Mask 流換成Full_face 流，即將2 個(gè)全局信息進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明，2 個(gè)Full_face 流會(huì)導(dǎo)致檢測(cè)精度降低，這可能是由于單模型之間的一致性和精度較高，在集成過(guò)程中，另一個(gè)Full_face 流并不能很好地起到輔助監(jiān)督的作用。通過(guò)與Xception 結(jié)果進(jìn)行對(duì)比可以看出，本文模型在跨壓縮率上體現(xiàn)出一定的優(yōu)越性。

表4 不同Mask 比例對(duì)于跨壓縮率實(shí)驗(yàn)結(jié)果的影響Table 4 The impact of different Mask ratios on the results of cross-compression experiments

圖4 不同Mask 比例下的人臉圖像效果Fig.4 Face image effects under different Mask ratios

3.4.3 與其他方法的對(duì)比

隨著國(guó)內(nèi)外學(xué)者對(duì)Deepfake 檢測(cè)研究的深入，出現(xiàn)了很多經(jīng)典方法，其中，EfficientNet［20］、Xception、ResNet［21］被廣泛應(yīng)用。為了驗(yàn)證本文方法的有效性，選取常見(jiàn)的檢測(cè)方法作為對(duì)比進(jìn)行實(shí)驗(yàn)，結(jié)果如表5 所示。從表5 可以看出，多數(shù)特征提取網(wǎng)絡(luò)都可以達(dá)到很好的檢測(cè)結(jié)果，Xception作為該領(lǐng)域主流的取證網(wǎng)絡(luò)，具有明顯優(yōu)勢(shì)，在跨壓縮率方面，本文方法檢測(cè)精度比其他方法高出2～10個(gè)百分點(diǎn)，同時(shí)，模型在ROC曲線和AUC 值方面都有不錯(cuò)表現(xiàn)。圖5 所示結(jié)果進(jìn)一步說(shuō)明了本文方法的有效性，但是，跨壓縮率的模型精度只有0.823 4，仍然存在大量漏檢和錯(cuò)檢的情況，也從側(cè)面證明了跨壓縮率仍然是偽造視頻檢測(cè)中的難點(diǎn)和重點(diǎn)。

表5 本文方法與其他經(jīng)典方法的對(duì)比Table 5 Comparison between this method and other classical methods

圖5 不同方法在驗(yàn)證集上的ROC 曲線和AUC 值Fig.5 ROC curves and AUC values of different methods on the validation set

4 結(jié)束語(yǔ)

從早期的偽造色情視頻到現(xiàn)在的政治安全問(wèn)題，犯罪分子精心設(shè)計(jì)的Deepfake 視頻會(huì)對(duì)警察執(zhí)法辦案以及司法審判帶來(lái)巨大影響。本文提出一種基于Xception 的雙流檢測(cè)模型，通過(guò)在面部中心區(qū)域添加相應(yīng)的Mask 來(lái)提升模型對(duì)于偽影特征的提取能力。在Deepfakes 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文模型的檢測(cè)精度高達(dá)0.986 4，同時(shí)在跨壓縮率檢測(cè)方面相對(duì)ResNet50、DSP-FWA 等方法也有明顯的性能提升。下一步將對(duì)不同偽造方式下的偽影特征進(jìn)行研究，提高特征在跨壓縮率方面的魯棒性，從而提升模型的檢測(cè)準(zhǔn)確率。