耿鵬志,樊紅興,張翌陽(yáng),唐云祁
(1.中國(guó)人民公安大學(xué) 偵查學(xué)院,北京 100038;2.中國(guó)科學(xué)院自動(dòng)化研究所 智能感知與計(jì)算研究中心,北京 100190)
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人臉操控和合成技術(shù)取得了較大進(jìn)展,但是它們?cè)诮o影視等行業(yè)提供便利的同時(shí)也給社會(huì)公共安全領(lǐng)域帶來(lái)了隱患。自2017 年起,各類換臉視頻及軟件層出不窮,其中,深度偽造(Deepfake)技術(shù)備受關(guān)注,該技術(shù)使用機(jī)器學(xué)習(xí)來(lái)生成逼真的圖像和視頻,信息內(nèi)容“以假亂真”,進(jìn)而達(dá)到欺騙受眾的目的。Deepfake 技術(shù)可以篡改生成虛假視頻,不法分子經(jīng)常使用該技術(shù)來(lái)制造虛假證據(jù),如散播謠言、編造虛假新聞等,嚴(yán)重影響了公安機(jī)關(guān)正常執(zhí)法辦案,甚至因此產(chǎn)生許多冤假錯(cuò)案。因此,對(duì)Deepfake 進(jìn)行檢測(cè)具有重要的現(xiàn)實(shí)意義。
2020 年,F(xiàn)acebook 等機(jī)構(gòu)為鼓勵(lì)研究人員開(kāi)發(fā)更有效的Deepfake 檢測(cè)方法,發(fā)起一項(xiàng)名為Deepfake Detection Challenge 的比賽。與此同時(shí),各國(guó)也在立法層面實(shí)施相應(yīng)的應(yīng)對(duì)方案:美國(guó)兩黨議員分別在眾議院、參議院同時(shí)提出《2019 年深度偽造報(bào)告法案》[1],該法案反映了目前美國(guó)立法者在防范Deepfake 技術(shù)風(fēng)險(xiǎn)中所作的努力;歐盟方面主要通過(guò)個(gè)人信息保護(hù)和虛假信息治理等法律法規(guī)來(lái)從法律層面限制人工智能造假技術(shù)的應(yīng)用;中國(guó)于2019年印發(fā)了《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》[2],該規(guī)定指出如果相關(guān)人員利用Deepfake 視頻造成嚴(yán)重危害并構(gòu)成犯罪,司法機(jī)關(guān)將依法追究刑事責(zé)任。上述一系列舉措在一定程度上限制了Deepfake 視頻的傳播。
目前,為了能夠有效地檢測(cè)以Deepfake 為代表的深度偽造視頻,研究人員提出了許多檢測(cè)方法,但是,其中多數(shù)檢測(cè)方法依賴于數(shù)據(jù)驅(qū)動(dòng),在跨壓縮率、跨分辨率方面并不具有魯棒性。盡管MATERN 等[3]對(duì)偽造圖像中人眼可見(jiàn)的一些痕跡(如眼睛顏色、人臉對(duì)齊不準(zhǔn))所產(chǎn)生的偽影進(jìn)行手工建模,但其只在特定的生成方法下效果較好,因?yàn)槿说拿娌刻卣骶哂卸鄻有?,?dǎo)致該方法不能很好地進(jìn)行建模,即存在不能有效提取偽造特征的問(wèn)題。
本文將篡改偽影特征引入卷積神經(jīng)網(wǎng)絡(luò)中,建立一種基于篡改偽影的雙流檢測(cè)模型。通過(guò)對(duì)FF++(FaceForensics++)[4]中Deepfakes數(shù)據(jù)集進(jìn)行分析,可以看出該數(shù)據(jù)集所使用的算法在生成偽造視頻的過(guò)程中會(huì)在換臉部位遺留相應(yīng)的偽影。因此,本文對(duì)人臉部區(qū)域進(jìn)行有效遮擋,凸顯出臉部偽影,并使用卷積神經(jīng)網(wǎng)絡(luò)提取偽影特征,從而提升模型的抗壓縮能力。在此基礎(chǔ)上,構(gòu)建一種基于Xception[5]的雙流檢測(cè)網(wǎng)絡(luò),使模型在檢測(cè)時(shí)不僅利用全局空域特征,還可以關(guān)注相應(yīng)的偽影特征,從而提高模型對(duì)Deepfake 視頻的檢測(cè)效果。
Deepfake 是Deep learning 和Fake 的組合,主要指使用深度神經(jīng)網(wǎng)絡(luò)制造的虛假視頻或圖片。2017年,一位名為“Deepfakes”的Reddit用戶上傳了一段用該技術(shù)制作的色情視頻,從此Deepfake技術(shù)不斷涌現(xiàn)。Deepfake使用自編解碼架構(gòu)(Encoder-Decoder),與傳統(tǒng)自編碼器不同,Deepfake 采用1 個(gè)編碼器(Encoder)和2 個(gè)解碼器(Decoder A 和Decoder B),其原理如圖1 所示,分別構(gòu)建2 個(gè)自編碼器,兩者共享1 個(gè)編碼器,而解碼器用于重構(gòu)另一個(gè)人的臉,共享1 個(gè)編碼器是為了能同時(shí)提取A 與B 的臉部特征。在模型訓(xùn)練階段,首先將A 與B 的人臉圖片輸入到網(wǎng)絡(luò)中,然后輸出相應(yīng)的人臉圖片,同時(shí)使用監(jiān)督學(xué)習(xí)的方法最小化輸入輸出之間的差異。Deepfake 的圖像生成過(guò)程就是恢復(fù)A 和B人臉的過(guò)程,在圖1 中,將A 人臉?biāo)腿胱跃幋a器中進(jìn)行編碼和解碼,最終得到偽造視頻。

圖1 Deepfake 技術(shù)的基本原理Fig.1 The basic principle of Deepfake technology
換臉技術(shù)既可以促進(jìn)影視行業(yè)的發(fā)展,如進(jìn)行視覺(jué)特效制作、實(shí)現(xiàn)替身演員臉部替換等,同時(shí)也可能造成一些嚴(yán)重危害,如惡搞明星政要、損害公眾人物形象以及其他違法犯罪活動(dòng)。據(jù)sensity 安全公司最新統(tǒng)計(jì)結(jié)果[6]顯示,截止2020 年6 月,YouTube 等主流網(wǎng)站上的造假視頻多達(dá)49 081 個(gè),同比增加330%左右,可見(jiàn)造假視頻已達(dá)到泛濫程度。為促進(jìn)視頻檢測(cè)領(lǐng)域的發(fā)展,本文總結(jié)當(dāng)前具有代表性的一些換臉開(kāi)源工具,如表1 所示。

表1 具有代表性的Deepfake 生成工具Table 1 Representative Deepfake generation tools
在Deepfake檢測(cè)領(lǐng)域,研究人員已經(jīng)提出了多種取證技術(shù)[8],根據(jù)檢測(cè)目標(biāo)不同,這些技術(shù)可以分為基于圖像檢測(cè)和基于視頻檢測(cè)兩大類。在圖像檢測(cè)方面,主要分為傳統(tǒng)手工設(shè)計(jì)和深度神經(jīng)網(wǎng)絡(luò)2 個(gè)部分。在傳統(tǒng)手工設(shè)計(jì)方面,YANG 等[9]指出在偽造過(guò)程中Deepfake 很難偽造一個(gè)人的講話方式,因此,該文利用面部姿勢(shì)和頭部姿勢(shì)等生物特征進(jìn)行統(tǒng)計(jì)建模,將建模后提取的特征送入SVM 分類器以獲得檢測(cè)結(jié)果。YUE 等[10]通過(guò)檢測(cè)眨眼信息來(lái)判斷視頻的真假,但由于現(xiàn)在偽造技術(shù)的改進(jìn),導(dǎo)致該方法已無(wú)法偽造視頻進(jìn)行有效檢測(cè)。MATERN 等[3]對(duì)眼睛顏色、牙齒、人臉對(duì)齊不準(zhǔn)所產(chǎn)生的偽影等重點(diǎn)區(qū)域設(shè)計(jì)手工特征并進(jìn)行分類,但他們使用簡(jiǎn)單的分類器,存在不能有效提取偽造特征的情況。在基于深度神經(jīng)網(wǎng)絡(luò)的圖像檢測(cè)方面,ZHOU 等[11]提出一種雙流網(wǎng)絡(luò)用于深度換臉檢測(cè),其分別用2 個(gè)網(wǎng)絡(luò)學(xué)習(xí)局部噪聲殘差和相機(jī)特征以及人臉篡改痕跡,但該網(wǎng)絡(luò)魯棒性不佳。AFCHAR 等[12]為了更好地提取人臉的偽造特征,提出Meso-4網(wǎng)絡(luò)用于換臉檢測(cè)。NGUYE[13]使用膠囊網(wǎng)絡(luò)來(lái)檢測(cè)偽造圖像和視頻。LI等[14]構(gòu)建一個(gè)取證數(shù)據(jù)集FaceForensics++,其促進(jìn)了假臉檢測(cè)領(lǐng)域的發(fā)展,同時(shí)該文使用Xception 網(wǎng)絡(luò)結(jié)構(gòu)對(duì)換臉圖片進(jìn)行檢測(cè),其能達(dá)到較好的效果。GUERA 等[15]通過(guò)高斯模糊等后處理方法來(lái)模擬偽造視頻,并使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測(cè),其能取得較好的效果,但是,基于深度學(xué)習(xí)生成的偽造視頻與其模擬視頻之間仍然存在一定差異。
相比于圖片,視頻中包含的信息更多,具有更大的危害性。針對(duì)視頻檢測(cè),經(jīng)典的取證思路是將視頻對(duì)象轉(zhuǎn)化為圖片對(duì)象,從視頻中隨機(jī)選擇一些幀并對(duì)這些幀進(jìn)行檢測(cè),通常使用最大或平均分?jǐn)?shù)作為最終分?jǐn)?shù)對(duì)視頻真假進(jìn)行預(yù)測(cè)。如果一個(gè)視頻只有部分關(guān)鍵幀被篡改,那么使用這種檢測(cè)方式容易出現(xiàn)誤報(bào)或者漏檢情況。文獻(xiàn)[15-16]將卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)相結(jié)合,用于視頻序列檢測(cè):首先使用卷積神經(jīng)網(wǎng)絡(luò)提取視頻幀中的特征;然后使用這些特征訓(xùn)練RNN,以提取相應(yīng)的時(shí)序信息。此外,有研究人員基于生物信號(hào)進(jìn)行檢測(cè),如CIFTCI 等[17]通過(guò)檢測(cè)心跳在面部產(chǎn)生的細(xì)微差別來(lái)區(qū)分視頻真假。
總體來(lái)看,關(guān)于深度造假檢測(cè)的研究工作仍處于初步發(fā)展階段,造假技術(shù)和檢測(cè)技術(shù)是一個(gè)相互博弈的過(guò)程,目前的檢測(cè)方法都有一定的局限性,在遇到跨壓縮率、跨分辨率、跨數(shù)據(jù)集等情況時(shí)缺乏足夠的泛化性。同時(shí),在實(shí)際案件中,違法人員也會(huì)針對(duì)這些問(wèn)題對(duì)視頻進(jìn)行各種后處理,從而提高了檢測(cè)難度。
本文模型基于Xception網(wǎng)絡(luò)構(gòu)建,Xception由輸入層、中間層、輸出層3 個(gè)主要部分組成,共包含36 個(gè)卷積層。作為Inceptionv3 的改進(jìn),Xception 引入了深度可分離卷積,在幾乎不增加網(wǎng)絡(luò)復(fù)雜度的前提下提高了模型效果。與普通卷積核相比,深度可分離卷積可以有效分離空間以及通道間的相關(guān)性。
由于造假視頻在換臉過(guò)程中受限于Deepfake 生成算法,因此會(huì)留下相應(yīng)的偽影,這些偽影主要包括面部扭曲、不同分辨率、邊界色差等特征,具體表現(xiàn)為以鼻子為中心的區(qū)域成像質(zhì)量相對(duì)較好,該區(qū)域以外的區(qū)域則偽影明顯。本文據(jù)此設(shè)計(jì)一種雙流網(wǎng)絡(luò),分別用來(lái)學(xué)習(xí)造假圖片的全局信息和偽影特征。在特征提取網(wǎng)絡(luò)選擇方面,由于文獻(xiàn)[4]中指出Xception 對(duì)于Deepfake 視頻檢測(cè)能取得優(yōu)秀效果,同時(shí)該網(wǎng)絡(luò)模型在DFDC、CAAD 等虛假人臉識(shí)別中被廣泛應(yīng)用,因此本文選擇Xception 作為模型的基準(zhǔn)網(wǎng)絡(luò)。在偽影特征方面,首先根據(jù)人臉關(guān)鍵點(diǎn)信息生成相應(yīng)的Mask 以掩蓋中心區(qū)域,以此突出相應(yīng)的偽影痕跡;其次由于造假視頻中的人物背景發(fā)生變化,因此利用Xception 網(wǎng)絡(luò)來(lái)有效提取相應(yīng)的偽影特征。本文網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示。

圖2 本文網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.2 Network model structure in this paper
如圖2 所示,本文首先使用FFmpeg 對(duì)Deepfake視頻進(jìn)行分幀,然后利用人臉檢測(cè)器MTCNN 獲取人臉圖片。上分支(Frgb(x))使用Xception 來(lái)學(xué)習(xí)換臉圖片的全局信息,另一個(gè)分支(Fmask)網(wǎng)絡(luò)通過(guò)相應(yīng)的預(yù)處理方式使模型學(xué)習(xí)相應(yīng)的偽影信息,最后將這2 個(gè)網(wǎng)絡(luò)進(jìn)行集成并實(shí)現(xiàn)分類檢測(cè)。在測(cè)試階段,融合2 個(gè)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果作為最終得分,如下:

其中:P(x)為最終的預(yù)測(cè)結(jié)果;Frgb(x)為Full_face 流的預(yù)測(cè)結(jié)果;Fmask為Mask 流的預(yù)測(cè)值;?為平衡因子,實(shí)驗(yàn)時(shí)取0.5。
FF++[4]是當(dāng)前較為主流的視頻數(shù)據(jù)庫(kù)之一,該數(shù)據(jù)庫(kù)于2019 年被推出,是原始FaceForensics[18]數(shù)據(jù)庫(kù)的擴(kuò)展。FF++包含1 000 張真實(shí)視頻,視頻均來(lái)自YouTube。為證明本文算法的有效性,使用FF++中的Deepfakes 數(shù)據(jù)集,Deepfakes 數(shù)據(jù)集共包括1 000 個(gè)假視頻,其中,訓(xùn)練集有720 個(gè),測(cè)試集和驗(yàn)證集均為140 個(gè)。同時(shí),為了模擬現(xiàn)實(shí)情況,使用H.264編解碼器壓縮,生成Raw(c0)、HQ(c23)、LQ(c40)這3 種壓縮視頻。視頻壓縮會(huì)丟掉部分關(guān)鍵偽造特征,使檢測(cè)精度降低,同時(shí)導(dǎo)致模型在跨壓縮率中表現(xiàn)較差。本文選擇c23 和c40 這2 種壓縮方式的數(shù)據(jù)并進(jìn)行抗壓縮實(shí)驗(yàn),以驗(yàn)證本文算法的有效性。實(shí)驗(yàn)中共制作11 400 張圖片,其中,c40 作為跨壓縮率測(cè)試的圖片,共2 800 張。本文實(shí)驗(yàn)的訓(xùn)練集、測(cè)試集、驗(yàn)證集具體信息如表2 所示。

表2 數(shù)據(jù)集信息Table 2 Datasets information
在本文實(shí)驗(yàn)中,數(shù)據(jù)集制作主要包含4個(gè)步驟:1)按照官方劃分格式進(jìn)行劃分;2)抽取視頻幀;3)對(duì)視頻幀圖像進(jìn)行人臉截取和關(guān)鍵點(diǎn)保存;4)制作人臉Mask 區(qū)域。官方給定的劃分格式是json 文件,其中包括數(shù)據(jù)集的劃分方法以及原視頻和篡改視頻的對(duì)應(yīng)關(guān)系。本文根據(jù)json 文件將對(duì)應(yīng)的視頻劃分為Original 和Manipulated 兩組,每組又劃分為訓(xùn)練集、測(cè)試集、驗(yàn)證集,然后使用FFmpeg 將每個(gè)Deepfake 視頻等間隔截取10 幀,使用MTCNN[19]獲取人臉框,以人臉框?yàn)橹行南蛲鈹U(kuò)張0.3 倍并保存,同時(shí)根據(jù)人臉關(guān)鍵點(diǎn)信息進(jìn)行人臉對(duì)齊,最后使用人臉關(guān)鍵點(diǎn)信息生成相應(yīng)的Mask 區(qū)域,以此遮擋鼻子所在的中心區(qū)域。
本文實(shí)驗(yàn)硬件配置為Intel?Xeon?CPUE5-2650v4@2.20 GHz,內(nèi)存164 GB,GPU 為T(mén)ITAN X(Pascal),軟件配置為L(zhǎng)inux,CUDA9.2,CUDNN7.5.1。深度學(xué)習(xí)算法框架使用Pytorch1.2。本文實(shí)驗(yàn)平臺(tái)基于Pytorch 深度學(xué)習(xí)框架搭建,為了提高模型的分類性能,使用ImageNet 上的預(yù)訓(xùn)練模型。損失函數(shù)BCEWithLogitsLoss、實(shí)驗(yàn)參數(shù)在模型訓(xùn)練過(guò)程中使用Adam 學(xué)習(xí)率調(diào)整,超參數(shù)設(shè)置為:LearningRate=0.000 2,WeightDecay(權(quán)重衰減)=0.001,batchsize=40,總計(jì)訓(xùn)練10個(gè)epoch,每個(gè)epoch驗(yàn)證5次,最終取在測(cè)試集上表現(xiàn)最好的模型用于驗(yàn)證。在實(shí)驗(yàn)測(cè)試階段,每個(gè)支路的權(quán)重系數(shù)都為0.5,圖片的判斷閾值設(shè)置為0.5,即得分大于0.5的圖片認(rèn)為是偽造圖片。
可以將Deepfake 檢測(cè)問(wèn)題看作一個(gè)二分類真假問(wèn)題。本文使用Logloss 和Acc 這2 個(gè)評(píng)價(jià)指標(biāo),兩者計(jì)算公式分別如下:

其中:Rright為輸出概率大于0.5 的樣本數(shù)量;Aall為總樣本數(shù)量;n為測(cè)試圖片的數(shù)量;y′i為判別圖像為假的置信度,取值范圍為(0,1);yi為測(cè)試圖像的實(shí)際值,如果為假圖像,則為0,反之,則為1。
為了更好地驗(yàn)證模型效果,本文還使用ROC 曲線下面積AUC 值作為評(píng)測(cè)指標(biāo)。ROC 曲線是以TPR(真陽(yáng)性率)為縱坐標(biāo)、FPR(假陽(yáng)性率)為橫坐標(biāo)而繪制,ROC 曲線可以更直觀地反映不同模型的優(yōu)劣程度。
3.4.1 與單流網(wǎng)絡(luò)的對(duì)比
由于視頻壓縮會(huì)使偽造視頻丟掉很多特征信息,使得模型檢測(cè)能力下降,同時(shí),在當(dāng)今的互聯(lián)網(wǎng)中,很多社交軟件會(huì)自動(dòng)地壓縮視頻,其中最常見(jiàn)的是CRF 壓縮方式。在同一壓縮率下進(jìn)行測(cè)試,模型檢測(cè)精度高達(dá)98%,但是在面對(duì)壓縮情況時(shí),準(zhǔn)確率會(huì)大幅下降,可見(jiàn)后處理對(duì)于Deepfake 檢測(cè)的影響。在實(shí)際案件中,公安機(jī)關(guān)無(wú)法獲得高質(zhì)量的原視頻,很容易發(fā)生錯(cuò)檢情況,從而影響偵查方向。因此,在同一壓縮率下進(jìn)行對(duì)比,意義并不是很大。本文為了檢驗(yàn)?zāi)P褪欠駥W(xué)習(xí)到篡改圖像的偽影特征,選擇跨壓縮率測(cè)試,即在Deepfakes 中的c23 上進(jìn)行訓(xùn)練,在c40 版本上進(jìn)行驗(yàn)證。為了證明本文網(wǎng)絡(luò)和偽影特征的有效性,測(cè)試Mask 單流、Full_face 和雙流網(wǎng)絡(luò)在不同壓縮率下的性能,實(shí)驗(yàn)結(jié)果如表3 所示,最優(yōu)結(jié)果加粗表示。

表3 本文模型與單流網(wǎng)絡(luò)的對(duì)比Table 3 Comparison between this model and single stream network
從表3 可以看出,在同一壓縮率下進(jìn)行測(cè)試,單流和雙流網(wǎng)絡(luò)檢測(cè)精度都很高,這與數(shù)據(jù)分布有關(guān),同時(shí)偽影特征取得了0.957 8 的精度,證明該特征在Deepfake 偽造視頻檢測(cè)中具有有效性。但是,在跨壓縮率測(cè)試中,模型精度大幅降低,可見(jiàn)視頻壓縮對(duì)于檢測(cè)結(jié)果具有較大影響。
不同模型的ROC 曲線和AUC 值如圖3 所示。從圖3 可以看出,本文通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行設(shè)計(jì),使得模型在訓(xùn)練過(guò)程中學(xué)習(xí)偽影特征,在跨壓縮率方面有一定性能提升,驗(yàn)證了本文方法的有效性。

圖3 不同模型在驗(yàn)證集上的ROC 曲線和AUC 值Fig.3 ROC curves and AUC values of different models on the validation set
3.4.2 不同Mask 比例對(duì)實(shí)驗(yàn)結(jié)果的影響
本文通過(guò)對(duì)臉部區(qū)域添加相應(yīng)的Mask,以使網(wǎng)絡(luò)更好地學(xué)習(xí)偽造特征。如圖4所示,為了探究不同Mask比例對(duì)于實(shí)驗(yàn)結(jié)果的影響,本文使用MTCNN 所保留的人臉框信息,對(duì)人臉框進(jìn)行不同程度的縮放,將縮放后的區(qū)域像素值變?yōu)?,保留其余區(qū)域的像素值,目的是遮蓋掉中心區(qū)域,突出四周的偽影痕跡。本文將MTCNN 所檢測(cè)的人臉框比例設(shè)置為1,使用該坐標(biāo)值進(jìn)行比例縮放,進(jìn)而生成相應(yīng)的Mask 區(qū)域。由于Deepfake 偽造視頻只針對(duì)部分面部區(qū)域進(jìn)行偽造,因此比例值大于0.5 會(huì)掩蓋掉偽造區(qū)域,而當(dāng)比例值小于0.3 時(shí),無(wú)法有效覆蓋鼻子等中心區(qū)域。為保證實(shí)驗(yàn)結(jié)果的科學(xué)性,在實(shí)驗(yàn)過(guò)程中,本文固定Full_face 流,只更改Mask 流,實(shí)驗(yàn)結(jié)果如表4 所示。從表4 可以看出:當(dāng)Mask比例為0.35時(shí),檢測(cè)效果最好;當(dāng)Mask較大時(shí),檢測(cè)精度與單流網(wǎng)絡(luò)一致,原因可能是Mask 掩蓋了過(guò)多的偽影痕跡,如眼睛、嘴巴等,這些區(qū)域可能受限于生成算法,留下了較多的偽造特征。為進(jìn)一步證明本文方法的有效性,避免模型集成帶來(lái)的影響,重新訓(xùn)練Full_face 流,并將Mask 流換成Full_face 流,即將2 個(gè)全局信息進(jìn)行融合。實(shí)驗(yàn)結(jié)果表明,2 個(gè)Full_face 流會(huì)導(dǎo)致檢測(cè)精度降低,這可能是由于單模型之間的一致性和精度較高,在集成過(guò)程中,另一個(gè)Full_face 流并不能很好地起到輔助監(jiān)督的作用。通過(guò)與Xception 結(jié)果進(jìn)行對(duì)比可以看出,本文模型在跨壓縮率上體現(xiàn)出一定的優(yōu)越性。

表4 不同Mask 比例對(duì)于跨壓縮率實(shí)驗(yàn)結(jié)果的影響Table 4 The impact of different Mask ratios on the results of cross-compression experiments

圖4 不同Mask 比例下的人臉圖像效果Fig.4 Face image effects under different Mask ratios
3.4.3 與其他方法的對(duì)比
隨著國(guó)內(nèi)外學(xué)者對(duì)Deepfake 檢測(cè)研究的深入,出現(xiàn)了很多經(jīng)典方法,其中,EfficientNet[20]、Xception、ResNet[21]被廣泛應(yīng)用。為了驗(yàn)證本文方法的有效性,選取常見(jiàn)的檢測(cè)方法作為對(duì)比進(jìn)行實(shí)驗(yàn),結(jié)果如表5 所示。從表5 可以看出,多數(shù)特征提取網(wǎng)絡(luò)都可以達(dá)到很好的檢測(cè)結(jié)果,Xception作為該領(lǐng)域主流的取證網(wǎng)絡(luò),具有明顯優(yōu)勢(shì),在跨壓縮率方面,本文方法檢測(cè)精度比其他方法高出2~10個(gè)百分點(diǎn),同時(shí),模型在ROC曲線和AUC 值方面都有不錯(cuò)表現(xiàn)。圖5 所示結(jié)果進(jìn)一步說(shuō)明了本文方法的有效性,但是,跨壓縮率的模型精度只有0.823 4,仍然存在大量漏檢和錯(cuò)檢的情況,也從側(cè)面證明了跨壓縮率仍然是偽造視頻檢測(cè)中的難點(diǎn)和重點(diǎn)。

表5 本文方法與其他經(jīng)典方法的對(duì)比Table 5 Comparison between this method and other classical methods

圖5 不同方法在驗(yàn)證集上的ROC 曲線和AUC 值Fig.5 ROC curves and AUC values of different methods on the validation set
從早期的偽造色情視頻到現(xiàn)在的政治安全問(wèn)題,犯罪分子精心設(shè)計(jì)的Deepfake 視頻會(huì)對(duì)警察執(zhí)法辦案以及司法審判帶來(lái)巨大影響。本文提出一種基于Xception 的雙流檢測(cè)模型,通過(guò)在面部中心區(qū)域添加相應(yīng)的Mask 來(lái)提升模型對(duì)于偽影特征的提取能力。在Deepfakes 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型的檢測(cè)精度高達(dá)0.986 4,同時(shí)在跨壓縮率檢測(cè)方面相對(duì)ResNet50、DSP-FWA 等方法也有明顯的性能提升。下一步將對(duì)不同偽造方式下的偽影特征進(jìn)行研究,提高特征在跨壓縮率方面的魯棒性,從而提升模型的檢測(cè)準(zhǔn)確率。