龔曉娟,黃添強,翁彬,葉鋒,徐超,游立軍
基于雙層注意力的Deepfake換臉檢測
龔曉娟1,2,黃添強1,2,翁彬1,2,葉鋒1,2,徐超1,2,游立軍3
(1. 福建師范大學數學與信息學院,福建 福州 350117; 2. 數字福建大數據安全技術研究所,福建 福州 350117; 3. 福建省災害天氣重點實驗室,福建 福州 350001)
針對現有Deepfake檢測算法中普遍存在的準確率低、可解釋性差等問題,提出融合雙層注意力的神經網絡模型,該模型利用通道注意力捕獲假臉的異常特征,并結合空間注意力聚焦異常特征的位置,充分學習假臉異常部分的上下文語義信息,從而提升換臉檢測的有效性和準確性。并以熱力圖的形式有效地展示了真假臉的決策區域,使換臉檢測模型具備一定程度的解釋性。在FaceForensics++開源數據集上的實驗表明,所提方法的檢測精度優于MesoInception、Capsule-Forensics和XceptionNet檢測方法。
Deepfake;換臉檢測;假臉檢測;注意力
隨著深度假臉(Deepfake)技術的興起,如Face2face[1]、FaceSwap、Deepfake、OpenFaceSwap和DeepFaceLab等程序源代碼可輕松獲取。此外,還有FakeApp、Face2faceAI換臉、ZAO和DeepNude(一鍵去衣)等軟件的大量涌現,以及相關的軟件和技術可以輕易地在一些技術網站上獲得。這使人們不需要通過系統地學習專業技術就能輕而易舉地對一幅圖片甚至一段視頻進行人臉篡改,并且很多時候單憑人們的視覺直觀感受難以分辨真偽。當新聞報道、政府組織或司法機構證據所使用的圖片、視頻被惡意篡改時,勢必會對政治和社會產生惡劣的影響。因此,換臉檢測研究吸引了大量研究團隊的注意。例如,Facebook和微軟公司聯合在Kaggle上推出了Deepfake檢測挑戰賽,以促進檢測算法的開發。
換臉技術制作的假臉比較如圖1所示(圖片取自FaceForensics++[2]數據集)。其中以Deepfake和FaceSwap為代表的換臉技術,可以實現圖像或視頻上交換兩個人的面孔并保留其他身體部分。非技術人員只需收集足夠多樣化的素材,就能得到逼真的換臉圖片或視頻;且在未改變目標人物身份的前提下,只采用Face2face技術就能對視頻中的人物表情進行篡改。相對于傳統的圖像、視頻篡改技術(如復制粘貼篡改、增刪篡改等),應用上述與深度學習方法結合的新型換臉技術制作出的假臉視頻(文中出現的“假臉”皆為換臉技術生成的),可能會對個人名譽和公眾造成更惡劣的影響。例如,制作虛假的名人色情視頻和報復性的色情視頻、篡改新聞內容,以及偽造司法證據等。因此,急需開發一種有效的換臉檢測方法來應對換臉技術帶來的危機。
隨著換臉技術的不斷發展,換臉檢測的研究也越來越受到學術界和工業界的重視?;谌斯ぬ卣鞯姆椒╗3]主要通過檢測偽影特征來對真臉假臉進行分類,可解釋性強但檢測準確率普遍較低;基于神經網絡的檢測方法[4]雖然對假臉判別性能較好,但缺乏足夠的可解釋性,其中文獻[5]雖利用主成分分析(PCA,principal component analysis)對假臉中高頻異常的可視化具有相應解釋性,但PCA作為一種靜態的注意力機制(AM,attention mechanism)不能充分學習各類型的假臉特征。于是,本文引入動態注意力機制,可自適應地學習更豐富的假臉特征。

圖1 換臉技術制作的假臉比較
Figure 1 The comparison of fake face generated bymanipulation techniques
注意力機制是一種快速鎖定目標任務關鍵特征的方法,在大多數計算機視覺任務中得到了應用[6]。而在換臉檢測中既要考慮假臉中的異常特征又要考慮異常特征的位置,因此本文引入雙層注意力,以假臉的異常信息為關鍵特征,以異常特征的位置為關鍵區域,并將以上信息作為檢測模型的決策依據。本文提出的融合雙層注意力的神經網絡(DANet,double attention network)模型,能夠學習假臉異常部分的上下文語義信息,從而提升換臉檢測的有效性和準確性。
神經網絡是一種“黑匣子”技術,僅由理論說明其原理缺乏可信度,而通過可視化來展示決策依據才能使網絡模型更具可解釋性。雖有部分換臉檢測技術[5,7]做了可視化方面的嘗試,但它們仍存在一些不足之處,其中文獻[5]易受ground-truth的影響,文獻[7]不能很好地展示真假臉的決策區別。因此,本文引入梯度加權類激活映射(Grad_CAM,gradient-weighted class activation mapping)[8]技術,其不受ground-truth的影響,能夠以熱力圖的形式更有效地展示真假臉的決策區域。從可視化角度,更有效地證實了DANet的有效性。
本文提出基于雙層注意力網絡的換臉檢測模型,主要貢獻如下。
(1)將雙層注意力引入換臉檢測領域中,其中通道注意力關注假臉的異常特征,空間注意力關注假臉異常特征的位置,通過自適應地學習綜合決策區域判別真假臉,有效地提升DANet的檢測性能。
(2)引入Grad_CAM對真臉和假臉賦以不同的權重映射生成熱力圖,為換臉檢測模型的決策區域提供了充足的可視化依據,增強了DANet的可解釋性。
現有的換臉檢測方法可大致分為兩類:基于人工特征的方法與基于神經網絡的方法。
基于人工特征的方法往往利用換臉視頻存在的一些較明顯的瑕疵。Li等[3]基于視頻中人物是否有正常的眨眼行為來檢測Deepfake視頻。而Yang等[9]通過臉部的68個特征點來檢測假臉視頻中頭部姿勢的不一致性。Matern等[10]結合不同的偽影特征對GAN、Deepfake和Face2Face這3種假臉圖像進行檢測。Nataraj等[11]在RGB這3個顏色通道上計算共生矩陣,然后將其輸入DNN中分類真假臉。隨著換臉合成技術的日益成熟,上述依賴人工提取偽影特征的檢測方法的有效性逐漸被削弱。
基于神經網絡的方法,由于其具有強大的深度特征表示學習能力得到了廣泛關注。Cozzolino等[4]通過孿生網絡定位圖像篡改區域。Li等[12]利用VGG[13]網絡和ResNet[14]等神經網絡來捕捉換臉視頻中面部周圍環境分辨率不一致的偽影。Guera等[15]結合CNN網絡和LSTM[16]網絡來判別真假臉視頻。Amerini等[17]將光流矢量輸入CNN網絡中進行深度假臉視頻的判別。Afchar等[18]提出了兩種淺層網絡Meso-4和MesoInception-4來分類深度假臉。Fernandes等[19]設計了Neural-ODE模型,其通過對視頻中目標人物的心率進行預測判別真假臉視頻。Sabir等[20]提出了一種遞歸卷積模型檢測假臉視頻幀間的時域差異。Nguyen等[21]設計了一種多任務學習方法,該方法可以同時檢測篡改圖片和視頻并且定位篡改區域。同年,Nguyen等[7]用VGG-19提取圖片特征輸入膠囊網絡來檢測篡改的圖片和視頻。R?ssler等[2]創建了大規模的換臉數據集FaceForensics++,并用7種網絡對真假臉進行二分類性能比較,其中XceptionNet[22]的效果最佳。這些方法均能在一定程度辨別真假臉,但其網絡模型僅考慮了異常特征,而沒有借助注意力機制這一強有力的工具,所以缺少了對異常特征相關區域的探索,這是導致檢測精度不夠高的一個關鍵因素。
Dong等[5]通過外觀處理模塊和直接回歸模塊生成特征圖的注意力映射,捕獲假臉高頻信息中的異常,但它使用的PCA注意力機制不具備可學習的參數,無法自適應地進行參數調整,來應對多樣化的換臉技術。
因此,本文將可動態學習的注意力融合到換臉檢測的模型中,重點關注和捕獲假臉的異常特征和異常區域,減少決策無關區域的影響,從而提高了檢測精度,并為假臉熱力圖的異常區域展示提供了一定依據。
注意力機制已經成功應用于目標檢測[6]、顯著性檢測[23]、圖像修復[24]、語義分割[25]和圖像分類[26-27]等領域。Zhou等[6]采用一種自注意力機制使檢測模型盡可能只關注行人的移動區域,弱化對背景的關注。Li等[23]將運動注意力用于檢測視頻光流特征中的顯著性運動物體。Liu等[24]在圖像修復中使用空間注意力生成圖像缺失區域的特征圖。Fu等[25]通過位置和空間自注意力機制融合全局特征,提高語義分割的精度。Hu等[26]通過壓縮與激活模塊(squeeze-and-excitation module)對分類模型加強了通道特征的關聯性。在此基礎上,Woo等[27]利用雙層注意力進一步增強了圖像分類時重要特征的表達能力。上述這些工作表明注意力機制確實是一個有力工具。然而,將注意力機制用于換臉檢測領域的工作較少,僅文獻[5]采用了PCA這種不具備可學習參數的注意力機制。而換臉檢測中不僅要關注假臉中的異常特征,還需結合假臉異常特征的相關區域,利用可動態學習的注意力機制完成異常特征及相關區域的自適應捕獲,才能對鑒別真假臉實現更有力的綜合決策。因此,本文將雙層注意力機制引入換臉檢測中,分別用通道注意力機制和空間注意力捕獲假臉的異常特征及異常特征的相關位置,與未融合雙層注意力的檢測方法相比,本方法有效提高了檢測精度。
在神經網絡中,特征圖的可視化有助于增強網絡模型的可解釋性,便于人們將其更好地與實際應用結合。在現有換臉檢測方法的可視化中,文獻[7]展示了膠囊網絡對臉部決策區域的激活,但真假臉決策區域的可視化效果相差不大,同時驗證了該方法的檢測精度有限。文獻[5]的ground-truth在注意力圖中顯示了假臉的高頻異常部分,但忽略了對真臉的關注。而本文無須借助ground-truth,引入了Grad_CAM[8]生成熱力圖,可以較好地展示真假臉決策區域的不同:在無異常區域的真臉中尋找應該正常關注的區域,即真臉的熱力圖在大部分的細節區域具有較強的激活;在假臉中尋找缺失細節信息的異常區域,即假臉的熱力圖僅在異常區域具有較強的激活。通過真假臉熱力圖的展示,證明了DANet可以捕獲到有效的決策區域,同時可作為提高檢測精度的依據,這是由于真假臉二者的決策區域不同,能夠實現真類和假類的區分。
簡而言之,本文將可動態學習的雙層注意力融合到DANet中,自適應地捕獲假臉異常特征和區域,并通過引入的熱力圖技術,為證實DANet檢測的有效性提供了有力的可視化憑證。
本文提出的融合雙層注意力機制的神經網絡模型的檢測算法流程如圖2所示。該算法先用dlib函數提取待檢測視頻幀的人臉,經篩選后將其輸送到DANet模型中,進行真假臉的二分類訓練。DANet由ResNet-50[14]和雙層注意力模塊組成,雙層注意力模塊包括通道注意力和空間注意力兩個子模塊,其中通道注意力子模塊關注假臉的異常特征,而空間注意力子模塊關注假臉異常特征的位置,通過通道和空間兩個維度的信息,可以使有意義的特征更具有表現力。本文算法的具體細節由以下兩個部分展開:人臉提取和DANet模型構建。

圖2 DANet模型的檢測算法流程
Figure 2 The detection algorithm flow of DANet model
由于假臉視頻的篡改區域主要集中在面部,因此本文僅提取人臉區域,并將其輸入網絡模型中,減小實驗的復雜度。在實驗中發現,在Python檢測人臉的函數中,face_detector的detecMultiScale和haarcascade_frontalface_alt函數檢測的虛警率和漏檢率較高,dlib的get_frontal_detector的檢測效果最佳,因此本文選擇get_frontal_detector來檢測并截取人臉,這樣能夠減輕前期預處理的工作。如圖3所示,用dlib提取人臉,返回的4個坐標能明確鎖定人臉的大小區域。

圖3 dlib.get_frontal_detector函數得到的坐標示意
Figure 3 The coordinate diagram produced by the dlib.get_frontal_detector function
在換臉檢測模型中,不僅要考慮假臉異常特征的自適應捕獲,還需結合異常特征的相關區域做進一步決策。于是將文獻[27]的雙層注意力模塊引入假臉檢測中,并做了兩組對比實驗,構建了DANet模型。其中兩組實驗分別為:主干網絡的對比和注意力模塊的擺放順序對比。因ResNet[14]模型通過殘差模塊與上一層網絡的輸出更加緊密結合,以及假臉對前期特征捕獲的重要性,故選取ResNet-50作為DANet的主干網絡。先學習假臉的異常特征可以使模型檢測的目標性更明確,故先放置空間注意力模塊,再放置通道注意力模塊。
DANet模型的構建如圖2所示,將提取到的人臉輸入DANet模型中進行二分類訓練。主干網絡ResNet-50由4個Layer組成,每個Layer由不同個數的Bottleneck模塊組成,其中每個Layer的第一個Bottleneck模塊使用一次殘差連接。在每個Bottleneck模塊添加雙層注意力模塊,分別是通道注意力模塊和空間注意力模塊。假設輸入Bottleneck模塊的特征圖為F∈×H×W,分別是特征圖的通道數、高和寬,經通道注意力模塊后得到特征塊M(F),與F逐像素融合得到通道特征圖F∈×1×1,經空間注意力模塊得到特征塊M(F),與通道特征圖F∈×H×W逐像素融合得到空間特征圖F,具體計算如式(1)、(2)所示。


通道注意力模塊由平均池化、最大池化和多層感知機構成,其中平均池化取得特征圖F空間維度上的平均池化特征,最大池化取得最大池化特征,發送到同一個多層感知機,最后用Sigmoid函數激活,具體計算如式(3)所示。

其中,AP指的是平均池化,MP指的是最大池化,MLP指的是多層感知機,是Sigmoid函數。
空間注意力模塊由平均池化、最大池化和一個7×7的卷積塊構成,分別取得F通道維度上的平均池化和最大池化特征,通過連接函數Cat沿縱向通道連接,然后經7×7卷積操作后再用Sigmoid函數激活,具體計算如式(4)、式(5)所示。


其中,dim=1指的是縱向通道。
通過上述雙層注意力模塊先后聚合空間信息和通道信息,可增強有效特征在空間維度和通道維度上的表現力,融合雙層注意力模塊的DANet更能夠聚焦假臉圖像中的異常特征,及其相關位置的綜合決策區域,從而提升假臉的檢測性能。
本節主要介紹了實驗環境、參數設置和數據集,以及分析模型的選擇、可視化,并與現有換臉檢測方法做對比。
本文的實驗運行環境是Ubuntu 16.04系統,使用4塊Nvidia Tesla P100 GPU進行模型的訓練。本文所有深度學習模型均在Pytorch 1.3.0(2019.10.12發布)版本的深度學習框架的基礎上實現,并將FaceForensics++數據集[2]的每種篡改類型分為訓練集、驗證集和測試集,其中,圖片是隨機選取并完全獨立的,測試圖像從未在訓練過程中出現過,數據集具體配置如表1所示,真臉和假臉的比例為1:1,3種篡改類型的訓練集為72 000幅圖片、驗證集為1 400幅圖片和測試集 1 400幅圖片。輸入圖片為224×224大小,訓練時的shuffle變量設置為True,迭代100個epoch,在每個epoch開始時對數據進行重新排序,避免單個epoch取得最優準確率的偶然性。

表1 基于FaceForensics++數據集的訓練集、驗證集和測試集的分配
通過平行實驗比較,保留效果最優的模型和參數。由于實驗的訓練集較大,設置較小的batch(如16、32)不僅會拉長網絡模型的訓練時間,而且不利于模型的收斂;而在同樣的epoch下,較大的batch(如128)將會減少模型的迭代次數,降低對假臉的檢測性能。同時本文在實驗中考慮了優化器的選擇:發現Adam優化器在DANet中的收斂速度快,loss值會驟降到一個極小值,并停在模型的局部最優解處,后續的迭代無法進行有效學習,這就導致在測試集上的泛化性能降低;而使用RMSprop優化器的收斂速度較穩定,且能夠有效解決模型的局部最優解等極端情況。因此本文每組實驗的batch取64,采用RMSprop優化器,損失函數設為預測結果和真實數據的交叉熵函數(CrossEntropyLoss)。此外,訓練過程和測試過程是分開的。
實驗中使用FaceForensics++數據集驗證本文的檢測算法,該數據集是由德國慕尼黑工業大學(TUM)視覺計算組和意大利那不勒斯腓特烈二世大學構建的一個大型數據集,其中包括從Youtube網站上篩選的大多以新聞播報、獨家專訪、單人脫口秀等為主題的僅包含單個人臉的1 000個原始視頻,以及在原始視頻基礎上,分別用Deepfake、Face2face和FaceSwap這3種篡改技術進行篡改的各1 000個視頻,并使用H.264編碼器分別合成無壓縮(C0)、輕度壓縮(C23)和重度壓縮(C40)3種不同壓縮程度的假臉視頻,本實驗中只選取無壓縮的視頻進行幀分解和后續操作。
為評價DANet模型檢測算法在3種篡改類型檢測中的性能,本文使用兩個指標[準確率(Accuracy)和AUC值]對實驗結果進分析。
1) 準確率是預測真臉和假臉準確的數量占所有測試的真假臉數據總量的比率,其計算如式(6)所示。

其中,TP是真臉預測為Original類,TN是假臉預測為Fake類,FP是假臉預測為Original類,FN是真臉預測為Fake類。
2) AUC值是ROC曲線下各部分面積的和值,可以比較直觀地反映模型的分類性能,該值越大表示分類效果越好。ROC曲線的縱坐標為TPR,橫坐標為FPR,二者的計算分別如(7)、式(8)所示。


本文分別以XceptionNet[2]、ResNet-18[14]和ResNet-50[14]作為主干網絡,比較融合雙層注意力前后的性能。融合雙層注意力后的網絡標注為XceptionNet-DA,采用ResNet18、ResNet50為主干網絡,并分別標注為DANet-18和DANet-50(文中提到的DANet為DANet-50模型)。從表2中可以發現,與3種基線網絡相比,融合雙層注意力后的網絡模型均可有效增強假臉檢測性能。其中XceptionNet的輸入調整為299×299大小,僅使用遷移學習即可表現出良好的檢測性能,也正由于XceptionNet-DA中的空洞卷積在節省大量參數的同時,無法充分有效地學習同一通道上的特征圖信息,所以融合雙層注意力可提升的檢測性能有限,導致略遜于DANet-50。對于深度篡改的假臉,DANet-50比DANet-18能學習到更深層次的假臉特征,因而DANet-50在3種篡改類型的準確率都在98%以上,且都為最優值,尤其是在FaceSwap篡改類型中,DANet-50的檢測準確率為98.86%,無論是在橫向還是縱向的比較實驗中性能均為最優。因此本文選取DANet-50為最終的檢測模型DANet。

表2 不同主干網絡的檢測性能
在DANet中,比較了雙層注意力在網絡模型中的擺放順序,實驗結果如表3所示。當先放置空間注意力,后放置通道注意力時,網絡模型先關注假臉的異常位置,后關注假臉的異常特征,若先學習到的異常位置不夠準確,那么后續的特征學習會有偏差,導致網絡模型的檢測性能下降;反之,當先學習假臉的異常特征,再引導網絡去學習異常特征的位置,就能取得較好的檢測性能,因為先找到“是什么”比“在哪里”的目標性更明確。因此本文實驗中雙層注意力的擺放順序為先放置通道注意力,后放置空間注意力。

表3 雙層注意力的放置對假臉檢測的影響
為增強DANet分類任務中的可解釋性,本文對訓練后的模型進行Grad_CA[8]可視化,該技術可將圖片中感興趣的區域用熱力圖的方式表現出來,顯著地展示網絡模型的決策依據?;趽Q臉視頻中真假臉的差異性,本文將其用于DANet中進行可視化展示,并給出了合理的解釋性。
與真實視頻中的人臉相比,換臉視頻中的假臉會缺失細節信息(如會反光的額頭、眼睛里的焦點、臉上的光影等),僅在人臉的一些局部區域引起檢測網絡的關注,并具有較大激活值,從而引導網絡模型憑這些異常特征來區分真假臉。由于整個網絡是經過訓練進行二分類的,所以網絡的每個Layer上的特征圖都包含人臉真假部分的鑒別信息,顯然最后一個Layer的特征圖比前面Layer的特征圖能收集到的決策信息多,因此本文對DANet的Layer4進行可視化。真臉與3種篡改類型的假臉的熱力圖比較如圖4所示。

圖4 假臉與真臉的熱力圖比較
Figure 4 Comparison of heatmap between fake face and real face

表4 圖4的標注及含義
圖4的標注及含義如表4所示。
通過觀察DANet特征圖生成的一系列熱力圖上,可以發現,真臉的熱力圖關注整個臉的大部分區域,假臉的熱力圖只關注臉的邊緣或局部區域。正是由于真實的人臉中沒有異常區域,那么DANet就會尋找真臉中值得關注的區域,如會反光的額頭、有白點會聚焦的眼睛、面部的各種光線等,在熱力圖中分配較大權重(偏紅色和黃色區域)。而在篡改的人臉上,有違真實感的區域比正常區域更能讓DANet捕獲到,如缺失的細節和拼接邊緣等,只集中在局部和邊緣區域。以Face2face的假臉為例,它是在真臉上更換表情和嘴型,其中以嘴巴邊緣的異常尤為突出,所以在F2f_cam圖上大部分集中在嘴巴區域。本文中的Grad_CAM可視化不是精確地定位假臉中的篡改區域,而是讓訓練后的網絡模型在待測圖像上對關注度高的區域賦以較高的權重作為特征圖ROI的映射,生成RGB顏色空間下的梯度權重圖(熱力圖)。本文定位的是網絡模型分類判定的決策依據,并在待測圖像上顯示該區域。同理,在Deep_cam和Swap_cam圖上的激活聚集在局部和邊緣,也由此可以看出DANet模型可以有效捕獲這些異常區域,從而將其作為判定假臉的決策依據。
將本文方法與其他方法在FaceForensics++[2]的3種篡改類型上的檢測準確率進行比較,結果如表5所示。可以看到,本文的DANet模型在所有篡改類型上均優于其他3種方法。
Deepfake、FaceSwap和Face2face 3種篡改類型的各網絡模型的AUC面積分別如圖5~圖7所示??梢钥闯?,DANet均優于其他模型的曲線,并且在3種假臉篡改類型上的檢測精度是較穩定的,波動較小。綜上,通過4個網絡對3種篡改類型在Accuracy和AUC的比較,DANet表現最優。

表5 各網絡的檢測精度對比

圖5 Deepfake分類模型的比較
Figure 5 Comparisona mong Deepfake classification models

圖6 FaceSwap分類模型的比較
Figure 6 Comparisona mong FaceSwap classification models

圖7 Face2face分類模型的比較
Figure 7 Comparisona mong Face2face classification models
為了應對Deepfake等換臉技術帶來的危機,本文提出基于雙層注意力的換臉檢測模型,其中通道注意力關注假臉的異常特征,空間注意力關注假臉異常特征的位置。在每個模塊都融入了雙層注意力,使全局上下文的語義信息得到密切的關聯,從而在注意力機制的引導下提高了DANet的假臉檢測性能。并利用Grad_CAM可視化技術生成熱力圖,為網絡模型的可解釋性增加了有力依據。實驗表明,本文算法對FaceForensics++數據集3種篡改類型的檢測準確率均優于現有檢測方法。
[1]THIES J, ZOLLHOFER M, STAMMINGER M, et al. Demo of Face2Face: real-time face capture and reenactment of RGB videos[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016(1): 2387-2395.
[2]R?SSLER A, COZZOLINOD, VERDOLIVAL, et al. FaceForensics++: learning to detect manipulated facial images[C]//International Conference on Computer Vision(ICCV). 2019: 1-11.
[3]LI Y, CHANG M, FARID H, et al. In ictu.oculi: exposing AI generated fake face videos by detecting eye blinking[C]//International Workshop on Information Forensics and Security(WIFS). 2018: 1-7.
[4]COZZOLINO D,VERDOLIVA L. Noiseprint: a CNN-based camera model fingerprint[J]. IEEE Transactions on Information Forensics and Security, 2020(15): 144-159.
[5]DONG H, LIU F, STEHOUWER J, et al. On the detection of digital face manipulation[J]. arXiv: 1910.01717[astro-ph.CO].
[6]ZHOU C, WU M, LAM S. SSA-CNN: semantic self-attention CNN for pedestrian detection[J]. arXiv: 1902.09080v1[astro-ph.CO].
[7]NGUYEN H, YAMAGISHI J, ECHIZEN I. Use of a capsule network to detect fake images and videos[J]. arXiv: 1910.12467v2 [astro-ph.CO].
[8]SELVARAJU M, COGSWELL M, DAS A. Grad-CAM: visual explanations from deep networks via gradient-based localization[C]//International Conference on Computer Vision (ICCV). 2017: 618-626.
[9]YANG X, LI Y, LYU S. Exposing deep fakes using inconsistent head poses[C]//2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019: 8261-8265.
[10]MATERN F, RIESS C, STAMMINGER M. Exploiting visual artifacts to expose Deepfakes and face manipulations[C]//2019 IEEE Winter Applications of Computer Vision Workshops (WACVW). 2019: 83-92.
[11]NATARAJ L, MOHAMMED T M, MANJUNATH B S, et al. Detecting GAN generated fake images using co-occurrence matrices[C]//Media Watermarking, Security, and Forensics. 2019.
[12]LI Y, LYU S. Exposing Deepfake videos by detecting face warping artifacts[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 46-52.
[13]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//3rd International Conference on Learning Representations (ICLR). 2015.
[14]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). 2016: 770-778.
[15]GUERA D, DELP E. Deepfake video detection using recurrent neural networks[C]//15th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). 2018: 1-6.
[16]DONAHUE J, HENDRICKS L, GUADARRAMA S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2015: 2625-2634.
[17]AMERINI I, GALTERI L, CALDELLI R, et al. Deepfake video detection through optical flow based CNN[C]//International Conference on Computer Vision Workshops (ICCVW). 2019: 1205-1207.
[18]AFCHAR D, NOZICK V, YAMAGISHI J, et al. Mesonet: a compact facial video forgery detection network[C]//2018 IEEE International Workshop on Information Forensics and Security (WIFS). 2018: 1-7.
[19]FERNANDES S, RAJ S, ORTIZ E,et al.Predicting heart rate variations of Deepfake videos using neural ODE[C]//International Conference on Computer Vision Workshops(ICCVW). 2019: 1721-1729.
[20]SABIR E, CHENG J, JAISWAL A, et al. Recurrent convolutional strategies for face manipulation detection in videos[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 80-87.
[21]NGUYEN H, FUMING F, YAMAGISHI J, et al. Multitask learning for detecting and segmenting manipulated facial images and videos[J]. arXiv: abs/1906.06876[astro-ph.CO].
[22]CHOLLET F. Xception: deep learning with depth wise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 1800-1807.
[23]LI H, CHEN G, LI G,et al. Motion guided attention for video salient object detection[C]//International Conference on Computer Vision (ICCV). 2019: 7273-7282.
[24]LIU H, JIANG B, XIAO Y, et al. Coherent semantic attention for image inpainting[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 4169-4178.
[25]FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 3146-3154.
[26]HU J, SHEN LI, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018: 7132-7141.
[27]WOO S, PARK J, LEE J, et al. CBAM: convolutional block attention module[C]//The European Conference on Computer Vision(ECCV). 2018: 3-19.
Deepfake swapped face detection based on double attention
GONG Xiaojuan1,2,HUANG Tianqiang1,2,WENG Bin1,2,YE Feng1,2,XU Chao1,2,YOU Lijun3
1. College of Mathematics and Informatics, Fujian Normal University, Fuzhou 350117, China 2. Digital Fujian Institute of Big Data Security Technology, Fuzhou 350117, China 3. Fujian Key Laboratory of Severe Weather, Fuzhou 350001, China
In view of the existing Deepfake detection algorithms, such problems as low accuracy and poor interpretability are common. A neural network model combining the double attention was proposed, which used channel attention to capture the abnormal features of false faces and combined the location of spatial attention to focus the abnormal features. To fully learn the contextual semantic information of the abnormal part of the false face, so as to improve the effectiveness and accuracy of face changing detection. In addition, the decision-making area of real and fake faces was shown effectively in the form of thermal diagram, which provided a certain degree of explanation for the face exchange detection model. Experiments on FaceForensics ++ open source data set show that the detection accuracy of proposed method is superior to MesoInception, Capsule-Forensics and XceptionNet.
Deepfake, face swap detection, fake face detection, attention
TP393
A
10.11959/j.issn.2096?109x.2021032
2020?06?19;
2020?09?29
黃添強,fjhtq@fjnu.edu.cn
國家重點研發計劃專項基金(2018YFC1505805);國家自然科學基金(62072106,61070062);應用數學福建省高校重點實驗室(莆田學院)開放課題(SX201803)
The National Key Program for Developing Basic Science (2018YFC1505805), The National Natural Science Foundation of China(62072106, 61070062), Key Laboratory of Applied Mathematics of Fujian Province University (Putian University) (SX201803)
龔曉娟, 黃添強, 翁彬, 等. 基于雙層注意力的Deepfake換臉檢測[J]. 網絡與信息安全學報, 2021, 7(2): 151-160.
GONG X J, HUANG T Q, WENG B, et al. Deepfake swapped face detection based on double attention[J]. Chinese Journal of Network and Information Security, 2021, 7(2): 151-160.
龔曉娟(1995? ),女,福建福州人,福建師范大學碩士生,主要研究方向為數字多媒體取證。

黃添強(1971? ),男,福建仙游人,博士,福建師范大學教授、博士生導師,主要研究方向為機器學習、數字多媒體取證。
翁彬(1981? ),男,福建福州人,博士,福建師范大學講師,主要研究方向為機器學習及應用。

葉鋒(1978? ),男,福建福州人,博士,福建師范大學副教授,主要研究方向為多媒體信號處理、計算機視覺。
徐超(1981? ),男,湖北天門人,福建師范大學講師,主要研究方向為視頻篡改檢測。

游立軍(1974? ),男,福建莆田人,福建省災害天氣重點實驗室高級工程師,主要研究方向為氣候數據分析。