999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時(shí)空特征和注意力機(jī)制的偽造檢測(cè)方法

2025-08-27 00:00:00姬莉霞徐沖杜云龍陳允峰張晗

中圖分類號(hào):TP183 文獻(xiàn)標(biāo)志碼:ADOI: 10. 13705/j. issn. 1671-6841. 2024045

文章編號(hào):1671-6841(2025)05-0009-07

Abstract:A facial forgery detection method based on spatio-temporal features and atention mechanism was proposed to address the issues of redundant features and lack of discriminative power in forgery detection. The aim was to explore forgery clues of images in the temporal and spatial domains,using interframe difference information as a starting point for forgery detection. Firstly,a spatial attention module was utilized to direct the model's atention towards the facial regions more prone to forgery in real scenes. Secondly,a temporal attention module was employed to assign greater weights to frames with larger facial motion,which exhibited greater discriminative power.Experiments were conducted on the FaceForensics ++ dataset,and the results showed that the area under curve (AUC) )index of the proposed method reached 89.04% and 98.81% on low-quality and high-quality videos,respectively. In addition, the experimental test results on the Celeb-DF dataset demonstrated that the proposed method had good generalization capability.

Key words: forgery detection; spatio-temporal feature; inter-frame difference; atention mechanism

0 引言

隨著生成模型的發(fā)展,人臉偽造技術(shù)取得了顯著的進(jìn)展。虛假人臉圖像的生成與使用不僅威脅了個(gè)人隱私和安全,還對(duì)信息可信度構(gòu)成挑戰(zhàn)。因此,研究一種通用且高效的人臉偽造檢測(cè)技術(shù)至關(guān)重要。最初的檢測(cè)手段都是將偽造檢測(cè)定義為二分類問(wèn)題,直接使用神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測(cè)。例如,Afchar等[]提出的MesoNet直接使用中層語(yǔ)義進(jìn)行檢測(cè)。Cozzolino 等[2]通過(guò)結(jié)合Encoder和Decoder,使得模型可以通過(guò)學(xué)習(xí)自行判別真假。Nguyen等[3增加了一個(gè)切割出篡改區(qū)域的功能,使訓(xùn)練模型具有更優(yōu)的判斷能力。但是,這些方法只是利用了神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,而沒(méi)有針對(duì)偽造人臉和真實(shí)人臉之間的具體差異來(lái)改進(jìn)模型。

為了解決這些問(wèn)題,Dang等4 通過(guò)在模型中添加注意力機(jī)制,使得模型更關(guān)注偽造產(chǎn)生區(qū)域,從而提高了檢測(cè)性能。Matern等5通過(guò)對(duì)偽造人臉中常見(jiàn)的多種偽影進(jìn)行總結(jié),并使用分類器對(duì)其進(jìn)行捕捉進(jìn)而提升了檢測(cè)結(jié)果。此外,一些檢測(cè)方法分別利用偽造人臉中色彩空間的差異[6]、頻域信息的不同[7]以及人物特性的異常[8],也取得了不錯(cuò)的效果。但是,上述方法只關(guān)注了偽造人臉的不同區(qū)域,即僅通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnet-work,CNN)提取到了空間特征,而忽略了偽造視頻原有的時(shí)間維度信息。

時(shí)序特征可以通過(guò)對(duì)視頻或序列數(shù)據(jù)進(jìn)行分析來(lái)捕捉動(dòng)態(tài)變化的模式和細(xì)微的痕跡,有助于模型更有效地區(qū)分真實(shí)視頻和偽造視頻。因此,一些關(guān)注偽造人臉時(shí)間特征信息的研究[9-10]開(kāi)始出現(xiàn),通過(guò)捕捉幀間的時(shí)序關(guān)系以及其不一致性,在多幀之間進(jìn)行聯(lián)合判斷。Raychaudhuri等[']提出一個(gè)具有完全時(shí)間卷積和時(shí)間轉(zhuǎn)換器的框架來(lái)發(fā)現(xiàn)幀間的不連續(xù)性。Masi 等[12]提出Two-branch檢測(cè)方法,很好地利用了時(shí)域信息,并與其他信息域的特征進(jìn)行融合,在人臉偽造視頻檢測(cè)的跨數(shù)據(jù)集遷移能力方面表現(xiàn)出一定的優(yōu)勢(shì),但其庫(kù)內(nèi)檢測(cè)能力有待進(jìn)一步提升。目前,這種結(jié)合時(shí)空特征利用多幀進(jìn)行檢測(cè)的研究仍處于初級(jí)階段。

與其他深度學(xué)習(xí)模型相比,CNN與長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-termmemory,LSTM)的結(jié)合可以獲得很好的結(jié)果,從空域和時(shí)域上挖掘細(xì)節(jié)特征[3]有助于模型進(jìn)行檢測(cè)任務(wù)。而注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域中被廣泛使用,其優(yōu)勢(shì)在于能找到圖像中的顯著區(qū)域和視頻中判別性強(qiáng)的幀。針對(duì)從單幀上提取的空間特征存在較多的冗余信息,不利于更好地捕捉多幀上時(shí)間特征差異的問(wèn)題,在CNN提取空間特征的過(guò)程中加入注意力機(jī)制,通過(guò)模型感興趣區(qū)域定位以及關(guān)注重要的特征并抑制干擾,從而提升偽造檢測(cè)任務(wù)的性能。與以往的注意力方法[14]不同的是,使用真實(shí)人臉和偽造人臉之間存在的細(xì)節(jié)差異作為注意力圖的弱監(jiān)督,使得模型聚焦于偽造線索更明顯的區(qū)域,

CNN在視覺(jué)識(shí)別任務(wù)中取得了巨大的成功,而LSTM在長(zhǎng)序列處理問(wèn)題中得到了廣泛的應(yīng)用。由于卷積LSTM體系結(jié)構(gòu)的固有屬性(豐富的視覺(jué)描述、長(zhǎng)期時(shí)間記憶和端到端訓(xùn)練),它已經(jīng)被用于研究涉及序列的計(jì)算機(jī)視覺(jué)任務(wù)。針對(duì)隨機(jī)提取的幀序列可能會(huì)漏掉具有較強(qiáng)判別性的重要特征的問(wèn)題,設(shè)置了一個(gè)時(shí)間注意力模塊,它是一個(gè)LSTM結(jié)構(gòu),以此來(lái)獲取幀序列的隱藏狀態(tài),通過(guò)計(jì)算得到幀間的相關(guān)性,然后使用不同的權(quán)值對(duì)不同的幀進(jìn)行表示,并將序列中那些變化較大的幀賦予更高的權(quán)重。本文提出一種用于人臉偽造檢測(cè)的模型,通過(guò)真實(shí)人臉圖像和偽造人臉圖像中細(xì)節(jié)差異引導(dǎo)下的注意力機(jī)制,從空間、時(shí)間上進(jìn)行聯(lián)合檢測(cè)。在FaceForensics ++ 數(shù)據(jù)集和Celeb-DF數(shù)據(jù)集上進(jìn)行了測(cè)試,相比其他方法表現(xiàn)出了極具競(jìng)爭(zhēng)力的性能。

偽造檢測(cè)方法

首先,對(duì)數(shù)據(jù)集進(jìn)行人臉幀序列的提取。對(duì)偽造視頻進(jìn)行幀抽取,由于只使用人臉區(qū)域的圖像,通過(guò)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(multi-taskconvolutionalneuralnetwork,MTCNN)對(duì)獲取的圖像進(jìn)行定位,得到只保留人臉區(qū)域的幀序列。將人臉幀序列送入ResNet中,經(jīng)由空間注意力模塊得到特征圖,該模塊根據(jù)真實(shí)人臉和偽造人臉的灰度差值圖通過(guò)小型回歸網(wǎng)絡(luò)生成注意力圖。其次,將得到的特征圖送入時(shí)間注意力模塊,該模塊是一個(gè)LSTM結(jié)構(gòu),根據(jù)其得到的隱藏狀態(tài)計(jì)算各幀與整體序列的相關(guān)性,以此得出時(shí)間注意力特征。最后,再通過(guò)一個(gè)LSTM對(duì)人臉是否偽造進(jìn)行分類。

1. 1 時(shí)空注意力模型

模型結(jié)構(gòu)如圖1所示,主要由空間注意力模塊和時(shí)間注意力模塊兩部分組成。空間注意力模塊利用ResNet提取人臉的空間特征,其殘差學(xué)習(xí)的特性有助于解決網(wǎng)絡(luò)加深時(shí)訓(xùn)練集準(zhǔn)確率下降的問(wèn)題。為了使模型能夠更加關(guān)注包含判別性關(guān)鍵特征的區(qū)域,引入一個(gè)空間注意力機(jī)制,賦予偽造過(guò)程中人臉的關(guān)鍵區(qū)域更高的權(quán)重。通過(guò)這種方式,模型能夠更加準(zhǔn)確地捕捉偽造線索,提高偽造檢測(cè)的性能。在偽造人臉視頻中,眨眼、張嘴、表情變化等動(dòng)作使得偽造線索更容易被發(fā)現(xiàn)。為了使模型能夠更加關(guān)注這些動(dòng)作變化的幀,引入一個(gè)時(shí)間注意力機(jī)制,賦予人臉視頻幀序列中變化較大的幀更高的權(quán)重。通過(guò)這種方式,模型能夠更好地捕捉偽造人臉視頻中的時(shí)序特征,提高檢測(cè)的準(zhǔn)確性。模型的輸入為人臉幀序列 ,其中 χt 為幀序列的數(shù)量。

圖1模型結(jié)構(gòu)

Figure 1Model structure

1. 2 空間注意力模塊

為了使模型聚焦于偽造線索更明顯的部分,對(duì)ResNet模型添加了空間注意力機(jī)制。不同于以往使用偽造區(qū)域標(biāo)注或者通過(guò)真假標(biāo)簽自適應(yīng)學(xué)習(xí)注意力圖的方法,本文使用真實(shí)和偽造人臉灰度圖像中的細(xì)節(jié)差異來(lái)監(jiān)督注意力圖。空間注意力模塊的具體流程見(jiàn)圖2。

圖2空間注意力模塊的流程

Figure 2The process of spatial attention module

選取一張真實(shí)人臉圖像及其偽造圖像,將二者進(jìn)行灰度化處理,接著對(duì)齊并進(jìn)行計(jì)算得出差值圖。圖上的每個(gè)像素點(diǎn)都有不同的灰度級(jí),然后將灰度圖的像素值映射到0和1之間,用0,1作為閾值生成二值化圖 Mf ,根據(jù) Mf 對(duì)注意力網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

將人臉幀序列 送人ResNet中,經(jīng)過(guò)卷積層所得到的特征圖記為 F(Z)= [f(z1),f(z2),…,f(zt)] ,并且由特征圖 F(Z) 經(jīng)過(guò)小型回歸網(wǎng)絡(luò)得到一個(gè)以 θaut 為參數(shù)的注意力圖Matt,

Matt=N(F,θatt),

其中: N 表示小型回歸網(wǎng)絡(luò)。該網(wǎng)絡(luò)由卷積層和池化層組成,最后一個(gè)回歸層用于生成注意力圖。回歸層的輸出是一個(gè)張量,與輸入特征圖的大小相匹配。接著將回歸層的輸出通過(guò)sigmoid激活函數(shù)進(jìn)行歸一化,以獲得一個(gè)注意力圖。

由特征圖 F(Z) 和注意力圖 Mau 得出新的特征圖 F(Z) ,

其中: ⑧ 表示元素級(jí)乘法。最終,人臉幀序列通過(guò)空間注意力模塊得出的注意力特征圖為 F(Z)= [f(z1),f(z2),…,f(zt)], 0

1.3 時(shí)間注意力模塊

在一段偽造人臉視頻幀序列中,眨眼、說(shuō)話、表情變化等一系列面部運(yùn)動(dòng)都會(huì)使偽造線索更加有跡可循,故幀與幀之間的判別性也會(huì)出現(xiàn)差異。判別性較強(qiáng)的幀可以幫助模型更好地識(shí)別出偽造人臉,因此得到每幀的判別性也是偽造檢測(cè)的關(guān)鍵所在。考慮這一因素,對(duì)模型添加了時(shí)間注意力機(jī)制,將注意力集中在判別性較強(qiáng)的幀上,通過(guò)LSTM的前向傳播過(guò)程來(lái)獲取隱藏狀態(tài)。首先,在序列開(kāi)始處,初始化LSTM的隱藏狀態(tài),設(shè)置為全零向量;其次,將特征圖作為輸入序列逐步輸人LSTM,并更新隱藏狀態(tài)。對(duì)于每個(gè)時(shí)間步,將當(dāng)前時(shí)間步的輸入特征圖和前一個(gè)時(shí)間步的隱藏狀態(tài)作為輸入,LSTM內(nèi)部會(huì)根據(jù)這兩個(gè)參數(shù)進(jìn)行計(jì)算并輸出當(dāng)前時(shí)間步的隱藏狀態(tài)。時(shí)間注意力模塊的具體流程見(jiàn)圖3。

圖3時(shí)間注意力模塊的流程

Figure 3The process of temporal attention module

使用 hι 表示視頻幀序列的隱藏狀態(tài), yt 表示當(dāng)前時(shí)間戳的輸人,通過(guò)遺忘門來(lái)決定丟棄或保留哪些信息,即

ft=σ(Wf?[ht-1,yt]+bf),

其中: Wf 和 bf 為遺忘門的參數(shù),由反向傳播算法自動(dòng)優(yōu)化; σ 為激活函數(shù)。

通過(guò)輸入門將前一層隱藏狀態(tài)的信息和當(dāng)前輸入的信息傳遞到sigmoid函數(shù)中,決定要更新哪些信息,即

iι=σ(Wi?[hι-1,yι]+bi

將前一層隱藏狀態(tài)的信息和當(dāng)前輸人的信息傳遞到tanh函數(shù)中,創(chuàng)造一個(gè)新的候選值向量,

由以上兩個(gè)部分聯(lián)合更新?tīng)顟B(tài)向量,可得

由輸出門來(lái)確定下一層隱藏狀態(tài)的值,將前一層隱藏狀態(tài)和當(dāng)前輸入傳遞到sigmoid函數(shù)中,

Φot=σ(Wo?[ht-1,yt]+bo)Φo

將tanh的輸出與sigmoid的輸出相乘,以確定隱藏狀態(tài)應(yīng)攜帶的信息,

h?t=o?t*tanh(C?t?o

將 F(Z) 經(jīng)過(guò)LSTM后得到的隱藏狀態(tài)[5]表示為矩陣 H=[h1,h2,…,ht] ,計(jì)算得到相似性矩陣[16]

整體序列的相關(guān)性特征可以表示為 x=[x1 ,x2,…,xt],xi 表示第 i 幀與整個(gè)序列的相關(guān)性,其計(jì)算公式為

其中: Aji 表示人臉幀序列中第 i 幀和第 j 幀之間的相關(guān)性。 xi 與判別性成正比,判別性更強(qiáng)的幀具有更大的 xi 值。將原始信息進(jìn)行保留,經(jīng)過(guò)時(shí)間注意力分支的特征與原特征相加,時(shí)間注意力特征的最終表示為 T(zi)=(1+xi)?f(zi) 。最后,將 T(zi) 送人LSTM中進(jìn)行分類,使用Softmax層來(lái)計(jì)算幀序列為偽造或真實(shí)的概率

1. 4 損失函數(shù)

偽造視頻檢測(cè)作為一種視頻分類任務(wù),通常使用交叉熵?fù)p失函數(shù) Lce 。對(duì)于一個(gè)樣本,假設(shè)模型的輸出為預(yù)測(cè)概率 y ,其表示樣本為偽造人臉的概率。真實(shí)的標(biāo)簽為 I ,若為真實(shí)人臉則 I=0 ,若為偽造人臉則 I=1 。交叉熵?fù)p失函數(shù)可以定義為

Lce=-Θ(I*logy)Θ+(1-I)*log(1-y)Θ,

其中: I?logy 表示當(dāng)真實(shí)標(biāo)簽為偽造人臉時(shí)的損失; (1-I)*log(1-y) 表示當(dāng)真實(shí)標(biāo)簽為真實(shí)人臉時(shí)的損失。在空間注意力模塊中,使用真實(shí)和偽造人臉圖像的差異訓(xùn)練注意力網(wǎng)絡(luò)。由于彩色圖像所包含的信息量過(guò)大,而將圖像進(jìn)行灰度化處理可以簡(jiǎn)化矩陣,提高運(yùn)算速度,并且其所包含的信息足以反映真實(shí)和偽造人臉之間的偽造線索。將二者的灰度圖像差異作為空間注意力模塊的弱監(jiān)督,則

Lau=Maut-Mfc

總損失函數(shù)為

L=Lce+Latt°

2 實(shí)驗(yàn)結(jié)果與分析

首先在FaceForensics ++ 數(shù)據(jù)集上進(jìn)行域內(nèi)檢測(cè),并與當(dāng)前流行的一些偽造檢測(cè)方法進(jìn)行對(duì)比。其次在 FaceForensics ++ 數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在Celeb-DF數(shù)據(jù)集[上進(jìn)行檢測(cè),從而評(píng)估本文方法在不同數(shù)據(jù)集上的適應(yīng)性和魯棒性。同時(shí),通過(guò)嘗試不同數(shù)量的幀序列,以評(píng)估其對(duì)檢測(cè)性能的影響,這有助于在實(shí)際應(yīng)用中選擇合適的幀序列數(shù)量以平衡性能和計(jì)算效率。另外,通過(guò)消融實(shí)驗(yàn)評(píng)估所引入的注意力機(jī)制對(duì)模型性能的提升效果。

2. 1 實(shí)驗(yàn)數(shù)據(jù)集

為驗(yàn)證本文方法的有效性,在FaceForensics ++ 和Celeb-DF這兩個(gè)公開(kāi)的大型人臉偽造數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。FaceForensics ++ 是一個(gè)用于深度偽造檢測(cè)的公開(kāi)數(shù)據(jù)集,包含1000個(gè)真實(shí)視頻和4000個(gè)偽造視頻。其中,偽造視頻是使用不同的合成方法生成的,這些合成方法包括DeepFake、Face2Face、FaceSwap和NeuralTextures等;真實(shí)視頻是從互聯(lián)網(wǎng)上收集的面部視頻片段。Celeb-DF數(shù)據(jù)集包含890個(gè)真實(shí)視頻和5639個(gè)偽造視頻,這些視頻是通過(guò)DeepFake生成算法的改進(jìn)版本創(chuàng)建的,改善了合成人臉的分辨率低和顏色不一致等問(wèn)題,該數(shù)據(jù)集廣泛應(yīng)用于測(cè)試模型的泛化性能。

2.2 實(shí)驗(yàn)設(shè)置

使用預(yù)訓(xùn)練的ResNet從預(yù)處理視頻中提取特征向量,ResNet使用5個(gè)卷積層,每層的過(guò)濾器大小為 7×7 ,步幅值為2。然后使用LSTM循環(huán)模型對(duì)這些特征進(jìn)行訓(xùn)練,以獲得前一幀的依賴關(guān)系。LSTM網(wǎng)絡(luò)訓(xùn)練了1285個(gè)批次,每個(gè)批次的大小為321,裁剪梯度為0.25,Dropout概率值為0.4。將LSTM隱藏狀態(tài)的數(shù)量設(shè)置為2048,用于對(duì)前一層提供的信息進(jìn)行編碼,以保持時(shí)間依賴性。模型訓(xùn)練了20個(gè)輪次,并分別計(jì)算了長(zhǎng)度為40、50、60、70等不同子序列的結(jié)果。

按照FaceForensics ++ 數(shù)據(jù)集和Celeb-DF數(shù)據(jù)集的原始劃分設(shè)置,將FaceForensics ++ 數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,而Celeb-DF數(shù)據(jù)集則劃分為訓(xùn)練集和測(cè)試集。在FaceForensics ++ 數(shù)據(jù)集中,訓(xùn)練集、驗(yàn)證集和測(cè)試集所占比例分別為 72% 、14% 和 14% 。而在Celeb-DF數(shù)據(jù)集中,訓(xùn)練集和測(cè)試集所占比例分別為 92% 和 8% 。為了實(shí)現(xiàn)正負(fù)樣本平衡,每個(gè)原始視頻在FaceForensics ++ 數(shù)據(jù)集中對(duì)應(yīng)4個(gè)偽造視頻。實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)包括:曲線下面積( (AUC) 和在整體數(shù)據(jù)集上的準(zhǔn)確率 (Acc) 。其中,準(zhǔn)確率的計(jì)算公式為

其中: TP 表示標(biāo)簽為篡改并且被檢測(cè)為篡改的樣本數(shù)量; TN 表示標(biāo)簽為真實(shí)并且被檢測(cè)為真實(shí)的樣本數(shù)量; FP 表示標(biāo)簽為真實(shí)但被檢測(cè)為篡改的樣本數(shù)量; FN 表示標(biāo)簽為篡改但被檢測(cè)為真實(shí)的樣本數(shù)量。

2.3 實(shí)驗(yàn)結(jié)果

首先在FaceForensics ++ 數(shù)據(jù)集上驗(yàn)證模型的性能,與目前較為經(jīng)典的 MesoNet[1]、Xception[18]、Two-branch[12]、SPSL(spatial-phase shallow learning)[19]和

Multi-attention[20]方法進(jìn)行了對(duì)比。在FaceForensics ++ 數(shù)據(jù)集上不同質(zhì)量視頻的分類結(jié)果見(jiàn)表1。可以看出,對(duì)于低質(zhì)量視頻(LQ),本文方法的兩項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于對(duì)比方法, Acc 和 AUC 值分別達(dá)到 87.62% 和 89.04% 。而對(duì)于高質(zhì)量視頻(HQ),本文方法也表現(xiàn)出與當(dāng)前先進(jìn)的Multi-attention方法同等水平的性能, Acc 和 AUC 值分別達(dá)到 96.02% 和 98.81% 。這主要得益于所使用的空間注意力方法是將真實(shí)和偽造人臉圖像的差異作為出發(fā)點(diǎn),模型關(guān)注的均為偽造線索頻繁出現(xiàn)的區(qū)域,

表1在FaceForensics ++ 數(shù)據(jù)集上不同質(zhì)量視頻的分類結(jié)果Table1Classification resultsof different qualityvideos

注:“*”表示使用官方代碼在統(tǒng)一實(shí)驗(yàn)設(shè)置下重新訓(xùn)練;“—”表示原方法未提供該指標(biāo)結(jié)果。

為了驗(yàn)證本文方法的泛化能力,在FaceForensics ++ 數(shù)據(jù)集上進(jìn)行訓(xùn)練,在Celeb-DF數(shù)據(jù)集上進(jìn)行測(cè)試。與MesoNet、 Xception、 Two-branch、 Two-stream[21]和Multi-attention 方法進(jìn)行了對(duì)比,在Celeb-DF數(shù)據(jù)集上的跨域AUC結(jié)果見(jiàn)表2。可以看出,本文方法在跨域?qū)嶒?yàn)中比Two-branch方法的檢測(cè)精度還高了0.92個(gè)百分點(diǎn),更是優(yōu)于其余的對(duì)比方法。這是由于本文方法是從時(shí)域、空域兩個(gè)方面進(jìn)行聯(lián)合檢測(cè),挖掘了偽造人臉的幀間差異,這種差異信息在不同數(shù)據(jù)集中都普遍存在并且是偽造檢測(cè)的一個(gè)重要特征。

表2不同方法在Celeb-DF數(shù)據(jù)集上的AUC結(jié)果Table2AUCresultsofdifferentmethodsonthe

注:“*”表示使用官方代碼在統(tǒng)一實(shí)驗(yàn)設(shè)置下重新訓(xùn)練。

為了更好地評(píng)估本文方法在不同偽造方式下的有效性,在FaceForensics ++ (LQ)數(shù)據(jù)集上進(jìn)行訓(xùn)練,在 FaceForensics ++(LQ) 數(shù)據(jù)集的DeepFake、Face2Face、FaceSwap和NeuralTextures4個(gè)子集以及Celeb-DF偽造視頻測(cè)試集上對(duì)本文方法進(jìn)行測(cè)試。在FaceForensics ++ (LQ)數(shù)據(jù)集的4個(gè)子集以及Celeb-DF數(shù)據(jù)集上的 AUC 結(jié)果如圖4所示。可以看出,本文方法在DeepFake子集上取得了最高的性能,并且本文方法在FaceSwap子集上的結(jié)果已經(jīng)超過(guò)了在NeuralTextures子集上的結(jié)果,達(dá)到了86.62% 。

模型輸入為人臉視頻幀序列,故采取不同數(shù)量的幀序列也會(huì)導(dǎo)致模型的性能出現(xiàn)變化。為了進(jìn)一步提升模型的檢測(cè)性能,在FaceForensics ++ 數(shù)據(jù)集上進(jìn)行改變幀數(shù)的實(shí)驗(yàn)。結(jié)果表明,當(dāng)幀數(shù)不足(幀數(shù)為40、50、55)時(shí),模型達(dá)不到最高的檢測(cè)結(jié)果,這是因?yàn)閹瑪?shù)過(guò)少會(huì)導(dǎo)致模型雖提取了一定的空間特征,但時(shí)間特征不夠充分,沒(méi)有很好地學(xué)習(xí)到幀間的差異;當(dāng)幀數(shù)過(guò)多(幀數(shù)為65、70)時(shí),所提供的信息量超出了模型處理能力,也會(huì)導(dǎo)致模型的性能下降;而當(dāng)幀數(shù)為60時(shí),效果最佳。

為了驗(yàn)證空間注意力和時(shí)間注意力模塊的有效性,在FaceForensics ++ 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),即將去除空間注意力和時(shí)間注意力機(jī)制的模型作為基線,與分別加入空間注意力和時(shí)間注意力模塊的模型進(jìn)行對(duì)比。在FaceForensics ++ 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果見(jiàn)表3。可以看出,加入空間注意力模塊后,模型可更關(guān)注于偽造的常見(jiàn)產(chǎn)生區(qū)域,性能提升了1.82個(gè)百分點(diǎn);加入時(shí)間注意力模塊后,模型更關(guān)注于幀序列中臉部變化較大的幀,這些明顯的臉部運(yùn)動(dòng)很容易暴露出偽造線索,性能提升了3.21個(gè)百分點(diǎn)。而本文的時(shí)空注意力模型的性能更是提升了5.49個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,所添加的注意力方法均對(duì)基準(zhǔn)模型的性能有較好的提升。

表3在FaceForensics ++ 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table3Results ofablation experimentson the

3 結(jié)語(yǔ)

本文提出一個(gè)用于人臉偽造檢測(cè)任務(wù)的時(shí)空注意力模型,旨在改進(jìn)和擴(kuò)展現(xiàn)有方法。該模型結(jié)合了ResNet和LSTM,在空間和時(shí)間上分別引人了注意力機(jī)制。ResNet負(fù)責(zé)提取幀序列的空間特征,通過(guò)使用深度CNN,模型能夠捕捉圖像中的細(xì)節(jié)和結(jié)構(gòu)信息。為了更加關(guān)注人臉偽造的關(guān)鍵區(qū)域,引入了空間注意力機(jī)制,使模型能夠集中注意力于可能存在偽造跡象的區(qū)域,從而提高檢測(cè)的準(zhǔn)確性。在LSTM部分引人了時(shí)間注意力機(jī)制,針對(duì)那些臉部運(yùn)動(dòng)明顯且具有判別性的幀,賦予了更高的模型關(guān)注度,使模型能夠更好地捕捉到偽造人臉在時(shí)間序列上的變化規(guī)律,增強(qiáng)對(duì)偽造視頻的檢測(cè)能力。通過(guò)利用幀間特征信息,彌補(bǔ)了單純依賴CNN提取圖像空間特征所帶來(lái)的特征缺失問(wèn)題。在FaceForensics ++ 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與其他方法相比,所提方法獲得了極佳的性能。此外,在Celeb-DF數(shù)據(jù)集上測(cè)試了該方法的泛化能力,結(jié)果顯示,所提方法具有良好的魯棒性和泛化性能。通過(guò)本文提出的時(shí)空注意力模型,能夠更準(zhǔn)確地檢測(cè)深度偽造人臉,并且在各項(xiàng)指標(biāo)上都展現(xiàn)出優(yōu)越的性能。

后續(xù)研究將探討在單幀上提取更深層次的區(qū)分性特征,并設(shè)計(jì)更有效的幀間特征交互方法。本文方法關(guān)注的是偽造視頻的時(shí)空特征,對(duì)頻域特征的提取及處理還有待研究,以進(jìn)一步提升模型檢測(cè)和泛化能力。人臉偽造檢測(cè)可以從不同模態(tài)的特征中獲取信息,例如RGB圖像、紋理圖像、深度圖像等,將這些不同模態(tài)的特征進(jìn)行融合,可以提高檢測(cè)算法的準(zhǔn)確性和魯棒性。未來(lái),多模態(tài)特征融合的研究將有助于更好地應(yīng)對(duì)不同類型的人臉偽造攻擊。

參考文獻(xiàn):

[1] AFCHARD,NOZICKV,YAMAGISHIJ,etal.MesoNet:

a compact facial video forgery detection network[C]//IEEE International Workshop on Information Forensics and Security. Piscataway:IEEE Press, 2018:1-7.

[2]COZZOLINO D, THIES J, ROSSLER A,et al. ForensicTransfer: weakly-supervised domain adaptation for forgery detection[EB/OL].(2019-11-27)[2024-02-12]. https: //doi. org/10. 48550/arXiv.1812. 02510.

[3]NGUYEN H H,F(xiàn)ANG F M,YAMAGISHI J,et al. Multi-task learning for detecting and segmenting manipulated facial images and videos[C]//IEEE 1Oth International Conference on Biometrics Theory,Applications and Systems. New York:ACM Press,2019:1-8.

[4]DANG H,LIU F,STEHOUWER J,et al. On the detection of digital face manipulation[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press,2020: 5780-5789.

[5]MATERN F,RIESS C, STAMMINGER M. Exploiting visual artifacts to expose deepfakes and face manipulations [C]// IEEE Winter Applications of Computer Vision Workshops. Piscataway:IEEE Press,2019: 83-92.

[6]LI HD,LI B,TAN S Q,et al. Identification of deep network generated images using disparities in color components[J]. Signal processing,2020,174:107616.

[7]DURALL R, KEUPER M,PFREUNDT F J,et al. Unmasking DeepFakes with simple features [EB/OL ]. (2020-03-04)[2024-02-12]. htps://doi.org/10.48550/ arXiv. 1911. 00686.

[8]LI Y Z, CHANG MC,LYU S W. In ictu oculi: exposing AI created fake videos by detecting eye blinking[C]// IEEE International Workshop on Information Forensics and Security. Piscataway:IEEE Press,2018:1-7.

[9]SABIR E, CHENG J X, JAISWAL A, et al. Recurrentconvolution approach to DeepFake detection-state-of-art results on FaceForensics ++[EB/OL].(2019-05-16) [2024-02-12]. https://doi. org/10. 48550/arXiv. 1905. 00582.

[10] GANIYUSUFOGLU 1,NGO L M, SAVOV N, et al. Spatio-temporal features for generalized detection of deepfake videos[EB/OL]. (2020-10-22)[2024-02-12].https:// doi: org/10. 48550/arXiv. 2010. 11844.

[11] RAYCHAUDHURI D S, ROY-CHOWDHURY A K. Exploiting temporal coherence for self-supervised one-shot video re-identification[C]// European Conference on Computer Vision. Cham:Springer International Publishing,2020:258-274.

[12] MASI I,KILLEKAR A,MASCARENHAS R M,et al. Two-branch recurrent network for isolating deepfakes in videos[C]// European Conference on Computer Vision. Cham: Springer International Publishing,2020: 667 - 684.

[13]陳俊彥,黃雪鋒,韋俊宇,等.基于多圖時(shí)空注意力 的軌道交通客流預(yù)測(cè)模型[J].學(xué)報(bào)(理學(xué) 版),2023,55(4):39-45. CHEN JY,HUANG XF,WEI JY,et al.A prediction method of rail transit passenger flow based on multi-graph spatial and temporal attention[J].Journal of Zhengzhou university(natural science edition),2023,55(4):39- 45.

[14]LIMA O,F(xiàn)RANKLIN S,BASU S,et al. DeepFake detection using spatiotemporal convolutional networks[B/ OL].(2020-06-26)[2024-02-12]. https: // doi. org/ 10.48550/arXiv. 2006. 14749.

[15]LIU J,WANG G,HU P,et al.Global context-aware attention LSTM networks for 3D action recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE Press,2017:3671-3680.

[16]LUJS,YANG JW,BATRA D,et al.Hierarchical question-image co-attention for visual question answering [C]//Proceedings of the 3Oth International Conference on Neural Information Processing Systems. New York :ACM Press,2016:289-297.

[17]LI Y Z,YANG X,SUN P,et al. Celeb-DF:a largescale challenging dataset for DeepFake forensics [C]/AA IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press,2020:3204-3213.

[18]ROSSLER A,COZZOLINO D,VERDOLIVA L,et al. FaceForensics: learning to detect manipulated facial images[C]//IEEE/CVF International Conference on Computer Vision. Piscataway:IEEE Press, 2019:1-11.

[19]LIU H G,LI X D,ZHOU W B,et al. Spatial-phase shallow learning: rethinking face forgery detection in frequency domain[ C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press, 2021: 772-781.

[20] ZHAO HQ,WEI T Y,ZHOU W B,et al.Multiattentional deepfake detection[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE Press,2021: 2185-2194.

[21] ZHOU P, HAN X T, MORARIU V I, et al. Two-stream neural networks for tampered face detection[C]//IEEE Conference on Computer Vision and Pattern Recognition Workshops.Piscataway:IEEE Press,2017: 1831-1839.

主站蜘蛛池模板: 欧美日韩资源| 国产精品视频第一专区| 国产美女无遮挡免费视频网站| 亚洲欧美成人影院| 永久免费AⅤ无码网站在线观看| 日韩精品中文字幕一区三区| 天天色综网| 中文字幕日韩视频欧美一区| 欧美日韩va| 毛片久久久| 97国产在线视频| 欧美黄色网站在线看| 国产欧美又粗又猛又爽老| 97综合久久| 国产亚洲精品无码专| 国产精品一区二区国产主播| 亚洲 欧美 中文 AⅤ在线视频| 国产18页| 欧美色丁香| 国产激爽爽爽大片在线观看| 午夜日韩久久影院| 亚洲欧美成人在线视频| 亚洲日韩精品欧美中文字幕| 成人夜夜嗨| 亚洲日韩精品欧美中文字幕| 欧美视频二区| 欧美亚洲香蕉| 国产超碰在线观看| 自拍偷拍一区| 亚洲人成影视在线观看| 国内精品视频| 亚洲婷婷六月| 一级毛片免费的| 影音先锋丝袜制服| 国产精品视频久| 在线播放国产99re| 亚洲国内精品自在自线官| 天堂岛国av无码免费无禁网站 | 91福利国产成人精品导航| 一本无码在线观看| 亚洲成A人V欧美综合天堂| 久久精品无码中文字幕| 亚洲清纯自偷自拍另类专区| 国产精品区视频中文字幕| 午夜精品久久久久久久99热下载 | 亚洲成年人片| 亚洲嫩模喷白浆| 国产成人精品一区二区秒拍1o| 欧美性精品| 成人福利在线视频免费观看| 国产导航在线| 免费jjzz在在线播放国产| 国产爽妇精品| 国产一级在线观看www色 | 久久人人97超碰人人澡爱香蕉| 亚洲天堂网在线播放| 国产精品伦视频观看免费| 九九线精品视频在线观看| 亚洲日韩在线满18点击进入| 欧美亚洲一区二区三区导航| 永久成人无码激情视频免费| 亚洲AV色香蕉一区二区| 成年人久久黄色网站| 91视频首页| 黑人巨大精品欧美一区二区区| 欧美一级高清片久久99| 五月天婷婷网亚洲综合在线| 国产又爽又黄无遮挡免费观看| 国产真实乱人视频| 亚洲色精品国产一区二区三区| 国产精品欧美在线观看| 91精品伊人久久大香线蕉| 国产精品美女在线| 亚洲欧美人成电影在线观看| 国产综合另类小说色区色噜噜| 女人天堂av免费| 国产免费a级片| 亚洲男人的天堂网| 91在线日韩在线播放| 国产理论精品| 国产无人区一区二区三区| 自慰网址在线观看|