劉賢剛,范 博,郝春亮
(中國電子技術(shù)標(biāo)準(zhǔn)化研究院,北京 100007)
Deepfake 是一種深度圖像生成網(wǎng)絡(luò)的衍生技術(shù),它將深度學(xué)習(xí)與假臉合成技術(shù)相結(jié)合,可以通過變換人臉制造假臉圖像或視頻。2017 年Deepfake技術(shù)席卷全球,雖然遭到全網(wǎng)封禁,但這項(xiàng)技術(shù)仍然在不斷的更新進(jìn)化,越來越多的假臉視頻出現(xiàn)在國內(nèi)外各大視頻網(wǎng)站上。近期隨著技術(shù)門檻的不斷降低,普通用戶也能夠做出非常逼真的假臉效果。假臉視頻的泛濫,引起人們對(duì)于新聞媒體真實(shí)性的擔(dān)憂。此外,各類換臉軟件也存在隱私泄露的風(fēng)險(xiǎn)。由此所引發(fā)的人臉安全危機(jī),引起了人們的廣泛關(guān)注。2019 年國信辦印發(fā)的《網(wǎng)絡(luò)音視頻信息服務(wù)管理規(guī)定》中,4 次提及深度學(xué)習(xí),并針對(duì)AI 造假視頻進(jìn)行規(guī)定。面向Deepfake 技術(shù)的假臉檢測方法成為產(chǎn)業(yè)界和學(xué)術(shù)界的關(guān)注熱點(diǎn)。
近年來,國內(nèi)外發(fā)表了許多針對(duì)假臉檢測的研究,尤其是針對(duì)Deepfake 的檢測方法。各方法的思路、使用技術(shù)互有差異。
2017 年,Zhang 等人[1]用柵格劃分或者SURF提取關(guān)鍵點(diǎn)描述子,用K-means 方法生成特征,通過SVM、隨機(jī)森林、MLP 等分類器進(jìn)行2 分類。在自己建立的基于LFW 的假臉數(shù)據(jù)集中達(dá)到92%的準(zhǔn)確率。Zhou 等人[2]提出了一種雙流網(wǎng)絡(luò)結(jié)構(gòu)來捕獲篡改偽跡證據(jù)和局部噪聲殘差證據(jù)的方法,其中一個(gè)分支流是基于CNN 的人臉分類器,另一個(gè)是基于隱藏特征的三元組分支流。
2018 年,Güera 等人[3]提出端到端的假臉檢測系統(tǒng),通過預(yù)訓(xùn)練的InceptionV3 模型以及LSTM網(wǎng)絡(luò)計(jì)算真?zhèn)胃怕剩辉搱F(tuán)隊(duì)從網(wǎng)站上收集300 個(gè)Deepfake 視頻,在不到2 秒的視頻(以每秒24 幀的速度采樣40 幀的視頻)的情況下,這個(gè)系統(tǒng)可以準(zhǔn)確地分析該片段是否為深度偽造,準(zhǔn)確率達(dá)97%。Li 等人[4]研究發(fā)現(xiàn),Deepfake 合成視頻的訓(xùn)練樣本很少有閉眼的數(shù)據(jù),因此可以通過檢測視頻人臉的眨眼頻率來判別假臉;結(jié)合LSTM 單元以及二分類的交叉熵?fù)p失函數(shù)訓(xùn)練CNN 網(wǎng)絡(luò)。在真實(shí)視頻中檢測到34:1/min 眨眼頻率,但在虛假視頻中只有 3.4/min blinks,可以為區(qū)分假臉視頻提供依據(jù)。
2019 年,Nguyen 等人[5]提出多任務(wù)學(xué)習(xí)的方式用于檢測和分割處理過的面部圖像和視頻。Sabir等人[6]借鑒行為識(shí)別領(lǐng)域,利用時(shí)間信息處理視頻的方法,在FaceForensics++ 數(shù)據(jù)集上達(dá)到較好的檢測水平。Li 等[7]人根據(jù)Deepfake 假臉生成的原理,通過制造偽影的方式生成大量假臉數(shù)據(jù)集,使用多種網(wǎng)絡(luò)模型進(jìn)行假臉檢測,取得了較好的檢測效果。Yang 等[8]人研究發(fā)現(xiàn)Deepfake 生成的假臉從2D 面部圖像估計(jì)三維頭部姿態(tài)(比如頭的方向和位置)時(shí)與真實(shí)人臉之間會(huì)存在誤差;該團(tuán)隊(duì)進(jìn)行實(shí)驗(yàn)來證明了這一現(xiàn)象并且將這種特征用SVM 分類器進(jìn)行假臉分類。Gu 等[9]人提出了針對(duì)重要人物的專用假臉檢測技術(shù);該團(tuán)隊(duì)認(rèn)為人在說話時(shí)面部表情和頭部運(yùn)動(dòng)有獨(dú)特的模式,稱為軟生物特征,但是Deepfake 生成的假臉不會(huì)有這種特定的模式,同時(shí)考慮演講文本內(nèi)容對(duì)說話風(fēng)格和表情的影響,用不同的文本進(jìn)行實(shí)驗(yàn)平均AUC 達(dá)到了0.91。Hassan等人[10]提出一種使用區(qū)塊鏈的解決方案和通用框架,以追蹤和跟蹤數(shù)字內(nèi)容的來源和歷史到其原始來源,防止造假;該方案專注于視頻內(nèi)容,并認(rèn)為其框架通用于其他形式的數(shù)字內(nèi)容。
雖然上述方法取得了較好的效果,但在實(shí)際應(yīng)用過程中還存在諸多問題。如:使用算法復(fù)雜度高,計(jì)算開銷大,圖像的處理速度慢;LSTM 在對(duì)視頻幀處理時(shí),讀取的是整張圖像,背景噪聲影響較大,并且如果圖片中包含多張人臉時(shí),容易出現(xiàn)誤判。另外假臉生成技術(shù)在不斷更新,有些算法的針對(duì)性較強(qiáng),對(duì)新出現(xiàn)的假臉數(shù)據(jù)檢測精度大幅下降。
本文針對(duì)以上問題,提出了一種基于人臉特征點(diǎn)對(duì)齊的假臉檢測框架,其主要特點(diǎn)如下:
(1)使用對(duì)齊后的人臉區(qū)域特征進(jìn)行假臉判別,減少噪聲影響,降低計(jì)算復(fù)雜度;
(2)能夠同時(shí)滿足單張圖片中單人臉,與多人臉的假臉判別;
(3)對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)有較好兼容性;
(4)針對(duì)不同技術(shù)生成假臉的檢測有一定的通用性。
本文提出一種基于特征點(diǎn)對(duì)齊的假臉檢測方法,該框架指定的總體流程如圖1 所示。該流程首先從圖片或視頻幀中進(jìn)行人臉檢測,獲取關(guān)鍵特征點(diǎn),并根據(jù)關(guān)鍵特征點(diǎn)進(jìn)行人臉對(duì)齊,然后使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉特征提取,最后進(jìn)行假臉判別。該框架的主要特點(diǎn)是使用特征點(diǎn)對(duì)齊加強(qiáng)假臉識(shí)別流程的兼容性和準(zhǔn)確性。

圖1 假臉檢測總體流程
人臉檢測采用MTCNN[11]網(wǎng)絡(luò),MTCNN 是一個(gè)多任務(wù)網(wǎng)絡(luò),通過網(wǎng)絡(luò)級(jí)聯(lián)的方式,能夠同時(shí)輸出人臉框坐標(biāo),和人臉關(guān)鍵特征點(diǎn)坐標(biāo)。
根據(jù)檢測到的特征點(diǎn)坐標(biāo),與標(biāo)準(zhǔn)臉特征點(diǎn)的坐標(biāo)關(guān)系,計(jì)算出相似變換矩陣,然后使用相似變換矩陣對(duì)整張人臉圖片進(jìn)行相似變換,將人臉對(duì)齊到一個(gè)統(tǒng)一尺寸的圖像上,并將人臉區(qū)域扣取出來。相似變換是對(duì)原圖像做等距變換和均勻縮放,角度、平行性和垂直性不發(fā)生變換。相似變換矩陣公式如下:

通過相似變換,可以使圖像的特征分布趨于一致,但又不會(huì)改變像素間的平行關(guān)系,更容易發(fā)現(xiàn)真臉與假臉之間的差異。通過人臉檢測,可以只對(duì)人臉區(qū)域進(jìn)行處理,減少了背景噪聲的影響。
在進(jìn)行人臉特征提取時(shí),為了能夠得到更好的特征表達(dá),本文參考了現(xiàn)有的經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu),綜合考慮了算法模型的復(fù)雜度、執(zhí)行效率、以及在Imagenet 上的分類精度,選用了不同的骨干網(wǎng)絡(luò)(backbone)網(wǎng)絡(luò)進(jìn)行對(duì)比,研究不同算法模型在假臉檢測中的表現(xiàn)。
(1)ResNet:該網(wǎng)絡(luò)帶有Shortcut Connection機(jī)制[12],很好的解決了隨著網(wǎng)絡(luò)結(jié)構(gòu)加深而導(dǎo)致的梯度消散問題,從而使得能夠構(gòu)建更深的神經(jīng)網(wǎng)絡(luò),以獲得更好的性能。
(2)Inception ResNet:谷歌公司在Inception網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合殘差結(jié)構(gòu)發(fā)布的網(wǎng)絡(luò),在 ILSVRC 圖像分類基準(zhǔn)上取得了較高準(zhǔn)確率。
(3)Densenet:參考ResNet 的結(jié)構(gòu),同樣使用跨層連接,減輕了訓(xùn)練過程中的梯度消散,同時(shí)大量的特征被復(fù)用,使用少量的卷積核就可以生成大量的特征,所以模型的尺寸也比較小,在imagenet 上達(dá)到相同精度時(shí),其參數(shù)量和計(jì)算量可降為ResNet 的一半。
(4)ResNext:ResNet 的升級(jí)版,用平行堆疊相同拓?fù)浣Y(jié)構(gòu)的blocks 代替原來 ResNet 的三層卷積的block,在不明顯增加參數(shù)量級(jí)的情況下提升了模型的準(zhǔn)確率,同時(shí)由于拓?fù)浣Y(jié)構(gòu)相同,超參數(shù)也減少了。
面向上述4 個(gè)經(jīng)典backbone 網(wǎng)絡(luò),本文選取了ResNet50、densenet121、Inception ResNet v2、和ResNext50,使用4 種網(wǎng)絡(luò)分別對(duì)本文所提出的假臉檢測效果進(jìn)行實(shí)驗(yàn)驗(yàn)證。4 種模型的參數(shù)量如表1所示。本文在DFDC 數(shù)據(jù)集上,對(duì)上述4 種算法模型進(jìn)行了對(duì)比實(shí)驗(yàn)。

表1 網(wǎng)絡(luò)參數(shù)對(duì)比
由于ResNet 網(wǎng)絡(luò)廣泛的應(yīng)用基礎(chǔ),為了進(jìn)一步檢驗(yàn)算法模型對(duì)不同技術(shù)生成的假臉圖像的檢測能力,本文使用ResNet50 在多種數(shù)據(jù)集上進(jìn)行了訓(xùn)練和模型測試。為了提升圖像的處理效率,還對(duì)ResNet50 進(jìn)行了裁剪嘗試,使用了其中的部分殘差結(jié)構(gòu)。新模型在CPU 上的單幀處理時(shí)長為100ms左右。裁剪后的網(wǎng)絡(luò)結(jié)構(gòu)如表2 所示。

表2 裁剪后的殘差網(wǎng)絡(luò)
進(jìn)行假臉判別時(shí),本文使用了二分類交叉熵?fù)p失函數(shù):

上式中,n為被預(yù)測的樣本的個(gè)數(shù);yi′為判別為fake 的置信度;yi為樣本的真實(shí)label,當(dāng)被判別樣本為fake 時(shí)其值為1,否則為0。
本文設(shè)計(jì)兩組試驗(yàn),一組為對(duì)不同backbone 網(wǎng)絡(luò)的支持試驗(yàn),測試本文所提出框架對(duì)前文4 種主流backbone 網(wǎng)絡(luò)的支持。第二組為對(duì)不同Deepfake技術(shù)適用性試驗(yàn),測試本文所提出框架面向不同DeepFake 技術(shù)生成的假臉數(shù)據(jù)時(shí)的檢測效果。
試驗(yàn)過程中,模型訓(xùn)練用的硬件環(huán)境主要配置為,Tesla PH402 雙內(nèi)核顯卡,32G 顯存、2*14 核/28 線程 Xeon E5-2680 CPU、192G 內(nèi)存。深度學(xué)習(xí)環(huán)境為TensorFlow1.13.1、cuda9.0、cudnn7.0.4。
(1)對(duì)不同backbone 網(wǎng)絡(luò)的支持試驗(yàn)
作為算法模型對(duì)比的基線,本文選用了DFDC數(shù)據(jù)集,該數(shù)據(jù)集包含99 992 個(gè)偽造視頻,19154個(gè)非偽造視頻。在保證非偽造和偽造樣本均衡的前提下,通過人臉檢測,獲取到224x224 的人臉樣本,建立訓(xùn)練集、驗(yàn)證集和測試集,各數(shù)據(jù)集的樣本數(shù)量如表3 所示。

表3 數(shù)據(jù)集樣本數(shù)量
由于該數(shù)據(jù)集存在嚴(yán)重的樣本不均衡問題,因此在進(jìn)行數(shù)據(jù)集劃分時(shí),充分考慮了正、負(fù)樣本的數(shù)據(jù)配比,保證了最終人臉數(shù)據(jù)的比例均衡。
(2)對(duì)不同Deepfake 技術(shù)適用性試驗(yàn)
使用FaceForensics++[13]的數(shù)據(jù)集,將視頻中的每幀圖像單獨(dú)提取,進(jìn)行人臉檢測和對(duì)齊。將處理后的數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集、和測試集。考慮到樣本均衡,每種數(shù)據(jù)的數(shù)量分別如表4 所示。
(1)Backbone 對(duì)比實(shí)驗(yàn)
實(shí)驗(yàn)1,模型訓(xùn)練初始學(xué)習(xí)速率為0.00001,使用Adam 損失優(yōu)化器,共完成20 個(gè)周期的迭代。經(jīng)過測試,在0.5 閾值下,4 種網(wǎng)絡(luò)模型在DFDC 數(shù)據(jù)集上的實(shí)驗(yàn)測試結(jié)果如表5 所示。

表4 數(shù)據(jù)集樣本數(shù)量

表5 DFDC 數(shù)據(jù)集上試驗(yàn)結(jié)果
由結(jié)果可知,本文提出的框架在4 種試驗(yàn)設(shè)置下都獲得了較好的檢測準(zhǔn)確度。同時(shí),實(shí)驗(yàn)結(jié)果充分體現(xiàn)了各網(wǎng)絡(luò)的特點(diǎn),例如Inception 網(wǎng)絡(luò)的超參數(shù)設(shè)定的針對(duì)性比較強(qiáng),當(dāng)應(yīng)用在新的數(shù)據(jù)集上時(shí)擴(kuò)展性不好,因此Inception ResNet v2 的表現(xiàn)相對(duì)較弱;其它三種網(wǎng)絡(luò)可移植性較好,其效果也相對(duì)教好。
(2)對(duì)主流Deepfake 技術(shù)的檢測實(shí)驗(yàn)
使用ResNet50 模型同樣訓(xùn)練20 個(gè)epoch,在多種數(shù)據(jù)集上的測試精度如表6 所示。

表6 多種來源檢測結(jié)果
從結(jié)果可以看出,本文所述框架可以對(duì)不同開源的Deepfake 圖像進(jìn)行假臉判別。
本文提出了一種基于特征點(diǎn)對(duì)齊的針對(duì)Deepfake 進(jìn)行假臉檢測的檢測框架。實(shí)驗(yàn)證明,該框架對(duì)不同網(wǎng)絡(luò)結(jié)構(gòu)有較好兼容性,同時(shí)對(duì)不同Deepfake 技術(shù)生成假臉的檢測有一定的通用性。