封 筠 史屹琛 高宇豪 賀晶晶 余梓彤
1 (石家莊鐵道大學(xué)信息科學(xué)與技術(shù)學(xué)院 石家莊 050043)
2 (大灣區(qū)大學(xué) 廣東東莞 523000)(fengjun@stdu.edu.cn)
近年來,人臉識(shí)別系統(tǒng)被廣泛應(yīng)用于門禁、安防及支付等需要身份驗(yàn)證的場合,其高效、易用的特點(diǎn)備受贊譽(yù).然而,人臉數(shù)據(jù)可通過社交媒體、視頻網(wǎng)站等途徑輕松獲取,非法用戶常使用惡意的偽造人臉對識(shí)別系統(tǒng)進(jìn)行欺騙攻擊.基于活體檢測的人臉反欺詐(face anti-spoofing,F(xiàn)AS)技術(shù)作為前置保護(hù)措施,可確保人臉識(shí)別系統(tǒng)的安全性和可靠性,近年來吸引了國內(nèi)外研究者的廣泛關(guān)注.
隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域的快速發(fā)展,深度神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于人臉反欺詐任務(wù),其訓(xùn)練需要大量數(shù)據(jù),當(dāng)測試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)不服從同一分布時(shí),模型的性能會(huì)大幅度下降.受限于數(shù)據(jù)采集的高額成本,收集各領(lǐng)域數(shù)據(jù)并完成標(biāo)簽并不現(xiàn)實(shí).因此,需要在數(shù)據(jù)受限的情況下提升模型的泛化能力,即提高在跨域場景下的性能.為了解決該問題,無監(jiān)督領(lǐng)域自適應(yīng)技術(shù)被應(yīng)用于人臉反欺詐任務(wù),使用有標(biāo)簽的源域數(shù)據(jù)與無標(biāo)簽的目標(biāo)域數(shù)據(jù)共同訓(xùn)練得到一個(gè)在目標(biāo)域上性能良好的模型.其主要思想是將源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)的分布進(jìn)行對齊,使源域的標(biāo)簽知識(shí)可以被引入無監(jiān)督的目標(biāo)域中.研究者從不同的層面采用相應(yīng)的對齊策略進(jìn)行域自適應(yīng)人臉反欺詐方法研究,目前主流的對齊策略受生成對抗網(wǎng)絡(luò)啟發(fā),使用領(lǐng)域?qū)褂?xùn)練的方式對齊源域和目標(biāo)域特征.
領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)訓(xùn)練(domain-adversarial training of neural networks,DANN)[1]方法在對齊源域和目標(biāo)域特征時(shí),將其作為一個(gè)整體進(jìn)行對齊,如圖1(a)所示.然而,源域提取的特征中有大量與活體檢測任務(wù)無關(guān)的信息,如人臉的輪廓、五官信息等.由于特征對齊與下游的分類任務(wù)并行、獨(dú)立,所以將目標(biāo)域的特征與這些無關(guān)信息對齊,不僅無法直接服務(wù)于活體檢測任務(wù),還可能使模型訓(xùn)練向次優(yōu)方向推進(jìn).本文提出一種基于二次解耦與活體特征課程學(xué)習(xí)漸進(jìn)式對抗對齊的域自適應(yīng)人臉反欺詐(domain adaptation for face anti-spoofing based on dual disentanglement and liveness feature curriculum learning progressive adversarial alignment,DDCL)方法,如圖1(b)所示.在訓(xùn)練時(shí)加強(qiáng)源域和目標(biāo)域信息的交互,使得對齊任務(wù)直接服務(wù)于分類任務(wù).通過領(lǐng)域?qū)褂?xùn)練,漸進(jìn)式地將目標(biāo)域特征向源域的活體相關(guān)特征對齊,在減輕優(yōu)化難度的同時(shí)保證目標(biāo)域提取到與活體任務(wù)更為相關(guān)的分類特征.
本文的主要貢獻(xiàn)包括4個(gè)方面:
1)提出一種基于啟發(fā)式建模與分類器梯度的二次解耦方式,首先將源域特征解耦為域相關(guān)特征和域無關(guān)特征,之后將域無關(guān)特征解耦為活體相關(guān)特征和活體無關(guān)特征,用于后續(xù)領(lǐng)域特征對齊;
2)提出一種基于課程學(xué)習(xí)的領(lǐng)域?qū)節(jié)u進(jìn)式特征對齊訓(xùn)練策略,對源域解耦出的活體相關(guān)、無關(guān)特征進(jìn)行線性加權(quán)組合,將目標(biāo)域特征與其對齊,即在模型初始訓(xùn)練階段將目標(biāo)域特征與源域的活體無關(guān)特征進(jìn)行對齊,之后逐步提高活體相關(guān)特征所占比重,最終將目標(biāo)域與源域活體相關(guān)特征進(jìn)行對齊;
3)從因果推斷的角度出發(fā),將本文所提DDCL方法與主流的對抗對齊域自適應(yīng)方法進(jìn)行比較,不同于之前方法的源域和目標(biāo)域的對齊和分類彼此獨(dú)立,DDCL方法訓(xùn)練時(shí)源域和目標(biāo)域信息交互更為密切,特征對齊可直接服務(wù)于活體檢測任務(wù);
4)在4個(gè)公開數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果表明本文所提方法的優(yōu)越性,可以顯著提高無監(jiān)督域自適應(yīng)人臉反欺詐性能,與當(dāng)前先進(jìn)結(jié)果相比具有較強(qiáng)競爭力.
人臉反欺詐任務(wù)的目標(biāo)是判斷當(dāng)前待檢測人臉是來自于真實(shí)人臉還是各種材質(zhì)的假體攻擊.早期研究者根據(jù)專家的先驗(yàn)知識(shí),設(shè)計(jì)了一系列的手工特征,如紋理特征[2-4]、圖像質(zhì)量[5-6]、生理信號[7-8]、臉部運(yùn)動(dòng)[9-11]等.紋理特征分析方法被廣泛應(yīng)用于人臉反欺詐技術(shù),如LBP[2,12],SIFT[13],SURF[14],HOG[15]等.雖然手工特征方法對于真假人臉的判別非常重要,但是因其受限于研究者掌握的先驗(yàn)知識(shí),同時(shí)需要高分辨率圖像數(shù)據(jù),導(dǎo)致手工特征盡管在訓(xùn)練數(shù)據(jù)集上表現(xiàn)很好,但由于圖像采集條件和攻擊媒介的多樣性,使得手工提取特征的方法難以具有高的魯棒性.
在計(jì)算機(jī)視覺領(lǐng)域,數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法表現(xiàn)大幅度優(yōu)于手工提取特征方法,將深度神經(jīng)網(wǎng)絡(luò),如CNN,Transformer等引入人臉反欺詐任務(wù),識(shí)別性能通常會(huì)有較大提升,是當(dāng)前研究的重點(diǎn).Yang等人[16]使用CNN作為特征提取器,分類真實(shí)人臉和欺詐樣本.研究發(fā)現(xiàn),純神經(jīng)網(wǎng)絡(luò)往往難以滿足判別要求,此后出現(xiàn)一系列輔助信息如深度圖[17-19]、反射圖[15]、光流信號[20-22]等與深度學(xué)習(xí)方法相結(jié)合,模型設(shè)計(jì)和優(yōu)化側(cè)重各有不同.Yu等人[23]巧妙地將手工LBP特征與CNN結(jié)合,較普通CNN而言能捕獲到更多連續(xù)的偽造線索,如晶格偽影;還使用神經(jīng)架構(gòu)搜索(neural architecture search, NAS)技術(shù)自動(dòng)探索網(wǎng)絡(luò)架構(gòu)最優(yōu)參數(shù),提高判別效率和精度,相比于現(xiàn)有方法其準(zhǔn)確率高,但跨庫測試錯(cuò)誤率較高,模型泛化能力欠佳.
為提升活體檢測模型的泛化能力,充分利用全部數(shù)據(jù),減小源域和目標(biāo)域數(shù)據(jù)因光照、環(huán)境等因素產(chǎn)生的領(lǐng)域分布差異,研究者將域自適應(yīng)技術(shù)引入人臉反欺詐.現(xiàn)有的無監(jiān)督域自適應(yīng)人臉反欺詐方法,主要包括數(shù)據(jù)分布對齊和領(lǐng)域?qū)箤R2類方法.
在數(shù)據(jù)分布對齊方法中,Li 等人[24]通過最小化源域和目標(biāo)域特征空間之間的最大均值差異(maximum mean discrepancy,MMD)[25],學(xué)習(xí)到一個(gè)泛化性更強(qiáng)的分類器.Tu 等人[26]通過減小源域和目標(biāo)域之間基于核方法的 MMD 距離來提高模型的泛化性.然而僅僅通過減小領(lǐng)域之間的MMD 距離可能無法充分探索源域之間的有用信息,因此目前使用對抗遷移學(xué)習(xí)的方式成為研究熱點(diǎn)[27].
在領(lǐng)域?qū)箤R方法中,Kim 等人[28]提出一種風(fēng)格指導(dǎo)的領(lǐng)域自適應(yīng)框架,通過風(fēng)格選擇歸一化構(gòu)造推理自適應(yīng)模型,實(shí)現(xiàn)利用特定領(lǐng)域的風(fēng)格信息指導(dǎo),自動(dòng)將模型適配到目標(biāo)數(shù)據(jù).Hamblin等人[29]提出一種新的領(lǐng)域自適應(yīng)框架,利用多模態(tài)數(shù)據(jù)改善基于可見光的呈現(xiàn)攻擊檢測(presentation attack detection,PAD)任務(wù).Wang 等人[30]采用對抗訓(xùn)練方式由特征提取器獲得源域和目標(biāo)域的共同特征,同時(shí)使用三元組損失在特征空間上盡可能分散真實(shí)人臉和假體攻擊,最后使用K近鄰分類.El-Din 等人[31]認(rèn)為只使用對抗訓(xùn)練方式進(jìn)行領(lǐng)域自適應(yīng),會(huì)在目標(biāo)域與源域攻擊方式和設(shè)備類型不同的情況下無法得到好的結(jié)果,所以為保存一些目標(biāo)域特有的屬性,采用深度聚類生成偽標(biāo)簽進(jìn)行輔助訓(xùn)練.
由易到難的學(xué)習(xí)策略在人類教育中很常見,研究者將其引入深度學(xué)習(xí)領(lǐng)域.課程學(xué)習(xí)作為一種模仿人類學(xué)習(xí)方式的深度學(xué)習(xí)訓(xùn)練范式,其主要思想是模型先從簡單數(shù)據(jù)開始學(xué)習(xí),然后逐步增加學(xué)習(xí)數(shù)據(jù)的難度,直至學(xué)習(xí)整個(gè)數(shù)據(jù)集.Yang等人[32]利用課程學(xué)習(xí)將目標(biāo)域樣本與動(dòng)態(tài)選擇的源域樣本對齊,以利用源域樣本的不同的可遷移性.Shu等人[33]提出從較多的域內(nèi)數(shù)據(jù)(類似于目標(biāo)域)訓(xùn)練到較少的域內(nèi)數(shù)據(jù),指導(dǎo)模型在充分利用源域數(shù)據(jù)的同時(shí)適應(yīng)目標(biāo)域.Gong等人[34]將每種特征與教師聯(lián)系,設(shè)計(jì)一種多模態(tài)課程學(xué)習(xí)策略以整合來自不同特征模態(tài)的信息.Wang等人[35]提出一個(gè)統(tǒng)一的動(dòng)態(tài)課程學(xué)習(xí)框架,自適應(yīng)地調(diào)整每個(gè)批次的抽樣策略和權(quán)重,以提高泛化和辨別能力.
鑒于當(dāng)前基于對抗訓(xùn)練的域自適應(yīng)人臉反欺詐方法,通常無法保證對齊任務(wù)直接服務(wù)于活體分類任務(wù),模型往往會(huì)向著次優(yōu)的方向訓(xùn)練,本文首先通過雙解耦獲得域無關(guān)活體相關(guān)特征,即將由啟發(fā)式解耦所得到的域無關(guān)特征,進(jìn)一步解耦為活體相關(guān)特征和活體無關(guān)特征.由于活體無關(guān)特征對齊簡單,但對真假人臉分類任務(wù)而言,其作用弱于活體相關(guān)特征,在充分解耦的理想情況下,活體無關(guān)特征對分類任務(wù)沒有幫助,所以接著采用基于課程學(xué)習(xí)的漸進(jìn)式特征對齊域?qū)褂?xùn)練策略,即在訓(xùn)練前期將目標(biāo)域與源域活體無關(guān)部分進(jìn)行對齊,隨著訓(xùn)練的迭代,逐步將目標(biāo)域特征與源域的活體相關(guān)特征對齊,從而提升模型在目標(biāo)域上的泛化能力,本文所提DDCL方法的整體流程如圖2所示.

Fig.2 Pipeline of DDCL method proposed in this paper圖2 本文DDCL方法整體流程
輸入模型的數(shù)據(jù){xi}Ni=1(xi∈[0,255]3×H×W)包含多個(gè)領(lǐng)域的真實(shí)人臉和假體攻擊,其中N是訓(xùn)練集大小,H×W是圖像尺寸.整體模型主要由域無關(guān)特征提取器(domain invariant feature extractor,DIFE)、域判別器(discriminator)和分類器(classifier)3部分構(gòu)成.DIFE通過啟發(fā)式建模提取源域和目標(biāo)域共有的域無關(guān)特征,域判別器用于判斷輸入的特征來自源域還是目標(biāo)域,分類器根據(jù)提取好的特征進(jìn)行真實(shí)人臉和假體攻擊的分類.利用源域數(shù)據(jù)訓(xùn)練分類器之后,計(jì)算標(biāo)簽y對于源域特征的梯度gcls,使用梯度對源域特征進(jìn)行解耦得到活體無關(guān)特征fneg和 活體相關(guān)特征fpos.隨著訓(xùn)練輪次的迭代,調(diào)整fneg和fpos的加權(quán)參數(shù)組合為fali,通過對抗訓(xùn)練將目標(biāo)域特征ft與fali對齊.
現(xiàn)有在源域上訓(xùn)練的人臉反欺詐模型通常不能很好地推廣到目標(biāo)域數(shù)據(jù).為了解決該問題,本文的研究重點(diǎn)是如何提升人臉活體在跨域場景下的泛化能力,首先對無監(jiān)督域自適應(yīng)人臉反欺詐任務(wù)進(jìn)行形式化定義:
進(jìn)一步,γ可以被分解為特征提取器ω和分類器?兩部分,即γ=??ω,其中ω負(fù)責(zé)提取目標(biāo)域和源域共有且與任務(wù)相關(guān)的特征ω:X→Z,?對提取到的特征進(jìn)行分類?:Z→Y.因此式(1)可改寫為
同時(shí)引入域判別器D:Z→{0,1},用于減小領(lǐng)域之間的分布差異.
為達(dá)到域無關(guān)活體特征充分解耦目的,本文提出一種基于啟發(fā)式建模與分類梯度的二次解耦方法.首先利用啟發(fā)式建模將源域特征解耦為域相關(guān)和域無關(guān)部分,之后通過分類器梯度,將域無關(guān)特征解耦為活體相關(guān)部分和活體無關(guān)部分.
1)基于啟發(fā)式建模的域無關(guān)特征解耦
在域自適應(yīng)中,由于源域和目標(biāo)域數(shù)據(jù)之間存在領(lǐng)域差異,直接得到域無關(guān)特征用于下游任務(wù)并不現(xiàn)實(shí),為了減輕源域和目標(biāo)域特征的對齊難度,通過啟發(fā)式建模解耦特征.
假設(shè)1:假設(shè)特征fori由域相關(guān)特征fspc和域無關(guān)特征finv組 成,且對于fspc建模的難度要小于對finv特征建模.
該假設(shè)被認(rèn)為是領(lǐng)域自適應(yīng)的先驗(yàn)假設(shè)[36],fspc的建模難度介于finv和fori之間.為了減輕finv的建模難度,借鑒啟發(fā)式搜索的思想,對fspc建模以逼近理想的finv,本文構(gòu)建多重子網(wǎng)絡(luò)提取特征,如圖2左下所示.具體來說,使用一個(gè)基礎(chǔ)神經(jīng)網(wǎng)絡(luò)F(x)提取全局特征,多重子網(wǎng)絡(luò)H(x)提取對應(yīng)的域相關(guān)特征fspc,對域無關(guān)特征finv進(jìn) 行輔助表示,理想的域無關(guān)特征finv可以表示為
在域自適應(yīng)中,若finv訓(xùn)練到理想的收斂狀態(tài),H(x)提取到的特征fspc應(yīng)逐步收斂到接近于0,以使得finv可 以有效代表域無關(guān)特征.將fspc的L1范數(shù)作為正則項(xiàng),以逐漸減少finv中 的域相關(guān)部分,其損失為
其中,M為域相關(guān)特征數(shù)量.
2)基于分類器梯度的活體特征解耦
若僅將特征解耦為域相關(guān)和域無關(guān)并不是最優(yōu)的,這是由于真實(shí)人臉和假體人臉的數(shù)據(jù)都包含完整、清晰的人臉結(jié)構(gòu)部分,如人臉的五官、輪廓及膚色等,故而域無關(guān)的特征中包含大量與活體任務(wù)不相關(guān)的特征.將源域和目標(biāo)域的活體無關(guān)特征進(jìn)行對齊盡管簡單,但無法保證模型向最優(yōu)方向進(jìn)行優(yōu)化.本文提出基于分類器梯度的第2次解耦方式,將源域的域無關(guān)特征解耦為活體相關(guān)與活體無關(guān)2部分,訓(xùn)練的理想狀態(tài)是將目標(biāo)域特征與源域的活體相關(guān)特征對齊.
假設(shè)2:假設(shè)特征finv由 活體相關(guān)特征fpos和活體無關(guān)特征fneg組 成,fpos較fneg難 對齊.
Grad-CAM[38-39]通過圖像分類層的最后一層輸出權(quán)重衡量上一層生成的每個(gè)通道的重要性,再對各通道的所有像素點(diǎn)的值加權(quán),得到對于分類結(jié)果最重要的像素點(diǎn).通過該方式可以識(shí)別出對于當(dāng)前分類任務(wù)來說,圖像的哪些部分是與任務(wù)最相關(guān)的.使用特征提取器ω得到源域特征fs, 分類器?對其進(jìn)行分類,可以得到對應(yīng)類別的預(yù)測結(jié)果y對于fs的梯度gcls:
將gcls和fs做hadamard積,得到活體相關(guān)的特征信息fpos:
其中,s為一個(gè)非負(fù)的自適應(yīng)縮放系數(shù),目的是保證fpos與fs兩 者能量大小保持一致,確保fpos在 對齊時(shí)占據(jù)主導(dǎo)地位.其計(jì)算方式為
同時(shí)根據(jù)假設(shè)2得到活體無關(guān)特征fneg:
之后將目標(biāo)域特征漸進(jìn)式地與活體相關(guān)特征fpos和活體無關(guān)特征fneg的加權(quán)組合進(jìn)行對齊.
受人類認(rèn)知原理的啟發(fā),Bengio等人[40]提出了課程學(xué)習(xí)的概念,即模仿人類課程中有意義的學(xué)習(xí)順序,在模型訓(xùn)練時(shí)由容易到復(fù)雜、逐步進(jìn)階地學(xué)習(xí)樣本和知識(shí).課程學(xué)習(xí)的核心在于利用人類專家的先驗(yàn)知識(shí)設(shè)計(jì)一個(gè)排序函數(shù),據(jù)此對每個(gè)數(shù)據(jù)任務(wù)給出其學(xué)習(xí)的優(yōu)先度.
在領(lǐng)域特征對齊時(shí),利用梯度計(jì)算將源域的域無關(guān)特征解耦為活體相關(guān)fpos和活體無關(guān)fneg.其中活體無關(guān)部分在源域和目標(biāo)域中廣泛存在,故對齊容易,但活體相關(guān)部分對齊則困難很多.受課程學(xué)習(xí)的啟發(fā),本文提出一種漸進(jìn)式特征對齊訓(xùn)練策略,在訓(xùn)練的不同階段分別對齊活體無關(guān)部分和活體相關(guān)部分,以使得模型順利優(yōu)化,如圖3所示.具體來說,通過將目標(biāo)域特征ft與源域fpos和fneg的 線性組合fali進(jìn)行對齊實(shí)現(xiàn)的,隨著訓(xùn)練迭代次數(shù)的遞進(jìn),逐步增加fpos的 權(quán)重,fali計(jì)算為

Fig.3 Progressive feature alignment diagram圖3 漸進(jìn)式特征對齊示意圖
其中,權(quán)重α隨著訓(xùn)練的迭代單調(diào)遞增.為了避免復(fù)雜的超參數(shù)選擇,本文給出一種簡單的計(jì)算方式,即α=t/T,t和T分別是當(dāng)前訓(xùn)練的輪次以及總共的訓(xùn)練輪次.
在訓(xùn)練開始時(shí)α= 0,此時(shí)ft只與fneg對齊,對齊難度低但對齊的特征并不具備理想的真人、假體鑒別能力;逐步增加fpos在fali所占比重即加大α,提升ft與活體任務(wù)的相關(guān)性;在訓(xùn)練的最終階段α= 1,ft將只與fpos進(jìn)行對齊,這時(shí)所提取到的特征泛化性強(qiáng)且與活體檢測相關(guān),利于后續(xù)目標(biāo)域分類.
借鑒DANN[1]方法,假定領(lǐng)域按數(shù)據(jù)集劃分,即來自同一數(shù)據(jù)集的數(shù)據(jù)屬于相同領(lǐng)域,不同數(shù)據(jù)集為不同領(lǐng)域,領(lǐng)域包含的類別為真實(shí)人臉和假體攻擊.訓(xùn)練階段的目標(biāo)是:
1)訓(xùn)練特征提取器和分類器,實(shí)現(xiàn)源域數(shù)據(jù)的準(zhǔn)確分類;
2)通過對抗方式訓(xùn)練特征提取器,欺騙域判別器,以學(xué)習(xí)領(lǐng)域不變的特征表示.
具體來說,首先通過最小化分類損失和特征提取器的損失,優(yōu)化特征提取器參數(shù)θω和分類器參數(shù)θ?:
這里,?y為交叉熵?fù)p失,如式(13)所示.
其中,p為真實(shí)概率分布,q為預(yù)測的概率分布.之后將特征提取器參數(shù)θω和分類器參數(shù)θ?固定,最大化域判別器d的損失,優(yōu)化參數(shù)θd:
損失函數(shù)?d為
交替執(zhí)行式(12)和式(14)相應(yīng)步驟,直到網(wǎng)絡(luò)收斂,在特征提取器和域判別器之間引入梯度反轉(zhuǎn)層(gradient reversal layer,GRL)以方便訓(xùn)練.前向傳播時(shí),GRL是一個(gè)恒等映射;反向傳播時(shí),通過乘以負(fù)的系數(shù)將梯度進(jìn)行反轉(zhuǎn).
使用特征提取器提取源域人臉特征fs, 將其解耦為fpos和fneg,并進(jìn)行線性加權(quán)組合得到源域待對齊特征fali,之后通過領(lǐng)域?qū)褂?xùn)練的方式將待對齊fali特征與目標(biāo)域特征ft對齊.即將式(15)簡化為
由式(5)(13)(16)得到總體損失為
因果圖是一個(gè)有向無環(huán)圖G=〈N,L〉,能夠用于表示結(jié)構(gòu)因果模型.其中,每個(gè)變量在節(jié)點(diǎn)集N中均有一個(gè)對應(yīng)的節(jié)點(diǎn),因果鏈接L可描述這些變量如何相互作用.圖1(a)可視為通常采用的領(lǐng)域?qū)褂?xùn)練方法的因果圖,源域和目標(biāo)域數(shù)據(jù)作為因,訓(xùn)練所得模型作為果,模型參數(shù)由源域和目標(biāo)域數(shù)據(jù)共同訓(xùn)練得到.邊S→M和T→M分別表示源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)對于最終模型參數(shù)的影響,可以理解為源域的分類任務(wù)與目標(biāo)域的對齊任務(wù)對于模型的作用.但在這種訓(xùn)練范式下,形狀為對撞結(jié)構(gòu)的因果圖在節(jié)點(diǎn)M不固定時(shí),源域數(shù)據(jù)S和目標(biāo)域數(shù)據(jù)T沒有建立聯(lián)系.由于源域和目標(biāo)域提取的特征中有著大量與活體檢測任務(wù)無關(guān)的信息,領(lǐng)域?qū)箤R任務(wù)無法直接服務(wù)于分類任務(wù),故其對于模型參數(shù)的優(yōu)化為次優(yōu)方向.
干預(yù)是因果推斷中的一項(xiàng)技術(shù),通過直接操作變量來分析因果關(guān)系.本文通過將活體信息從源域特征中解耦,并使目標(biāo)域特征向其對齊,可視為在源域和目標(biāo)域之間施加干預(yù)操作,對應(yīng)的因果圖如圖1(b)所示.通過干預(yù)手段,在節(jié)點(diǎn)S和節(jié)點(diǎn)T之間建立聯(lián)系,將目標(biāo)域與源域中活體相關(guān)部分進(jìn)行對齊,使得對齊任務(wù)直接服務(wù)于活體檢測分類任務(wù).圖3詳細(xì)展示了基于課程學(xué)習(xí)漸進(jìn)式對齊的干預(yù)過程,在模型訓(xùn)練的不同階段施加不同的干預(yù)措施.具體來說,目標(biāo)域特征從最初僅與源域活體無關(guān)特征對齊,逐步過渡為與源域活體無關(guān)和相關(guān)特征組合對齊,最終漸變?yōu)閮H與源域活體相關(guān)特征對齊.通過干預(yù)的手段,將先驗(yàn)知識(shí)人為地引入到模型的訓(xùn)練過程,使得模型的因果圖不再是對撞結(jié)構(gòu),從而避免源域和目標(biāo)域的訓(xùn)練和對齊任務(wù)相互獨(dú)立,使得模型的優(yōu)化更為高效.
本文對人臉反欺詐技術(shù)中廣泛使用的4個(gè)公開數(shù)據(jù)集進(jìn)行測評: CASIA-MFSD(C),Idiap Replay-Attack(I),MSU-MFSD(M),OULU-NPU(O).
1)CASIA-MFSD[41].由50個(gè)志愿者參與錄制,共計(jì)600個(gè)視頻.該數(shù)據(jù)集收集的活體和假體的人臉信息較為豐富,其中每個(gè)志愿者錄制了3個(gè)活體人臉視頻和9個(gè)假體人臉視頻,共計(jì)12個(gè)視頻.假體攻擊包括完整的平展、彎曲彩色照片假體攻擊、挖去眼睛的假體攻擊以及視頻重放假體攻擊.
2)Idiap Replay-Attack[42].由50個(gè)志愿者參與錄制,共計(jì)1 300個(gè)視頻.這些視頻是由320×240分辨率的MacBook上的網(wǎng)絡(luò)攝像頭在2種情況下拍攝,即背景單一和光照均勻的固定條件,以及背景顏色豐富和自然光照不利的復(fù)雜條件.使用佳能PowerShot型攝像頭拍攝高分辨率的人臉視頻,然后使用iPad 1(1 024×768)和iPhone 3GS(480×320)進(jìn)行回放,并打印在紙上.
3)MSU-MFSD[43].由35個(gè)志愿者參與錄制,共計(jì)280個(gè)視頻.這些視頻分別由分辨率為640×480和720× 480的筆記本電腦攝像頭和智能手機(jī)攝像頭拍攝.主要有打印照片攻擊和視頻重放攻擊2種不同的假體攻擊.
4)OULU-NPU[44].由55個(gè)志愿者參與錄制,共計(jì)4 950個(gè)視頻.這些視頻使用6款移動(dòng)設(shè)備的前置攝像頭,在3種不同光照條件和背景場景中拍攝.假體攻擊類型包括打印照片攻擊和視頻重放攻擊,使用2臺(tái)不同的打印機(jī)和2臺(tái)不同的顯示設(shè)備進(jìn)行攻擊.
主干網(wǎng)絡(luò)采用ResNet50,分類器為單層全連接層,輸入輸出維度均為(1 024,2),判別器使用3層全連接層,輸入輸出維度分別為(2,1 024),(1 024,1 024)和(1 024,2).啟發(fā)式子網(wǎng)絡(luò)采用單層全連接層,尺寸為(2,1 024).Batchsize大小為36,采用隨機(jī)梯度下降算法優(yōu)化模型,初始學(xué)習(xí)率為1e - 3,衰減系數(shù)設(shè)置為5e - 4.使用MTCNN人臉檢測模型對原始視頻數(shù)據(jù)集進(jìn)行人臉區(qū)域的檢測和裁剪,人臉圖片的大小為256×256×3.在PyTorch深度學(xué)習(xí)框架上進(jìn)行實(shí)驗(yàn),主要硬件配置為Intel Core i7-7800X CPU 和NVIDIA Tesla A100.
使用半錯(cuò)誤率HTER作為評價(jià)指標(biāo),其計(jì)算公式為
其中,F(xiàn)AR是錯(cuò)誤接受率,表示將假體攻擊判斷成活體人臉的比率;FRR是錯(cuò)誤拒絕率,表示將活體人臉判斷成假體攻擊的比率.顯然,HTER越小,則模型性能越好.
為了驗(yàn)證所提方法的有效性和先進(jìn)性,在C,I,M,O 4個(gè)數(shù)據(jù)集上隨機(jī)選擇2個(gè)數(shù)據(jù)集分別作為源域與目標(biāo)域,進(jìn)行域自適應(yīng)實(shí)驗(yàn),如C-I測評協(xié)議表示C為源域且I為目標(biāo)域.由表1可見,與現(xiàn)有10種方法相比,本文所提DDCL方法在4個(gè)測評協(xié)議上均達(dá)到了當(dāng)前先進(jìn)水平,獲得最佳HTER結(jié)果,尤其是在I-M,M-O,O-M這3個(gè)測評協(xié)議上的HTER值分別為12.4%,23.0%和12.8%,性能分別超出10種對比方法中的最佳方法DR-UDA 16.6個(gè)百分點(diǎn),7.2個(gè)百分點(diǎn)與14.6個(gè)百分點(diǎn).同時(shí)可以看到,在M-I測評協(xié)議上的HTER值高于DR-UDA方法17.0個(gè)百分點(diǎn),仍有較大的提升空間.總體來說,本文所提DDCL方法在12個(gè)測評協(xié)議上獲得了22.5%的最佳平均HTER值,性能略超出DR-UDA方法0.6個(gè)百分點(diǎn),取得了與當(dāng)前先進(jìn)結(jié)果相比更強(qiáng)的競爭力,能顯著降低模型在目標(biāo)域上的錯(cuò)誤率,具有更好的跨域泛化能力.

Table 1 HTER Comparison of Different Methods表1 不同方法的HTER對比%
本節(jié)通過4方面消融實(shí)驗(yàn)以考察所提方法中各個(gè)策略的有效性,包括啟發(fā)式解耦、漸進(jìn)式特征對齊方式、對齊特征加權(quán)組合方式以及權(quán)重參數(shù)計(jì)算方法.
3.5.1 啟發(fā)式解耦的影響
為了驗(yàn)證啟發(fā)式解耦對實(shí)驗(yàn)結(jié)果的影響,通過多重子網(wǎng)絡(luò)將源域特征解耦成域相關(guān)和域無關(guān)2種特征,以觀察是否有助于模型訓(xùn)練.表2給出是否使用啟發(fā)式解耦方式的實(shí)驗(yàn)結(jié)果,啟發(fā)式解耦的平均HTER值較無啟發(fā)式解耦降低3.0個(gè)百分點(diǎn),可見使用啟發(fā)式解耦能顯著提高模型性能,在I-M,I-O,M-C,M-I,M-O,O-I,O-C,O-M等8個(gè)測評協(xié)議上的結(jié)果都優(yōu)于不使用啟發(fā)式解耦的結(jié)果,尤其是在I-M與OC測評協(xié)議上的提升效果最為明顯,HTER值分別降低11.8個(gè)百分點(diǎn)與13.5個(gè)百分點(diǎn).但在C-I,C-M,CO和I-C這4個(gè)測評協(xié)議上,啟發(fā)式解耦的結(jié)果并不如無啟發(fā)式解耦,不過兩者HTER差值最高為5.1個(gè)百分點(diǎn).分析其原因,可能是C數(shù)據(jù)集的圖像風(fēng)格特征與其他數(shù)據(jù)集相比并不突出,致使域無關(guān)解耦的效果并不是特別明顯.因此,啟發(fā)式解耦尤其適用于源域與目標(biāo)域的圖像風(fēng)格差異明顯(即不同域之間存在具有明顯差異的域相關(guān)特征)的域自適應(yīng)人臉反欺詐任務(wù).

Table 2 Influence of Heuristic Disentanglement on HTER表2 啟發(fā)式解耦對HTER的影響%
為了進(jìn)一步說明多重子網(wǎng)絡(luò)有助于啟發(fā)式解耦,在O-I,O-C與O-M測評協(xié)議上實(shí)驗(yàn)了不同個(gè)數(shù)的子網(wǎng)絡(luò)對結(jié)果的提升,將子網(wǎng)絡(luò)數(shù)量分別設(shè)置為2,3,4.由表3可知,除O-C測評協(xié)議中使用4個(gè)子網(wǎng)絡(luò)相較于不使用啟發(fā)式解耦(表3中子網(wǎng)絡(luò)數(shù)量為0)測試的HTER值有所增加外,其他多重子網(wǎng)絡(luò)解耦實(shí)驗(yàn)結(jié)果都優(yōu)于無啟發(fā)式解耦,尤其是當(dāng)子網(wǎng)絡(luò)數(shù)量為3時(shí),這3個(gè)測評協(xié)議的HTER值均為最佳,表明合適數(shù)量的多重子網(wǎng)絡(luò)對于域相關(guān)、域無關(guān)解耦有顯著作用.

Table 3 Influence of Multiple Sub-networks on HTER表3 多重子網(wǎng)絡(luò)對HTER的影響%
此外,為了進(jìn)一步驗(yàn)證多重子網(wǎng)絡(luò)能夠有效解耦域相關(guān)特征和域無關(guān)特征,分別計(jì)算這2種特征在源域和目標(biāo)域之間的最大均值差異,MMD是一個(gè)衡量不同分布之間差異的度量方式,MMD值越小則分布之間的差異越小.圖4為按源域?qū)?2個(gè)測評協(xié)議進(jìn)行分組,對于每個(gè)測評協(xié)議分別展示訓(xùn)練時(shí)源域和目標(biāo)域間的域相關(guān)特征的MMD變化曲線,以及兩者域無關(guān)特征的MMD變化曲線,圖4中域相關(guān)特征標(biāo)記為spc且以虛線表示,域無關(guān)特征標(biāo)記為inv且以實(shí)線表示.其中,8個(gè)測評協(xié)議上域相關(guān)特征的MMD值約在2~5之間,而12個(gè)測評協(xié)議上針對域無關(guān)特征的MMD值均在0~1.5之間,可知在同一測評協(xié)議上域相關(guān)特征與域無關(guān)特征的MMD值差異較顯著,同時(shí)發(fā)現(xiàn)對于同一源域的域無關(guān)特征,MMD值相近,表明多重子網(wǎng)絡(luò)可以有效地解耦出源域和目標(biāo)域共有的域無關(guān)特征.

Fig.4 MMD variation curves between source domain and target domain during training圖4 訓(xùn)練時(shí)源域和目標(biāo)域間的MMD變化曲線
3.5.2 課程學(xué)習(xí)漸進(jìn)式對齊的影響
表4展示了不同對齊方式的影響,其中DANN為不進(jìn)行活體特征解耦,其將源域和目標(biāo)域特征直接通過對抗訓(xùn)練的方式進(jìn)行對齊;活體相關(guān)對齊為在對抗訓(xùn)練全程目標(biāo)域特征僅與源域的活體相關(guān)特征對齊;活體無關(guān)對齊則為在對抗訓(xùn)練全程目標(biāo)域特征僅與源域的活體無關(guān)特征進(jìn)行對齊.

Table 4 Influence of Feature Alignment Patterns on HTER表4 特征對齊方式對HTER的影響 %
由表4可知,本文所提DDCL方法與其他3種不采用課程學(xué)習(xí)的對齊方式相比,在C-M,I-M,I-C,MC,M-I與O-C這6個(gè)測評協(xié)議上達(dá)到最佳結(jié)果,尤其是C-M,I-M與M-C結(jié)果較活體相關(guān)對齊方式有大幅度改善,性能提升均超過10.0個(gè)百分點(diǎn).從平均HTER值來看,DDCL對齊方式取得最佳結(jié)果,分別較DANN、活體相關(guān)對齊、活體無關(guān)對齊這3種不采用課程學(xué)習(xí)的對齊方式性能提升6.0個(gè)百分點(diǎn),6.2個(gè)百分點(diǎn)與4.5個(gè)百分點(diǎn).盡管活體相關(guān)對齊在C-I,C-O與MO的結(jié)果要優(yōu)于其他方式,但優(yōu)勢并不十分明顯,較DDCL性能提升均低于4.0個(gè)百分點(diǎn);同時(shí)活體相關(guān)對齊的C-M,I-C,I-O,M-C與O-M性能下降嚴(yán)重,尤其是I-C,M-C與O-M結(jié)果較DDCL性能下降均超過16.0個(gè)百分點(diǎn).同時(shí)發(fā)現(xiàn),活體無關(guān)對齊方式這種理想情況下無用的對齊方式,雖然在I-O和O-M上取得了最佳結(jié)果,但與DDCL的性能差異不顯著.活體無關(guān)對齊方式的HTER隨訓(xùn)練輪次變化曲線如圖5所示,可見活體無關(guān)對齊大部分在訓(xùn)練的最初階段取得較好結(jié)果,但隨著訓(xùn)練的迭代,HTER波動(dòng)較大,存在逐步上升的趨勢,表明活體無關(guān)特征與分類任務(wù)相關(guān)性不強(qiáng).此外,由圖6的熱力圖可以看出,漸進(jìn)式對齊所關(guān)注的人臉區(qū)域更多,且不局限于五官等活體無關(guān)部分.因此總體來說,與其他3種不采用課程學(xué)習(xí)的對齊方式相比,引入課程學(xué)習(xí)進(jìn)行漸進(jìn)式特征對齊的有效性較為顯著.

Fig.5 HTER variation curves of different training epochs in live-unrelated feature alignment圖5 活體無關(guān)特征對齊不同訓(xùn)練輪次的HTER變化曲線

Fig.6 Heat maps comparison of different feature alignment patterns圖6 不同特征對齊方式的熱力圖對比
3.5.3 對齊特征加權(quán)組合方式的影響
這里驗(yàn)證不同加權(quán)組合方式對最終結(jié)果的影響,主要目的是探索對齊過程前中后期的活體相關(guān)、無關(guān)的特征比重對最終模型泛化能力的影響.表5對比了線性加權(quán)、二次加權(quán)和正弦加權(quán)這3種加權(quán)方式在6個(gè)測評協(xié)議上的HTER值,其中線性加權(quán)計(jì)算如式(11)所示,二次加權(quán)與正弦加權(quán)分別如式(19)與式(20)所示.
由表5可知,3種加權(quán)方式均取得良好結(jié)果,其中線性加權(quán)在I-O,M-I,M-O與O-M這4個(gè)測評協(xié)議上均取得最佳結(jié)果,綜合效果最優(yōu).受限于不同數(shù)據(jù)集具有不同的活體無關(guān)和活體相關(guān)特征分布比例,線性加權(quán)是一種較為均衡的加權(quán)方式,在6個(gè)測評協(xié)議上的結(jié)果都較為準(zhǔn)確,故本文選用線性加權(quán).
3.5.4 權(quán)重參數(shù)計(jì)算方式的影響
表6給出特征加權(quán)組合式中權(quán)重參數(shù)α的不同計(jì)算方式對結(jié)果的影響,分別使用t/T(當(dāng)前迭代次數(shù)/總迭代次數(shù))和n/N(當(dāng)前使用的樣本量/訓(xùn)練樣本總量)這2種計(jì)算方式進(jìn)行對比,前者的結(jié)果在I-M,IO,M-O與O-M這4個(gè)測評協(xié)議上都優(yōu)于后者,綜合效果最優(yōu).

Table 6 Influence of Weight Parameter Calculation Methods on HTER表6 權(quán)重參數(shù)計(jì)算方式對HTER的影響%
本文提出一種基于課程學(xué)習(xí)活體特征漸進(jìn)式對齊的無監(jiān)督域自適應(yīng)人臉反欺詐方法,通過啟發(fā)式與分類器梯度的二次解耦特征,提取活體相關(guān)與無關(guān)信息,使用漸進(jìn)式域?qū)褂?xùn)練策略,將目標(biāo)域特征向源域?qū)R,可提升無標(biāo)簽?zāi)繕?biāo)域特征與人臉反欺詐任務(wù)的相關(guān)性,同時(shí)減輕模型優(yōu)化難度.在4個(gè)公開基準(zhǔn)數(shù)據(jù)集上的跨域?qū)嶒?yàn)結(jié)果表明,本文所提DDCL方法可以有效提升人臉反欺詐模型在跨域場景下的泛化能力,取得與當(dāng)前先進(jìn)結(jié)果相比更強(qiáng)的競爭力,尤其適用于源域與目標(biāo)域的圖像風(fēng)格差異明顯的域自適應(yīng)人臉反欺詐任務(wù).
與現(xiàn)有文獻(xiàn)的10種方法實(shí)驗(yàn)對比可知,DDCL方法盡管獲得了最佳平均HTER值,但未在所有的跨數(shù)據(jù)集相關(guān)實(shí)驗(yàn)中取得最佳結(jié)果,在一些測評協(xié)議上的HTER指標(biāo)仍有較大的改善空間,后續(xù)工作將考慮提升方法的跨模型架構(gòu)泛化能力,使得目前需要手工設(shè)置的一些超參數(shù)可以通過網(wǎng)絡(luò)訓(xùn)練得到,如將解耦與模擬退火等方法相結(jié)合,尋找最優(yōu)的解耦參數(shù),以適應(yīng)于使用更加先進(jìn)的網(wǎng)絡(luò)模型提取特征,進(jìn)一步提高DDCL方法在所有測評協(xié)議上的跨域泛化性能.未來工作也可將課程學(xué)習(xí)活體特征漸進(jìn)式對齊的思路引入域泛化人臉反欺詐模型中,通過對齊多個(gè)域之間的活體相關(guān)信息,獲得更加通用的活體檢測特征空間,加強(qiáng)對于未知領(lǐng)域的真實(shí)人臉和假體攻擊有效區(qū)分的能力,進(jìn)一步提升模型的泛化性與魯棒性.
作者貢獻(xiàn)聲明:封筠提供了關(guān)鍵的意見和建議,指導(dǎo)實(shí)驗(yàn)并修改和審定論文;史屹琛提出了論文的研究思路和方法,完成了實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)采集和分析,并撰寫了部分論文內(nèi)容;高宇豪和賀晶晶參與了對論文的修改和完善;余梓彤提供了關(guān)鍵的意見和建議、完善實(shí)驗(yàn)方案.