任洪昊,朱新山,2,盧俊彥
(1.天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津 300072; 2.數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100871)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展以及智能設(shè)備的普及,數(shù)字圖像已經(jīng)被廣泛應(yīng)用于社會(huì)生活的各個(gè)領(lǐng)域。數(shù)字媒體時(shí)代下,由于圖像處理和編輯軟件的易操作性,編輯和篡改圖像變得便利和簡(jiǎn)單[1];同時(shí),篡改后的圖像是不易被人眼識(shí)別的,普通人難以觀察到篡改操作留下的痕跡。因此,數(shù)字圖像的真實(shí)性和可靠性受到更多的關(guān)注,圖像信息安全已經(jīng)成為一個(gè)亟待解決的問(wèn)題。圖像修復(fù)取證作為取證領(lǐng)域的一個(gè)重要研究課題,受到了研究者的廣泛關(guān)注[2-4]。
圖像修復(fù)是一種根據(jù)圖像已知內(nèi)容對(duì)缺失或損壞區(qū)域進(jìn)行修復(fù)重建的計(jì)算機(jī)視覺技術(shù)[5]。傳統(tǒng)的圖像修復(fù)可以分為基于擴(kuò)散的方法[6-7]和基于樣本塊的方法[8-9]。但是,它們只適用于填充紋理相似的圖像,不能深入理解上下文信息,對(duì)于復(fù)雜的或模式化的圖像修復(fù)效果不好。為此,研究者近年來(lái)提出了基于深度學(xué)習(xí)的修復(fù)方法[10-11](簡(jiǎn)稱為深度修復(fù))。深度修復(fù)通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式,很大程度上跨越了圖像底層特征與高層語(yǔ)義之間的語(yǔ)義鴻溝。它可以生成結(jié)構(gòu)合理、細(xì)節(jié)豐富的圖像內(nèi)容,大大提升了修復(fù)效果。因此,深度修復(fù)已經(jīng)成為圖像修復(fù)領(lǐng)域的主流。
雖然圖像修復(fù)技術(shù)給人們帶來(lái)眾多便利,但是它也可能被用于惡意的圖像編輯和篡改,從而引發(fā)許多嚴(yán)重的社會(huì)問(wèn)題。圖像修復(fù)取證通過(guò)提取圖像修復(fù)在操作過(guò)程中留下的篡改痕跡特征,進(jìn)行篡改區(qū)域的識(shí)別和定位。因此,圖像修復(fù)取證不同于一般的圖像操作檢測(cè)技術(shù),它需要在圖像操作層面實(shí)現(xiàn)像素級(jí)分類,也就是“語(yǔ)義分割”。
學(xué)術(shù)界針對(duì)不同的圖像修復(fù)技術(shù),提出了相應(yīng)的修復(fù)取證方案。文獻(xiàn)[12]根據(jù)通道內(nèi)和通道間的局部方差構(gòu)建特征集以識(shí)別基于擴(kuò)散的修復(fù)方法。為了檢測(cè)基于樣本塊的修復(fù),文獻(xiàn)[13]提出利用零連通特征度量圖像塊對(duì)相似度以識(shí)別修復(fù)區(qū)域;文獻(xiàn)[14]在其基礎(chǔ)上提出基于跳躍式塊匹配的改進(jìn)算法;文獻(xiàn)[15]使用零連通特征識(shí)別相似塊對(duì)和向量濾波的方法搜索可疑區(qū)域,并利用多區(qū)域關(guān)聯(lián)來(lái)減小誤警率;文獻(xiàn)[2]采用中心像素映射的方式加快了可疑區(qū)域的搜索,并利用最大零連通特征和碎像拼接定位修復(fù)區(qū)域。
基于傳統(tǒng)的修復(fù)方法是利用擴(kuò)散或者樣本塊的匹配機(jī)制將非破損區(qū)域的低級(jí)非語(yǔ)義信息“粘貼”到破損區(qū)域。而深度修復(fù)[10-11, 16]利用大規(guī)模數(shù)據(jù)學(xué)習(xí)圖像的高級(jí)語(yǔ)義特征,可以生成更逼真的圖像細(xì)節(jié)。兩者不僅在操作過(guò)程的差異性很大,而且深度修復(fù)能夠創(chuàng)造給定圖像中不存在的新對(duì)象用于填補(bǔ)破損區(qū)域,引入了不同的修復(fù)痕跡。因此,上述傳統(tǒng)的修復(fù)取證方案并不適用于更先進(jìn)的深度修復(fù)方法。
此外,文獻(xiàn)[1]設(shè)計(jì)了一種具有編碼器-解碼器結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[17],用于定位基于樣本塊的圖像修復(fù)。由于深度修復(fù)生成的圖像內(nèi)容在視覺上是難以區(qū)分的,直接從RGB圖像提取修復(fù)痕跡和學(xué)習(xí)識(shí)別特征是效果不好的;同時(shí),CNN 也傾向于學(xué)習(xí)圖像主要的內(nèi)容特征,而忽略修復(fù)過(guò)程中遺留的痕跡特征。這些導(dǎo)致該方案對(duì)深度修復(fù)的取證性能不佳。
目前,關(guān)于深度修復(fù)的取證(簡(jiǎn)稱為深度修復(fù)取證)研究工作相對(duì)較少,只有文獻(xiàn)[18]提出了一種高通預(yù)處理的全卷積取證網(wǎng)絡(luò)。該算法利用空間高通濾波器以增強(qiáng)修復(fù)痕跡,實(shí)驗(yàn)結(jié)果證明了高通濾波對(duì)提取篡改痕跡特征的有效性。但是,深度修復(fù)方法是繁雜多樣的,同一種方法遺留的痕跡也可能具有多樣性和復(fù)雜性。因此,采用單一的痕跡增強(qiáng)方式的方案[18]有較大的局限性,魯棒性不強(qiáng)。
綜上所述,根據(jù)當(dāng)前研究方案的不足之處,本文針對(duì)深度修復(fù)取證任務(wù)提出3個(gè)問(wèn)題需要解決:
1)深度修復(fù)取證的關(guān)鍵是獲取深度修復(fù)操作留下的微弱痕跡。由于深度修復(fù)的篡改區(qū)域與未篡改區(qū)域的視覺感知一致性[18],直接使用CNN對(duì)RGB圖像的取證效果不佳。因此,利用魯棒性強(qiáng)的篡改痕跡增強(qiáng)方式幫助痕跡特征提取是十分重要的。
2)圖像修復(fù)取證任務(wù)需要對(duì)目標(biāo)圖像進(jìn)行全局的像素級(jí)別的二分類。然而,篡改區(qū)域是具有不同的尺度大小的。因此,取證網(wǎng)絡(luò)的決策不能僅僅局限于局部區(qū)域或目標(biāo)。
3)由于取證網(wǎng)絡(luò)中的卷積和下采樣操作會(huì)導(dǎo)致特征圖的細(xì)節(jié)信息損失,直接將高層次的特征圖上采樣后的輸出是比較模糊的。
本文提出了一種端到端的深度修復(fù)取證網(wǎng)絡(luò),用于定位目標(biāo)圖像中經(jīng)過(guò)深度修復(fù)操作的篡改區(qū)域,見圖1。針對(duì)以上問(wèn)題,提出了網(wǎng)絡(luò)設(shè)計(jì)如下:采用3種痕跡增強(qiáng)方式將單輸入擴(kuò)展到多輸入,通過(guò)設(shè)計(jì)的動(dòng)態(tài)特征融合模塊(dynamic feature fusion module, DFF)提取多種痕跡特征,并利用動(dòng)態(tài)卷積[19]實(shí)現(xiàn)動(dòng)態(tài)的特征融合。該方法結(jié)合RGB信息和CNN易忽略的細(xì)微痕跡實(shí)現(xiàn)有效的特征學(xué)習(xí),具有較強(qiáng)的自適應(yīng)能力和魯棒性。為了彌補(bǔ)局部感受野導(dǎo)致的上下文信息不足,在編碼器末端設(shè)計(jì)了多尺度特征提取模塊(multi-scale feature extraction module, MFE)以擴(kuò)展網(wǎng)絡(luò)的多尺度視角。提出空間加權(quán)的通道注意力模塊(spatially weighted channel attention module, SWCA)用于跳躍連接,實(shí)現(xiàn)有側(cè)重地補(bǔ)充損失細(xì)節(jié),避免取證結(jié)果模糊的問(wèn)題。該方案能實(shí)現(xiàn)對(duì)篡改區(qū)域的像素級(jí)檢測(cè)。在多種深度修復(fù)數(shù)據(jù)集上測(cè)試,實(shí)驗(yàn)結(jié)果表明該方案對(duì)于目標(biāo)圖像的篡改區(qū)域具有良好的定位性能。

圖1 網(wǎng)絡(luò)整體架構(gòu)Fig.1 Architecture of the network
由于提取修復(fù)遺留痕跡的能力直接影響到取證網(wǎng)絡(luò)的性能。因此,為了達(dá)到理想的取證效果,要充分考慮深度修復(fù)原理和現(xiàn)有取證方法的局限性,從而更好地獲取修復(fù)痕跡特征。現(xiàn)有的取證算法中有許多增強(qiáng)修復(fù)和篡改痕跡的方法,其中較為常見的是空域隱富模型(spatial rich model, SRM)[20]。它在隱寫分析領(lǐng)域取得良好的效果后,被廣泛應(yīng)用于圖像篡改取證領(lǐng)域中[21-23]。文獻(xiàn)[24]提出的約束卷積類似于文獻(xiàn)[18]使用的空間域高通濾波,對(duì)獲取篡改痕跡具有積極作用。文獻(xiàn)[25]通過(guò)引入頻域信息以幫助網(wǎng)絡(luò)定位人臉圖像的篡改區(qū)域。文獻(xiàn)[26]證明了離散小波變換有助于篡改痕跡的獲取。
然而,利用上述單一的增強(qiáng)痕跡的方法很難學(xué)習(xí)到數(shù)據(jù)的多種特征和底層結(jié)構(gòu),導(dǎo)致取證網(wǎng)絡(luò)的性能不夠理想。針對(duì)這一問(wèn)題,本文借鑒集成學(xué)習(xí)[27]的思想提出采用多種痕跡增強(qiáng)的方法用于預(yù)處理,將輸入的RGB圖像擴(kuò)展到多輸入,極大增加了網(wǎng)絡(luò)對(duì)修復(fù)痕跡特征的提取能力。
雖然深度修復(fù)在視覺上殘留的痕跡難以識(shí)別,但是在修復(fù)區(qū)域的形成過(guò)程中不可避免地會(huì)出現(xiàn)邊緣不自然和紋理不連續(xù)的現(xiàn)象。因此,RGB圖像被直接用于檢測(cè)視覺的修復(fù)痕跡。此外,為了抑制圖像內(nèi)容的影響,在實(shí)驗(yàn)測(cè)試了已有的增強(qiáng)修復(fù)和篡改痕跡的方法后,選擇采用SRM濾波、空間域高通濾波和頻率域高通濾波3種操作處理圖像作為不同的輸入:
1)SRM濾波:SRM濾波后的特征圖強(qiáng)調(diào)的是局部噪聲特征[22]。它幫助網(wǎng)絡(luò)更加關(guān)注篡改操作遺留的噪聲信息,而忽略語(yǔ)義信息,針對(duì)邊界不明顯和細(xì)節(jié)紋理豐富[5]的情況可以揭示出視覺不可見的修復(fù)痕跡。如圖2所示,采用文獻(xiàn)[22]選取的3個(gè)SRM濾波核作為卷積核,將3通道RGB圖像映射到3通道的噪聲特征圖,得到X1∈RH×W×3。式中,H和W分別為特征圖或圖像的高度和寬度。

圖2 3個(gè)SRM濾波核Fig.2 Three SRM filter kernels
2)空間域高通濾波:深度修復(fù)側(cè)重于生成逼真的圖像內(nèi)容,卻不能模仿原始圖像中固有的不易察覺的高頻信息[18]。因此,高通濾波能夠揭示修復(fù)篡改后圖像的異常特征,在一定程度上解決視覺差異不明顯的問(wèn)題。如圖3所示,采用文獻(xiàn)[18]初始化權(quán)重的3個(gè)高通濾波核作為卷積核,將RGB圖像映射到3通道的殘差特征圖X2∈RH×W×3。其中,卷積核參數(shù)設(shè)置為可學(xué)習(xí)的。

圖3 初始化的高通濾波核Fig.3 Initialized high-pass filter kernels

(1)
式中:DCT(·)為DCT變換,IDCT(·)為DCT反變換,α∈RH×W×1為低頻部分掩膜,?為元素相乘。如圖4所示,由于DCT變換后的頻域圖像的低頻分量位于左上角,將按照zig-zag順序前1/18的頻率點(diǎn)去除,即頻域圖像(圖4(a))與低頻掩膜(圖4(b))點(diǎn)乘得到濾波后圖像(圖4(c))。圖4(b)的黑色區(qū)域?qū)?yīng)低頻部分,設(shè)置為0,其余白色區(qū)域?yàn)?。

圖4 去除低頻信息Fig.4 Removing low-frequency information
如圖1所示,本文提出基于CNN的圖像修復(fù)取證網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)篡改區(qū)域的定位預(yù)測(cè)。由于編碼器-解碼器網(wǎng)絡(luò)架構(gòu)在圖像語(yǔ)義分割等低級(jí)視覺任務(wù)中取得了極大的成功,DF3Net也采用編碼器-解碼器結(jié)構(gòu)作為取證網(wǎng)絡(luò)的基本框架。
2.1.1 動(dòng)態(tài)特征融合
如圖1所示,RGB圖像和對(duì)其不同操作得到的3種3通道特征圖作為4組輸入,采用基本卷積塊將其均映射到32通道特征圖。基本卷積塊是由2個(gè)連續(xù)的卷積單元組成。卷積單元結(jié)構(gòu)設(shè)置依次為1個(gè)卷積層,1個(gè)批量歸一化(batch normalization,BN)[28]層和1個(gè)ReLU激活函數(shù)。其中,卷積層的卷積核大小為3×3,步長(zhǎng)為1。文中提到的基本卷積塊默認(rèn)為該卷積塊設(shè)置。
由于不同的特征圖反映了深度修復(fù)操作在不同方向和領(lǐng)域的遺留痕跡。為了能夠充分結(jié)合多種有效的修復(fù)痕跡特征的優(yōu)勢(shì),先將4組32通道特征圖進(jìn)行通道維度堆疊,再通過(guò)動(dòng)態(tài)卷積[19]將特征圖壓縮到32通道,得到融合后的特征圖Fr∈RH×W×32。其中,動(dòng)態(tài)卷積的并行卷積核數(shù)設(shè)置為3,卷積核大小為3×3。動(dòng)態(tài)卷積利用通道注意力機(jī)制[29]為多個(gè)并行的卷積核賦予權(quán)重后進(jìn)行聚合。這種以非線性形式聚合多個(gè)卷積核的方式,可以實(shí)現(xiàn)對(duì)不同的特征圖自適應(yīng)的調(diào)整卷積參數(shù),更好地對(duì)特征圖進(jìn)行加權(quán)和融合,極大地提升了網(wǎng)絡(luò)的魯棒性與取證性能。整個(gè)過(guò)程可以表示為
Fr=PyConv(Conv(X0)⊕Conv(X1)⊕
Conv(X2)⊕Conv(X3)
(2)
式中:X0∈RH×W×3為輸入的RGB圖像,PyConv(·)為基本卷積塊操作,Conv(·)為基本卷積塊操作,⊕為通道維的堆疊操作。
2.1.2 編碼器主體部分
如圖1所示,除DFF和MFE外,編碼器主體部分由下采樣模塊、基本卷積塊組成。下采樣模塊通過(guò)步長(zhǎng)為2的最大池化操作實(shí)現(xiàn),可以有效減小特征圖的尺寸,減少后續(xù)計(jì)算復(fù)雜度。基本卷積塊的作用是對(duì)特征圖提取修復(fù)篡改特征。通過(guò)DFF得到特征圖Fr后,編碼器對(duì)其依次采取下采樣和基本卷積塊操作,重復(fù)相同過(guò)程3次,在1/2、1/4與1/8輸入圖像尺度下輸出的特征圖通道數(shù)分別為64、128和256。
2.1.3 多尺度特征提取
由于篡改區(qū)域的尺度具有不確定性,為了解決網(wǎng)絡(luò)的局部感受野引起的上下文信息不足,提高全局的分類精度,本文在編碼器末端提出了MFE以更好地提取局部和全局的上下文信息,即獲取到特征圖中不同范圍大小的鄰域信息。如圖5所示,該模塊由3個(gè)部分構(gòu)成。

圖5 多尺度特征提取模塊結(jié)構(gòu)Fig.5 Architecture of multi-scale feature extraction module
1)局部特征提取部分:該部分引入由3個(gè)不同大小卷積核的卷積層并行組成的金字塔卷積(pyramidal convolution, PyConv)[30],卷積核大小從上到下分別設(shè)置為7×7、5×5和3×3,對(duì)應(yīng)的特征分組數(shù)分別為1、4和8,輸出特征圖通道數(shù)分別為輸入特征圖通道數(shù)的1/2、1/4和1/4。最終將3層輸出特征圖進(jìn)行通道維度堆疊,實(shí)現(xiàn)了局部特征的多尺度上下文信息的聚合,得到局部特征圖Fl∈RH×W×256。此外,PyConv在增大卷積核的同時(shí)減小了深度,因此不會(huì)增加額外的計(jì)算成本。
2)全局特征提取部分:為了確保可以獲取完整的全局特征,本文在保持合理的空間分辨率的前提下采用自適應(yīng)平均池化,將輸入特征圖的空間大小減少到9×9。然后,利用卷積核大小為9×9的卷積層提取特征。最后,使用雙線性插值的方法將其映射回初始大小,得到全局特征圖Fo∈RH×W×256。
3)局部和全局特征融合:將得到的局部特征和全局特征采用通道維度堆疊后,應(yīng)用卷積核大小為1×1的卷積層融合不同尺度的信息。在最后增加ReLU激活函數(shù),以有益于網(wǎng)絡(luò)訓(xùn)練。該過(guò)程可以表示為
Flo=δ(Conv1×1(Fl⊕Fo))
(3)
式中:Flo∈RH×W×256為局部特征與全局特征融合后的特征圖,δ(·)為ReLU激活函數(shù),Conv1×1(·)為卷積核大小為1×1的卷積操作。
2.1.4 編碼器特征可視化
圖6展示了編碼器中的DFF(圖6(a))和MFE(圖6(b))的特征可視化圖。可視化是通過(guò)特征圖同一個(gè)空間位置在通道維度相加得到的,下文中可視化處理均為該操作方式。圖6(a)中RGB特征(1行3列)、SRM特征(2行1列)、空域高通特征(2行2列)和頻域高通特征(2行3列)可視化圖的差異說(shuō)明利用多輸入提取到的4組特征圖反映了深度修復(fù)操作在不同方向和領(lǐng)域的痕跡信息。對(duì)比真實(shí)標(biāo)簽(1行1列)和其他可視化圖,對(duì)于該幅給定圖像,SRM特征(2行1列)和頻域高通特征(2行3列)反映了較多的修復(fù)篡改痕跡,而動(dòng)態(tài)融合特征(1行2列)揭示的篡改區(qū)域的痕跡是最明顯的。這證明DFF有效融合了多種痕跡特征的優(yōu)勢(shì),并獲取到更優(yōu)異的篡改痕跡特征。對(duì)比圖6(b)的真實(shí)標(biāo)簽(第4列)和MFE的特征(第1~3列,從1/8圖像尺度放大到1圖像尺度)可以看出,局部特征(第2列)反映了篡改區(qū)域的大致定位,融合全局特征(第1列)后獲取到的融合特征(第3列)進(jìn)一步明確了篡改區(qū)域的位置和形狀。

圖6 編碼器特征圖可視化Fig.6 Encoder feature visualization
2.2.1 解碼器主體部分
如圖1所示,解碼器主體部分由上采樣模塊、基本卷積塊、卷積層和Softmax層組成。在本文中,上采樣模塊采用步長(zhǎng)為2的轉(zhuǎn)置卷積[31]將特征圖逐步還原到原圖大小。基本卷積塊的作用是加強(qiáng)對(duì)篡改區(qū)域的特征表達(dá)。首先,解碼器對(duì)MFE得到的特征圖采取3次上采樣操作,每次上采樣后堆疊跳連部分得到的加權(quán)特征圖,并插入基本卷積塊操作。在1/4、1/2與1輸入圖像尺度下輸出的特征圖通道數(shù)分別設(shè)置為128、64和32。然后,通過(guò)卷積核大小為1×1的卷積層將32通道的特征圖映射到兩通道得到S∈RH×W×2。最終,利用Softmax分類器對(duì)其進(jìn)行歸一化得到輸出Y∈RH×W×2:
(4)
式中Ykij和Skij分別為Y和S第k維通道在坐標(biāo)(i,j)處的元素值。根據(jù)Ykij在兩通道對(duì)應(yīng)位置大小進(jìn)行分類得到取證結(jié)果。
2.2.2 基于SWCA的跳躍連接
對(duì)于卷積和下采樣操作引入的篡改區(qū)域細(xì)節(jié)損失,編、解碼器之間增加跳躍連接能夠有效地補(bǔ)充損失的細(xì)節(jié)信息。跳躍連接的主要形式之一是將編碼器與對(duì)應(yīng)解碼器中的特征圖堆疊后進(jìn)行后續(xù)處理。雖然采取這種方法達(dá)到了細(xì)節(jié)補(bǔ)充的效果,但是該方法平等地對(duì)待所有補(bǔ)充的特征,引入了許多無(wú)用信息,限制了網(wǎng)絡(luò)的特征表達(dá)能力。
針對(duì)以上問(wèn)題,本文采用跳連操作重用分辨率高的低層語(yǔ)義信息。同時(shí),考慮到不同層次、不同通道的特征的重要性不同,本文在跳連部分引入了空間和通道兩個(gè)維度的注意力機(jī)制,提出了基于SWCA的跳躍連接。如圖7所示,該過(guò)程分為4個(gè)步驟:

圖7 空間加權(quán)的通道注意力模塊結(jié)構(gòu)Fig.7 Architecture of spatially weighted channel attention module
1)特征的初步提取:通過(guò)卷積核大小為3×3,步長(zhǎng)為1的卷積層和ReLU激活函數(shù)對(duì)補(bǔ)充的編碼器特征圖Fe∈RH×W×C進(jìn)行初步的特征提取,得到Fp∈RH×W×C。式中C為特征圖的通道數(shù)。
2)空間位置加權(quán):將初步提取的特征圖Fp利用跨通道的平均池化和跨通道的最大池化操作[32]得到兩個(gè)單通道特征圖,堆疊后采用卷積核大小為3×3,步長(zhǎng)為1的卷積層和Sigmod激活函數(shù)獲取到空間權(quán)值圖β∈RH×W×1。同時(shí),采用卷積核大小為3×3,步長(zhǎng)為1的卷積層將Fp映射為Fq∈RH×W×C。然后,對(duì)Fq空間位置加權(quán)得到Fs=β?Fq。其中,元素相乘過(guò)程中復(fù)制權(quán)值圖與特征圖保持相同維度。
3)通道維度加權(quán):將空間加權(quán)的特征圖Fs∈RH×W×C通過(guò)文獻(xiàn)[29]提出的通道注意力機(jī)制計(jì)算得到通道權(quán)值圖γ∈RH×W×1,對(duì)Fq通道加權(quán)獲取到輸出特征圖Fc=γ?Fq。其中,通道注意力結(jié)構(gòu)設(shè)置依次為1個(gè)全局最大池化層,2個(gè)全連接層間插入1個(gè)ReLU層,1個(gè)Sigmod層。
4)特征增強(qiáng):對(duì)空間和通道加權(quán)后的特征圖Fc∈RH×W×C與解碼器中對(duì)應(yīng)尺度的特征圖Fd∈RH×W×C采用堆疊操作,得到增強(qiáng)后的特征圖Fcd∈RH×W×2C:
Fcd=Fc⊕Fd=
(γ?Fq)⊕Fd=
(γ?Conv3×3(Fp))⊕Fd=
(γ?Conv3×3(δ(Conv3×3(Fe))))⊕Fd
(5)
式中Conv3×3(·)為卷積核大小為3×3,步長(zhǎng)為1的卷積操作。
2.2.3 解碼器特征可視化
圖8(a)和(b)分別展示了解碼器中SWCA和主體部分的特征可視化。圖8(a)以原圖像尺度的基于SWCA的跳躍連接為例,對(duì)比真實(shí)標(biāo)簽(1行4列),初步提取特征(1行1列)能夠反映大部分篡改區(qū)域的痕跡,但是存在較多空洞區(qū)域和邊界模糊的情況。通過(guò)空間注意力機(jī)制的平均池化(2行1列)和最大池化(2行2列)突出有效信息后,得到空間加權(quán)特征(1行2列)。可以看出相較于初步提取特征,空間加權(quán)特征顯示的篡改區(qū)域消除了部分空洞現(xiàn)象,矩形篡改區(qū)域的左側(cè)和右側(cè)邊界變得更加清晰。再利用通道注意力機(jī)制(2行3列,通過(guò)放大得到)加權(quán)獲取到空間加權(quán)的通道注意力特征(1行3列),矩形篡改區(qū)域在保持左右側(cè)邊界清晰的基礎(chǔ)上,下側(cè)邊界附近的空洞區(qū)域也減少。這證明SWCA的空間注意力和通道注意力均起到了加強(qiáng)特征的作用。

圖8 解碼器特征可視化Fig.8 Decoder feature visualization
圖8(b)展示了解碼器主體部分的特征可視化圖。對(duì)比真實(shí)標(biāo)簽(2行4列)和解碼器在3個(gè)不同圖像尺度(1/4、1/2和1)下的跳連前特征(1行1~3列)以及對(duì)應(yīng)的跳連后特征(2行1~3列)可以看出,隨著尺度的增大,解碼器逐步解碼獲取到更準(zhǔn)確的篡改區(qū)域的形狀和位置。此外,在1圖像尺度下跳連前特征(1行3列)融合SWCA得到的空間加權(quán)的通道注意力特征(1行4列)得到跳連后特征(2行3列),明顯看出跳連后特征比跳連前特征可以更清晰地反映篡改區(qū)域,有效增強(qiáng)了篡改區(qū)域的邊界細(xì)節(jié)。對(duì)比其他尺度下可以得到相同的結(jié)論。因此,引入SWCA的跳躍連接實(shí)現(xiàn)了有側(cè)重地編碼器特征補(bǔ)充,減少了無(wú)用信息的影響,使得解碼器獲取到其所需要的增強(qiáng)信息,達(dá)到了更好的邊界細(xì)節(jié)補(bǔ)充效果。
由于取證問(wèn)題本質(zhì)上是計(jì)算機(jī)視覺中的分割問(wèn)題,最常見的損失函數(shù)是標(biāo)準(zhǔn)交叉熵?fù)p失。但是一般情況下,目標(biāo)圖像中的篡改區(qū)域(正樣本)比未篡改區(qū)域(負(fù)樣本)要小得多,這將導(dǎo)致正負(fù)樣本的不平衡。如果用標(biāo)準(zhǔn)交叉熵?fù)p失來(lái)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練,占主導(dǎo)地位的負(fù)樣本會(huì)貢獻(xiàn)大部分的損失。網(wǎng)絡(luò)模型會(huì)嚴(yán)重偏向負(fù)樣本,導(dǎo)致對(duì)篡改區(qū)域分類效果較差,取證性能不佳的結(jié)果。
為了減輕類別不平衡的影響,同時(shí)減少計(jì)算量,提升模型的訓(xùn)練速度,本文采用加權(quán)交叉熵對(duì)輸出結(jié)果的逐個(gè)像素點(diǎn)進(jìn)行監(jiān)督。損失函數(shù)可以表示為
ω2(1-Jij)log(1-Ykij)
(6)
式中:ω1和ω2分別為正樣本和負(fù)樣本的權(quán)重因子,Jij為one-hot標(biāo)簽(i,j)處的像素值,只有1和0兩種取值,分別為篡改區(qū)域和非篡改區(qū)域。
為了檢驗(yàn)所提出網(wǎng)絡(luò)的取證性能,本文利用多種深度修復(fù)方法獲取實(shí)驗(yàn)數(shù)據(jù)集,并且將本文方法的取證結(jié)果和最先進(jìn)的相關(guān)算法進(jìn)行主觀與客觀的對(duì)比分析。同時(shí),通過(guò)設(shè)置消融實(shí)驗(yàn)以證明網(wǎng)絡(luò)不同組件的有效性。此外,將該模型應(yīng)用于抗JPEG壓縮和噪聲攻擊的實(shí)驗(yàn)以檢驗(yàn)其魯棒性。
首先,在Place2數(shù)據(jù)集[33]中隨機(jī)選取了19 350張256×256大小的彩色圖像。然后,選擇具有代表性的3種深度圖像修復(fù)方案,分別是方案一(contextual attention,CA)[16],方案二(globally and locally consistent,GLC)[10]和方案三(pyramid-context encoder network,PEN)[11]。利用它們訓(xùn)練好的網(wǎng)絡(luò)模型分別對(duì)每幅圖像進(jìn)行修復(fù)篡改操作,共得到19 350×3幅修復(fù)后的圖像。篡改區(qū)域的形狀有圓形、矩形和不規(guī)則形狀,篡改區(qū)域的面積與圖像面積之比設(shè)置為1%、5%和10%。每種參數(shù)情況對(duì)應(yīng)的被操作圖像個(gè)數(shù)是一致的,篡改位置是隨機(jī)選取的。最后,隨機(jī)選擇18 000×3張修復(fù)篡改后的圖像作為訓(xùn)練集,450×3張圖像作為驗(yàn)證集和900×3張圖像作為測(cè)試集。圖9為按上述規(guī)則獲取到的待修復(fù)圖像樣本。其中,圖中綠色掩膜為待修復(fù)區(qū)域。

圖9 不同修復(fù)區(qū)域的圖像樣本Fig.9 Image samples of different inpainting regions
本文所提出方法基于PyTorch框架實(shí)現(xiàn),在Ubuntu環(huán)境下使用 NVIDIA 1 080 Ti GPU完成模型的訓(xùn)練和測(cè)試。在網(wǎng)絡(luò)訓(xùn)練時(shí),初始學(xué)習(xí)率設(shè)置為0.001,批尺寸設(shè)置為8,采用動(dòng)量衰減指數(shù)β1=0.9,β2=0.999的ADAM優(yōu)化器對(duì)模型進(jìn)行優(yōu)化。迭代次數(shù)為50次,學(xué)習(xí)率每10次迭代衰減為之前的0.75。權(quán)重因子ω1和ω2分別設(shè)置為5和1。為了評(píng)估所提出方法的取證性能,本文采用現(xiàn)有的兩種取證網(wǎng)絡(luò)進(jìn)行了對(duì)比實(shí)驗(yàn),包括文獻(xiàn)[1]提出的編、解碼器結(jié)構(gòu)的CNN和文獻(xiàn)[18]提出的深度修復(fù)取證網(wǎng)絡(luò)。此外,典型的語(yǔ)義分割算法DeepLabv3+[34]也被用作對(duì)比方案之一。其中,對(duì)比方案[18]采用該方案提出文獻(xiàn)提供的訓(xùn)練方式,而方案[1]和DeepLabv3+算法均采用和本文相同的訓(xùn)練方式。
本文采用以下4種評(píng)價(jià)指標(biāo)進(jìn)行取證性能評(píng)估:F1分?jǐn)?shù),交并比(intersection over union, IoU),真陽(yáng)率(true positive rate, TPR)和假陽(yáng)率(false positive rate, FPR)。下文中的實(shí)驗(yàn)結(jié)果數(shù)據(jù)均為在測(cè)試集上測(cè)試的平均值。此外,F(xiàn)1分?jǐn)?shù)、IoU、TPR和FPR分別表示如下:
(7)
(8)
(9)
(10)
圖10展示了不同方案對(duì)深度修復(fù)方案CA修復(fù)篡改的6幅圖像樣本的修復(fù)取證結(jié)果。對(duì)比圖像修復(fù)取證方案的定位結(jié)果(圖10(c)~(f))和真實(shí)篡改區(qū)域(圖10(b))可以看出,每一種方案均能夠在一定程度上定位目標(biāo)圖像的篡改區(qū)域。對(duì)于面積較大的(如圖10第3和6行)或者規(guī)則的(圓形和矩形)篡改區(qū)域樣本(如圖10第1和2行),不同的方案均具有相對(duì)較好的檢測(cè)性能。但是對(duì)于面積較小的不規(guī)則篡改區(qū)域的樣本(如圖10第4行),即取證難度較大的一類樣本。對(duì)比方案[1](圖10(c))對(duì)篡改區(qū)域產(chǎn)生了漏檢,DeepLabv3+(圖10(d))則是完全的誤檢,方案[18](圖10(e))也產(chǎn)生了較大范圍的誤檢。然而,本文方法(圖10(f))仍能夠相當(dāng)準(zhǔn)確地定位篡改區(qū)域。綜合來(lái)說(shuō),所提出方法(圖10(f))不僅在輸出結(jié)果上有極少的虛警像素,還能在位置和形狀上更好地?cái)M合真實(shí)的篡改區(qū)域。而其余對(duì)比方案(圖10(c)~(e))的定位結(jié)果均具有不同程度的形狀失真現(xiàn)象。由此可見,本文所提出的取證網(wǎng)絡(luò)能夠更有效地提取修復(fù)痕跡特征,對(duì)于不同篡改區(qū)域形狀和面積的變化具有很強(qiáng)的魯棒性。

圖10 針對(duì)CA的不同方案的定性比較Fig.10 Qualitative comparison of different methods for CA
表1和表2為各種方法的定量對(duì)比結(jié)果。以不規(guī)則篡改區(qū)域的樣本為例,可以觀察到,當(dāng)篡改區(qū)域面積占比為10%時(shí),本文所提出方法達(dá)到最高的98.99%的F1分?jǐn)?shù),98.01%的IoU(表1第11列)以及99.39%的TPR(表2第11列)。雖然隨著篡改區(qū)域面積的減小,網(wǎng)絡(luò)的取證性能略有下降,但是仍在篡改區(qū)域面積占比為1%時(shí)分別取得了96.55%、93.38%(表1第9列)和98.87%(表2第9列)的良好結(jié)果。性能下降的原因可能是更小的篡改面積導(dǎo)致修復(fù)操作特征不顯著。同時(shí),所提出方法的FPR指標(biāo)也保持著極低的數(shù)值,最大值為0.16%(表2第1列),可見誤警率極小,并且會(huì)隨著篡改區(qū)域面積的減小得到略微改善。對(duì)于圓形或矩形篡改區(qū)域的測(cè)試圖像,各項(xiàng)指標(biāo)也得到了類似的結(jié)果。其他對(duì)比方案也具有相似的趨勢(shì)變化規(guī)律,但是相較于本文方法取證性能均下降很多。以IoU指標(biāo)為例,所提出方法在900張整體測(cè)試集上比方案[1]、DeepLabv3+和方案[18]分別高出19.82%、15.12%和26.29%(表1第12列)。總體來(lái)說(shuō),對(duì)于各種形狀和面積的篡改區(qū)域,本文方法在各項(xiàng)指標(biāo)中都獲得了明顯優(yōu)于其他對(duì)比方案的測(cè)試結(jié)果。

表1 針對(duì)CA不同方案的F1和IoU比較Tab.1 Comparison of F1 and IoU of different methods for CA %

表2 針對(duì)CA不同方案的TPR和FPR比較Tab.2 Comparison of TPR and FPR of different methods for CA %
特別要指出的是,對(duì)于取證難度更大的小尺寸篡改區(qū)域,所提出方法相較于對(duì)比方案具有更顯著的優(yōu)勢(shì)。以IoU指標(biāo)為例,本文方法對(duì)于篡改區(qū)域面積占比為1%的圓形、矩形和不規(guī)則樣本較次優(yōu)方案分別高出27.31%、29.84%和24.58%(表1第3、6、9列),說(shuō)明所提出方法能更好地針對(duì)困難樣本。此外,根據(jù)各項(xiàng)指標(biāo)的統(tǒng)計(jì)結(jié)果顯示,對(duì)于圓形和矩形篡改區(qū)域樣本的取證性能接近,但是對(duì)于規(guī)則篡改區(qū)域樣本的取證性能優(yōu)于不規(guī)則篡改區(qū)域樣本。這可能是因?yàn)椴灰?guī)則區(qū)域的邊界細(xì)節(jié)信息更豐富,而卷積和降采樣操作會(huì)丟失更多細(xì)節(jié)信息導(dǎo)致的。
本文進(jìn)一步在整體測(cè)試集上測(cè)試了所提出方法面對(duì)另外兩種深度修復(fù)方案GLC和PEN的取證性能,實(shí)驗(yàn)結(jié)果見表3和表4。相較于在深度修復(fù)方案CA上的實(shí)驗(yàn)結(jié)果,本文方法對(duì)于GLC的測(cè)試結(jié)果是更優(yōu)異的,而面對(duì)PEN各項(xiàng)性能指標(biāo)則是均有所下降的。以IoU指標(biāo)為例,在修復(fù)方法CA、GLC和PEN上分別達(dá)到98.12%、99.21%和84.23%。這是由于取證網(wǎng)絡(luò)對(duì)不同修復(fù)操作形成的篡改區(qū)域的敏感性是有差異的。但是,面對(duì)這兩種修復(fù)方法,所提出方案對(duì)于FPR、F1分?jǐn)?shù)和IoU指標(biāo)性能也均明顯優(yōu)于其他對(duì)比方案。同時(shí),F(xiàn)PR也保持著較低的水平。綜上所述,面對(duì)不同的深度修復(fù)方法,本文方法均優(yōu)于其他對(duì)比方案,達(dá)到令人滿意的取證檢測(cè)性能。

表3 針對(duì)GLC不同方案的性能比較Tab.3 Performance comparison of different methods for GLC %

表4 針對(duì)PEN不同方案的性能比較Tab.4 Performance comparison of different methods for PEN %
為了進(jìn)一步測(cè)試網(wǎng)絡(luò)模型在更多數(shù)據(jù)庫(kù)上的取證性能,本文在CELEBA[35]、DTD[36]和ImageNet[37]數(shù)據(jù)庫(kù)上隨機(jī)各選取了900張圖像,并以PEN修復(fù)方法為例建立了3個(gè)測(cè)試集。表5為直接使用在Place2數(shù)據(jù)集上訓(xùn)練好的模型的測(cè)試結(jié)果。可以看出,相對(duì)于模型在Place2數(shù)據(jù)庫(kù)上取得的最佳的實(shí)驗(yàn)結(jié)果,各項(xiàng)指標(biāo)除了在DTD數(shù)據(jù)庫(kù)上有小幅度下降以外,在其他數(shù)據(jù)庫(kù)上基本不變,均保持著很高的性能水平。這證明面對(duì)不同的圖像數(shù)據(jù)庫(kù),本文所提出的網(wǎng)絡(luò)仍然具有很好的取證性能。

表5 針對(duì)PEN在不同數(shù)據(jù)集的測(cè)試結(jié)果Tab.5 Results for PEN on different datasets %
JPEG圖像壓縮作為最常見的圖像處理操作之一被廣泛使用。為此,對(duì)根據(jù)CA得到原始數(shù)據(jù)集分別進(jìn)行壓縮因子為95、85和75的JPEG壓縮。不同方案與前文各自的訓(xùn)練方式保持一致,將訓(xùn)練好的網(wǎng)絡(luò)模型在篡改區(qū)域面積占比不小于5%的圖像測(cè)試集上的測(cè)試結(jié)果見圖11。可以觀察到,隨著壓縮因子的減小,所有方案都有著不同程度的性能下降。JPEG壓縮因子的減小代表更多的修復(fù)操作信息被移除,必然導(dǎo)致取證性能的下降。但是,所提出方法在不同的壓縮因子下始終明顯優(yōu)于其他方案,說(shuō)明其具有更佳的抗JPEG壓縮性能。

圖11 針對(duì)CA在不同JPEG壓縮因子下的IoU指標(biāo)Fig.11 IoU for CA with different JPEG quality factor
增加噪聲作為一種修復(fù)篡改圖像的常見后處理操作,常被用于對(duì)抗取證方案的檢測(cè)。在JPEG壓縮因子為75的條件下進(jìn)行加噪測(cè)試,通過(guò)在測(cè)試集上增加信噪比分別為50、40 dB和30 dB的高斯白噪聲獲取到加噪測(cè)試集。表6為直接使用訓(xùn)練好的不同的網(wǎng)絡(luò)模型的測(cè)試結(jié)果。可以看出,隨著信噪比的減小即增加更多的噪聲,所提出方案的IoU指標(biāo)在加噪50、40 dB時(shí)基本保持不變甚至有略微上升,而在30 dB時(shí)不同指標(biāo)均有小幅度的下降,其他方案趨勢(shì)變化類似。同時(shí),DF3Net的取證性能始終明顯優(yōu)于其他對(duì)比方案。綜上所述,證明所提出方法具有很強(qiáng)的抗噪聲攻擊的能力。

表6 針對(duì)CA在不同噪聲下的IoU指標(biāo)Tab.6 IoU for CA with different noise
本文設(shè)計(jì)了如下兩組消融實(shí)驗(yàn)對(duì)所提出模型各個(gè)組件的有效性進(jìn)行驗(yàn)證:一組實(shí)驗(yàn)設(shè)置為在本文完整網(wǎng)絡(luò)模型(full model,F(xiàn)M)上分別去除RGB信息(removing RGB information,RR)、SRM濾波(removing SRM filtering,RS)、空間域高通濾波(removing high-pass filtering of spatial domain,RHPS)、頻域高通濾波(removing high-pass filtering of frequency domain,RHPF)以及利用普通卷積代替動(dòng)態(tài)卷積(convolution instead of dynamic convolution,CIDC)。表7為在修復(fù)方案CA上得到的F1分?jǐn)?shù)和IoU結(jié)果,相較于完整網(wǎng)絡(luò)FM,去除DFF中的任何一個(gè)輸入以及普通卷積替換動(dòng)態(tài)卷積,都會(huì)引起指標(biāo)F1和IoU不同程度的下降。其中下降最明顯的是去除頻域高通濾波的網(wǎng)絡(luò)RHPF,F(xiàn)1和IoU指標(biāo)分別降低了1.71%和3.22%。這說(shuō)明,通過(guò)采用多輸入特征和動(dòng)態(tài)特征融合模塊,不同的特征在相應(yīng)的領(lǐng)域均發(fā)揮了積極作用,提取到更有效的修復(fù)痕跡特征,從而大大提升了取證性能。

表7 消融實(shí)驗(yàn)(針對(duì)CA): 組件有效性研究一Tab.7 Ablation experiments(CA):component validity study Ⅰ %
另一組實(shí)驗(yàn)設(shè)置為:僅帶有DFF的網(wǎng)絡(luò)模型(model with DFF, MD)、帶有DFF和MFE的網(wǎng)絡(luò)模型(model with DFF and MFE, MDM)和帶有DFF和引入SWCA的跳躍連接的網(wǎng)絡(luò)模型(model with DFF and skip connection introduced SWCA, MDS)。表8為面對(duì)修復(fù)方案CA的取證結(jié)果,相較于模型MD,引入MFE的模型MDM和增加基于SWCA的跳躍連接的MDS在IoU 和F1分?jǐn)?shù)均有著不同程度的改進(jìn),綜合使用兩者的完整模型則有著更大的提升。以IoU為例,MDM、MDS和FM較MD分別提升了0.52%、2.17%和2.74%。因此,MFE和引入SWCA的跳躍連接均能夠有效提升取證網(wǎng)絡(luò)的性能。

表8 消融實(shí)驗(yàn)(針對(duì)CA): 組件有效性研究二Tab.8 Ablation experiments(CA):component validity study Ⅱ %
本文提出了一種基于動(dòng)態(tài)特征融合的深度修復(fù)取證網(wǎng)絡(luò)DF3Net。該網(wǎng)絡(luò)針對(duì)深度修復(fù)遺留的細(xì)微特征擴(kuò)展輸入后,利用DFF使得多種有效的痕跡特征得以被充分地獲取到。此外,為進(jìn)一步提升取證性能,編碼器通過(guò)增加MFE以更好地獲取上下文信息,解碼器引入基于SWCA的跳躍連接以實(shí)現(xiàn)細(xì)節(jié)信息的針對(duì)性補(bǔ)充。實(shí)驗(yàn)結(jié)果表明,本文提出的取證網(wǎng)絡(luò)對(duì)比現(xiàn)有方法均取得較優(yōu)性能,同時(shí)面對(duì)JPEG壓縮和噪聲攻擊具有較強(qiáng)的魯棒性。