王鑫瑋,朱希安,張本奎,杜康寧,郭亞男
(1.北京信息科技大學(xué) 光電測試技術(shù)及儀器教育部重點實驗室,北京 100101; 2.北京信息科技大學(xué) 信息與通信工程學(xué)院,北京 100101; 3.中國科學(xué)院空天信息創(chuàng)新研究院 地理與賽博空間信息技術(shù)研究部,北京 100080)
素描人臉合成旨在根據(jù)輸入的光學(xué)人臉圖像合成一張素描人臉圖像。在進行素描人臉合成時,若輸入光學(xué)人臉圖像分辨率較低、質(zhì)量較差,合成圖像的質(zhì)量會顯著降低。若能對輸入的低分辨率光學(xué)圖像在進行素描人臉合成的同時恢復(fù)其高頻信息,則能顯著提升素描人臉合成圖像的質(zhì)量。因此根據(jù)低分辨率光學(xué)圖像合成高分辨率素描圖像有著重要的實際意義。
目前的素描人臉合成算法在處理低分辨率圖像方面的能力較差,在僅有低分辨率光學(xué)圖像的條件下無法合成高質(zhì)量素描圖像。為了解決上述問題,本文提出了一種超分辨率素描人臉合成方法。具體地,在輸入低分辨率光學(xué)人臉圖像后,根據(jù)低分辨率圖像特征預(yù)測高分辨率圖像的小波包分解系數(shù),通過該系數(shù)重建一張高分辨率光學(xué)人臉圖像,并通過重建圖像合成相應(yīng)的高分辨率素描人臉圖像。實驗結(jié)果表明,本文方法合成的素描圖像的質(zhì)量較高,合成圖像的噪聲較少,合成高質(zhì)量圖像的能力更強。
目前最先進的素描人臉合成算法大體可分為兩類:基于數(shù)據(jù)驅(qū)動的素描人臉合成方法和基于模型驅(qū)動的素描人臉合成方法。基于數(shù)據(jù)驅(qū)動的方法首先從訓(xùn)練的光學(xué)圖像塊中搜索相似的候選塊,并通過對候選塊進行線性組合重構(gòu)目標(biāo)光學(xué)圖像,再通過同樣的方式組合對應(yīng)的素描塊獲得最終的素描圖像。基于數(shù)據(jù)驅(qū)動的素描人臉合成方法可分為貝葉斯推理、稀疏表示和子空間學(xué)習(xí)等方法。
基于貝葉斯推理的方法使用概率圖形模型對候選圖像進行融合。Zhang等[1]提出了一種魯棒的素描人臉合成網(wǎng)絡(luò),該網(wǎng)絡(luò)能通過一個素描模板合成任意風(fēng)格的素描人臉圖像。然而,由于融合時去除黑色區(qū)域的能力有限,當(dāng)輸入光學(xué)人臉圖像存在多余的陰影時,輸出圖像會產(chǎn)生多余的偽影。在稀疏表示領(lǐng)域[2],Zhang等[3,4]提出了基于稀疏表示素描人臉合成方法,該方法的特點是在搜索過程中用稀疏系數(shù)代替照片塊的像素值。然而,由于缺少局部約束,合成的素描人臉圖像往往會丟失部分信息。基于子空間學(xué)習(xí)的方法[5]側(cè)重于候選圖像融合。Zhang等[6]提出了一種基于低秩表示(DLLRR)的方法,該方法通過挖掘潛在的素描信息,能在訓(xùn)練數(shù)據(jù)較少時穩(wěn)定地恢復(fù)圖像基本結(jié)構(gòu)。然而,當(dāng)輸入光學(xué)人臉圖像存在多余的陰影時,輸出圖像也會產(chǎn)生多余的偽影。
基于模型驅(qū)動的方法學(xué)習(xí)光學(xué)人臉圖像和素描人臉圖像之間的映射關(guān)系,并使用學(xué)習(xí)到的映射將光學(xué)人臉圖像轉(zhuǎn)換為素描人臉圖像。在基于模型驅(qū)動的方法中,基于深度學(xué)習(xí)的相關(guān)算法研究最為廣泛。Gatys等[7]提出了一種素描生成器,能生成特定風(fēng)格的素描圖像,但是網(wǎng)絡(luò)容易丟失細(xì)節(jié)信息。Zhang等[8]提出了一種具有生成損失的全卷積網(wǎng)絡(luò)。由于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)過于簡單,當(dāng)輸入圖像的光照條件較差時,輸出圖像包含了大量的噪聲。具有生成器和判別器的生成對抗網(wǎng)絡(luò)[9]能在進行素描合成時減少部分輸出圖像的噪聲,但是當(dāng)訓(xùn)練圖像和測試圖像的光照條件相差較大時,輸出圖像的面部會產(chǎn)生扭曲。Zhu等[9]提出了一種CycleGAN,在光學(xué)圖像與素描圖像不配對的情況下實現(xiàn)素描合成。Wang等[10]將多對抗性網(wǎng)絡(luò)引入了CycleGAN合成素描圖像,稱為PS2MAN。由于基于條件生成對抗網(wǎng)絡(luò)(cGAN)在素描人臉合成任務(wù)中的出色表現(xiàn),許多研究人員對cGAN進行了進一步的研究。例如,Zhang等[11]提出一種基于多領(lǐng)域?qū)剐詫W(xué)習(xí)的素描人臉合成方法。該方法沒有建立光學(xué)域和素描域之間的映射關(guān)系,而是利用cGAN來學(xué)習(xí)光學(xué)域和素描域的內(nèi)在聯(lián)系。Zhu等[12]通過將協(xié)同損失與cGAN結(jié)合提出了協(xié)同cGAN(Col-cGAN)。Zhang等[13]將cGAN引入雙傳輸框架,將高頻信息從光學(xué)域傳輸?shù)剿孛栌颉?/p>
單幅圖像超分辨率重建技術(shù)主要分為3類:第一類是基于差值的方法,該類方法由于操作簡單、速度快的特點被廣泛應(yīng)用于圖像處理領(lǐng)域。但是,簡單的插值規(guī)則會使重建圖像出現(xiàn)不同層次的鋸齒效應(yīng),導(dǎo)致重建質(zhì)量較差。第二類是基于重建的方法,該類方法雖然可以重建相對清晰的圖像,但存在計算量大、高頻細(xì)節(jié)易丟失等問題。第三類是基于學(xué)習(xí)的方法,基于學(xué)習(xí)的圖像超分辨率算法通過研究低分辨率圖像與對應(yīng)高分辨率圖像間的映射關(guān)系對輸入圖像進行超分辨率重建。Dong C等[14]通過一個卷積網(wǎng)絡(luò)直接學(xué)習(xí)低分辨率圖像與對應(yīng)的高分辨率圖像之間的映射,根據(jù)學(xué)習(xí)到的映射實現(xiàn)圖像的超分辨率重建。目前基于深度學(xué)習(xí)的超分辨率重建算法性能已有較大提升,Kim J等[15]參照VGG網(wǎng)絡(luò)提出了VDSR算法,網(wǎng)絡(luò)層數(shù)達到了20層。DRRN[16]在超分辨率算法中引入RNN[17],由于其網(wǎng)絡(luò)層共享參數(shù),網(wǎng)絡(luò)深度進一步增加到52層。Tong T等結(jié)合DenseNet[18]的網(wǎng)絡(luò)結(jié)構(gòu)提出了64層的SRDenseNet[19]。Lim B等[20]提出增強型網(wǎng)絡(luò)EDSR,網(wǎng)絡(luò)層數(shù)達到65層。RDN算法[21]通過將ResNet[22]和DenseNet結(jié)合到一起,提出了一個網(wǎng)絡(luò)深度為149層的網(wǎng)絡(luò),大大改善了網(wǎng)絡(luò)的性能。對于超分辨率問題,已經(jīng)有許多基于小波的方法被提出[23-25]。在單幅圖像的超分辨率重建方面,Gao等[26]提出了一種混合小波卷積網(wǎng)絡(luò),他們使用小波來提供一組稀疏編碼[27]和一個用于稀疏編碼的卷積網(wǎng)絡(luò),Mallat等[28]的研究表明使用小波變換來分離數(shù)據(jù)在不同尺度下的變化能保證數(shù)據(jù)的線性化和可分離性。
本文提出了一種端到端的超分辨率素描人臉合成網(wǎng)絡(luò),整體網(wǎng)絡(luò)架構(gòu)如圖1所示。整個網(wǎng)絡(luò)結(jié)構(gòu)由4個模塊組成,其中嵌入模塊提取輸入圖像的特征,小波預(yù)測模塊根據(jù)提取特征預(yù)測輸入圖像對應(yīng)的高分辨率圖像的小波包分解系數(shù),重建模塊將預(yù)測得到的小波包分解系數(shù)重建為高分辨率圖像,最終通過素描合成模塊得到最終輸出的高分辨率素描人臉圖像。

圖1 網(wǎng)絡(luò)結(jié)構(gòu)
2.2.1 嵌入模塊

2.2.2 小波預(yù)測模塊
由于小波變換[30]在處理多分辨率圖像的高度直觀性和高效性,本文選擇在小波域?qū)D像進行處理。本文方法使用Haar小波包變換[30,31],在計算復(fù)雜度最低時充分描述不同頻率的面部信息。
在小波包分解等級為n(放大倍數(shù)為2n)的條件下,可以將小波預(yù)測模塊分為多個獨立的小波預(yù)測子模塊。每個子模塊將嵌入模塊的輸出的特征作為輸入,生成相應(yīng)的小波系數(shù)。與嵌入模塊相同,所有卷積層的卷積核大小為3×3,stride為1,pad為1,因此預(yù)測出的每個小波系數(shù)都與輸入大小相同。另外,由于Haar小波變換系數(shù)之間的高度獨立性,使得信息不允許在每兩個子模塊之間流動,使得模塊具有可擴展性。預(yù)測模塊中子模塊數(shù)目的不同,對應(yīng)實現(xiàn)不同超分尺度的放大。例如,Nw=4和Nw=16分別表示放大2倍和4倍。
在該模塊中采用小波損失對網(wǎng)絡(luò)進行優(yōu)化。小波損失包括小波預(yù)測損失和紋理損失。
小波預(yù)測損失定義如式(1)所示

(1)

紋理損失定義如式(2)所示
(2)
該損失應(yīng)用于原始光學(xué)小波包分解系數(shù)和預(yù)測光學(xué)小波包分解系數(shù)的高頻系數(shù)之間,用來保證高頻小波系數(shù)不隨訓(xùn)練衰減到0,從而防止紋理細(xì)節(jié)信息的丟失。其中γi是平衡權(quán)重,用于平衡紋理損失對不同等級小波包分解系數(shù)的影響。α和ε為松馳因子,用于控制紋理損失的大小。在實驗中,參數(shù)設(shè)置為γi=1,α=1.2和ε=0。
2.2.3 重建模塊
重建模塊能根據(jù)預(yù)測網(wǎng)絡(luò)的輸入得到最終重建的高分辨率光學(xué)人臉圖像。它包括一個卷積核大小為2n×2n,stride為2n的反卷積層(r為放大倍數(shù)),雖然反卷積層的大小取決于放大倍數(shù)2n,但它可以通過恒定的小波重構(gòu)矩陣進行初始化,并在訓(xùn)練中固定。因此,它對整個網(wǎng)絡(luò)的可擴展性沒有影響。
2.2.4 素描合成模塊

在訓(xùn)練過程中使用素描合成損失對網(wǎng)絡(luò)進行約束。素描合成損失包括對抗損失和循環(huán)一致性損失。對抗損失定義如式(3)、式(4)所示
lGp2s=Ey~Pdata(y)[logDs(y)]+Ex~Pdata(x)[log(1-Ds(Gp2s(x)))]
(3)
lGs2p=Ex~Pdata(x)[logDp(x)]+Ey~Pdata(y)[log(1-Ds(Gs2p(y)))]
(4)
其中,x和y分別為原始光學(xué)圖像和原始素描圖像,Gp2s(·)和Gs2p(·)分別表示素描生成器和光學(xué)生成器,Dp(·)和Ds(·)分別表示光學(xué)判別器和素描生成器。對抗損失應(yīng)用在光學(xué)圖像映射為素描圖像的過程,本文采用的對抗損失為原始的交叉熵?fù)p失。由于僅使用對抗損失會使生成網(wǎng)絡(luò)中存在多余映射問題,從而導(dǎo)致生成數(shù)據(jù)的穩(wěn)定性降低。為了減少其它多余映射關(guān)系,提高重建圖像與輸入圖像之間的匹配程度,因此引入循環(huán)一致性損失。
循環(huán)一致性損失定義如式(5)所示

(5)
素描合成損失最終定義如式(6)所示
lfeature=lGp2s+lGs2p+σlcyc
(6)
σ為循環(huán)一致性損失權(quán)重,用于控制生成圖像的結(jié)構(gòu)一致性。
合成完成后,在輸出素描圖像和原始素描圖像間引入圖像MSE損失,用以平衡重建圖像的平滑與銳化程度,提高生成圖像的質(zhì)量。
圖像MSE損失定義如式(7)所示
(7)
綜上,總損失函數(shù)定義為如式(8)所示
ltotal=lwavelet+μltexture+υlfeature+ρlfull-image
(8)
其中,μ、υ、ρ為控制相關(guān)損失項重要性的權(quán)重參數(shù)。
由于本文方法用于實現(xiàn)高分辨率的素描合成,因此本文采用經(jīng)典素描人臉數(shù)據(jù)集CUHK學(xué)生數(shù)據(jù)集來評估本文方法的性能。
CUHK學(xué)生數(shù)據(jù)集由香港中文大學(xué)(CUHK)學(xué)生數(shù)據(jù)庫的188張面孔的光學(xué)素描圖像對構(gòu)成,包含134名男性和56名女性。其中88對圖像作為訓(xùn)練集,剩余的100對圖像作為測試集。
本網(wǎng)絡(luò)采用端到端的訓(xùn)練方式,數(shù)據(jù)集原始圖像大小為256×256,訓(xùn)練時根據(jù)超分倍數(shù)分別獲取其對應(yīng)等級的小波包分解低頻分量和雙三次差值下采樣圖像作為輸入進行聯(lián)合訓(xùn)練。該訓(xùn)練方式可以提高網(wǎng)絡(luò)應(yīng)對不同下采樣方法得到的低分辨率圖像的魯棒性。設(shè)置迭代周期為500,初始學(xué)習(xí)率為0.0002,從第100個周期開始線性衰減,到最后一個周期衰減到0。采用參數(shù)設(shè)置為beta1=0.5,beta2=0.999的Adam優(yōu)化器更新網(wǎng)絡(luò)參數(shù)。在網(wǎng)絡(luò)初始化方面,卷積層權(quán)重采用正態(tài)分布隨機初始化,bias初始化為0。訓(xùn)練時,網(wǎng)絡(luò)批處理大小設(shè)置為1。為了客觀評價生成圖像的質(zhì)量,本文采用圖像質(zhì)量評價標(biāo)準(zhǔn)結(jié)構(gòu)相似性(structural similarity index,SSIM)和峰值信噪比(peak signal to noise ratio,PSNR)對圖像整體進行質(zhì)量評估。PSNR用于評價生成圖像著色的真實程度,其值越大,表示失真越少;SSIM用于衡量目標(biāo)間結(jié)構(gòu)的相似程度,SSIM測量值越大,表示兩張圖像相似度越高。
3.3.1 消融實驗
為了驗證本文方法各個模塊在超分辨率素描人臉圖像合成的有效性,在CUHK學(xué)生數(shù)據(jù)集進行消融實驗。首先,使用Bicubic對低分辨率素描人臉圖像進行放大,然后通過CycleGAN網(wǎng)絡(luò)對放大的低分辨率光學(xué)人臉圖像進行素描合成得到素描人臉圖像;其次,在非端到端的框架下,先使用小波超分網(wǎng)絡(luò)對輸入低分辨率光學(xué)人臉圖像進行超分辨率重建,再使用CycleGAN網(wǎng)絡(luò)對超分辨率重建結(jié)果進行素描合成。
在進行實驗結(jié)果對比時,首先對比小波超分網(wǎng)絡(luò)+CycleGAN和Bicubic+CycleGAN的實驗結(jié)果,驗證在素描合成過程中引入超分辨率重建網(wǎng)絡(luò)是否能夠提升素描合成圖像的質(zhì)量。其次,對比本文方法與小波超分網(wǎng)絡(luò)+CycleGAN的實驗結(jié)果,驗證端到端條件下進行超分辨率素描合成能否進一步改善素描合成圖像的效果。
圖2表示超分倍數(shù)為4時高分辨率素描人臉圖像的消融實驗結(jié)果,其中圖2(a)為輸入光學(xué)圖像,圖2(b)為Bicubic+CycleGAN結(jié)果,圖2(c)為小波超分網(wǎng)絡(luò)+CycleGAN結(jié)果,圖2(d)為本文方法結(jié)果,圖2(e)為原始素描圖像。圖2結(jié)果表示,圖2(b)、圖2(c)方法輸出結(jié)果的視覺效果較為雜亂,邊界整體較為模糊,部分五官細(xì)節(jié)信息丟失,眼睛和嘴部等結(jié)構(gòu)信息也存在一定扭曲,圖像面部和背景區(qū)域相較圖2(e)生成了過多陰影。因此,僅通過素描合成網(wǎng)絡(luò)或通過非端到端的方法合成的高分辨率素描人臉圖像質(zhì)量較差。而圖2(d)方法輸出結(jié)果邊界清晰,細(xì)節(jié)完整,面部結(jié)構(gòu)信息與原始素描較為相似,整體質(zhì)量較高。

圖2 超分倍數(shù)為4時消融實驗結(jié)果對比
此外,通過計算圖像的峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)對消融實驗結(jié)果進行了定量分析,結(jié)果見表1。表1結(jié)果表明,僅引入超分辨率重建網(wǎng)絡(luò)在非端到端條件下合成素描圖像雖然可以提升合成圖像的質(zhì)量,但提升效果有限。而本文方法提升合成圖像質(zhì)量的效果較好,驗證了本文方法的有效性。

表1 消融實驗性能指標(biāo)
3.3.2 對比實驗
為了進一步驗證本文方法的高分辨率素描合成效果,本文使用CUHK學(xué)生數(shù)據(jù)集在超分倍數(shù)為2和4時的條件下進行了兩組對比實驗。首先,超分辨率對比實驗使用不同超分網(wǎng)絡(luò)對低分辨率光學(xué)人臉圖像進行超分辨率重建,然后通過CycleGAN網(wǎng)絡(luò)對重建的低分辨率光學(xué)人臉圖像進行素描合成得到對比實驗結(jié)果;其次,素描合成對比實驗使用小波超分網(wǎng)絡(luò)對低分辨率光學(xué)人臉圖像進行超分辨率重建,然后使用不同素描合成網(wǎng)絡(luò)進行素描合成得到對比實驗結(jié)果。對比實驗過程中,除本文方法外,均在非端對端框架下,使用經(jīng)現(xiàn)有超分辨率重建方法重建后的高分辨率光學(xué)圖像作為輸入圖像,使用素描合成網(wǎng)絡(luò)進行素描合成得到最終的對比圖像。對比實驗用以驗證不同超分辨率重建網(wǎng)絡(luò)和不同素描合成網(wǎng)絡(luò)在非端到端時參與高分辨率素描人臉圖像合成的效果。
超分辨率對比實驗結(jié)果如圖3和圖4所示。圖3為超分倍數(shù)為2時不同超分辨率重建網(wǎng)絡(luò)合成圖像,圖4為超分倍數(shù)為4時不同超分辨率重建網(wǎng)絡(luò)合成圖像,圖(a)為光學(xué)輸入圖像,圖(b)為EDSR合成圖像,圖(c)為MetaSR合成圖像,圖(d)為RCAN合成圖像,圖(e)為RDN合成圖像,圖(f)為本文方法合成圖像,圖(g)為原始素描圖像。在圖3和圖4結(jié)果中,由于圖(b)~圖(e)方法均是非端到端的,與消融實驗類似,輸出結(jié)果同樣存在邊界較為模糊,面部和背景區(qū)域存在較多的陰影和偽影,嘴部和眼睛等位置出現(xiàn)結(jié)構(gòu)扭曲等問題。圖(f)方法生成圖像則較為清晰,細(xì)節(jié)與結(jié)構(gòu)信息完整,整體視覺效果較好。

圖3 超分倍數(shù)為2時不同超分辨率方法實驗結(jié)果對比

圖4 超分倍數(shù)為4時不同超分辨率方法實驗結(jié)果對比
表2定量分析了超分辨率對比實驗結(jié)果的峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM),結(jié)果表明本文方法性能在多個超分倍數(shù)上優(yōu)于其它超分辨率對比方法。
素描合成對比實驗結(jié)果如圖5和圖6所示。圖5為超分倍數(shù)為2時不同素描合成網(wǎng)絡(luò)合成圖像,圖6為超分倍數(shù)

表2 超分辨率對比實驗性能指標(biāo)

圖5 超分倍數(shù)為2時不同素描合成方法實驗結(jié)果對比

圖6 超分倍數(shù)為4時不同素描合成方法實驗結(jié)果對比
為4時不同素描合成網(wǎng)絡(luò)合成圖像,圖(a)為光學(xué)輸入圖像,圖(b)為FSW合成圖像,圖(c)為MDAL合成圖像,圖(d)為PS2MAN合成圖像,圖(e)為本文方法合成圖像,圖(f)為原始素描圖像。圖5和圖6結(jié)果顯示,圖(b)~圖(d)方法生成的圖像大多邊緣模糊,且在背景和面部等信息量較少的位置存在偽影。圖(b)方法合成的素描風(fēng)格與原始素描不匹配,圖(c)方法結(jié)果存在較多偽影,圖(d)方法結(jié)果存在細(xì)節(jié)失真的問題,圖(e)方法生成結(jié)構(gòu)清晰,細(xì)節(jié)完整,對比其它方法整體質(zhì)量較高。
表3定量分析了對比實驗結(jié)果的峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM),結(jié)果表明本文方法性能在多個超分倍數(shù)上優(yōu)于其它素描合成對比方法。

表3 素描合成對比實驗性能指標(biāo)
此外,在對比實驗中統(tǒng)計了對不同性能指標(biāo)下不同方法合成圖像的分布,統(tǒng)計結(jié)果如圖7、圖8所示。橫軸代表性能指標(biāo)大小,縱軸代表圖像數(shù)量占比,曲線上點的縱坐標(biāo)表示合成圖像中性能指標(biāo)(PSNR或SSIM)大于其橫坐標(biāo)數(shù)值的圖像數(shù)量與總合成圖像數(shù)量的比值。分布圖表明,本文方法在不同超分倍數(shù)的條件下,合成的高質(zhì)量圖像數(shù)量占比高于其它對比方法,合成高質(zhì)量圖像的能力更強。
本文提出了一種超分辨率素描人臉合成方法,根據(jù)低分辨率光學(xué)人臉圖像合成一張高分辨率素描人臉圖像。該方法在素描合成網(wǎng)絡(luò)中引入了超分辨率重建模塊,通過預(yù)測高分辨率圖像小波包分解系數(shù)的方式提高了圖像的分辨率的功能。以端對端的方式統(tǒng)一訓(xùn)練多個模塊,并使用小波預(yù)測損失、素描合成損失和圖像MSE損失對網(wǎng)絡(luò)進行整體約束,實驗結(jié)果表明,本文方法較其它方法在主觀視覺和客觀量化等方面都取得了更好的評價,能夠獲得細(xì)節(jié)完整,輪廓清晰的高分辨率素描人臉圖像。

圖7 超分辨率對比實驗圖像分布

圖8 素描合成對比實驗圖像分布