林泓 任碩 楊益 張楊憶
1.武漢理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院武漢430063
圖像翻譯(Image-to-image translation)[1]是一類將源圖像域的輸入圖像轉(zhuǎn)化為目標(biāo)圖像域輸出圖像的計算機(jī)視覺處理任務(wù),其應(yīng)用包括圖像風(fēng)格轉(zhuǎn)換[2]、圖片域適應(yīng)和數(shù)據(jù)預(yù)處理等多個領(lǐng)域.生成對抗網(wǎng)絡(luò)[3]作為當(dāng)前圖像翻譯任務(wù)的主流模型,通過生成器和判別器之間的零和博弈,提高判別器鑒別真?zhèn)蔚哪芰?指導(dǎo)生成器學(xué)習(xí)真實的數(shù)據(jù)分布從而生成逼真圖像.
根據(jù)訓(xùn)練數(shù)據(jù)集中輸入圖像和輸出圖像的對應(yīng)關(guān)系,圖像翻譯分為有監(jiān)督和無監(jiān)督兩種[4].Isola等[1]在2017年基于條件生成對抗網(wǎng)絡(luò)(Conditional generative adversarial network,CGAN)[5]提出的pix2pix 是典型的有監(jiān)督圖像翻譯方法,其模型將U-net[6]作為生成器、PatchGAN 作為判別器,在保持圖像結(jié)構(gòu)一致性的情況下完成有標(biāo)注的成對數(shù)據(jù)間轉(zhuǎn)換工作.
有監(jiān)督的圖像翻譯方法需要一一配對的訓(xùn)練圖像,然而在藝術(shù)風(fēng)格轉(zhuǎn)換、目標(biāo)轉(zhuǎn)換等任務(wù)中難以得到大規(guī)模匹配成對的有標(biāo)注圖像數(shù)據(jù)集.
無監(jiān)督的圖像翻譯任務(wù)避免了需要獲取配對訓(xùn)練數(shù)據(jù)集的問題,其目標(biāo)是學(xué)習(xí)兩個圖像域(Image domain)之間的映射,訓(xùn)練集中輸入圖像和目標(biāo)圖像不必?fù)碛忻鞔_的對應(yīng)關(guān)系.Zhu 等[7]結(jié)合對偶學(xué)習(xí)提出CycleGAN 無監(jiān)督圖像翻譯方法,使用相互對應(yīng)的生成器和判別器完成圖像域轉(zhuǎn)換,并使用循環(huán)重構(gòu)一致性的約束條件保留圖像內(nèi)容結(jié)構(gòu)信息,從而只改變目標(biāo)圖像域.為更好地建立圖像域之間的映射關(guān)系,Liu 等[8]提出UNIT 方法共享中間層的網(wǎng)絡(luò)權(quán)重,在生成器中的編碼器結(jié)構(gòu)提取不同圖像域共享的低維潛在向量后,使用對應(yīng)的解碼器結(jié)構(gòu)建立低維潛在向量與各個圖像域的映射關(guān)系,完成無監(jiān)督圖像翻譯.
當(dāng)前無監(jiān)督圖像翻譯方法能夠較好地建立不同圖像域之間相互映射關(guān)系,但是在翻譯效果以及生成圖像質(zhì)量方面依然存在不足.首先,由于生成器網(wǎng)絡(luò)卷積神經(jīng)結(jié)構(gòu)受卷積核大小的限制,在生成圖像過程中只能關(guān)注局部依賴關(guān)系而忽略了全局相關(guān)性,導(dǎo)致翻譯圖像指定圖像域變化不完全,圖像協(xié)調(diào)性與真實性降低;其次,由于訓(xùn)練數(shù)據(jù)中沒有配對的目標(biāo)圖像,翻譯過程中目標(biāo)圖像域信息定位不準(zhǔn)確,存在無關(guān)圖像域信息改變,翻譯效果不理想的問題;另外,當(dāng)前GAN 博弈對抗過程中,生成器通過判別器與真實數(shù)據(jù)間接地建立關(guān)系,判別器未利用輸入數(shù)據(jù)一半為真一半為假的先驗知識,導(dǎo)致訓(xùn)練過程穩(wěn)定性不足,翻譯圖像質(zhì)量不佳.
為了提升無監(jiān)督圖像翻譯方法生成圖像的視覺效果,解決訓(xùn)練過程中模型不穩(wěn)定、無關(guān)圖像域發(fā)生較大改變的問題,本文以GAN 為基本模型,基于對偶學(xué)習(xí),提出一種融合自注意力機(jī)制和相對鑒別的無監(jiān)督圖像翻譯方法,主要工作如下:
1)在生成器網(wǎng)絡(luò)設(shè)計中,針對卷積結(jié)構(gòu)只關(guān)注局部依賴的問題,引入自注意力機(jī)制計算目標(biāo)圖像像素位置間的關(guān)聯(lián)權(quán)重,建立遠(yuǎn)近距離的依賴關(guān)系從而提高圖像整體協(xié)調(diào)性;同時在生成器的下采樣區(qū)最后一層和上采樣區(qū)第一層之間增加跳躍連接來降低原圖像特征在中間卷積過程中的信息損失,更好地還原圖像細(xì)節(jié).
2)在判別器網(wǎng)絡(luò)設(shè)計中,采用PatchGAN 網(wǎng)絡(luò)結(jié)構(gòu)對圖像進(jìn)行真假二分類鑒別,并引入譜規(guī)范化(Spectral normalization)[9]使訓(xùn)練過程中的參數(shù)矩陣在結(jié)構(gòu)不被破壞的前提下滿足Lipschitz 條件,防止因判別器能力突變造成的梯度消失,提高訓(xùn)練過程的穩(wěn)定性.
3)針對整體模型博弈對抗過程不合理,導(dǎo)致訓(xùn)練不穩(wěn)定的問題,采用相對鑒別對抗損失,將絕對的真假判斷轉(zhuǎn)化為差值關(guān)系的相對真假,提高訓(xùn)練收斂速度、增加訓(xùn)練過程穩(wěn)定性,與最小二乘法相融合,嚴(yán)格決策遠(yuǎn)離邊界的假樣本,從而增強(qiáng)生成圖像的真實性.
4)由循環(huán)重構(gòu)和自我重構(gòu)組成重構(gòu)損失,基于對偶學(xué)習(xí)采用循環(huán)重構(gòu)建立圖像域相互映射關(guān)系,在翻譯過程中保留圖像的固有特征,并增加自我重構(gòu)降低無關(guān)圖像域信息的改變,進(jìn)一步引導(dǎo)圖像翻譯的方向,提高圖像翻譯效果.
2016年,微軟亞洲研究院提出的對偶學(xué)習(xí)(Dual learning)[10]在翻譯系統(tǒng)自動學(xué)習(xí)無標(biāo)注數(shù)據(jù)的方面取得了巨大的成就,其利用大量無標(biāo)注數(shù)據(jù)及少量標(biāo)注數(shù)據(jù)訓(xùn)練即可得到高效的神經(jīng)翻譯模型.本文將對偶學(xué)習(xí)引入到基于卷積結(jié)構(gòu)的生成對抗網(wǎng)絡(luò)中,無需一一配對的訓(xùn)練數(shù)據(jù)集,兩組GAN共同作用完成無監(jiān)督的圖像翻譯任務(wù).
本文設(shè)計的對偶模型用于完成圖像域X和Y的相互翻譯任務(wù),生成器G、F和判別器DX、DY構(gòu)成結(jié)構(gòu)相同的兩組GAN,分別進(jìn)行特定方向的圖像翻譯工作.生成器負(fù)責(zé)將源圖像轉(zhuǎn)換為目標(biāo)圖像,完成圖像域的映射工作,而判別器實質(zhì)為一個二分類網(wǎng)絡(luò),負(fù)責(zé)對輸入的圖像進(jìn)行真假判斷,模型的整體結(jié)構(gòu)如圖1所示.
以圖像域X →Y的單向圖像翻譯為例,生成器G只負(fù)責(zé)學(xué)習(xí)X →Y的映射關(guān)系,將域X中的圖像轉(zhuǎn)換為域Y中的圖像,判別器DX負(fù)責(zé)鑒定來自域X輸入圖像的真假,并將域X中的真實圖像作為正樣本,其余生成圖像作為負(fù)樣本對其進(jìn)行訓(xùn)練,使DX獲得對所有不屬于域X的圖像認(rèn)定為虛假圖像的識別能力.同理,生成器F負(fù)責(zé)完成圖像域Y →X的反向映射,判別器DY負(fù)責(zé)對域Y中的圖像進(jìn)行鑒別.
如圖1所示,模型遵循對偶學(xué)習(xí)建立循環(huán)重構(gòu)過程,并增加自我重構(gòu)降低無關(guān)圖像域改變.在a →F(G(a))→a表示的循環(huán)重構(gòu)過程中,源圖像域X的真實圖像a經(jīng)過生成器G映射到圖像域Y,得到翻譯圖像G(a),然后再經(jīng)過生成器F轉(zhuǎn)換回域X,得到重構(gòu)圖像F(G(a)).通過讓循環(huán)重構(gòu)的圖像與原圖像保持一致,也就是F(G(a))≈a,使生成器在無標(biāo)注的非成對數(shù)據(jù)集上獲得圖像域之間相互映射的能力.在a →F(a)→a表示的自我重構(gòu)過程中,對于已經(jīng)屬于圖像域X的真實圖像a經(jīng)過生成器F得到重構(gòu)圖像F(a),內(nèi)容結(jié)構(gòu)信息不發(fā)生改變,即F(a)≈a.通過自我重構(gòu)一致性讓生成器在轉(zhuǎn)換指定圖像域的過程中,更準(zhǔn)確地獲取該域間差異性,并保持其他圖像域的信息不發(fā)生改變.

圖1 模型整體結(jié)構(gòu)Fig.1 The structure of model
本文對偶形式的模型結(jié)構(gòu)單一化一組GAN 的功能,使其專注于特定方向的翻譯任務(wù),在轉(zhuǎn)換圖像域過程中,循環(huán)重構(gòu)保留了內(nèi)容結(jié)構(gòu)信息,自我重構(gòu)減少了無關(guān)圖像域變化,兩者共同指導(dǎo)整體模型建立圖像域之間映射關(guān)系,完成無監(jiān)督圖像翻譯.
為了在圖像域轉(zhuǎn)換過程中提高生成圖像真實性,獲取高質(zhì)量的翻譯圖像,本文的生成器基于Johnson 等[11]提出的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),引入自注意力機(jī)制,并在生成器的下采樣區(qū)最后一層和上采樣區(qū)第一層間增加跳躍連接.生成器網(wǎng)絡(luò)結(jié)構(gòu)由三部分組成,分別為由卷積神經(jīng)網(wǎng)絡(luò)組成的下采樣區(qū)域、由殘差網(wǎng)絡(luò)塊結(jié)構(gòu)[12]組成的中間區(qū)域、由反卷積神經(jīng)網(wǎng)絡(luò)與自注意力機(jī)制網(wǎng)絡(luò)層組成的上采樣區(qū)域,如圖2所示.
生成器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置如表1所示,除第12 層輸出層使用Tanh 激活函數(shù)外,包括殘差網(wǎng)絡(luò)在內(nèi)的卷積神經(jīng)網(wǎng)絡(luò)均使用實例歸一化(Instance normalization,IN)[13]和ReLU 激活函數(shù).

表1 生成器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置Table 1 The parameter setting of generator
1)跳躍連接.雖然中間區(qū)域的殘差網(wǎng)絡(luò)層與層之間已經(jīng)有了跳躍連接,仍會出現(xiàn)原圖像部分特征信息遺失的問題.為了更好地保留圖像內(nèi)容結(jié)構(gòu)信息以及翻譯過程中無關(guān)圖像域信息,本文在生成器網(wǎng)絡(luò)的下采樣區(qū)最后一層(第2 層)和上采樣區(qū)第一層(第9 層)之間增加了圖2 中所示的額外跳躍連接,將第2 層的輸出以α的權(quán)重疊加到第9 層的輸出中,作為下一層網(wǎng)絡(luò)的輸入

圖2 生成器網(wǎng)絡(luò)Fig.2 Generator

式中,L2表示生成器網(wǎng)絡(luò)第2 層的輸出張量,L9表示第9 層的輸出張量,權(quán)重參數(shù)α初始值為0.5,在迭代訓(xùn)練過程中自適應(yīng)調(diào)整得到.
本文在生成器網(wǎng)絡(luò)中增加的跳躍連接將低層提取的輸入圖像特征與高層轉(zhuǎn)換后的圖像特征加權(quán)結(jié)合,減少不必要的內(nèi)容結(jié)構(gòu)和無關(guān)圖像域信息損失,從而提高翻譯圖像視覺效果.
2)自注意力機(jī)制.由于生成器網(wǎng)絡(luò)中使用的卷積神經(jīng)網(wǎng)絡(luò)受到卷積核大小的限制,不能在有限的網(wǎng)絡(luò)層次結(jié)構(gòu)中捕獲圖像生成過程中全局的依賴性,本文將自注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)引入到生成器的上采樣區(qū),如圖2所示,整合全局和局部空間信息,建立圖像各個位置像素間遠(yuǎn)近距離關(guān)聯(lián)關(guān)系,提高生成圖像的協(xié)調(diào)性和質(zhì)量.
圖2 中自注意力模塊將前一隱含層通道數(shù)為C、尺寸大小為N=height(高)×width(寬)的輸出特征張量x ∈RC×N作為輸入,分別使用兩個卷積核大小為1×1、通道數(shù)為C′=C/8 的卷積網(wǎng)絡(luò)獲取特征空間f和g,如式(2)所示

式中,Wf ∈RC′×N,Wg ∈RC′×N.然后通過張量相乘的方法計算得到f和g兩個特征空間的相似度sij,并使用softmax 函數(shù)對計算j位置的值時i位置的值所占權(quán)重βj,i進(jìn)行歸一化處理:

由βj,i構(gòu)成注意力權(quán)重矩陣,最終自注意力機(jī)制的輸出為

式中,Wh ∈RC×N,h為輸入信息x與權(quán)重矩陣Wh∈RC×C的乘積.
常規(guī)卷積關(guān)注局部相關(guān)性,而自注意力機(jī)制通過計算注意力權(quán)重矩陣來關(guān)注全局相關(guān)性.為了在生成圖像的過程中,更好地在局部依賴基礎(chǔ)上增加全局依賴,本文將自注意力機(jī)制模塊的輸出與原特征張量x相結(jié)合,加入初始值為0 的學(xué)習(xí)參數(shù)γ,通過網(wǎng)絡(luò)訓(xùn)練過程中的反向傳播算法來進(jìn)行自適應(yīng)調(diào)整

本文的判別器網(wǎng)絡(luò)使用PatchGAN 結(jié)構(gòu)對圖像進(jìn)行真?zhèn)舞b別,引入譜規(guī)范化(Spectral normalization,SN)來緩解梯度消失從而增加模型的穩(wěn)定性.
判別器網(wǎng)絡(luò)將輸入的真實圖像或生成圖像劃分為N ×N的多個區(qū)域,分別對每個區(qū)域進(jìn)行真?zhèn)闻袛?結(jié)構(gòu)如圖3所示.其輸出二維矩陣中每一個元素代表對應(yīng)N ×N大小區(qū)域的圖像真實性概率估計,最終整體圖像的判定結(jié)果為每個區(qū)域的真實概率平均值.判別器網(wǎng)絡(luò)能夠?qū)θ我獬叽鐖D像的高頻結(jié)構(gòu)信息進(jìn)行建模,更關(guān)注圖像局部的關(guān)鍵區(qū)域,使模型擁有更少的訓(xùn)練參數(shù),從而更快得到圖像的真?zhèn)闻袛嘟Y(jié)果.

圖3 判別器網(wǎng)絡(luò)Fig.3 Discriminator
判別器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置如表2所示,0~3 層使用斜率為0.2 的LeakyReLU 激活函數(shù).

表2 判別器網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)置Table 2 The parameter setting of discriminator
判別器的訓(xùn)練是一個對生成數(shù)據(jù)分布與目標(biāo)數(shù)據(jù)分布之間密度比率進(jìn)行評價估計的過程[3].當(dāng)生成分布與目標(biāo)分布重疊部分可忽略時,判別器能夠完全區(qū)分這兩種分布,此時生成器的獲得梯度為0,無法繼續(xù)學(xué)習(xí).為了克服梯度消失的問題,本文在判別器1~3 中間層網(wǎng)絡(luò)中加入譜規(guī)范化,在訓(xùn)練過程中穩(wěn)定、逐步地提升判別器的鑒別能力.譜規(guī)范化對各層權(quán)重矩陣W進(jìn)行如下操作:

式中,σ(W)是權(quán)值的譜范數(shù),其值為矩陣的最大奇異值.將f(·)作為判別器的函數(shù)表示,并假設(shè)其服從Lipschitz 連續(xù)分布,如式(7)所示,其中使不等式成立的最小K值稱為Lipschitz 常數(shù).

通過譜規(guī)范化操作,可以限制判別器網(wǎng)絡(luò)的K值為1,防止在訓(xùn)練過程中因判別器能力突變造成梯度消失,進(jìn)而提高整個模型的穩(wěn)定性.
本文圖像翻譯模型基于對偶學(xué)習(xí),使用兩組GAN 結(jié)構(gòu)分別負(fù)責(zé)X →Y與Y →X的單向映射過程,共同完成圖像域X和圖像域Y之間的相互轉(zhuǎn)換工作,因此整體損失函數(shù)中每組GAN 結(jié)構(gòu)的對抗損失相類似,并使用重構(gòu)損失指導(dǎo)生成器G和F的協(xié)同工作,整體損失為

式中,LGAN(G,DY,X,Y)表示生成器G和判別器DY的生成對抗損失,LGAN(F,DX,Y,X)表示生成器F和判別器DX的生成對抗損失,Lcyc(G,F)和Lself(G,F)分別表示重構(gòu)損失中的循環(huán)重構(gòu)和自我重構(gòu),λ1和λ2為循環(huán)重構(gòu)損失和自我重構(gòu)損失相對于對抗損失的權(quán)重比例超參數(shù).
GAN 中的對抗損失代表生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)之間的零和博弈過程,最終目的是讓生成器學(xué)習(xí)到真實的數(shù)據(jù)分布.在圖像翻譯任務(wù)中,就是生成足以以假亂真的目標(biāo)圖像域圖像.
定義pdata(x)表示圖像域X的樣本分布,pdata(y)表示圖像域Y的樣本分布,以生成器G和判別器DY為例,使用真實圖像y和生成圖像G(x)對DY進(jìn)行訓(xùn)練,并將DY對G(a)的判定結(jié)果反饋給G來指導(dǎo)其訓(xùn)練,Goodfellow 等[3]提出的原始生成對抗損失為

在實際訓(xùn)練中,式(9)損失函數(shù)minLGAN(G)的第1 項與G無關(guān),因此不參與計算,即G的損失函數(shù)可寫為minLGAN(G)=.
但是式(9)的對抗損失在一定程度上是不合理的.首先,在DY使用真實數(shù)據(jù)y和生成數(shù)據(jù)G(x),G僅使用G(x)進(jìn)行訓(xùn)練的情況下,G通過DY間接與y建立關(guān)系,這需要DY必須記住關(guān)于y的所有屬性信息才能更好地指導(dǎo)G的訓(xùn)練,從而導(dǎo)致對DY性能要求過高.其次,根據(jù)DY的輸入數(shù)據(jù)一半為真實數(shù)據(jù)、一半為生成數(shù)據(jù)的先驗知識,當(dāng)生成數(shù)據(jù)足夠真實時,DY無法區(qū)分輸入數(shù)據(jù)的真?zhèn)?其對數(shù)據(jù)真?zhèn)闻袛嗟母怕蕬?yīng)為0.5,但式(9)中DY期望輸出為1,即DY沒有利用該先驗知識,造成對抗損失函數(shù)設(shè)計不合理.最后,在訓(xùn)練過程中僅不斷提高生成數(shù)據(jù)為真的概率DY(G(x)),加大了最小化不同分布之間JS(Jensen-Shannon)散度的難度,降低了整體模型收斂速度.
針對原始生成對抗損失設(shè)計不合理的問題,本文引入相對鑒別思想[14],提高生成數(shù)據(jù)為真的概率同時降低實際數(shù)據(jù)為真的概率,在對抗損失函數(shù)中使用DY(y)- DY(G(x))代替DY(y),使用DY(G(x))-DY(y)代替DY(G(x)),將絕對真假改變?yōu)橄鄬φ婕俚母怕?如式(10)所示.
相對鑒別對抗能夠讓G直接借助于實際數(shù)據(jù)獲得生成數(shù)據(jù),從而提高G的能力;將真實數(shù)據(jù)y與生成數(shù)據(jù)G(x)混合輸入DY中進(jìn)行判別,進(jìn)而充分利用GAN 的先驗知識,增強(qiáng)整體模型訓(xùn)練過程的穩(wěn)定性;提高生成數(shù)據(jù)為真的概率DY(G(x))的同時,降低實際數(shù)據(jù)為真的概率DY(y),有利于最小化真實分布與生成分布之間的JS 散度,加快模型收斂速度.

為了進(jìn)一步增強(qiáng)生成圖像的真實性,本文在相對鑒別對抗的基礎(chǔ)上融合最小二乘損失[15],將對數(shù)運(yùn)算變?yōu)闅埐钇椒竭\(yùn)算,設(shè)計得到本文的對抗損失

使用最小二乘法可以在更嚴(yán)格地懲罰遠(yuǎn)離決策邊界的假樣本的同時,對判別器鑒定為真卻遠(yuǎn)離決策邊界的樣本繼續(xù)進(jìn)行優(yōu)化,更好地把控梯度下降的方向從而提高生成圖片的質(zhì)量.
1)循環(huán)重構(gòu).在無監(jiān)督的圖像翻譯任務(wù)中,因為在指定圖像域轉(zhuǎn)變的同時需要保留圖像結(jié)構(gòu)和圖像內(nèi)容等其他信息,僅有對抗損失不能保證生成圖像與原圖像之間保留固有的特征屬性.為了更好地建立圖像域之間的相互映射關(guān)系,本文引入對偶學(xué)習(xí)中循環(huán)一致性條件約束,使用循環(huán)重構(gòu)損失引導(dǎo)模型在兩個圖像域相互轉(zhuǎn)換過程中保留圖像固有特征,同時采用L1 函數(shù)作為循環(huán)重構(gòu)損失在像素級上獲取圖像的低頻信息,與判別器網(wǎng)絡(luò)對圖像高頻信息進(jìn)行建模形成互補(bǔ).
對于屬于圖像域X的真實圖像x,經(jīng)過生成器G轉(zhuǎn)換為屬于圖像域Y的生成圖像G(x)后,再經(jīng)過生成器F將G(x)轉(zhuǎn)換回原圖像域,得到重構(gòu)圖像F(G(x)),那么圖像x與F(G(x))應(yīng)保持一致,即對于任一進(jìn)行圖像域轉(zhuǎn)換的輸入圖像,在依次經(jīng)過兩個相反映射方向的生成器后,應(yīng)得到與輸入圖像盡可能相同的結(jié)果.循環(huán)重構(gòu)損失如式(12)所示

2)自我重構(gòu).循環(huán)重構(gòu)在翻譯過程中保留了圖像內(nèi)容結(jié)構(gòu)等信息,但由于生成器網(wǎng)絡(luò)不能明確區(qū)分圖像中的多種圖像域信息,在轉(zhuǎn)換指定域的同時,往往伴隨部分無關(guān)域信息的變化.因此,為了讓生成器對相互轉(zhuǎn)換的圖像域具有一定的鑒別能力,明確所需轉(zhuǎn)變的目標(biāo)圖像域信息,本文在循環(huán)一致條件約束的基礎(chǔ)上,引入自我重構(gòu)一致性約束條件,進(jìn)一步引導(dǎo)圖像翻譯工作.
當(dāng)完成X →Y方向翻譯任務(wù)的生成器G在獲得來自域Y的輸入圖像時,應(yīng)輸出與輸入圖像一致的翻譯圖像以達(dá)到自我重構(gòu)一致性,生成器F同理.由于翻譯過程中,受到圖像域間地理環(huán)境和氣候等拍攝條件不同的影響,像素級別的像素點(diǎn)控制的圖像整體顏色作為無關(guān)域信息最容易發(fā)生改變,本文使用像素級的L1 函數(shù)作為自我重構(gòu)損失,減少無關(guān)圖像域的改變,即

本文在Horse &Zebra[7]數(shù)據(jù)集上進(jìn)行局部范圍的目標(biāo)轉(zhuǎn)換圖像翻譯,在Summer &Winter[7]數(shù)據(jù)集上進(jìn)行整體范圍的季節(jié)變換圖像翻譯,在AerialPhoto &Map[1]數(shù)據(jù)集上進(jìn)行衛(wèi)星圖與路網(wǎng)圖相互轉(zhuǎn)換圖像翻譯.分別與無監(jiān)督圖像翻譯方法、有監(jiān)督圖像翻譯方法進(jìn)行對比試驗,驗證本文方法的有效性,數(shù)據(jù)集具體說明如下:
1)Horse&Zebra(馬和斑馬數(shù)據(jù)集).分別使用“wild horse” 和“zebra” 作為標(biāo)簽在ImageNet[16]數(shù)據(jù)集中檢索得到,包含1 187 幅馬的圖片和1 474幅斑馬的圖片.取120 幅馬的圖片和140 幅斑馬的圖片作為測試數(shù)據(jù)集,其余為訓(xùn)練數(shù)據(jù)集.
2)Summer &Winter(夏天和冬天風(fēng)景數(shù)據(jù)集).在Flickr(www.flickr.com)網(wǎng)絡(luò)相冊上檢索美國約塞米蒂國家公園的原始風(fēng)景圖片,根據(jù)日期劃分為1 540 幅夏季圖片和1 200 幅冬季圖片.取309幅夏季圖片和238 幅冬季圖片作為測試數(shù)據(jù)集,其余為訓(xùn)練數(shù)據(jù)集.
3)AerialPhoto &Map(衛(wèi)星航拍圖與路網(wǎng)圖數(shù)據(jù)集).在Google Maps 網(wǎng)站上獲取的紐約市及其附近的衛(wèi)星航拍圖與導(dǎo)航路網(wǎng)圖匹配圖像數(shù)據(jù),包含1 096 幅衛(wèi)星圖片和與之一一配對的1 096 幅路網(wǎng)圖片.為了驗證本文方法在較大數(shù)據(jù)集上的翻譯效果,通過四角剪裁與中心剪裁的方式對數(shù)據(jù)集進(jìn)行擴(kuò)充,得到5 480 幅衛(wèi)星圖與5 480 幅路網(wǎng)圖,分別取480 幅圖片作為測試數(shù)據(jù)集,其余為訓(xùn)練數(shù)據(jù)集.
實驗環(huán)境配置如下:
1)硬件環(huán)境:谷歌云服務(wù)器;CPU:2 個vCPU,7.5 GB 內(nèi)存;GPU:NVIDIA Tesla K80,12 GB;磁盤:SSD,60 GB.
2)軟件環(huán)境:操作系統(tǒng):Ubuntu 16.04 LTS;開發(fā)框架:PyTorch 0.4.1,python 3.6.5.
輸入圖像和輸出圖像尺寸設(shè)置為128×128 像素,批量大小batch size 為1,每個生成器中間區(qū)域的殘差塊數(shù)量為6 個,判別器PatchGAN 的判別區(qū)域設(shè)置為70×70.在訓(xùn)練過程中,所有網(wǎng)絡(luò)模型的權(quán)重使用均值為0、方差為0.02 的高斯分布進(jìn)行隨機(jī)初始化.在模型訓(xùn)練學(xué)習(xí)率的設(shè)定上,采用Heusel 等[17]提出的TTUR 策略補(bǔ)償判別器學(xué)習(xí)慢的問題,生成器和判別器網(wǎng)絡(luò)分別采用0.0001 和0.0002 的學(xué)習(xí)率進(jìn)行單獨(dú)訓(xùn)練.采用Adam 算法[18]對訓(xùn)練過程中的梯度下降進(jìn)行優(yōu)化,一階矩估計的指數(shù)衰減率beta1 設(shè)定為0.5,二階矩估計的指數(shù)衰減率beta2 設(shè)定為0.999.
本文使用分類準(zhǔn)確率(Classification accuracy,CA)、感知距離(Perceptual distance,PD)和用戶調(diào)研評價(User study,US)作為翻譯圖像質(zhì)量的評估指標(biāo).
分類準(zhǔn)確率是無監(jiān)督圖像翻譯方法中最廣泛的評估翻譯效果指標(biāo).首先使用數(shù)據(jù)集中真實圖像在圖像分類模型上進(jìn)行訓(xùn)練,將真實圖像在該模型的分類準(zhǔn)確率作為基準(zhǔn)值,然后將生成的翻譯圖像送入該模型中進(jìn)行分類,得到其分類準(zhǔn)確率并與基準(zhǔn)值進(jìn)行對比.準(zhǔn)確率越高,代表所屬圖像域越容易區(qū)分,圖像翻譯效果越好.本文采用Xception[19]網(wǎng)絡(luò)作為分類模型,獲得圖像的分類準(zhǔn)確率.
感知距離是評估數(shù)據(jù)分布相似度指標(biāo),通過計算相同圖像域中真實圖像與生成圖像特征空間中的平均距離,衡量圖像域的一致性和真實性,感知距離分?jǐn)?shù)越高代表圖像分布越相似,圖像質(zhì)量越高.在計算相似度時,依次對x,y兩幅圖像不同層次特征向量xxxi,yyyi進(jìn)行余弦相似度計算,最后相加得到兩者的感知距離:

本文基于在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的VGG-16(Visual geometry group 16-layer net)[20]網(wǎng)絡(luò)模型提取特征.對于一幅圖像,獲取其在每個最大池化層之前的特征向量作為不同層次圖像特征.將隨機(jī)組合的2 000 對圖像間感知距離平均值作為最后分?jǐn)?shù),以真實圖像之間的感知距離為基準(zhǔn),對比每組實驗生成圖像與真實圖像間的數(shù)據(jù)分布相似度.
用戶調(diào)研評價是圖像翻譯效果的主觀評價方法,可以直接反映人眼對圖像質(zhì)量的評價.挑選N名用戶,針對每個數(shù)據(jù)集隨機(jī)選擇M幅測試圖像,將每幅圖像不同模型輸出的翻譯圖像作為一組提供給每個用戶進(jìn)行比較.統(tǒng)計各個模型輸出圖像被用戶評選為最佳效果圖的數(shù)量,得到用戶對不同模型翻譯效果的評價:

式中,n代表模型中被評為最佳效果圖像個數(shù).本文選擇10 名學(xué)生、30 幅測試圖像,共進(jìn)行10×30=300 組翻譯效果圖對比.
本文在生成器網(wǎng)絡(luò)中引入自注意力機(jī)制模塊,并在最小二乘對抗的基礎(chǔ)上融合相對生成對抗損失,為驗證其對訓(xùn)練過程和翻譯效果的影響,在Horse&Zebra 和Summer &Winter 兩個數(shù)據(jù)集上進(jìn)行圖像域轉(zhuǎn)換實驗.
首先,驗證相對生成對抗損失對模型收斂性的影響,相同實驗環(huán)境中在Summer&Winter 數(shù)據(jù)集上,分別使用最小二乘生成對抗損失和本文設(shè)計的相對最小二乘對抗損失進(jìn)行訓(xùn)練,對比在16 萬~22萬不同迭代次數(shù)時本文方法采用相對對抗損失前和采用后的翻譯效果圖.從多組圖像中挑選差異明顯、有代表性的輸出結(jié)果進(jìn)行收斂效果對比分析,如圖4所示.
觀察圖4 可知,本文方法采用相對生成對抗前經(jīng)過20 萬和22 萬次訓(xùn)練后,翻譯圖像中山體色彩變化明顯,模型開始進(jìn)入收斂狀態(tài);采用相對生成對抗后,16 萬次迭代時山體已經(jīng)基本完成轉(zhuǎn)變,18 萬~20 萬次訓(xùn)練過程中樹葉和河岸草地等細(xì)節(jié)更加清晰,20 萬~22 萬次訓(xùn)練過程中圖像基本相同,模型在20 萬次達(dá)到收斂狀態(tài).觀察測試數(shù)據(jù)集中所有圖像翻譯效果,本文選擇耗時約23 小時的20 萬次作為模型最終迭代訓(xùn)練次數(shù).

圖4 相對對抗收斂效果Fig.4 Relative discriminator convergence effect
其次,驗證自注意力機(jī)制和相對生成對抗對訓(xùn)練穩(wěn)定性和翻譯效果的有效性,相同實驗環(huán)境下,在Horse&Zebra 和Summer&Winter 數(shù)據(jù)集上,對比本文方法采用自注意力機(jī)制模塊前后和采用相對對抗損失前后的翻譯效果,實驗結(jié)果如圖5所示.
在圖5 的第1、2 行馬和斑馬相互轉(zhuǎn)換實驗中,觀察圖5(b)和圖5(d),采用自注意力機(jī)制模塊后,減少了草地和土堆等圖像背景的變化,提高了輪廓細(xì)節(jié)清晰度和斑馬條紋的協(xié)調(diào)性;觀察圖5(c)和圖5(d),采用相對生成對抗后,解決了訓(xùn)練過程不穩(wěn)定導(dǎo)致的圖像整體結(jié)構(gòu)信息缺失的問題,增加了圖像真實性.在第3、4 行夏冬季節(jié)轉(zhuǎn)換實驗中,觀察圖5(b)和圖5(d),采用自注意力機(jī)制模塊后,降低了圖像整體色彩基調(diào)的變化,提升了樹木細(xì)節(jié)清晰度和整體季節(jié)變化效果;觀察圖5(c)和圖5(d),采用相對生成對抗后翻譯效果更為明顯.

圖5 本文不同條件實驗結(jié)果Fig.5 Experimental results under different conditions
為了進(jìn)一步體現(xiàn)自注意力機(jī)制和相對生成對抗的有效性,在主觀評價的基礎(chǔ)上計算不同方法輸出圖像的分類準(zhǔn)確率,如表3所示.采用自注意力機(jī)制模塊前后準(zhǔn)確率平均提高0.056,使用相對生成對抗損失前后準(zhǔn)確率平均提高0.025.

表3 本文不同條件分類準(zhǔn)確率Table 3 CA under different conditions
實驗結(jié)果表明,自注意力機(jī)制解決了目標(biāo)圖像域變化不完全和無關(guān)圖像域變化較大的問題,提升了輸出圖像整體的協(xié)調(diào)性;相對生成對抗損失在增強(qiáng)訓(xùn)練穩(wěn)定性的同時,加快了整體模型的收斂速度,提高了輸出圖像真實性.自注意力機(jī)制和相對生成對抗損失兩者結(jié)合有效提高了本文方法翻譯圖像的效果與質(zhì)量.
1)配對數(shù)據(jù)集圖像翻譯
選擇有監(jiān)督圖像翻譯方法pix2pix[1]和無監(jiān)督的圖像翻譯方法CycleGAN[7]與本文方法,在AerialPhoto &Map 配對圖像數(shù)據(jù)集上進(jìn)行衛(wèi)星圖與路網(wǎng)圖相互轉(zhuǎn)換實驗,pix2pix 與CycleGAN 使用原作者開源代碼進(jìn)行復(fù)現(xiàn).部分實驗結(jié)果如圖6所示,每列依次是原始輸入圖像,pix2pix、CycleGAN 和本文方法的輸出翻譯圖像,以及數(shù)據(jù)集中與輸入圖像配對真實圖像.
圖6 中,在第1、2 行將衛(wèi)星圖翻譯成路網(wǎng)圖的實驗中,pix2pix 僅大體上完成了轉(zhuǎn)換工作,但是翻譯圖像與真實圖像相差明顯,大部分表示道路的白色線條與真實圖像不符;CycleGAN 翻譯效果較好,但是第1 行翻譯圖像中出現(xiàn)了部分真實圖像沒有的道路白色線條,第2 行中沒有顯示真實圖像中代表高速公路的橘黃色部分;本文方法道路線條與真實圖像基本保持一致,雖然每個房屋區(qū)域與真實圖像略有差異,但是與輸入圖像對應(yīng)區(qū)域相符,并且在第2 行中的高速公路對應(yīng)區(qū)域出現(xiàn)了淡黃色.在第3、4行將路網(wǎng)圖翻譯成衛(wèi)星圖的實驗中,pix2pix 同樣僅能大體上完成轉(zhuǎn)換工作,房屋與道路大體輪廓與真實圖像相同,但是整體失真嚴(yán)重;CycleGAN 房屋的細(xì)節(jié)更加清晰,但是道路與樹木依然較為模糊,第4行中海岸線未得到明確的體現(xiàn);本文方法房屋更加立體,樹木與真實圖像有所差異,但是相較于Cycle-GAN 更加清晰,在第4 行中的海岸線公路輪廓明顯,整體圖像真實度更高.

圖6 衛(wèi)星圖與路網(wǎng)圖翻譯效果對比Fig.6 Comparison of AerialPhoto &Map image translation
通過與pix2pix 和CycleGAN 進(jìn)行衛(wèi)星圖和路網(wǎng)圖相互轉(zhuǎn)換對比實驗,證明了本文方法提高翻譯圖像效果與質(zhì)量的有效性.
2)非配對數(shù)據(jù)集圖像翻譯
選擇具有代表性且同樣適用于多種無監(jiān)督圖像翻譯任務(wù)的CycleGAN[7]和UNIT[8]與本文方法進(jìn)行對比實驗.分別使用CycleGAN 和UNIT 原作者開源代碼,相同的實驗環(huán)境下,在Horse &Zebra 和Summer &Winter 兩個非配對圖像數(shù)據(jù)集上進(jìn)行圖像域轉(zhuǎn)換實驗,對比所有測試數(shù)據(jù)集圖像的翻譯效果,部分差異明顯的實驗結(jié)果如圖7所示,每行依次是輸入圖像,CycleGAN、UNIT 和本文方法的輸出圖像.
圖7 中,第1 行是將馬轉(zhuǎn)換成斑馬,CycleGAN雖然斑馬條紋最為明顯,但是整體圖像發(fā)黃,UNIT并沒有出現(xiàn)斑馬條紋,而且河水的背景變白,本文方法圖像背景變化最小,在馬脖子位置處的斑馬條紋最清晰;第2 行是將斑馬轉(zhuǎn)換成馬,CycleGAN 和UNIT 圖像變化十分明顯,綠色草地背景變白,斑馬條紋雖然基本消失,但是馬的顏色并不協(xié)調(diào),本文方法在保留草地、影子等背景的情況下,馬的毛色最為真實;第3 行是將夏天轉(zhuǎn)換成冬天,CycleGAN 變化不明顯,UNIT 丟失了樹葉形態(tài)等圖像細(xì)節(jié)信息,并且冬季圖像特征不明顯,本文圖像樹葉與水中倒影更加清晰、積雪更加明顯;第4 行是將冬天轉(zhuǎn)換為夏天,CycleGAN 整體圖像變綠,UNIT 圖像失真,本文方法去除了地面和樹上的積雪,且遠(yuǎn)處的雪山和藍(lán)色天空背景基本沒有變化.

圖7 多種方法翻譯效果對比Fig.7 Comparison of multiple image translation methods
為體現(xiàn)實驗的公正性原則,對于每項翻譯任務(wù),各選擇30 幅測試輸入圖像及3 種方法的翻譯效果圖構(gòu)成30 組評價樣本,選擇10 名研究生作為學(xué)生用戶分別對其翻譯效果進(jìn)行評選,得到10×30= 300組翻譯效果圖對比主觀評價結(jié)果.用戶評選最佳效果圖像標(biāo)準(zhǔn)如下.
在圖像局部范圍變化的馬與斑馬翻譯實驗中,選擇圖像背景變化最小,馬和斑馬形體輪廓保持完整,僅發(fā)生斑馬條紋變化的翻譯圖像為效果最佳圖像.
在圖像整體范圍變化的春季與冬季季節(jié)變換實驗中,選擇翻譯圖像更符合真實的春季或冬季景象,圖中樹木、地面、湖水、天空和山體等信息與原圖更為一致的翻譯圖像為效果最佳圖像.
通過用戶調(diào)研得到3 種方法翻譯圖像效果的主觀評價,數(shù)據(jù)如表4所示.在不同翻譯任務(wù)效果對比中,均有55% 以上的評選結(jié)果認(rèn)為本文方法的輸出圖像是最佳圖像,從而證明本文方法相較CycleGAN 與UNIT,有效地提高了翻譯圖像的視覺效果.

表4 用戶調(diào)研評價(%)Table 4 User study(%)
為了進(jìn)一步驗證本文方法的有效性,以真實圖像分類準(zhǔn)確率作為基準(zhǔn),比較每個數(shù)據(jù)集上不同方法輸出圖像的分類準(zhǔn)確率,實驗數(shù)據(jù)如表5所示.從表中數(shù)據(jù)可知,本文方法的分類準(zhǔn)確率最接近真實圖像的分類準(zhǔn)確率,相比于CycleGAN 平均提高0.066,相比于UNIT 平均提高0.123,其中在Summer &Winter 數(shù)據(jù)集上提升更加明顯.

表5 分類準(zhǔn)確率對比Table 5 Classification accuracy comparison
最后計算3 種方法在相同圖像域中輸出圖像與真實圖像之間的感知距離,實驗數(shù)據(jù)如表6所示.
觀察表6 可知,本文方法輸出圖像與真實圖像間感知距離相較于CycleGAN 平均提高0.017,相較于UNIT 平均提高0.071,兩者分布最為接近,再次證明了其在提高圖像翻譯效果和圖像真實性方面的有效性.

表6 感知距離對比Table 6 Perceptual distance comparison
本文基于對偶學(xué)習(xí)使用兩組GAN 完成無監(jiān)督圖像翻譯.針對生成圖像整體協(xié)調(diào)性差和圖像細(xì)節(jié)不清晰,造成真實性低的問題,在生成器網(wǎng)絡(luò)中引入自注意力機(jī)制,建立遠(yuǎn)近距離像素間關(guān)聯(lián)關(guān)系,增加額外的跳躍連接降低無關(guān)圖像域信息損失,提高細(xì)節(jié)清晰度.針對整體模型梯度消失問題,在判別器網(wǎng)絡(luò)中采用譜規(guī)范化逐步提升判別能力,提高訓(xùn)練穩(wěn)定性.在循環(huán)重構(gòu)的基礎(chǔ)上增加自我重構(gòu)損失,共同建立圖像域之間的映射關(guān)系;采用相對生成對抗損失加快模型收斂速度,提高圖像翻譯效果.馬、斑馬局部圖像翻譯和夏、冬全局圖像翻譯實驗結(jié)果表明,本文方法相比CycleGAN 和UNIT 模型建立了更真實的圖像域映射關(guān)系,提升了翻譯圖像視覺效果和質(zhì)量.但本文仍存在較大提升空間,對其局限性及未來工作歸納如下:
1)本文方法在循環(huán)重構(gòu)的基礎(chǔ)上增加自我重構(gòu)減少了與目標(biāo)域無關(guān)的圖像信息變化,但是依然無法完全避免無關(guān)信息的改變.如何在圖像翻譯過程中只改變目標(biāo)圖像域,并與原圖進(jìn)行融合,將有助于提升圖像翻譯效果.
2)本文方法僅適用于單圖像域的翻譯任務(wù),在同時建立多個圖像域之間映射關(guān)系時需要針對每對圖像域進(jìn)行訓(xùn)練,不能完成端對端的圖像翻譯.改進(jìn)整體模型結(jié)構(gòu)和損失函數(shù)以適應(yīng)多圖像域翻譯將是下一步的研究工作.