黃真赟 陳家琦



摘要
在這篇文章當(dāng)中,我們創(chuàng)新性的提出了一種對杭生成架構(gòu),可以將真實世界的圖片進(jìn)行圖像風(fēng)格的遷移,這是計算機(jī)視覺領(lǐng)域非常激動人心的問題。以往對于風(fēng)格遷移的探索大多為對卷積神經(jīng)網(wǎng)絡(luò)中風(fēng)格與內(nèi)容信息的分離重組,而我們的工作則直接用生成對抗網(wǎng)絡(luò)進(jìn)行遷移。相較于傳統(tǒng)方法使用成對的樣本進(jìn)行訓(xùn)練,我們的方法訓(xùn)練起來更加容易.本文的貢獻(xiàn)點如下:(1)在GAN的框架下,統(tǒng)一了內(nèi)容與風(fēng)格的對抗損失函數(shù)。(2)針對特定的繪畫風(fēng)格,進(jìn)行了不同損失函數(shù)的微調(diào),以生成更加符合遷移風(fēng)格的圖像。
【關(guān)鍵詞】生成對杭網(wǎng)絡(luò) 圖像風(fēng)格遷移 卷積神經(jīng)網(wǎng)絡(luò)
1 介紹
隨著電影《摯愛梵高》的上映,如何將真實場景的圖像變?yōu)樗囆g(shù)化的圖片,又變成了一個令人關(guān)注的問題。和很多藝術(shù)形式相同,許多漫畫的形象都是基于真實世界的場景制作的,如圖1電影龍貓中這棟房子的圖畫。為了獲得高質(zhì)量的漫畫,藝術(shù)家必須花費大量的時間與精力重繪這些場景。如何幫助藝術(shù)家快速地創(chuàng)造大量的藝術(shù)作品,是我們一直關(guān)心的問題。
在這篇文章當(dāng)中,我們將GAN與圖像遷移任務(wù)進(jìn)行了有機(jī)的結(jié)合,提出了用于特定風(fēng)格圖像的STG(Style Transfer GAN)結(jié)構(gòu),并且設(shè)計了新穎的損失函數(shù),以實現(xiàn)更佳的生成效果,主要貢獻(xiàn)為:
(1)我們提出了一種新穎的STG結(jié)構(gòu),可以學(xué)習(xí)真實圖片到動漫圖片的映射。所生成的效果,達(dá)到了目前的最佳效果。
(2)我們從網(wǎng)上采集了大量藝術(shù)家的作品,以作為我們訓(xùn)練網(wǎng)絡(luò)的材料。與傳統(tǒng)方法所不同的是,我們并不需要成對的訓(xùn)練樣本,這大大降低了訓(xùn)練的難度與實現(xiàn)的成本
(3)我們設(shè)計了針對特定風(fēng)格的對抗損失函數(shù),以衡量圖像風(fēng)格與內(nèi)容,并且對于風(fēng)格的細(xì)微差異,進(jìn)行了微調(diào)。
2 相關(guān)工作
對于圖像的風(fēng)格遷移,傳統(tǒng)方法多為利用濾波與數(shù)學(xué)的方法,進(jìn)行細(xì)節(jié)的捕捉,但因圖像風(fēng)格的千變?nèi)f化,采用簡單的濾波設(shè)計,并不能夠取得很好的效果。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,Gayts等人創(chuàng)新性的提出了一種基于VGG網(wǎng)絡(luò)的神經(jīng)樣式遷移方法,取得了視覺上十分不錯的效果。DCGAN等模型的提出,也是我們看到了利用生成對抗網(wǎng)絡(luò)結(jié)構(gòu)生成風(fēng)格畫作的可能性。
3 STG結(jié)構(gòu)
通常,GAN結(jié)構(gòu)包含兩部分,即判別器與生成器。生成器將隨機(jī)分布映射到目標(biāo)域,生成與真實數(shù)據(jù)盡可能接近的數(shù)據(jù)分布。而判別器則盡力將生成器生成的數(shù)據(jù)與真實數(shù)據(jù)區(qū)別開來。最后達(dá)到納什均衡即判別器無法正確分辨數(shù)據(jù)是來自于生成器生成還是真實樣本。我們的STG結(jié)構(gòu),是一種GAN框架下的風(fēng)格遷移網(wǎng)絡(luò),其定義如下。
首先,判別器將隨機(jī)生成的SS={pi|i=1…N}映射到SS={pi|i=1…N},而判別器則需要盡力將SS={pi|i=1…N}與SC={pi|i=1…M}分別開來。N與M分別代表的是目標(biāo)圖像的數(shù)量與風(fēng)格訓(xùn)練數(shù)據(jù)的數(shù)量。ζ代表損失函數(shù),類似于標(biāo)準(zhǔn)的GAN訓(xùn)練過程,我們的目標(biāo)是解決一個極小極大問題。
(G*,D*)=argminmaxxζ(G,D)
在生成器當(dāng)中,我們采用了瓶頸層的設(shè)計,類似于一個編碼器與解碼器的結(jié)構(gòu),編碼器用于提取圖片的全局信息,而解碼器則用于將特定的風(fēng)格進(jìn)行融合。整體的網(wǎng)絡(luò)架構(gòu)類似于FCN,如圖2所示。
而判別器的網(wǎng)絡(luò)則相對而言比較簡單,因為我們需要的是對圖片全局的判斷,因此只使用了類AlexNet的網(wǎng)絡(luò)架構(gòu)進(jìn)行分類。如圖3所示。
3.1 損失函數(shù)
損失函數(shù)包含兩部分,即對抗損失部分以及內(nèi)容損失部分。對抗損失部分保證來自源圖片域的分布可以映射至風(fēng)格域,而內(nèi)容損失函數(shù)則保證生成的過程當(dāng)中,圖片所代表的內(nèi)容風(fēng)格保持一致。
ζ(G,D)=wζadv(G,D)+ζcon(G,D)
其中w用來平衡兩個損失。在我們的實驗當(dāng)中,w取值為5時,取得了最佳的效果。
3.2 時杭損失
與傳統(tǒng)的gan結(jié)構(gòu)類似,對抗損失為一組極大與極小對抗,生成器與判別器所需要優(yōu)化的目標(biāo)恰好相反。在我們的假設(shè)當(dāng)中,對抗的損失的表達(dá)式如下:
3.3 內(nèi)容損失
為了使得在生成的過程中圖片的風(fēng)格保持盡可能的一致,我們還需要內(nèi)容損失函數(shù)的約束。在STG結(jié)構(gòu)當(dāng)中,內(nèi)容損失函數(shù)被定義成為VGG預(yù)訓(xùn)練模型特定層輸出的L2差值,與傳統(tǒng)NST當(dāng)中的定義相同,我們將內(nèi)容損失函數(shù)定義如下:
VGG特征層的選取極有技巧性,關(guān)于這方面詳細(xì)的結(jié)果,我們將會在實驗部分詳細(xì)表述。
4 訓(xùn)練過程
我們使用mxnet實現(xiàn)了STG結(jié)構(gòu),所有的相關(guān)實驗都在NVIDIA1080tiGPU上進(jìn)行。
不同的藝術(shù)家有不同的藝術(shù)風(fēng)格,而他們的藝術(shù)風(fēng)格則很容易由藝術(shù)畫作與視頻當(dāng)中得到,因為我們方法的第一步即從動畫視頻當(dāng)中采集相關(guān)的訓(xùn)練數(shù)據(jù),這一部分將在4.1中提到。在4.2節(jié)中,我們展現(xiàn)了STG風(fēng)格遷移的一些成果,而在4.3節(jié)中,我們對比了我們不同組件之間的作用。
4.1 數(shù)據(jù)
用于我們訓(xùn)練的數(shù)據(jù)為網(wǎng)絡(luò)上采集的大量漫畫電影的截圖,這樣獲取數(shù)據(jù)的手段無疑是非常廉價的,也使得我們的應(yīng)用推廣變得更加容易。所有的照片最后都被重新調(diào)整大小為224*224。在這篇文章當(dāng)中,用于訓(xùn)練的截圖均來自于《灌籃高手》,而用于遷移的圖像則自于現(xiàn)實生活當(dāng)中籃球比賽的圖像
4.2 STC結(jié)果
我們生成了大量風(fēng)格遷移的結(jié)果,可以看到,結(jié)果是十分令人滿意的。除此之外,因為使用了相對而言較為輕量的網(wǎng)絡(luò),因此我們可以在一秒鐘之內(nèi),完成約100張內(nèi)容的遷移,對比傳統(tǒng)方法的速度,有非常明顯的提升。如圖4所示。
4.3 損失函數(shù)所扮演的作用
如圖5所示,我們對比了很多種損失函數(shù)的設(shè)定,包括是否引入內(nèi)容損失函數(shù),以及內(nèi)容損失函數(shù)設(shè)定在第幾層,以L1約束還是以L2進(jìn)行約束,通過大量實驗對比,我們的得出了在3節(jié)當(dāng)中提到的結(jié)構(gòu)設(shè)定方式。
5 結(jié)論
在這篇文章當(dāng)中,我們提出了一種新穎的STG結(jié)構(gòu),以解決特定風(fēng)格圖片的遷移問題。我們沿襲了GAN框架,采用對抗損失與內(nèi)容損失加權(quán)的形式監(jiān)督訓(xùn)練過程。采集了大量用于訓(xùn)練的風(fēng)格樣本,最后實現(xiàn)了非常不錯的效果,相信對圖像風(fēng)格遷移研究將會有大幅的促進(jìn)。
參考文獻(xiàn)
[1]L.Gatys,A.Ecker,and M.Bethge.Image style transfer usingconvolutional neural networks.In IEEE Conference on ComputerVision and Pattern Recognition(CVPR),2016,2414-2423.
[2]H.Winnemo"ller,S.C.Olsen,and B.Gooch.Real-time videoabstraction. ACM Transactions onGraphics,2006,25(3):1221-1226.
[3]L.Xu,C.Lu,Y.Xu,and J.Jia.Image smoothing via LO gradientminimization. ACM Transactions onGraphics,2011,30(6):174.