999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于U-net 變體和分類器的動漫線稿風格遷移

2022-07-29 06:54:34馮煜颋李志偉
智能計算機與應用 2022年8期

馮煜颋,李志偉

(上海工程技術大學 電子電氣工程學院,上海 201620)

0 引言

素描或線稿藝術上色是一個有著巨大市場需求的研究領域。與強烈依賴紋理信息的普通照片上色不同,草圖上色更具挑戰性,因為草圖可能沒有紋理。在動漫、游戲這些產業中,大部分的作品都是通過素描或線稿來進行創作的,這就會耗費大量的時間和精力,因為需要人工去給這些線稿上色來達到人們想要的狀態。如果嘗試將某種繪畫風格應用到半成品的動漫線稿上,那么就可以省去不少多余的工作,比如用一個動漫的特定人物的某張圖片作為風格參考圖像,并將這種顏色風格應用到人物的素描上。而圖像上色一般分為2 種:有引導上色和無引導上色。其中,無引導指的是全交由算法進行自動化上色,而有引導是在上色過程中有人為(其它參照)干預,比如給出一幅風格參考圖像或指定某一區域為特定顏色。本文提出的上色方法屬于一種有引導上色。

神經風格算法可以結合線稿圖和風格圖生成優秀的圖像,但是卻缺乏處理素描線稿的能力,生成的圖像遠未達到人工上色的預期效果。事實上,U-net和生成對抗網絡已獲證明在圖像上色方面有著很好的效果。Zhang 等人提出了一種二階段的線稿上色方法:第一階段是草稿階段,根據人工輸入顏色提示或是提供參考圖生成模擬合成草圖;第二階段是精修階段,通過Inception V1 網絡提取草圖的顏色特征和預先提示的顏色特征,來控制最終生成圖像的顏色風格。Zhang 等人開發了線稿風格遷移工具Style2paints,實現了線稿到彩色圖像的風格遷移上色,根據自帶一些顏色風格特征或是參考圖像可以進行快速的線稿上色。于是改進了一種殘差增強的U-net 來增加生成網絡學習特征圖的能力,結合輔助分類器對抗生成網絡(ACGAN)作為解決方案。這種前饋網絡能夠快速地合成繪畫,節省時間。另外,U-net 和條件GAN(CGAN)在沒有成對輸入和輸出信息的均衡量時性能會相對下降。因此,本文在原有的生成網絡基礎上附加了2 個指引解碼器來實現額外的損失。網絡的整體結構如圖1所示。

圖1 生成對抗網絡的整體結構Fig.1 The overall structure of the generative adversarial network

生成網絡由殘差增強的U-net、分類器和指引解碼器組成;判別網絡由AC-GAN 進行改進,經判別器處理后會輸出一個2 048 或4 096 維的特征向量對應VGG 的特征向量(顏色風格),而不再是原始GAN 的二分類值。全局的顏色風格提示可以被看作是一個具有2 048 或4 096 個類的低級分類結果。

1 相關工作

生成對抗網絡(GANS)的出現,在深度學習領域中日益受到廣大學者的關注。生成對抗模型通常是由一個生成器和一個判別器組成,其中生成器捕捉真實樣本的潛在分布,并且生成新的數據樣本;判別器往往是一個二值分類器,通過訓練可以盡可能正確地從生成樣本中區分出真實樣本。利用判別器來引導生成器的訓練,通過2 個模型之間的交替訓練不斷進行對抗,最終使得生成模型能夠更好地完成生成任務。而隨著越來越多GANS 變體的出現,GANS 在圖像的各個領域都取得了不錯的成果。在圖像上色領域中,GANS 同樣在主流算法中占據著至關重要的地位。目前,基于深度學習的自動著色模型大多采用GANS 體系結構。

Lee 等人提出的動漫線稿自動上色算法是基于二次規劃圖匹配,但是這種基于參考圖的自動上色方法難度較大,原因在于線稿中人物姿態的變化,使得參考圖和線稿的一些區域無法對應起來,給圖匹配算法帶來了極大挑戰。這種上色方法生成的彩色圖像因參考圖和線稿有些區域并不匹配,一些區域只能隨機上色,導致圖像的質量很差。GAN 的出現使線稿基于參考圖上色逐漸變得可靠,在生成器和判別器的對抗式訓練中,模型不斷學習并將線稿到對應彩色圖像間的映射關系做了進一步優化。

神經風格遷移,是通過基于最小化深度卷積層的格拉姆矩陣的差異的算法,可以將一張普通的照片賦予另外一種藝術作品風格。然而,本文的目標是將風格圖像和草圖相結合。事實上,從風格圖像到草圖的神經風格遷移得到的最終圖像遠不是一幅正常的圖像,往往和風格圖像有很大差異。

Pix2pix 是基于條件生成對抗網絡CGAN 的風格遷移模型之一,在成對數據集的情況下,可以完成很多任務。如:將素描畫輪廓轉換成圖片,將黑夜場景轉換成白天場景,自動上色等等。但在實驗中發現,網絡的輸出的質量最終取決于輸入信息和輸出信息的差距程度。實際上,條件判別器很容易導致生成器過于關注草圖和繪畫之間的關系,因此,在某種程度上,忽略了繪畫的組成,導致不可避免的過擬合。

2 本文方法

2.1 增強型的殘差連接

本文提出的殘差連接 Enhanced residual connection,是對ResNet 中殘差模塊的一種改進。這種連接方式是SwishMod 集成殘差模塊的連接方式,SwishMod 包含了卷積層和激活函數。其殘差連接結構如圖2 所示。

圖2 增強殘差連接方式Fig.2 Enhanced residual connection mode

本文圖2 中,表示輸入數據,()表示殘差,()是殘差連接后的輸出,“”表示像素點對應相加;()表示SwishMod 中卷積層的輸出,“·”表示像素點對應相乘;()表示卷積層經過非線性函數后的輸出,()是SwishMod 的輸出,“⊕”表示特征圖之間進行拼接,“()⊕()”是的最終輸出。

在殘差連接中,輸入數據沒有經過處理就直接和殘差相加;而在SwishMod 中,對進行了處理,使用了函數,該種設計優勢就在于能夠控制數值的幅度,在深層網絡中可以保持數據幅度不會出現大的變化。此外,對Enhanced residual connection 中的卷積層使用了非線性,對于生成類的任務比有著更好的效果。

采用SwishMod 濾波輸入數據,控制了輸入數據從底層到高層之間通過一個捷徑的特征圖傳輸,得到更精細和準確的顏色特征。

SwishMod 定義為:

SwishGatedBlock 的輸出為:

其中,()是模塊中的殘差部分,()是SwishMod 濾波后的信息,兩者拼接在一起輸出得到更精細的顏色特征。

2.2 生成網絡結構和損失函數

U-net 雖然在圖像合成領域有著出色的表現,能夠提取每個層次的特征圖像,一旦U-net 具備了能夠在低級層中處理問題的能力后,那么高級層就不會再去學習任何東西。如果訓練一個U-net 來做一項簡單的工作、即復制圖像(如圖3 所示),當輸入和輸出相同時,損失值將立即降至0。因為第一層編碼器發現,可以簡單地經由跳過連接,將所有特征圖直接傳輸到解碼器的最后一層,來最小化損失。在這種情況下,無論訓練多少次,中間層都不會得到任何梯度。對于U-net 的解碼層來說,每一層的特征圖都是由更高層或是跳接層中獲得。在訓練過程的每次迭代中,這些層選擇了經過非線性激活其它層的輸出來最小化損失。當U-net 用高斯隨機數初始化網絡時,編碼器中第一層的輸出具有足夠的信息來表達完整的輸入映射,而解碼器中第二到最后一層的輸出似乎存在噪聲。因此,“懶惰的”U-net放棄了相對來說有噪聲的特征圖。

圖3 U-net 的跳接方式Fig.3 Skipped connection between U-net layers

網絡生成器網絡整體結構是基于殘差增強U-net的變體(如圖4 所示),每個藍色模塊都是一個Enhanced residual connection,在下一個分辨率提取特征時,通過殘差增強可以得到更精細的特征。隨著等級的提高,分辨率也逐漸降低。該網絡也可以看做是左、右兩個分支,但是把同一個分辨率等級的左、右分支之間嵌入一個SwishMod,來濾波編碼路徑傳遞到解碼路徑的信息,而不再是原來的跳接。因此,SwishMod 在提高網絡收斂速度的同時,還能提高網絡的性能。在左側分支中,每個Enhanced residual connection 的輸出由殘差部分輸出的特征圖和經過SwishMod 濾波的特征圖組成;而在右側分支中,每個Enhanced residual connection 的輸出是由殘差部分輸出的特征圖、經過SwishMod 濾波的特征圖、以及對應左側分支通過SwishMod 濾波的特征圖三部分組成。由此可見,經過殘差增強的U-net,完全解決了U-net 在訓練時中間層不會得到任何梯度的問題。

圖4 殘差增強U-net 層與層之間的連接Fig.4 The connections between residual enhanced U-net layers

此外,本文在生成器的結構中增加了一個分類器,如圖5 所示。相對來說,1×1×256 的風格提示不能夠滿足動漫線稿的顏色風格,所以在VGG19 全連接層的輸出中不再使用激活函數,則會得到更多的1×1×4 096 的顏色風格提示。然而,對于一個新初始化的U-net,如果將4 096 維的特征向量直接添加到該層中,中間層的輸出噪聲可能會非常大。由于有噪聲的中間層會被U-net 放棄,因此這些層不能接收到任何梯度。

為了解決上述問題,本文在原有的生成網絡中附加了2 個解碼器(見圖5)。如果給每一層附加額外的損失,無論中間一層的輸出有多嘈雜,該層將永遠不會被U-Net 放棄,不會出現梯度消失的情況,從而會得到穩定的梯度。通過向中間層添加一個有信息量和有具體內容的噪聲提示,解決了原本網絡傳遞特征信息跳過中間層而導致訓練時中間層梯度消失的問題。通過在“指引解碼器1”和“指引解碼器2”中實現了2 個額外的損失,因此就避免了中間層的梯度消失。

圖5 生成器的網絡結構Fig.5 The network structure of the generator

損失函數定義為:

此外,通過用灰度圖輸入位于中間層入口的指引解碼器,可以改善顏色的分布,讓顏色分布不會特別單一,因此最終的損失如下:

其中,()可以將轉換為灰度圖像。

2.3 判別網絡結構和損失函數

繪畫是一項復雜的過程,需要人類考慮到色彩的選擇、構圖和微調,所有這些都需要一個藝術家專注于繪畫的整體方式。然而,條件鑒別器總是更傾向于關注素描線和顏色之間的關系,而不是全局信息。比如在Pixtopix 中使用的是條件鑒別器,生成器會產生強烈的抵抗,這就導致了最終的彩色圖像會出現顏色溢出和顏色混淆的結果。

在進行風格遷移時,需要判別器具有判斷圖像的顏色風格、并在風格轉移時相應地提供梯度的能力,因此選用了集成AC-GAN 的判別器。與ACGAN 判別器相比,本文判別器輸出不含二分類,只包含生成圖像的類標簽。具體而言,判別器的輸出為一個4 096 維的特征向量,與VGG 輸出特征向量的意義基本相同,可視為色彩風格類別的分類結果。當判別器的輸入圖像為時,輸出向量接近于全為0;當判別器的輸入圖像為時,輸出向量接近于VGG19 的全連接層輸出的特征向量。

最終的損失函數定義為:

本文使用的歸一化函數如下:

最終目標函數為:

3 實驗分析

3.1 數據集

研究指出,由于目前還沒有一個動漫線稿和參考圖配對的數據集,本文使用的是訓練好的VGG 網絡-ImageNet 圖片分類數據集。由于本文的生成網絡使用的是U-Net 網絡,可以對任意形狀大小的圖片進行卷積操作,特別是任意大的圖片。因此,在圖像上色任務中,就可以對任意分辨率的灰度圖像進行上色。實驗數據隨機截取了ImageNet 圖片分類數據集中的5 000 幅匹配圖像進行訓練,并將所有圖像分辨率都調整為256×256。

3.2 實驗結果

為了證明本文采用的2 個指引解碼器能夠解決訓練時中間層梯度消失的問題,實驗對象分別采用2 個指引解碼器和無指引解碼器的上色模型;目標函數分別采用指引解碼器的額外損失和原GAN 的生成對抗損失。Style2color-Guide 使用了2 個指引解碼器的生成模型,生成模型的目標函數選擇了2個指引解碼器的額外損失作為目標函數;Style2color-GAN不使用指引解碼器的生成模式,生成模型的目標函數采用原始GAN 的生成對抗損失。實驗結果如圖6 所示。由圖6 可見,Style2color-Guide 上色模型生成的彩色圖像有著更多的顏色層次,彩色圖像質量優于Style2color-GAN。此外,Style2color-Guide 生成的彩色圖像顏色風格在細節上更接近于風格圖像,而Style2color-GAN 在細節上的表現依然欠佳(如圖6 中眼睛的顏色部分)。

圖6 2 種方法結果圖對比Fig.6 Results of two coloring methods

為了驗證本文方法中判別器和生成器都能學習到深層次的顏色特征、同時訓練時不會有中間梯度消失,將本文方法與Style2paints 方法進行了對比,對比結果如圖 7 所示。由圖 7 可以看出,Style2paints 過于追求風格遷移,在很多區域的顏色都出現了溢出現象,而本文方法生成的圖像在視覺上更符合審美觀念,同時也能生成更精細的顏色特征,顏色分布不會混淆,算法生成的圖像有著更高的視覺質量和更加自然的色彩梯度。

圖7 本文方法和Style2paints 生成圖像對比Fig.7 Results of the proposed method and Style2paints

3.3 定量分析

從上色結果可以直觀地看出,Style2color-Guide的上色效果相比Style2color-GAN 的上色效果更加細膩連貫。因為2 個上色模型結構幾乎一致,進一步采用(Frechet Inception Distance)指標來評價最終生成的彩色圖像的質量。指標的實驗結果見表1。由此可見,Style2color-Guide 生成的彩色圖像質量略優于Style2color-GAN 生成的彩色圖像。對于動漫線稿顏色遷移來說,2 種指引解碼器額外實現的損失函數效果不僅比傳統GAN 生成的對抗損失效果更好,還能避免網絡訓練時梯度消失的問題。

表1 Style2color-Guide 和Style2color-GAN 的實驗結果Tab.1 Results of Style2color-Guide and Style2color-GAN

此外,為了進一步證明本文方法的優越性,采用峰值信噪比()、相似結構性()、特征相似度()三種常規評價圖像質量的方法,評價本文算法和現在流行的Style2paints 算法生成的彩色圖像質量(清晰度)和色彩多樣性,結果見表2。由表2 可見,本文方法在所有指標上都獲得了較好的表現,說明這種殘差增強型的生成網絡能夠解決U-net訓練時中間層梯度消失的問題。

表2 本文方法和Style2paints 的實驗結果Tab.2 Results of the proposed method and Style2paints

4 結束語

本文提出了一種集成U-net 變體和分類器的線稿風格遷移模型。通過殘差增強的U-net 變體能夠更好地傳遞顏色特征圖信息,避免了U-net 訓練時中間層梯度容易消失的問題,生成的彩色圖像不會出現顏色混淆和顏色溢出的問題。同時引入2 個指引解碼器來附加2 個損失,通過這2 個損失來訓練生成網絡,取代了原來的生成對抗的訓練方式,使得網絡模型能夠更多地聚焦于全局信息、而不再關注顏色和線條的關系。經過實驗證明,本文算法比Style2paints 在輸出的結果上有著更高的顏色質量和更加平滑的顏色梯度,滿足了人們的藝術審美需求。

本文的不足在于VGG 的分類是ImageNet 分類,只能使用訓練好的VGG,如果可以找到或者制作一個龐大的線稿匹配數據自行訓練,則網絡的訓練效果會更趨完善,甚至于生成的彩色圖像會完全接近人工上色的效果。

主站蜘蛛池模板: 久久semm亚洲国产| 91美女视频在线| 国产美女自慰在线观看| 国产欧美日韩专区发布| 麻豆国产精品一二三在线观看| 伊人蕉久影院| 国产97色在线| 中日韩欧亚无码视频| 99人妻碰碰碰久久久久禁片| 久久久久亚洲av成人网人人软件| 久热精品免费| 欧美成人区| 久久综合九九亚洲一区| 日韩黄色在线| 国产精品久久久久婷婷五月| 黄色在线网| 亚洲第一视频免费在线| 亚洲an第二区国产精品| 波多野结衣一区二区三区88| 乱系列中文字幕在线视频| 久久国产亚洲欧美日韩精品| 亚洲国产精品无码久久一线| 色婷婷在线播放| 亚洲男人在线天堂| 在线观看国产精美视频| 十八禁美女裸体网站| 久草网视频在线| 香蕉视频在线观看www| 日本亚洲欧美在线| 精品一区二区三区自慰喷水| 国产精品13页| 999国产精品永久免费视频精品久久 | 亚洲欧洲国产成人综合不卡| 亚洲乱码精品久久久久..| 亚洲精品第1页| 国内精品九九久久久精品| 91丝袜美腿高跟国产极品老师| 国产精品99久久久| 成人国产精品一级毛片天堂| 亚洲综合欧美在线一区在线播放| 国产jizzjizz视频| 婷婷亚洲视频| 亚洲日韩日本中文在线| 亚洲侵犯无码网址在线观看| 久久久久免费精品国产| 欧美精品啪啪一区二区三区| 精品国产自在现线看久久| 日本一区高清| 丝袜亚洲综合| 久草性视频| 欧洲成人在线观看| 日韩精品一区二区三区免费在线观看| 国产一区二区三区在线观看视频 | 超碰91免费人妻| 欧美精品成人| 亚洲制服丝袜第一页| 香蕉综合在线视频91| 四虎在线观看视频高清无码| 日韩av无码精品专区| 黄色网站不卡无码| 国产原创演绎剧情有字幕的| 国产丝袜无码一区二区视频| 最新亚洲人成无码网站欣赏网 | 国产精品女人呻吟在线观看| 99在线观看国产| 一本大道无码日韩精品影视| 国产高清免费午夜在线视频| 青青青国产精品国产精品美女| 国产成人亚洲综合a∨婷婷| 久久精品视频亚洲| 免费一级毛片不卡在线播放| 日本91在线| 青青青视频91在线 | 在线播放国产99re| 久草性视频| 亚洲Aⅴ无码专区在线观看q| 欧美视频在线播放观看免费福利资源| 国内精品自在欧美一区| 国产xx在线观看| 国产白浆视频| 国产精品页| 国产视频a|