999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Swish模塊殘差增強的動漫線稿上色方法

2023-01-13 11:58:36馮煜颋李志偉
計算機工程與應用 2023年1期
關鍵詞:模型

馮煜颋,李志偉

上海工程技術大學 電子電氣工程學院,上海 201620

卷積神經網絡[1]的出現為灰度圖像的著色提供了新的視角,它的出現使計算機視覺方面多項任務的同時完成有了可能。而目前的動漫線稿上色大多是依靠專業的動漫畫家手繪上色,這會花費大量的時間和精力,同時上色效果也受個人影響。至此,計算機自動化地進行動漫線稿著色顯得很有必要,同時對于一些普通人來說,能夠利用該方法自行地進行線稿著色,創造出自己喜歡的彩色圖片。

這些年來,對抗生成網絡(generative adversarial network,GAN)經常被用于動漫線稿著色[2-4],研究人員提出了一些優秀的用于動漫線稿著色的模型:Style2paints[5]、Paintschainer、pixtopix[6]。這些方法能夠自動地為動漫線稿進行著色,生成顏色豐富的彩色圖片,此外可以手動地選擇某些顏色來進行著色,著色時間比手繪著色快的多。但是對抗生成網絡一直以來都存在著訓練時間長、生成效果不穩定、網絡不收斂等問題。這些問題會導致基于GAN的動漫線稿著色模型生成的彩色圖片質量較差,比如顏色填充不合理,填充顏色超過了填充區域,顏色亮度不協調等等問題。就目前的這些基于GAN的上色模型而言,他們很難完成實際的需求,上色的結果也需要篩選,一些質量差的彩色圖片在所難免,耗時費力。

對抗生成網絡由生成器和判別器所組成。在進行動漫線稿著色時,生成器輸入動漫線稿,輸出彩色圖像。而生成器的網絡結構和損失函數的選擇將直接影響最終輸出彩色圖片的質量。因此,設計一個合適穩定的網絡和適合的損失函數能夠有效地提高生成彩色圖像的質量。判別器的作用在于判別生成的彩色圖像是否接近于人工著色的效果,避免最終輸出質量較差的彩色圖像。而判別器會影響GAN的訓練穩定性,訓練GAN需要達到納什均衡,判別器的網絡需要進一步的優化來確保訓練的穩定性。

U-net網絡是一種U形的卷積神經網絡結構,最初被用于圖像分割領域,它有兩個分枝,左邊的分支是編碼網絡結構,右邊的分支是解碼網絡結構[7]。U-net在圖像合成領域也得到了廣泛的應用,但是其在網絡訓練時中間層容易形成梯度消失[8]。非線性激活函數的出現使得神經網絡的表達能力更加強大。

為了提升生成彩色圖像的質量,本文提出了一種用于動漫線稿上色的生成對抗模型如圖1所示,生成器網絡基于U-net使用了Swish激活函數通過殘差增強的方式來傳遞特征圖信息。在判別器的選擇上使用了Resnet網絡[9],結果顯示有著質量極高的上色效果。

圖1 網絡的整體結構Fig.1 Overall structure of network

(1)基于殘差模塊和Swish函數提出了兩種連接模塊,可以解決U-net網絡訓練時中間層梯度消失的問題,更好地濾波特征圖,更好地學習到每個level的特征圖,不會造成梯度消失,收斂曲線也可以更快收斂。

(2)提出了利用感知損失更好地捕捉參考圖像和生成圖像之間的差異,使生成的彩色圖像紋理細節更豐富,顏色與顏色之間的過渡也更流暢。

(3)在Anime Sketch Colorization Pair數據集中的實驗結果表明,本文提出的方法的上色效果優于現目前的上色方法,且接近于人為上色的效果。

1 相關工作

近年來,GAN在深度學習這個領域中日益受到關注。一個生成對抗模型通常由生成器和判別器組成,生成器捕捉真實樣本的潛在分布并且生成新的數據樣本。判別器往往是一個二值分類器,盡可能正確地從生成樣本中區分出真實樣本。通過判別器來引導生成器的訓練,通過兩個模型之間的交替訓練不斷進行對抗,最終使得生成模型能夠更好地完成生成任務。而隨著越來越多GAN變體的出現,GAN在圖像的各個領域都有著不小的成果。在圖像上色這一領域中,GAN同樣在主流算法中占據著重要的地位。目前,基于深度學習的自動著色模型主要采用GAN的體系結構。

文獻[6]提出的Pixtopix也是GAN的一大變體,使用的是條件生產對抗網絡(conditional generative adversarial network,CGAN)來實現圖像到圖像的轉換,它可以做的事情很多,比如說將素描畫輪廓轉換成圖片,將黑夜場景轉換成白天場景、自動上色等等。

而Style2paints作為GAN的一種風格遷移上色模型變體,在將動漫線稿轉換為彩色圖像時需要提前提供顏色使用的參考圖像。Style2paints提出的生成器網絡使用的也是經過殘差增強的U-net網絡,在網絡的右半部分中每個level之間加入了殘差模塊來增強上色細節紋理,同時在生成器網絡結構中加了一個輔助分類器,判別器可以判別生成圖片的真假以及分類其相關的風格來實現風格遷移。

現在被廣泛使用的Paintschainer使用的是無條件的判別器,并且取得了令人矚目的成績。用戶只需要輸入一張動漫線稿圖片就可以得到一張彩色圖片,通過添加自己想要的顏色還可以得到該顏色風格下的效果。但是因為沒有標簽使它容易過多關注線條和特征圖之間的關系,所以圖像構成時會導致過擬合,線條的填充也會混亂。

可見,為了提高GAN網絡的性能,人們對其網絡結構進行了大量的研究。而GAN在動漫線稿著色方面也已經取得了突出的成績。U-net已經被證明在動漫線稿上色這一塊有著很好的效果,但是最大的問題就是U-net的上采樣卷積層和下采樣卷積層是直接拼接,當編碼器的第一層發現,它可以簡單地通過跳接將所有的特性直接傳輸到解碼器的最后一層,從而使損耗最小化,這就導致了網絡的中間層無法學習到任何東西,無論訓練多少次網絡,在中間層都會出現梯度消失的問題。

為了解決上述問題,提出了一種用于動漫線稿著色的深度學習模型,模型的整體結構為對抗生成網絡模型。模型的生成器結構用的是經過改良的殘差增強U-net的網絡結構,判別器使用的是ResNet的網絡結構。受到ResNet網絡的啟發,改變了原來U-net網絡采樣上卷積層和下采樣卷積層直接拼接的方式,不再是跳接方式,使用了Swish激活函數,提出了兩種連接模塊。而提出的Swish模塊可以更好地濾波網絡中傳輸的特征信息,提高網絡的學習能力,在低等級卷積層完成任務時,高等級卷積層依舊可以得到濾波過的特征信息進行學習,解決了動漫線稿上色后,顏色細節混淆、訓練過程中梯度消失等問題。此外,把判別網絡用作了感知網絡,能夠得到生成圖像和真實圖像的感知特征,以此計算感知損失,擁有感知損失的上色模型能夠生成質量更好的彩色圖像。

2 本文方法

2.1 Swish模塊

本文提出的這種新的殘差模塊Swish gated block,是對Resnet中殘差模塊的一種改進。Swish gated block是由Swish module和殘差組成的,Swish module包含了卷積層和Swish激活函數。提出的殘差模塊結構圖如圖2所示,其中x代表的是輸入數據,F(x)代表的是殘差,F(x)+x是殘差模塊的輸出,“+”表示像素點對應相加;G(x)代表的是Swish module里卷積層的輸出,“·”表示像素點對應相乘;T(x)代表的是Swish gated block中卷積層經過非線性LReLU函數后的輸出,S(x)是Swish module的輸出,“⊕”表示特征圖之間進行拼接,“T(x)⊕S(x)”是Swish gated block最終輸出。

圖2 Swish模塊Fig.2 Swish module

在殘差模塊中,輸入數據x沒有經過處理就直接和殘差相加;而在Swish module中,對x進行了處理,使用了Sigmoid函數,它的優勢在于是能夠控制數值的幅度,在深層網絡中可以保持數據幅度不會出現大的變化。此外,對Swish gated block中的卷積層使用了非線性LReLU,對于生成類的任務比起ReLU有著更好的效果,用Swish module來濾波輸入數據x,它就像是一扇門,控制了輸入數據x從底層到高層之間通過一個捷徑的特征圖傳輸。

Swish module定義為:

S(x)是Swish module的輸出,x是輸入數據,G(x)是卷積層的輸出,σ(·)表示Sigmoid函數,“·”表示像素點對應相乘。

Swish gated block的輸出:

這里的T(x)是模塊中的殘差部分,S(x)是Swish module濾波過的信息,最終拼接在一起然后輸出得到的特征圖。

2.2 網絡結構

生成器網絡結構是基于U-net的改進版如圖3所示,是通過殘差增強的Swish U-net網絡結構。該網絡有著6個不同的分辨率等級,隨著等級的提高,分辨率也逐漸降低。和U-net相同,可以把Swish U-net也看作是左右兩個分支,但是把同一個分辨率等級的左右分支之間嵌入一個Swish module來濾波編碼路徑傳遞到解碼路徑的信息,而不再是原來的跳接,Swish module可以加快網絡的收斂速度同時提高網絡的性能。圖3中每一個綠色虛線框都是一個Swish gated block,一共有10個。在左側分支中,每個Swish gated block的輸出由殘差部分輸出的特征圖和經過Swish module濾波的特征圖組成;而在右側分支中,每個Swish gated block的輸出由三部分組成,分別是殘差部分輸出的特征圖,經過輸入經過Swish module濾波的特征圖以及對應左側分支通過Swish module濾波的特征圖組成。

圖3 Swish U-net網絡結構圖Fig.3 Network structure of Swish U-net

除了網絡的最后一層卷積層,所有的卷積層都使用了歸一化和LReLU函數,第i層的Swish gated block的輸入都是第i-1層Swish gated block的輸出進行1×1的卷積操作后得到。此外,第i-1層進行1×1卷積操作的卷積核個數和第i層每個卷積層的卷積核個數相同。從分辨率等級1到分辨率等級6,每一個分辨率等級中,每層卷積層的卷積核個數依次是96,192,288,384,480,512。最后一層卷積層將會輸出最終的彩色圖像,它由27個1×1的卷積核,并且沒有使用歸一化和激活函數。

一般來說,判別器的作用是區分真實圖像和生成圖像,本文在判別器上選擇了Resnet作為判別器網絡,該判別器的網絡結構如圖4所示。這里的判別器有兩個任務:(1)用來判別生成圖像和真實圖像。(2)作為感知網絡,提取生成圖像和真實圖像的感知特征,由此計算感知損失。判別器網絡最后經過歸一化來提高網絡訓練的穩定性,再使用ReLU激活函數,使網絡訓練更快,同時防止梯度消失。

圖4判別器網絡層結構Fig.4 Layer structure of discriminator network

圖5 (a)是訓練過程,每一步都包含向前傳播和反向傳播兩個過程,兩個過程完成一次為一個Epoch,當次數小于設定訓練值Num時,一直循環;圖5(b)為模型訓練好之后的預測流程圖,只有前向傳播。

圖5 網絡的流程圖Fig.5 Flowchart of network

2.3 損失函數

本文提出的生成器和判別器是分開訓練的,用的是成對的匹配圖像作為圖像的數據集。動漫線稿是輸入數據,而配對的彩色圖像是標簽。對于著色任務,簡單地比較生成圖像和參考彩色圖像的像素顏色會嚴重影響輸出圖像的質量[10-11]。因為給出一張黑白圖像,頭發的顏色可以是銀色、也可以是黑色,黑白圖像與上色圖像是一對多的關系,但標簽僅僅只有一張,因此僅考慮每個像素的L1loss不合理。為此提出了感知缺失[12],它可以提供幫助捕捉到生成的彩色圖像和參考圖像之間的差異,為了防止模型過擬合[13],添加了L2正則化。感知損失基于特征圖計算:

其中l取值[0,5],T表示生成圖像,G表示真實圖像,φ0(G)表示用辨別器的網絡結構進行卷積操作,φ表示不進行卷積操作,表示原圖,φ1(G)表示第一層卷積輸出結果(特征圖),表示感知特征,依此類推。

λl={0.88,0.79,0.63,0.51,0.39,1.07},表示不同層的權重。正則化系數α=0.009,優化器采用Adam。

判別器的網絡使用了Resnet,卷積層之后進行了數據的歸一化處理,使得數據不會因為過大而導致訓練不穩定[14-15]。這里判別器的損失用的是GAN提出的判別器損失。

其中,G表示真實圖像,T表示生成圖像,D表示判別器,σ(·)表示Sigmoid函數,E表示數學期望。

3 實驗與分析

3.1 數據集和評價指標

為了驗證提出的方法的性能,在大型數據集Anime Sketch Colorization Pair上進行了訓練,數據集中有著大量的配對動漫線稿圖像和動漫上色圖像。對14 224幅動漫線稿和他們對應的彩色圖像進行訓練,實驗中的所有圖像分辨率都被調整為256×256。評估生成圖像的質量一直以來都是個困難的問題。在上色過程中,同一塊上色圖像的區域用不同的上色模型所生成的顏色也是不同的。除了顏色上的差異之外,不同上色模型所生成的圖像在圖像質量(紋理、陰影、亮度)和圖像視覺質量上也有很大差異。因此,使用了幾個標準的圖像質量量化指標來評價和比較Swish U-net和其他現有上色方法,實驗中使用的定量評價指標包括峰值信噪比(PSNR)、結構相似度(SSIM)[16]、特征相似度(FSIM)[17]。為了確認感知損失在上色模型中的作用,使用了FID(frechet inception distance)[18]作為評估標準來量化彩色圖像的質量。如圖6展示了本文上色模型的上色結果,只需要輸入一張動漫線稿就可以得到9種不同顏色的彩色圖像。

圖6 輸入動漫線稿得到的彩色圖像Fig.6 Input animation line draft to get color image

3.2 實驗數據與結果

如圖7是展示了帶有感知損失和無感知損失的兩種上色模型比較。可以清楚地看到,帶有感知損失的上色模型生成的彩色圖像更加生動和飽滿,特別是顏色漸變平滑,陰影分布合理,沒有違和感;無感知損失的上色模型所生成的彩色圖像顏色不夠豐富并且顏色變化梯度更少。此外,無感知損失的上色模型生成的彩色圖像色彩飽和度也較低,圖片里人物和背景沒有明顯的界線。因此,感知損失對上色效果有著很大的影響,帶有感知損失的上色模型生成的圖像紋理細節更豐富,顏色與顏色之間的過渡也更流暢。

圖7 3種上色模型對比Fig.7 Comparision of three color models

為了進一步研究本文辦法,使用了定量分析來評估生成圖像的質量如表1所示。使用了FID來作為量化指標來評價生成彩色圖像的質量(清晰度)和色彩多樣性。自動上色模型是一對多的轉換,FID在這被用來評價生成彩色圖像的質量,沒有使用感知損失的Swish U-net簡寫為Swish U-netwpl。此外,這里使用了PSNR、SSIM、FSIM來評價3種算法的表現,最好的結果用黑體字表示。Swish U-net在所有指標上都取得了最好的表現,此外沒有感知損失的Swish U-net在所有指標上表現是最差的,說明感知損失在上色模型中有著特別重要的作用。提出的Swish模塊殘差增強的網絡生成的彩色圖像質量要優于U-net網絡生成的圖像,說明經過Swish模塊殘差增強的生成模型有著更好的上色效果。

表1 3種上色模型在數據集上的定量分析Table 1 Quantitative analysis of three color models on datasets

如圖8是Paintschainer、Style2-paints和Swish U-net模型在數據集上生成圖像的對比結果。可以看到提出的Swish U-net模型就線稿生成的彩色圖像具有更高的視覺質量,顏色組合更加合理。同時,色彩梯度變化更加自然,顏色搭配更符合審美。此外,提出的生成對抗模型避免了Style2paint和Paintschainer中存在的配色問題,如混色不合理、色彩漸變效果差、配色超出填充區域等。因此,提出的生成對抗模型的上色效果不僅優于目前的上色方法,甚至接近人為的上色圖片的質量。

圖8 Swish U-net和兩種主流上色模型對比Fig.8 Comparison of Swish U-net and two dominant color models

表2是Paintschainer、style2paints、SwishU-net的定量分析,量化指標用到了PSNR、SSIM、FSIM來評價生成彩色圖像的質量。最好的結果用了黑字體顯示。在表2中,可以看到Swishi U-net的表現明顯優異于Style2paints、Paintschainer的所有指標。

表2 Swish U-net和兩種主流上色模型在數據集上的定量分析Table 2 Quantitative analysis of Swish U-net and two major coloring models on datasets

如圖9顯示了Swish U-net網絡的性能,隨著迭代次數的增加,網絡逐漸收斂。如圖10展示了生成圖像的可視化結果,隨著迭代次數的增加,可以清楚地看到生成圖像的質量越來越高并且越來越接近于真實圖像,顏色線條也更加清晰。

圖9 Anime Sketch Colorization Pair上損失函數的收斂曲線Fig.9 Convergence curve of loss function on Anime Sketch Colorization Pair

3.3 算法復雜度計算

表3比較了Swish U-net和當前主流算法的算法復雜度。所有的算法都是基于python,在GPU上進行實現的,這里只測試了256×256的圖片。為了平衡性能和計算效率,這里選擇了16個參數層進行上述實驗。

表3 3種算法的平均運行時間和模型復雜度Table 3 Average running time and model complexity of three algorithms

可以看出,由于復雜的優化過程,Style2paints和Paintschainer消耗了大量的時間,而Swish U-net的生成網絡沒有使用歸一化層減少了運行的時間。平均運行時間和參數數量結果顯示:盡管使用的是輕量級的框架,經過定量分析,Swish U-net表現更加出色。

4 結束語

本文提出了一種用于動漫線稿著色的生成對抗模型,在生成模型上使用了基于Swish函數殘差增強的U-net網絡,在判別模型上使用了Resnet網絡。嵌入了Swish gate模塊的U-net能夠更好地傳遞特征圖信息,提高了生成網絡的性能,加快了網絡的收斂。在判別器上使用了感知網絡能夠感知生成圖像和真實圖像的感知特征,計算出感知損失,感知損失經實驗證明能更好地捕捉到黑白圖像和彩色圖像之間的差異,并對網絡更好地進行端到端的訓練。而判別器越優秀,對生成圖像的質量要求就越高,結果就更接近于真實圖像。經過實驗證明:在數據集Anime Sketch Colorization Pair上,相比于現有的方法,該方法在處理動漫線稿時有著更大的優勢,它生成的彩色圖像有著更高的視覺質量和更加豐富的色彩多樣性和匹配性,生成的彩色圖像質量甚至接近于人為的上色圖像質量。另一方面,本文上色模型生成的9張彩色圖像顏色風格布局大多一致,無法生成9種風格各不相同的彩色圖像,9張彩色圖片中并不是每張圖片都有著很好的視覺質量。盡管如此,本文提出的自動上色模型還是優秀于現有的自動上色模型。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 五月婷婷亚洲综合| 国产av一码二码三码无码 | 欧美精品H在线播放| 国产成人综合亚洲欧洲色就色 | 国内精品自在自线视频香蕉| 999国内精品视频免费| 国产99在线| 国产精品一区二区不卡的视频| 欧美成人看片一区二区三区| 久久国产精品夜色| 国产小视频在线高清播放| 精品少妇三级亚洲| 丁香综合在线| 毛片久久网站小视频| 无码不卡的中文字幕视频| 一级毛片在线播放免费观看| 欧美亚洲欧美| 色天天综合久久久久综合片| 综合成人国产| 九色最新网址| 影音先锋亚洲无码| 99久久精品国产麻豆婷婷| 亚洲国产精品不卡在线| 老司机午夜精品视频你懂的| 激情亚洲天堂| 国产 在线视频无码| 日本在线国产| 黄色免费在线网址| 青青热久免费精品视频6| 99热这里只有精品免费国产| 特黄日韩免费一区二区三区| swag国产精品| 久久国产乱子| 青青久久91| 国产黄在线免费观看| 欧美精品导航| 黄色网页在线播放| 国产精品99r8在线观看| 亚洲三级色| 综合五月天网| 国产人妖视频一区在线观看| 国产精品福利尤物youwu| 日韩欧美国产精品| 久久精品无码国产一区二区三区| 色AV色 综合网站| 久久国产精品影院| 免费毛片视频| 亚洲中文字幕23页在线| 一级黄色片网| 这里只有精品国产| 91亚洲视频下载| 午夜综合网| 这里只有精品免费视频| 中文字幕久久波多野结衣| 成人第一页| 亚洲日韩精品无码专区97| 免费高清a毛片| 97在线公开视频| 国产丝袜第一页| 免费网站成人亚洲| hezyo加勒比一区二区三区| 色成人亚洲| 亚洲二区视频| 亚洲成人在线网| 91人人妻人人做人人爽男同| 91精品国产一区| 国产欧美日韩视频怡春院| 国产va在线观看免费| 一本一本大道香蕉久在线播放| 日本一本正道综合久久dvd | 热久久国产| 台湾AV国片精品女同性| 国产青青操| 91福利一区二区三区| 国产v精品成人免费视频71pao | 日本五区在线不卡精品| 免费在线成人网| 特级aaaaaaaaa毛片免费视频| 国产成人精品视频一区视频二区| 国产毛片不卡| 丁香综合在线| 为你提供最新久久精品久久综合|