張政 姚楠 方利
摘要:圖像著色是對灰度圖像進行彩色化的過程。隨著深度學習技術的發展,卷積神經網絡的應用在圖像處理算法中取得了巨大的成功。對于灰度圖像著色問題,由于同一個實體可以對應不同的顏色,這種“實體-顏色”不確定性,容易導致語境混淆和邊緣色彩混合,并且網絡的訓練不易收斂。為了解決這個問題,本文提出一種全新的基于卷積神經網絡并結合圖像語義分割的自動著色方法,結合圖像的局部特征和深層語義特征用于指導著色,并采用聯合雙邊過濾方法增強著色效果,實現了端到端的處理。實驗結果表明,本文方法能夠實現很好的著色效果,達到了較先進的性能。
關鍵詞:圖像著色;語義分割;卷積神經網絡;聯合雙邊過濾
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2019)06-0198-03
1 相關工作
灰度圖像彩色化在歷史照片和視頻處理、文藝品修復以及醫學影像方面有廣泛的應用前景。傳統的圖像著色算法主要分為兩種類型,基于局部顏色擴散[1]的方法,基于參考圖的[2]方法,這兩種傳統方法都需要用戶的參與才能完成。其中,前者需要用戶指定整張圖片的顏色,并且在目標圖片上標注一定數量的彩色筆刷作為著色的參考依據,再擴展著色。這類方法的優點是著色效果較好,但是缺點在于需要處理復雜的圖像紋理和用戶干涉;后者在著色過程中盡可能消除用戶干涉,但是這類方法需要一張彩色圖片作為參考圖來傳遞顏色信息,得到跟參考圖像類似的著色效果。但是要找到一張合適的參考圖并不容易。
隨著深度學習技術的發展,卷積神經網絡用來處理圖像著色和分割已經成為了一種趨勢。最近的著色算法[3][7][9]都采用神經網絡來提取灰色圖像的語義特征,并參考圖像的語義特征進行著色。如Iizuka等人[4]提出利用卷積神經網絡結合圖像的全局特征和局部特征進行著色,對于戶外景觀照片取得了令人滿意的結果; Cheng 等人[5]提出一種通過卷積神經網絡對圖像提取高層次特征進行圖像自動著色的算法,同時結合雙邊過濾來提升效果;另外Larsson 等人[6]提出利用深度網絡結合圖像的底層細節特征和高層語義特征,實現圖像的自動著色。但是,當灰度圖片包涵復雜場景和實體對象時,往往經典算法著色效果不佳,如Iizuka的方法,容易產生語境混淆和邊緣色彩混合的現象,因為往往一個實體可以有不同顏色,比如背包可以是黑色也可以是紅色,如圖1所示。
針對這個問題,本文提出一種全新的基于卷積神經網絡并結合圖像語義分割的自動著色方法,設計雙路卷積神經網絡,分別用于提取圖像底層特征和深層語義特征用于指導著色,采用聯合雙邊過濾方法增強著色效果。并在PASCAL VOC 2012數據集上進行驗證,結果表明本文方法達到了較先進的效果。
2 結合語義分割的圖像著色網絡
為了結合低級特征和深層語義特征指導圖像自動著色,本文設計了如圖2的網絡結構:
網絡的輸入是灰度圖片,如圖所示,首先經過一系列的卷積操作,提取圖像的低級特征。在每次卷積運算之后,會生成相應的特征圖,這里本文使用步長位2的卷積運算,使得每次卷積操作之后特征圖分辨率縮小為原來的二分之一。四次卷積運算之后,能夠得到有效的特征圖。然后將網絡結合語義分割,用圖像的語義類別標簽作為監督信息,指導網絡訓練并提取圖像的深層語義特征,完成分割之后再結合著色網絡進行著色。最后結合分割的結果和原始的繪圖圖片生成彩色圖片,并采用聯合雙邊過濾來增強著色效果。
2.1 結合語義分割的損失函數
本文采用[CIELab]顏色空間處理著色,因為Lab空間只需要學習a和b兩個通道信息。高為H寬為W的亮度通道L定義由輸入 [X∈RH×W×1]和輸出[Y∈RH×W×2]來表示a,b兩個通道。著色問題的本質是要學習一個函數映射關系:[f:X→Y],這里本文參考Richard Zhang等人[7]的方法,本文將顏色ab分為Q=313,這里Q是具體的ab取值的數量。圖2的網絡結構給出[Z=GX]為可能的顏色概率分布[Z∈0,1H×W×Q] 。給定真實圖片作為參考,一個結合分類再平衡的多尺度交叉熵損失函數L可以定義為:
2.2 語義特征提取和雙邊過濾
為了提取圖像的深層語義特征,本文在網絡結構中結合了語義分割,并使用圖像的分類標簽作為監督信息,指導著色。如圖2所示,在四層卷積之后,語義分割網絡用于提取深層語義特征,結合著色網絡共同生產彩色圖片。兩部分網絡都采用加權交叉熵損失函數訓練,Iizuka等人[5]的論文里,這種分類標簽作為監督信息提取的特征叫作全局特征,本文主要是指語義特征。
此外,本文使用了聯合雙邊過濾來提升著色效果,因為通常使用點估計或者是平均分布都會產生不飽和的效果。本文在Richard Zhang等人[7]的基礎上嘗試采用雙邊過濾來解決這個問題,它結合了初始特征圖上的空間過濾核和灰度圖片的范圍過濾核來評估顏色值。對于一個像素p,在顏色通道ab的過濾結果是:
[Jcp=1kpq∈ΩIcqfp-qgIp-Iq]
這里f是空間類似于高斯核的空間過濾核,g是以灰度圖片[I]在p處的強度值為中心的過濾核,[Ω]是f的空間支持,[kp]是歸一化向量。采用這個方法,邊緣得以保持,并且使得著色更飽滿更自然。
3 實驗結果及分析
3.1 實驗環境和設置
本文采用PASCAL VOC 2012作為數據集,訓練網絡并且驗證著色結果。而且由于PASCAL VOC 2012數據集是一個常用的語義分割數據集,它包含20個對象類別(車,人等),本文實驗基于17125張圖片訓練,1440張圖片用于測試和驗證。
本文訓練網絡時采用聯合語義分割和著色損失函數來訓練,并設置權重[αc:αs=1:100],因為這樣兩個損失在量級上基本相等。實驗基于的GPU是NVIDIA Tesla K10。
3.2 著色結果展示
本文著色算法得到的結果如下圖3如所示,可以看出,本文方法的著色結果語境混淆現象基本消失,并且實體邊緣著色效果也較好,對實體的著色合理并且減少了語境混淆和邊緣混合的現象。
3.3 實驗評估
為進一步評估實驗結果,對于雙邊聯合過濾采樣,本文給出一個大概的在三種情況下的峰值信噪比PSNR對比結果,分別是沒有語義分割和JBF采樣、僅有語義分割以及同時進行分割和JBF采樣。其中PSNR由均方差MSE得到,定義如下:
從上表實驗結果看出,三種不同設置的方法得到的PSNR值基本相等,說明聯合雙邊上采樣對于著色圖片的質量沒有影響,但是卻增加了著色結果的自然度和豐富度,并且有助于保持圖像實體的邊界色彩信息,是可行的。
3.4 用戶研究
為進一步評估和驗證本文算法的著色效果,我們邀請了50位年齡在20歲到30歲的用戶參加用戶研究,并隨機挑選了原始灰度圖片作為輸入,和經典算法Iizuka等人[4]、Larsson等人[6]的著色結果進行對比,進行了用戶測試實驗。
4 結論
灰度圖像彩色化有很大的應用價值和發展前景,在文物修復和醫學影像應用方面有很大的前景。本文在基于深度學習的經典著色方法基礎上,提出了一種基于卷積神經網絡并結合圖像深層語義特征的自動著色方法,它增加了圖像分割網絡,提取圖像的深層語義特征用于指導圖像著色,并結合聯合雙邊過濾上采樣,對著色結果進行平滑處理,提升了灰度實體著色的準確度,減少了語境混淆和邊緣色彩混合的現象。實驗結果表明,本文方法在對灰度圖像進行自動著色時有較好的效果。
參考文獻:
[1] Welsh T, Ashikhmin M, Mueller K. Transferring color to greyscale images[J]. Acm Transactions on Graphics,2002,21(3):277-280.
[2] Levin A, Lischinski D, Weiss Y. Colorization using optimization[J]. Acm Transactions on Graphics,2004,23(3):686-691.
[3] Deshpande A, Rock J, Forsyth D. Learning Large-Scale Automatic Image Colorization[C]. IEEE International.
Conference on Computer Vision. IEEE Computer Society,2015:567-575.
[4] Iizuka S, Simoserra E, Ishikawa H. Let there be color?。?joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification[J]. Acm Transactions on Graphics,2016,35(4):1-11.
[5] Cheng, Z, Yang, Q, Sheng, B. Deep colorization[C].Proceedings of the IEEE International Conference on Computer Vision,2015:415-423.
[6] Larsson G, Maire M, Shakhnarovich G. Learning Representations for Automatic Colorization[J]. 2016:577-593.
[7] Evan Shelhamer, Jonathan Long, and Trevor Darrell, Fully Convolutional Networks for Semantic Segmentation, IEEE Transactions on pattern analysis and machine intelligence,2017,39(4).
[8] Zhuo Su, Xiangguo Liang , Jiaming Guo ,et al. An edge-refined vectorized deep colorization model for grayscale-to-color images. Neurocomputing,2018(311):305-315.
【通聯編輯:唐一東】