王志盛



摘要:針對多尺度CNN網絡編碼過程中存在獲取特征信息不足,導致重建的去運動模糊圖像質量不佳。該研究提出了一種將明暗通道先驗嵌入多尺度網絡,并在網絡中引入雙重注意力機制的解決方法,該方法增強了網絡對先驗信息的獲取能力,加強重點信息獲取的同時提高動態去模糊效果。該方法與同類方法相比峰值信噪比(PSNR)和結構相似度(SSIM)均獲得了提升。
關鍵詞:多尺度;明、暗通道;注意力機制;運動模糊;卷積神經網絡
Abstract: The insufficient feature information obtained in the multi-scale CNN network coding process, which leads to the quality of the reconstructed motion deblur image is poor. A solution is proposed that embeds a priori of light and dark channels in a multi-scale network and introduces a dual attention mechanism into the network. The method enhances the network's ability to acquire prior information, enhances the acquisition of key information, and improves dynamic deblurring effects. Compared with similar methods, this method has improved the peak signal-to-noise ratio (PSNR) and structural similarity (SSIM).
Key words:multi-scale;light、dark channel;attention mechanism;motion blur;convolutional neural network ( CNN)
近年來,動態場景中運動模糊圖像復原已成為越來越多研究者關注的領域。運動模糊是圖像拍攝中常見問題之一。拍攝設備在成像時受到抖動或者被拍攝物體運動速度過快,散焦等因素影響時,會產生低質量并且模糊的圖像。圖像去運動模糊技術在交通、軍事、醫學、工業界具有很高的應用價值。因此,運動模糊圖像的復原問題具有重要的現實研究意義。
去運動模糊是從模糊圖像中重建出清晰圖像。運動模糊的恢復按照是否需要PSF(Point Spread Function)可分為盲去運動模糊和非盲去運動模糊。非盲去運動模糊是在PSF已知的情況下去模糊。然而,真實場景中PSF往往未知,因此,盲去運動模糊成為真實場景中恢復清晰圖像的重要方式。圖像模糊的數學模型可以看成清晰圖像與模糊核的卷積過程,其公式為:
公式中,B為模糊噪聲圖像;I為原始清晰圖像;K和N分別為模糊核和噪聲;[?]是卷積運算。因為B為已知的,I與K未知,需要同時恢復I與K,這是嚴重的病態逆問題。I與K要進行合適的先驗信息約束才能得到唯一解,實現圖像清晰化。
目前盲去運動模糊方法可分為兩類:一類是基于優化的方法,另一類是基于學習的方法。基于優化的方法在盲解模糊時可以靈活運用圖像梯度、稀疏性[1]等約束,但是會產生優化耗時和過渡簡化假設模糊核(假設運動模糊圖像模糊核空間不變,非均勻模糊假設為均勻模糊)問題。基于優化的方法處理自然圖像具有很好的優勢。但是在特定領域的圖像方面存在缺陷。因此,特定領域需要引入特定的先驗信息。例如,處理文本圖像采用顯著強度和梯度的組合優于L0范數作為正則項,復原效果更好。Pan[2]等人利用圖像去霧的暗通道先驗來增強潛像暗通道的稀疏性,并在一般和特定圖像上都取得了良好的效果。但是在處理非暗像素點時,該方法不奏效。隨后,Yan[3]等人進一步引入了亮通道先驗來解決包含非暗像素的模糊。在各種場景下取得了不錯的效果。但是這種方案存在耗時的缺陷。
基于學習的方法通過訓練數據學習映射函數,這種方法實質隱式地利用了先驗信息。具有快速和靈活處理動態場景中空間變化模糊。由于缺乏真實場景下的模糊清晰圖像對,文獻[4-6]中的方法通過合成模糊核產生模糊圖像進行訓練。這些方法不是以端到端的方式,并且仍然需要估計模糊核。因此,這些方法仍然存在模糊核的估計不準確的問題,在真實數據集上的效果比人工生成的模糊效果差。Nah[7]等人采用了端到端的動態去模糊方法,這種方法拋棄了傳統方法需要估計模糊核的缺點,提高了去模糊的效果。Tao[8]等人后來采用端到端的深度多尺度卷積網絡,在接近真實的數據集上去除動態場景的運動模糊,進一步提升了效果。但是上述方法沒有考慮到基于學習的方法是在深度神經網絡內部學習盲解模糊的直接映射。以及當前數據集規模小,網絡對某些特定先驗信息不能獲取。存在特征信息不能很好利用的缺陷,最終導致復原圖像效果不佳。因此,本文從獲取更多先驗信息以及自適應學習重點模糊信息角度出發設計了一種改進網絡結構。
1 網絡結構
我們的網絡由粗糙的低分辨率運動模糊圖像逐漸恢復清晰的高分辨率圖像。這種網絡結構稱為“由粗到細”的多尺度結構。各尺度采用相同的網絡結構。網絡的輸入由3個分辨率不同的模糊圖像Bi(i=1,2,3),它們由原始模糊圖像下采樣形成。下標i代表尺度層級,圖像的分辨率隨著i的增大順序增加,尺度間隔比率設置為0.5。首先將尺度最小最容易恢復的模糊圖像B1輸入,恢復出其對應大小估計的清晰圖像I1。然后將估計的中間清晰圖像上采樣到更大的尺度,與模糊圖像B2一同作為下一尺度的輸入,進一步引導更大尺寸的圖像恢復。同理,最終獲得最高分辨率的輸出圖像I3。這種框架結構可以降低網絡訓練難度,使得運動模糊圖像更好的復原。整體網絡結構如圖1。
圖2中尺度層級采用編碼-解碼網絡結構,編碼塊和解碼塊的通道數的大小分別為32、64和128。步長為2的卷積層將通道數增加一倍,特征圖尺寸變為原來的一半;相反,步長為2的反卷積層則特征圖尺寸提升一倍,特征通道數減半。卷積核大小為5x5,下采樣中的卷積核為1x1,反卷積核為4x4。編碼塊進行特征提取,抽象圖像內容信息并且消除模糊。解碼塊具有恢復圖像高頻細節信息的特性。圖像去模糊需要足夠大的感受野恢復運動模糊圖像。該網絡模型在編碼器和解碼器的相應層之間添加了跳躍連接,從而增加了接受域。
1.1嵌入通道先驗模塊(EcBlock)
通道先驗一般包含暗通道和亮通道,其中暗通道是指自然圖像的RGB三個顏色通道中灰度值趨向于0的值,亮通道是指自然圖像的RGB三個顏色通道中灰度值趨向于1的值。Yan[3]等人發現形成模糊的過程通常導致圖像暗通道和亮通道稀疏性降低,將暗通道和亮通道稀疏性作為一種先驗信息可以有效地解決圖像盲區模糊問題。即利用L0范數強制提高模糊圖像的極端通道的稀疏性來優化模型,從而獲得更高質量的清晰圖像。很少研究將通道先驗嵌入到網絡結構中,來提高去模糊網絡的性能。本文基于學習的多尺度構架中引入明、暗通道先驗,將明、暗通道先驗作為圖像特征融入網絡中重建更加清晰的圖像。即通過映射函數學習亮通道特征信息[Ω]和暗通道特征信息[Λ],并分別與圖像的淺層(深層)特征[fl]進行級聯操作,實現模糊圖像的特征與明暗通道信息有效地融合。
公式中,[[Λ,fl,Ω]]表示特征圖像的拼接,N表示映射函數,[[γ|D]]和[[δ|B]]表示參數[γ]和[δ]在暗通道和亮通道先驗約束下得到的優化參數。EcBlock中DarkEct提取器(簡稱D([?]))提取暗通道特征信息,BrightEct提取器(簡稱B([?]))提取亮通道特征信息,利用L1正則化增強訓練中的稀疏性。從而實現明暗通道先驗嵌入網絡中。D([?])通過計算局部圖像塊中的最小值來提取[Λ]的暗通道信息。B([?])通過計算局部圖像塊的最大值來提取[Ω]亮通道信息。
公式中,[ιD[h,w]]和[ιB[h,w]]分別記錄各分辨率下最小值和最大值的掩碼。每個尺度圖像塊大小設置為{11×11、19×19、31×31}。各通道中的信息分配給不同的輸出[D(Λ)[h,w]]和[B(Ω)[h,w]]。
本文提出的Ecblock模塊根據提取到的淺層(深層)特征學習模糊圖像的暗通道和亮通道信息,通過目標函數使其逐漸逼近清晰圖像的暗通道和亮通道信息,即將暗通道和亮通道特征稀疏化。從而將暗通道和亮通道先驗信息嵌入到網絡中,重建更加清晰的圖像。為不增加過多的網絡參數,在Ecblock模塊中利用6個圖像特征去擬合清晰圖像的暗通道和亮通道特征。即保證Ecblock模塊輸出的特征圖數不變。
1.2 雙重注意力機制模塊
注意力機制是在自然語言處理中開發的,后來它被引入計算機視覺中,CNN中的不同注意力機制利用空間信息[9-10]來改善各種視覺任務的性能。通道注意力[11]已被廣泛用于自適應地重新校準特征響應,提高通道間相互依賴性。本文在Resblock后面加入注意機制模塊(Attention Mechanism Block,AMB)。AMB由通道注意力模塊(Channel Attention Block,CA)和空間注意力模塊(Spatial Attenton Block,SA)組成。注意力機制的表示為:
1.3 損失函數
本文采用L2損失函數作為圖像損失,公式表示為:
2 實驗結果與分析
本文采用更接近真實的GOPR0數據集,它能夠模擬復雜的相機抖動和目標運動帶來的非均勻模糊。GOPRO數據集有3204對模糊-清晰圖像,其中2103對數據集用于訓練,其余1111對圖像用于測試。分辨率為1280X720。實驗設備CPU為i5,內存16GB,GPU為NVIDIA1080Ti 的計算機進行實驗。訓練數據時隨機裁剪成256 × 256大小的圖像塊,測試時保持原來圖像大小。初始學習率設置為5E-6,實驗中批尺寸設為10,用Adam優化器來優化損失函數,然后使用指數衰減法逐步減小學習率,經過6000輪訓練達到最佳的效果。本文采用峰值信噪比(PSNR)和結構相似性(SSIM)作為評價標準。實驗結果如表1所示。
表1結果表明,在接近真實的非均勻模糊GOPRO測試集中可以看出Nah等人的實驗結果與Sun比較,有了質的提升。Tao等人的評價指標比Nah等人的效果好。本文改進的方法與Tao等人方法相比較PSNR有0.3592的提升,SSIM也得到了提升。
3 結論
本文改進的端到端多尺度網絡能夠在相同的數據集中獲取更多先驗特征信息,自適應重點學習模糊圖像上下文信息。再不采用疊加更深層次的卷積網絡情況下,增強細節信息獲取能力。這對于恢復動態場景的運動模糊圖像至關重要。
參考文獻:
[1] Xu L, Jia J. Two-phase kernel estimation for robust motion deblurring[C]//European conference on computer vision. Springer, Berlin, Heidelberg, 2010: 157-170.
[2] Pan J, Sun D, Pfister H, et al. Blind image deblurring using dark channel prior[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 1628-1636.
[3] Yan Y, Ren W, Guo Y, et al. Image deblurring via extreme channels prior[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 4003-4011.
[4] Chakrabarti A. A neural approach to blind motion deblurring[C]//European conference on computer vision. Springer, Cham, 2016: 221-235.
[5] Schuler C J, Hirsch M, Harmeling S, et al. Learning to Deblur[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(7): 1439-1451.
[6] Sun J, Cao W, Xu Z, et al. Learning a convolutional neural network for non-uniform motion blur removal[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 769-777.
[7] Nah S, Hyun Kim T, Mu Lee K. Deep multi-scale convolutional neural network for dynamic scene deblurring[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3883-3891.
[8] Tao X, Gao H, Shen X, et al. Scale-recurrent network for deep image deblurring[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8174-8182.
[9] Qi Q, Guo J, Jin W. Attention Network for Non-Uniform Deblurring[J]. IEEE Access, 2020.8:100044-100057.
[10] Zagoruyko S, Komodakis N. Paying more attention to attention:Improving the performance of convolutional neural networks via attention transfer[J]. arXiv preprint arXiv:1612. 03928, 2016.
[11] Zhu W, Huang Y, Tang H, et al. Anatomynet: Deep 3d squeeze-and-excitation u-nets for fast and fully automated whole-volume anatomical segmentation[J]. bioRxiv, 2018: 39 2969.
【通聯編輯:唐一東】