







摘要:隨著圖像數(shù)字化技術(shù)的快速發(fā)展,人們越來越依賴于從圖像中獲取信息,圖像已成為信息傳遞的主要載體。在圖像傳遞的過程中,往往伴隨著信息的丟失即圖像局部區(qū)域缺失,其嚴重影響了以圖像為基礎(chǔ)的圖像處理技術(shù)的性能,阻礙了信息的有效傳遞。傳統(tǒng)的圖像修復(fù)算法主要分為基于結(jié)構(gòu)的圖像修復(fù)方法和基于紋理的圖像修復(fù)方法,但存在無法較好地修復(fù)圖像紋理信息、實時性差等問題。隨著深度學習和計算機視覺的不斷發(fā)展與成熟,基于深度學習的圖像修復(fù)算法逐漸成為主流,人們開始利用卷積神經(jīng)網(wǎng)絡(luò)解決圖像修復(fù)問題,利用深度學習方法解決圖像修復(fù)問題,通過構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)的強大感知學習能力,提取圖像的特征重建圖像局部缺失區(qū)域。
關(guān)鍵詞:圖像修復(fù);深度學習;卷積神經(jīng)網(wǎng)絡(luò)
doi:10.3969/J.ISSN.1672-7274.2024.08.007
中圖分類號:TP 391.41" " " " " " " " "文獻標志碼:A" " " " " " 文章編碼:1672-7274(2024)08-00-04
Research on Image Restoration Algorithms Based on Deep Learning
ZHANG Xupeng
(Shanxi University of Applied Science and Technology, Taiyuan 030062, China)
Abstract: With the rapid development of image digitization technology, people are increasingly relying on obtaining information from images, and images have become the main carrier of information transmission. In the process of image transmission, there is often a loss of information, that is, the loss of local areas in the image. It seriously affects the performance of image-based image processing technology and hinders the effective transmission of information. Traditional image restoration algorithms are mainly divided into structure based image restoration methods and texture based image restoration methods, but there are problems such as inability to effectively restore image texture information and poor real-time performance. With the continuous development and maturity of deep learning and computer vision, image restoration algorithms based on deep learning have gradually become mainstream. People have started to use convolutional neural networks to solve image restoration problems, using deep learning methods to solve image restoration problems. By constructing convolutional neural networks and utilizing the powerful perceptual learning ability of convolutional neural networks, the features of the image are extracted to reconstruct local missing areas of the image.
Keywords: image restoration; deep learning; convolutional neural network
0" "引言
圖像修復(fù)技術(shù)被廣泛應(yīng)用于安防、藝術(shù)品復(fù)原以及電影、攝影等行業(yè)。近年來,深度學習(Deep Learning,DL)方法發(fā)展迅速,在計算機視覺、模式識別等領(lǐng)域上得到廣泛應(yīng)用[1]。深度學習方法以卷積神經(jīng)網(wǎng)絡(luò)為主體,能夠利用卷積神經(jīng)網(wǎng)絡(luò)強大的感知能力,提高算法的性能。基于深度學習方法的圖像修復(fù)技術(shù)是利用數(shù)據(jù)訓練卷積神經(jīng)網(wǎng)絡(luò),高效預(yù)測圖像缺失信息,實現(xiàn)重建圖像局部缺失區(qū)域,保證圖像信息的完整性。其為以圖像為基礎(chǔ)的目標檢測、目標識別等計算機視覺領(lǐng)域的算法提供了技術(shù)支持。
1" "圖像修復(fù)技術(shù)介紹
圖像修復(fù)技術(shù)可以分為有參考圖像修復(fù)和無參考圖像修復(fù)兩種。有參考修復(fù)是指以破損圖像的全局信息為主,以與修復(fù)圖像相似圖像的信息為輔,修復(fù)圖像的缺失區(qū)域。例如,在進行人臉圖像的修復(fù)時,人們可以引入其他人臉的信息作為輔助,完成人臉圖像的修復(fù)。無參考圖像修復(fù)是指僅依據(jù)破損圖像的全局信息,填充圖像的缺失區(qū)域還原圖像。傳統(tǒng)的圖像修復(fù)算法主要分為基于結(jié)構(gòu)的圖像修復(fù)方法和基于紋理的圖像修復(fù)方法。基于結(jié)構(gòu)的圖像修復(fù)算法使用幾何方法對圖像中的空缺進行修復(fù),利用圖像信息中的結(jié)構(gòu)性原則,修復(fù)小范圍破損的圖像,能同時修復(fù)多個破損領(lǐng)域。基于紋理的圖像修復(fù)方法將著重點放在圖像紋理層面上,根據(jù)已知的區(qū)域的內(nèi)容匹配從圖像數(shù)據(jù)庫中篩選出最合適圖像部分紋理信息對空缺部分進行填充。
2" "深度學習相關(guān)基礎(chǔ)理論
2.1 深度學習簡介
深度學習是機器學習領(lǐng)域一個重要的分支,其相比于傳統(tǒng)機器學習方法具有更多的網(wǎng)絡(luò)層,對圖像數(shù)據(jù)的需求量更大。深度學習一般由多個神經(jīng)隱藏層構(gòu)成,學習訓練數(shù)據(jù)之間數(shù)據(jù)分布和映射關(guān)系[2]。在深度學習網(wǎng)絡(luò)學習的過程中,不斷提取提取圖像中的特征,最終使機器近似人類感知圖像信息完成檢測、識別。深度學習的基本步驟主要包括神經(jīng)網(wǎng)絡(luò)、損失函數(shù)、優(yōu)化過程三個方面。神經(jīng)網(wǎng)絡(luò)由多個隱藏層組成,每一個隱藏層代表一種簡單的函數(shù)關(guān)系(非線性關(guān)系)。神經(jīng)網(wǎng)絡(luò)的整體可以看作是一個非線性關(guān)系的集合。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是深度學習方法中一種典型的網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)具有強大的學習感知能力,自主提取圖像的淺層、深層特征,極大地保留了圖像原始信息。卷積神經(jīng)網(wǎng)絡(luò)在擬合樣本數(shù)據(jù)之間的潛在數(shù)據(jù)分布和映射關(guān)系方面表現(xiàn)優(yōu)異,一般由卷積層、池化層、全連接層和激活函數(shù)組成。卷積層包括卷積核尺寸、卷積核深度、步長和填充方式三種參數(shù),是卷積神經(jīng)網(wǎng)絡(luò)的核心組成部分。常見的卷積層包括卷積核大小為的卷積層、卷積核大小為的卷積層、卷積核大小為的卷積層和卷積核大小為的卷積層。池化層又稱下采樣層,主要作用是降低圖像的大小,豐富圖像信息,促進多尺度圖像特征融合。激活函數(shù)用于增加卷積神經(jīng)網(wǎng)絡(luò)的非線性復(fù)雜度,提高神經(jīng)網(wǎng)絡(luò)的表示能力。常用的激活函數(shù)包括ReLu、PReLu、Tanh、Sigmoid等。
2.2 自編碼器簡介
自編碼器(Auto Encoder,AE)是圖像復(fù)原領(lǐng)域比較經(jīng)典的網(wǎng)絡(luò)模型。自編碼器的特征提取能力優(yōu)于一般的卷積神經(jīng)網(wǎng)絡(luò)[3]。自編碼器包括編碼階段和解碼階段,一般通過線性堆疊卷積層(步長為2)、轉(zhuǎn)置卷積層、全連接層構(gòu)建。編碼階段通過堆疊卷積層(步長為2)等網(wǎng)絡(luò)層構(gòu)建編碼器,實現(xiàn)圖像特征的自動降維。
2.3 圖像復(fù)原評價指標
判斷圖像修復(fù)算法的效果是否為最佳,不僅需要人眼視覺的定性主觀評價,也需要對修復(fù)圖像的定量客觀評價,進行圖像質(zhì)量對比。常見的圖像復(fù)原評價指標包括峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similarity,SSIM)。本文以上兩種評價指標對圖像修復(fù)算法的效果進行定量對比。PSNR的計算過程為:
(1)
式中,為圖像中像素值的最大值,圖像歸一化后取,否則取;MSE為均方誤差(Mean Square Error),對于大小的圖像,用代表原始圖像,用代表復(fù)原圖像,則與間的均方誤差為:
(2)
PSNR的單位為dB,值越大表示圖像修復(fù)算法的效果越佳,即重建圖像的質(zhì)量越好。由于PSNR是一種比較直觀簡單的定量指標,往往存在PSNR值很高但視覺效果不佳的情況。而結(jié)構(gòu)相似性SSIM可以反映重建圖像和原始圖像的結(jié)構(gòu)相似度,是一種更擬合人眼視覺效果的定量評價指標,其計算過程如下:
(3)
(4)
(5)
(6)
式中,為亮度;為對比度;為結(jié)構(gòu);、分別為圖像X和Y的均值,、分別為兩個圖像的標準差;為圖像X、Y的協(xié)方差;、、為常數(shù),用來避免分母為0,通常取、、;為像素值的動態(tài)范圍;、均為遠小于1的值。公式可簡寫為:
(7)
SSIM的取值范圍是0到1,它的值越接近1,兩幅圖像的相似性越高,復(fù)原圖像的質(zhì)量越高。
2.4 圖像修復(fù)數(shù)據(jù)集實現(xiàn)
Paris Street Dataset數(shù)據(jù)集是包含巴黎街道場景的數(shù)據(jù)集,圖像的大小為。NVIDIA Irregular Mask Dataset數(shù)據(jù)集是根據(jù)實際的圖像缺失場景采集用于圖像修復(fù)的掩模數(shù)據(jù)集。數(shù)據(jù)集分為包含邊界缺失和不涉及邊界區(qū)域兩個部分,圖像的大小為。數(shù)據(jù)集中的圖像如圖1所示。
本文訓練、測試使用的圖像修復(fù)數(shù)據(jù)集由Paris Street Dataset數(shù)據(jù)集和NVIDIA Irregular Mask Dataset數(shù)據(jù)集制作而成。首先將NVIDIA Irregular Mask Dataset數(shù)據(jù)集中的掩模圖像resize成大小為的圖像;然后通過式(8)計算得到訓練、測試樣本:
(8)
式中,為輸出的局部缺失圖像;為輸入的原始圖像;為掩模圖像。
3" "基于卷積神經(jīng)網(wǎng)絡(luò)的圖像修復(fù)
3.1 問題引入
圖像作為信息傳遞的重要載體,其完整性是信息有效傳遞的基礎(chǔ)。當圖像本身存在局部區(qū)域破損、缺失、劃痕等進行傳遞時,必然會導(dǎo)致接受端獲取信息不完整。如果圖像破損、缺失的局部區(qū)域包含圖像處理需要的關(guān)鍵信息,會嚴重影響圖像處理的效果。圖像修復(fù)技術(shù)旨在根據(jù)已知的不完整的圖像信息,重建圖像丟失區(qū)域的像素點即實現(xiàn)圖像缺失區(qū)域的填充。傳統(tǒng)的圖像修復(fù)算法主要分為基于結(jié)構(gòu)的圖像修復(fù)方法和基于紋理的圖像修復(fù)方法。基于結(jié)構(gòu)的圖像修復(fù)算法使用幾何方法對圖像中的空缺進行修復(fù),利用圖像信息中的結(jié)構(gòu)性原則,修復(fù)小范圍破損的圖像,能同時修復(fù)多個破損領(lǐng)域[4]。
3.2 算法主要思想
針對現(xiàn)有方法存在修復(fù)圖像紋理上表現(xiàn)不佳、實時性差等問題,本文利用基于上下文編碼器的卷積神經(jīng)網(wǎng)絡(luò),以端到端的方式學習破損圖像與原始圖像之間的映射關(guān)系。以破損圖像為輸入,原始圖像為輸出。具體算法總流程如圖2所示。
3.3 基于上下文編碼器的圖像修復(fù)
本文利用基于上下文編碼器的網(wǎng)絡(luò)實現(xiàn)圖像修復(fù),整體網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。網(wǎng)絡(luò)由編碼模塊、Channel-wise全連接層和解碼模塊組成,編碼模塊和解碼模塊具有完全對稱的結(jié)構(gòu)。編碼模塊用于減小圖像的尺寸,將高維空間的圖像數(shù)據(jù)映射到低維空間提取圖像特征。解碼模塊用于增大圖像的尺寸,將低維空間的圖像數(shù)據(jù)映射到高維空間重構(gòu)圖像特征,修復(fù)圖像破損區(qū)域。在編碼模塊和解碼模塊之間嵌入Channel-wise全連接層,用于融合破損區(qū)域四周的上下文信息,獲取圖像的全局語義信息用于解碼模塊重構(gòu)更好的原始圖像。編碼模塊堆疊5個卷積核大小為、步長為2的卷積層實現(xiàn)圖像數(shù)據(jù)的降維,解碼模塊具有與編碼模塊完全對稱的結(jié)構(gòu),堆疊5個卷積核大小為、步長為2的轉(zhuǎn)置卷積層重構(gòu)圖像的尺寸到原始圖像大小。
3.4 算法訓練及結(jié)果展示
本文采用L2損失函數(shù)評價模型的預(yù)測值和真實值的重構(gòu)誤差,修正網(wǎng)絡(luò)權(quán)重。具體的計算過程如公式所示。網(wǎng)絡(luò)結(jié)構(gòu)基于Pytorch深度學習框架搭建,實驗使用由Paris Street Dataset數(shù)據(jù)集和NVIDIA Irregular Mask Dataset數(shù)據(jù)集制作圖像修復(fù)數(shù)據(jù)集訓練網(wǎng)絡(luò)。初始學習率設(shè)置為2e-4。epoch設(shè)為10 000,batch size設(shè)為128。算法訓練過程如圖4所示。
為了定性地說明基于上下文編碼器的圖像修復(fù)算法的性能,在圖像修復(fù)數(shù)據(jù)集測試數(shù)據(jù)集進行測試。定性結(jié)果如圖5所示,由圖可以看出本文方法實現(xiàn)了更好的效果。
4" "結(jié)束語
在信息傳遞的過程中,往往伴隨著信息的丟失即圖像局部區(qū)域缺失。其嚴重影響了以圖像為基礎(chǔ)的圖像處理技術(shù)的性能,阻礙了信息的有效傳遞。圖像修復(fù)技術(shù)可以有效地重建圖像缺失的局部區(qū)域,保證了信息傳遞的完整性。本文利用深度學習方法解決圖像修復(fù)問題。通過構(gòu)建基于上下文編碼器的卷積神經(jīng)網(wǎng)絡(luò),利用上下文編碼器的特性,將高維數(shù)據(jù)映射到低維空間,學習數(shù)據(jù)特征再映射回高維空間,重建圖像局部缺失區(qū)域。在一定程度上解決了現(xiàn)有方法存在的修復(fù)圖像紋理信息不佳且實時性較差等問題。
參考文獻
[1] 謝伙生,潘姣君.基于紋理合成的圖像修復(fù)優(yōu)化方法[J].福州大學學報(自然科學版),2013(3):305-310.
[2] 范春奇,任坤,孟麗莎,等.基于深度學習的數(shù)字圖像修復(fù)算法最新進展[J].信號處理,2020(1):102-109.
[3] 趙然.基于深度學習的圖像修復(fù)方法綜述[J].科技風,2020(18):130-137.
[4]宋海聲,劉岸果,呂耕耕.基于深度學習的空間變換情景感知模型研究[J].物聯(lián)網(wǎng)技術(shù),2017,7(3):22-24.
作者簡介:張旭鵬(2001—),男,漢族,山西呂梁人,本科,研究方向為軟件工程。