黃夢然
(南京海康威視數字技術有限公司 南京 210000)
圖像去噪是計算機視覺領域提高圖像質量的基本而又經典的問題,也是許多視覺任務的重要預處理步驟。根據圖像退化模型y=x+v,圖像去噪的目標是通過降低噪聲v,將無噪聲的圖像x 從噪聲圖像y 中恢復出來,而消除圖像中的噪聲對提高用戶的視覺體驗具有重要的意義。許多現有的圖像去噪算法多側重于改進典型目標測度如峰值信噪比(PSNR),并以均方誤差(MSE)作為損失函數訓練網絡,但這樣去噪后的圖像往往會丟失重要的圖像細節或者在一些紋理豐富的區域變得過于平滑。本文利用SRDenseNet 作為生成對抗網絡的生成器,并利用WGAN-gp 來加速網絡的訓練,同時用于解決原始GAN 訓練困難的問題。為使圖像細節得到更好的保留,對人眼敏感的感知損失被加入網絡。
通過最小化圖像的MSE 來提高PSNR 是圖像去噪的一種有效途徑。然而,最小化MSE 通常會導致去噪圖像在一些紋理豐富的區域丟失細節或變得過于平滑。為了解決這一問題,文獻[1]提出了一種級聯結構,將圖像去噪網絡連接到一個高級視覺網絡,如圖像分類網絡。通過聯合最小化圖像重建損失MSE 和高水平視覺損失來訓練去噪網絡。在圖像分類網絡損失的指導下,去噪網絡能夠產生更具有視覺吸引力的輸出,但去噪后的圖像在視覺質量上還有待進一步提高。
在SISR 領域,為了在高分辨率圖像中恢復更自然、更真實的紋理,文獻[2]將GAN 引入到SISR工作中,并提出了感知損失項,包括內容損失和對抗損失。結果表明,該網絡能較好地恢復高分辨率圖像中的高頻細節。由于圖像去噪任務中細節的保留也是一個棘手的問題,本文將感知損失引入到圖像去噪中。感知損失能很好地衡量去噪圖像和地面真實圖像(Ground Truth)之間的細節差異。
近年來生成對抗網絡引起了極大的關注,并被提出用于解決生成模型估計的問題。GAN 相關的應用可以在文獻[3~6]中找到。在這些工作中,GAN 顯示出了學習復雜分布的潛力。然而,GAN的訓練既復雜又不穩定。WGAN[7~9]克服了生成網絡和判別網絡間難以保持訓練平衡的問題,更重要的是可以生成高質量的樣本,同時,加入了梯度懲罰項的WGAN-gp 使得WGAN 網絡的訓練進程得到進一步加快。
本節首先介紹去噪問題的模型,其次介紹基于DenseNet設計的生成網絡和判別網絡模型,最后介紹相關的損失函數。
去噪問題在數學上可以表示為

其中x和y分別代表噪聲和干凈(不帶噪聲)圖像,D代表噪聲矩陣,噪聲矩陣會使圖像質量退化。通過對噪聲矩陣求逆可以得到干凈圖像y,計算去噪圖像y的公式為

其中fd是去噪函數。
生成對抗網絡(GAN)[10]由Goodfellow 等提出,目的是通過訓練生成器網絡G 來騙過判別器網絡D,使后者無法區分生成數據和真實數據。G 和D是兩個相互競爭的網絡,前者通過接收噪聲圖像作為輸入來產生和地面實況圖像無法區分的生成圖像,后者接收地面實況圖像和生成圖像并嘗試區分兩者。生成器G 和判別器D 之間的競爭由式(3)給出:

其中Pr代表真實數據x 的分布,Pg為生成器轉換的樣本分布,定義為x~ =G(z),輸入噪聲變量z 的分布為P(z)。生成對抗網絡的訓練是困難的,因為判別器訓練越好,生成器梯度消失[11]越嚴重。因此在訓練期間要注意G 和D 兩者之間的平衡,否則很容易失敗。針對GAN 的缺陷,Arjovsky 等將EM(Earth-Mover)距離代替了JS 散度,去掉損失中的對數函數同時在鑒別器D 中也去掉了sigmoid 層,由此提出了WGAN。WGAN的結構足夠精巧簡單,克服了原始GAN 訓練易失敗的問題,但還是存在訓練困難,收斂速度慢的問題。WGAN-gp 網絡通過在WGAN 中添加梯度懲罰項,進一步提高了收斂速度。其中,判別器中用于衡量生成圖像和地面真實圖像間距離的EM 距離可以看成與生成樣本質量高度相關的重要指標。因此,本文使用WGAN-gp來指導訓練進程。
生成網絡是GAN 的核心部分,生成樣本質量的高低直接關系到去噪的質量。本文基于SRDenseNet[12]設計生成網絡的結構,網絡結構如圖1 和圖2 所示。生成網絡包含一個卷積塊,八個密集 塊(DenseBlocks),一 個 瓶 頸 塊[13](bottleneck block)和一個輸出塊,每個塊包含一個批歸一化層,一個Relu 激活層[14]和一個卷積層。網絡使用跳躍連接[15]向每一層提供所有之前的層,這有效緩解了梯度消失/爆炸的問題,增強了深度網絡中特征的傳播。生成網絡的第一個卷積層從輸入的噪聲圖像中提取低階特征。在此基礎上,采用八個密集塊來學習高階特征,網絡的最后加入瓶頸層。1×1 卷積層非常適合于減少輸入特征圖的數量,這使得以較小的計算成本進行特征融合。最后一部分是3×3 的卷積層用來構造輸出圖像,生成器網絡學習噪聲圖像與地面真實圖像間的殘差校正,有助于加快訓練速度。

圖1 生成器G網絡結構

圖2 判別器D網絡結構
判別器網絡的作用是鑒別輸入圖像是真實的還是生成器生成的,這有助于提高去噪圖像的質量。因此,判別器網絡要盡可能使分配給真實圖像數據的概率值接近1,而使生成的圖像數據值接近0。
本文的判別器網絡結構參考SRGAN 的網絡結構并做相應的改變。首先,由于WGAN-GP 的存在,batchnorm 層被替換為layernorm 層[16],包含有3×3 內核的8 個卷積層。最后兩層是全連接層[17],給出了來自生成器網絡圖像或地面真實圖像的概率。最后一層由于使用了WGAN-GP[18],因此沒有使用Sigmod激活[19]。
MSE是最廣泛使用的圖像去噪損失函數,通過最小化MSE 可以使得去噪后的圖像具有較高的PSNR。這種像素級的MSE計算公式為

其中W 和H分別為圖像的寬度和高度。然而,在使得PSNR 很高的同時,使用MSE 來解決問題會使得在圖像紋理豐富的區域丟失一些重要的細節或過于平滑。
本文提出的改進損失的思想為根據高級特征額外引入感知損失來更好地表征圖像的主觀質量。感知損失包含兩部分:內容損失lcon和判別損失lgen,其中判別損失來源于GAN,內容損失通過計算經過預處理的19層VGG網絡中提取的特征圖之間的歐式距離距離得到。由于這些更深層次的特征圖只關注于內容,因此在去噪過程中最小化這些內容損失有助于保留細節。

其中αcon和αgen分別是各自損失的權重。

其中D(·)代表判別器網絡,x^ 代表去噪圖像。

其中φ5,4(·)表示VGG19 網絡中第5 個最大池化層之前的第4次卷積(激活后)得到的特征圖,W5,4和H5,4分別代表特征圖的寬度和高度。文獻[9]證明了從這一層提取的特征圖可以更好地恢復紋理細節。
為更好指導網絡的訓練及圖像的生成,本文加入WGAN-gp 作為判別損失。WGAN-gp 的判別器損失為

其中lMSE代表感知損失,αMSE代表MSE 損失的權重,lper代表感知損失,lWGAN-gp代表判別器損失。
生成器網絡以RGB 圖像作為輸入并輸出去噪圖像。在訓練過程中,噪聲圖像的噪聲為均值為零的獨立同分布高斯噪聲,并使用DIV2K數據集[20]作為訓練數據集。DIV2K 數據集是用于圖像恢復任務的高質量(2K 分辨率)彩色圖像數據集。DIV2K數據集包含800張驗證圖像、100張驗證圖像和100張測試圖像。本文將提出的去噪網絡與其他取得先進結果的去噪方法在不同的噪聲水平上進行比較,結果證明了本文方法的優越性。
本文所用的實驗環境為NVIDIA TITAN XP GPU,對于每個小批量數據集采用從高分辨率訓練數據集中隨機選取的16 個分辨率為100×100 的子圖像。本文將輸入噪聲圖像的范圍縮放到[0,1],并將地面真實圖像(不含噪聲的圖像)縮放到[-1,1]。因此,MSE損失是根據強度范圍[-1,1]的圖像計算出來的。本文使用β1=0.9 的參數進行Adam算法[21]優化。訓練分為兩個階段。在第一階段,先預訓練生成器網絡并使用值為1 的MSE 作為損失函數來指導優化。生成器網絡以10-4的學習率和4×105的更新率進行訓練。在每2×105次迭代后將學習率除以10。在第二階段,使用最小化的細節損失來優化生成器網絡。內容損失和對抗損失的權重分別為0.007 和0.002,MSE 損失的權重為0.002。整個網絡的初始學習率為10-4,更新率為2×105。
圖3 為本文網絡的主觀去噪效果結果圖,測試圖像為Kodak數據集中隨機選取的4張圖像。可以看出取得了良好的去噪結果,去噪結果與地面基準圖像幾乎沒有差別,取得了相當良好的實驗結果。表1 顯示了在峰值信噪比(PSNR)通常用來衡量圖像的去噪性能。表1 比較了本文提出的去噪網絡和幾種當今優秀的去噪網絡的去噪性能,分別與CBM3D、MCWNNM、DnCNN 和DeepDenoising 網絡進行比較,使用的測試數據為Kodak 數據集,加粗字體為結果較好的數據值。從表1 可以看出,本文提出的去噪網絡在不同的噪聲水平上顯示出一定的優越性。

圖3 kodak不同測試圖像的去噪結果

表1 不同方法在Kodak數據集上的PSNR
圖4為來自Kodak數據集的圖像去噪效果。其中圖(a)為地面基準圖像。圖(b)為CBM3D 針對圖(a)白框部分的去噪結果,圖(c)為DnCNN,圖(d)為DEEPDENOISING 去噪結果,圖(e)為IDGAN 去噪結果,圖(f)為本文網絡的去噪結果。在圖4可以觀察到,在細節上本文網絡去噪后的圖像更加清晰,雖然經其他深度去噪處理后的圖像在細節上與本文的去噪網絡一樣清晰,但細節更像高頻偽影。相比之下,本文網絡去噪細節在清晰的同時更有真實感。

圖4 去噪效果對比圖

本文采用改進型生成對抗網絡用于圖像去噪。該網絡生成器采用SRDenseNet,使得生成的去噪數據更具真實感。同時WGAN-gp 的采用加速了訓練進程,使得訓練過程更為穩定。本文提出的損失函數可以很好地衡量去噪圖像與地面真實圖像間的細節差異,同時損失函數的最小化使得處理后的邊緣圖像變得清晰,紋理豐富區域的細節得到更好的保留。在去噪過程中,如何應對真實環境下的復雜噪聲,是本文今后要做的重點工作。