程遠(yuǎn)航 余軍
(貴州大學(xué)科技學(xué)院 貴州省貴陽市 550003)
隨著移動(dòng)設(shè)備和拍攝設(shè)備的普及,普通用戶也可以方便的獲取大量照片及圖像,但是由于普通用戶對拍攝技能不專業(yè),在光照條件、拍攝場地較差以及運(yùn)動(dòng)環(huán)境等因素的影響,非常容易產(chǎn)生低照度、模糊等效果差的圖像。為使這些圖像還原清晰,需要進(jìn)行一定的處理。傳統(tǒng)的方法有直方圖均衡化、基于小波變換的圖像增強(qiáng)、基于偏微分方程的圖像平滑等方法。區(qū)別于這些單圖像對比度增強(qiáng)的算法,深度學(xué)習(xí)方法在增強(qiáng)圖像方面也有很好的效果,尤其使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)并加入殘差學(xué)習(xí)的方法獲得了很好處理效果。本文將研究GAN即生成對抗性網(wǎng)絡(luò)的方法來增強(qiáng)圖像。生成對抗性網(wǎng)絡(luò)模型由Generator(生成模型)和discriminator(判別模型)兩個(gè)子模型組成,兩個(gè)模型間相互對抗,使得模型參數(shù)能變得盡可能的好。利用這個(gè)特性,可以把該方法用于圖像的增強(qiáng)。

圖1:GAN結(jié)構(gòu)示意圖
GAN是一種深度學(xué)習(xí)的模型,它兩個(gè)相互對抗的模型(Generator和discriminator)來完成學(xué)習(xí)產(chǎn)生數(shù)據(jù)樣本。Generator不斷更新網(wǎng)絡(luò)使discriminator無法分辨出生成真?zhèn)危鴇iscriminator也不斷更新網(wǎng)絡(luò)提高判別能力。訓(xùn)練GAN就是一場博弈,Generator試圖在欺騙discriminator時(shí)變得更優(yōu),而discriminator也在盡可能判別真假圖像中變得更好。GAN的結(jié)構(gòu)如圖1所示。

圖2:DCGAN圖像增強(qiáng)模型

圖3:Generator架構(gòu)

圖4:Discriminator架構(gòu)

圖5:處理結(jié)果對比

圖6:顏色失真對比

圖7:模糊修復(fù)對比
DCGAN模型是GAN的改進(jìn)模型,是一種帶深度卷積神經(jīng)網(wǎng)絡(luò)的GAN模型。DCGAN最大的優(yōu)勢就是使用了conv(卷積層),卷積神經(jīng)網(wǎng)絡(luò)對圖像分類有最佳的效果。DCGAN模型的生成網(wǎng)絡(luò)G接收一個(gè)隨機(jī)噪聲z,通過噪聲生成圖像G(z)。判別網(wǎng)絡(luò)D接收一張圖像x,輸出D(x),表示圖像x是真實(shí)圖像的概率。DCGAN的數(shù)學(xué)模型公式(1)所示:

Pdata(x)是真實(shí)的圖像數(shù)據(jù)分布,pz(z)是生成網(wǎng)絡(luò)G產(chǎn)生的圖像數(shù)據(jù)分布。模型的目標(biāo)是通過訓(xùn)練,調(diào)整生成模型參數(shù)增大D(G(z))的值,同時(shí)調(diào)整判別模型增大D(x)使得D(G(z))減小,最終使兩個(gè)模型達(dá)到一個(gè)均衡點(diǎn)。
整個(gè)網(wǎng)絡(luò)由Generator和discriminator組成。Generator完成圖像的增強(qiáng)功能,discriminator反饋增強(qiáng)效果。整體架構(gòu)如圖2所示。
Generator架構(gòu)如圖3所示,它是基于ResNet的卷積神經(jīng)網(wǎng)絡(luò)。
圖中包含了dense層即全連接層和reshape層,4個(gè)ResBlock,每個(gè)ResBlock包含一個(gè)上采樣層(upsampling),一個(gè)卷積層(conv),一個(gè)批標(biāo)準(zhǔn)化層(batch normalization)和一個(gè)激活層(ReLU)。最后,Tanh表示雙切正切激活。
Discriminator模型的網(wǎng)絡(luò)架構(gòu)的中間隱層處理卷積層外還使用LeakyReLU弱修正線性激活函數(shù),并加入了Dropout方法的歸一化層。Dropout可以是神經(jīng)網(wǎng)絡(luò)單元在訓(xùn)練中按一定的概率暫時(shí)將其從網(wǎng)絡(luò)中丟棄。使用Dropout歸一化層會(huì)減少每層迭代的時(shí)間,加快參數(shù)速度的更新。另外還增加了泛卷積zeropadding(零填充),其可以有效控制圖像大小,最后使用Sigmoid激活函數(shù)輸出。其結(jié)構(gòu)如圖4所示。

圖8:特殊曝光不足圖像處理對比
本文使用了Cai等人提供的多曝光圖像數(shù)據(jù)集和GOPRO數(shù)據(jù)集中的3000多張模糊圖像和其所對應(yīng)的清晰圖像,另外還增加了部分來自網(wǎng)絡(luò)和自己采集的圖像。實(shí)驗(yàn)所用開源人工神經(jīng)網(wǎng)絡(luò)庫Keras,epoch為500次,圖像尺寸調(diào)整為900*600pixel。通過模型后的亮度不足的圖像對比結(jié)果如圖5所示。低照圖像亮度很低,圖像很暗,經(jīng)過模型修復(fù)后圖像亮度提高,對比原始參考圖像效果可以亂真。
對顏色失真的圖像處理結(jié)果對比如圖6所示。原始圖像色彩中青色成分過多,修正后圖像黃色也成分提高,青色減少,最后比參考圖像的對比度略高,提升效果也很明顯。
對模糊圖像實(shí)驗(yàn)對比如圖7所示。修復(fù)后效果明顯提高。
對拍照過程中即有亮又有暗圖像,需要對暗的區(qū)域進(jìn)行增強(qiáng),同時(shí)需要降低被2次增強(qiáng)了的過亮區(qū)域的情況。本文采用方法對圖像中亮的區(qū)域有一定的過多增強(qiáng),但是不影響視覺,對比LightenNet和MDIIN兩種也屬于深度學(xué)習(xí)的基于CNN的方法,其亮度過度增強(qiáng),已經(jīng)影響圖像的視覺效果。如圖8所示。
本文研究了一種基于DCGAN的圖像增強(qiáng)方法。改進(jìn)了傳統(tǒng)Unet作為生成模型,使用了ReLU和LeakyReLU作為中間層的激活函數(shù),并加入了帶歸一化的Dropout方法和zeropadding零填充,依靠兩個(gè)模型在訓(xùn)練中的相互對抗,使整個(gè)模型獲得更好的處理圖像增強(qiáng)的能力。同最終實(shí)驗(yàn)分析,表明本文的方法具有生成更清晰的圖像,更好實(shí)現(xiàn)圖像增強(qiáng)的目標(biāo)。