王德興,王 越,袁紅春
(上海海洋大學(xué) 信息學(xué)院,上海 201306)
近年不斷提及的海洋強(qiáng)國(guó)戰(zhàn)略表明,海洋資源的開發(fā)和利用是我國(guó)發(fā)展的必由之路。為了充分地了解海洋,獲取海洋信息具有重要意義。水下圖像作為水下信息的載體,其對(duì)深海環(huán)境感知與資源探索發(fā)揮著重要的作用。由于水下環(huán)境較為復(fù)雜,水下圖像往往會(huì)呈現(xiàn)出模糊、對(duì)比度低、顏色失真等退化現(xiàn)象。退化的水下圖像對(duì)水下高級(jí)視覺任務(wù)造成了一定的挑戰(zhàn),如水下機(jī)器人的自動(dòng)巡航、水下目標(biāo)檢測(cè)[1-2]等。因此,尋找一種有效的方法對(duì)退化水下圖像進(jìn)行增強(qiáng)成為一個(gè)亟需解決的問(wèn)題。
目前為止,存在3類方法可對(duì)退化的水下圖像進(jìn)行增強(qiáng)處理,分別為:基于物理模型的方法、基于非物理模型的方法和基于數(shù)據(jù)驅(qū)動(dòng)的方法[3]。基于物理模型的方法依據(jù)Jaffe-McGlamery水下成像模型,將水下圖像增強(qiáng)操作看成是水下成像的逆過(guò)程,通過(guò)求解水下成像模型的逆運(yùn)算以獲得清晰的水下圖像[4-9]。該類方法需利用水下成像光學(xué)屬性或物理先驗(yàn)知識(shí),并依據(jù)水下成像模型對(duì)參數(shù)進(jìn)行估計(jì)。由于模型通常建立在假設(shè)的基礎(chǔ)上,對(duì)模型參數(shù)的估計(jì)存在一定的偏差,會(huì)造成圖像增強(qiáng)效果不佳。Berman[5]等提出了基于模糊假設(shè)的傳輸估計(jì)和基于灰色世界假設(shè)的衰減系數(shù)比估計(jì)。當(dāng)環(huán)境比場(chǎng)景更亮?xí)r,大多數(shù)像素都指向同一方向,很難檢測(cè)到霾線,因此該方法可能會(huì)失效。基于非物理模型的方法主要通過(guò)直接調(diào)整圖像像素取值,以改善圖像的視覺感知[10-13]。文獻(xiàn)[11]提出一種基于小波變換的水下圖像增強(qiáng)算法,將空域中的原始圖像以某種映射方式變換到變化域中,在變化域中對(duì)圖像進(jìn)行處理,再變換到空域,以得到增強(qiáng)圖像。小波變換在去除水下圖像噪聲方面取得了成功,但不能對(duì)水下圖像存在的顏色失真、對(duì)比度低等問(wèn)題進(jìn)行有效處理。基于數(shù)據(jù)驅(qū)動(dòng)的方法根據(jù)模型采用的主體結(jié)構(gòu)可分為兩種,即基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法[14-15]與基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的方法[16-17]。通常該類方法的網(wǎng)絡(luò)層數(shù)過(guò)深,模型訓(xùn)練過(guò)程中容易出現(xiàn)梯度消失的現(xiàn)象。為了解決這一問(wèn)題, He[18]等提出了深度殘差學(xué)習(xí),將多個(gè)卷積層級(jí)聯(lián)得到的輸出和輸入圖像相加再用Relu函數(shù)進(jìn)行激活。特別是基于卷積神經(jīng)網(wǎng)絡(luò)的殘差模型[19],在去模糊、對(duì)比度提升等方面表現(xiàn)良好。然而,一些水下圖像增強(qiáng)方法在顏色校正上的效果還有待改善。Islam[20]等提出一種基于生成對(duì)抗網(wǎng)絡(luò)的實(shí)時(shí)水下圖像增強(qiáng)模型,該方法增強(qiáng)后的圖像呈現(xiàn)出暗黑色,整體視覺效果較差。近年來(lái),多尺度技術(shù)被廣泛地應(yīng)用在模式識(shí)別、信號(hào)處理和計(jì)算機(jī)視覺等領(lǐng)域中。通過(guò)多尺度技術(shù)可保證圖像或特征大小不同時(shí),能有效地提取出同等重要的關(guān)鍵點(diǎn),從而有效地提升模型性能。
針對(duì)現(xiàn)有方法處理效果的不盡如人意,本文結(jié)合多尺度的Inception結(jié)構(gòu)、殘差學(xué)習(xí)思想和色彩感知損失,提出一種基于Inception-Residual和生成對(duì)抗網(wǎng)絡(luò)的水下圖像增強(qiáng)算法(IRGAN)。該算法由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩個(gè)部分組成,利用生成網(wǎng)絡(luò)學(xué)習(xí)源域(退化水下圖像的集合)與目標(biāo)域(增強(qiáng)圖像的集合)間的映射關(guān)系。其中,在生成網(wǎng)絡(luò)中引入Inception-Residual(IR)模塊,通過(guò)融合不同大小卷積核提取的不同尺度的圖像特征來(lái)提高網(wǎng)絡(luò)生成圖像的質(zhì)量。判別網(wǎng)絡(luò)通過(guò)學(xué)習(xí)區(qū)分生成圖像與參考圖像,進(jìn)而判別輸入數(shù)據(jù)的來(lái)源。此外,通過(guò)構(gòu)建包含全局相似性、內(nèi)容感知和色彩感知損失的多項(xiàng)損失函數(shù),進(jìn)一步提升模型性能。實(shí)驗(yàn)結(jié)果表明,本文算法能有效地提高對(duì)比度,校正顏色偏差,提升圖像視覺感知。
本文提出一種水下圖像增強(qiáng)模型IRGAN, 它被分為生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩個(gè)部分。生成網(wǎng)絡(luò)的結(jié)構(gòu)由編碼器與解碼器組成,并與Inception-Residual模塊相結(jié)合,以對(duì)退化的水下圖像完成增強(qiáng)操作。它的目標(biāo)是學(xué)習(xí)源域(退化水下圖像的集合)與目標(biāo)域(增強(qiáng)圖像的集合)間的映射關(guān)系,從而生成視覺感知良好的水下圖像。判別網(wǎng)絡(luò)的結(jié)構(gòu)與馬爾科夫判別器類似,實(shí)現(xiàn)對(duì)生成圖像與其對(duì)應(yīng)的參考圖像的判別。它的目標(biāo)是區(qū)分來(lái)源于生成網(wǎng)絡(luò)生成的圖像與來(lái)源于真實(shí)分布的參考圖像,以促進(jìn)生成的圖像更接近于參考圖像。所提算法的執(zhí)行過(guò)程如下:將退化水下圖像作為生成網(wǎng)絡(luò)的輸入,經(jīng)過(guò)網(wǎng)絡(luò)的推理得到生成圖像;再將生成圖像與其對(duì)應(yīng)的參考圖像作為判別網(wǎng)絡(luò)的輸入,進(jìn)一步計(jì)算出兩張圖像間的均方誤差;將計(jì)算出的均方誤差反饋到生成網(wǎng)絡(luò)的各個(gè)層,以對(duì)網(wǎng)絡(luò)的各層參數(shù)不斷迭代更新,從而獲得高質(zhì)量、清晰的水下圖像。IRGAN的網(wǎng)絡(luò)結(jié)構(gòu)以及數(shù)據(jù)流動(dòng)方向如圖1所示。

圖1 IRGAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of IRGAN
Inception-Residual[21]模塊將Inception模塊與殘差學(xué)習(xí)相結(jié)合,克服了深層網(wǎng)絡(luò)的梯度消失問(wèn)題,同時(shí)解決了過(guò)濾器尺寸的最佳組合問(wèn)題。IR模塊通過(guò)讓網(wǎng)絡(luò)自己決定最佳路徑來(lái)幫助解決網(wǎng)絡(luò)設(shè)計(jì)的困難,該模塊由空間大小為1×1,3×3,5×5的卷積層和3×3的池化層4個(gè)并行網(wǎng)絡(luò)層組成。為了解決較大的卷積核計(jì)算復(fù)雜度較大問(wèn)題,采用1×1卷積進(jìn)行優(yōu)化,即先采用1×1卷積將特征的通道數(shù)降低,再對(duì)其進(jìn)行相應(yīng)的卷積運(yùn)算。此外,為了將各個(gè)卷積層學(xué)習(xí)到的特征進(jìn)行融合,將得到的特征圖兩兩拼接(密集連接)后再進(jìn)行卷積操作。進(jìn)一步,將卷積操作得到的特征圖按通道維度進(jìn)行拼接,并將得到的結(jié)果輸入到卷積核大小為1×1的卷積層中,使特征維數(shù)與IR模塊的輸入相匹配。最后,利用恒等映射[18]將一系列卷積層學(xué)習(xí)到的特征圖與輸入特征圖相加,這有助于避免梯度消失問(wèn)題,并保持整個(gè)網(wǎng)絡(luò)的誤差梯度。IR模塊的結(jié)構(gòu)如圖2所示。
為了獲得高質(zhì)量、清晰的水下圖像,采用生成網(wǎng)絡(luò)學(xué)習(xí)源域(退化水下圖像的集合)與目標(biāo)域(增強(qiáng)圖像的集合)間的映射關(guān)系。由圖3的生成網(wǎng)絡(luò)結(jié)構(gòu)所示,生成網(wǎng)絡(luò)中的卷積層和上采樣層大致是對(duì)稱的,類似于Unet網(wǎng)絡(luò)中的收縮路徑和擴(kuò)展路徑;為避免圖像的細(xì)節(jié)損失,網(wǎng)絡(luò)結(jié)構(gòu)引入跳躍連接。生成網(wǎng)絡(luò)由5個(gè)卷積層、5個(gè)IR模塊和5個(gè)上采樣層3個(gè)主要部分組成。圖3中,第一層的k5、n64、s2、S分別表示該層卷積核的尺寸為5×5、卷積核個(gè)數(shù)為64、步長(zhǎng)為2、補(bǔ)零填充策略為same。BN(Batch Normalization)表示批量歸一化。LeakyReLU和Tanh分別代表不同的非線性激活函數(shù)。此外,生成網(wǎng)絡(luò)使用步長(zhǎng)為2的步幅卷積代替?zhèn)鹘y(tǒng)的池化層,有效避免傳統(tǒng)池化操作的局限性。生成網(wǎng)絡(luò)中的一系列卷積層對(duì)輸入圖像進(jìn)行下采樣操作,輸出8×8×512大小的特征圖;并將輸出的特征圖輸至IR模塊處理,得到融合不同尺度特征信息的特征圖;再利用生成網(wǎng)絡(luò)中的上采樣層對(duì)特征圖尺寸放大,得到256×256×3大小的生成圖像。

圖2 Inception-Residual模塊Fig.2 Inception-Residual module

圖3 生成網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Generative network structure
為促進(jìn)生成網(wǎng)絡(luò)生成的圖像更接近于參考圖像,采用判別網(wǎng)絡(luò)學(xué)習(xí)生成的虛假圖像和真實(shí)的參考圖像間的差異。IRGAN的判別網(wǎng)絡(luò)采用5個(gè)卷積層實(shí)現(xiàn)下采樣,它類似于馬爾科夫判別器(PatchGAN)[22]體系結(jié)構(gòu)。如圖4的判別網(wǎng)絡(luò)結(jié)構(gòu)所示,判別網(wǎng)絡(luò)將生成的圖像和對(duì)應(yīng)的參考圖像作為輸入;將大小為16×16×1的補(bǔ)丁塊作為輸出。如果生成圖像和參考圖像的某個(gè)區(qū)域差別較小,則輸出補(bǔ)丁塊中對(duì)應(yīng)的位置像素點(diǎn)的值接近于1,反之接近于0。在判別網(wǎng)絡(luò)中,先使用Concat操作將生成圖像與參考圖像按通道維度疊加,得到256×256×6大小的圖像;再將疊加后的圖像通過(guò)一系列卷積層實(shí)現(xiàn)下采樣,最終得到大小為16×16×1的輸出,該輸出表示生成圖像和參考圖像間差異的平均值。

圖4 判別網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Discriminative network structure
IRGAN網(wǎng)絡(luò)模型通過(guò)生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的交替優(yōu)化實(shí)現(xiàn)訓(xùn)練,網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程與損失函數(shù)的最小化過(guò)程相對(duì)應(yīng)。對(duì)抗網(wǎng)絡(luò)的損失函數(shù)如式(1)所示:
Ladv=E(y)[log(D(y))]+
E(x)[log(1-D(G(x)))],
(1)
式中:D表示判別網(wǎng)絡(luò),G表示生成網(wǎng)絡(luò),x表示輸入的水下圖像,y表示與輸入圖像對(duì)應(yīng)的參考圖像,E表示數(shù)學(xué)期望。
由于單一的對(duì)抗損失Ladv很難約束模型進(jìn)行訓(xùn)練,網(wǎng)絡(luò)模型對(duì)退化的水下圖像增強(qiáng)效果不佳。為解決上述問(wèn)題,本文構(gòu)建了一個(gè)多項(xiàng)損失函數(shù),它由全局相似性、內(nèi)容感知和色彩感知損失3部分組成。
全局相似性損失:大量研究表明,在目標(biāo)函數(shù)中添加L1損失使G能夠?qū)W習(xí)從L1意義上的全局相似空間中采樣[23]。因此,我們?cè)诙囗?xiàng)損失函數(shù)中加入了L1損失項(xiàng),其計(jì)算過(guò)程可描述為:
L1=Ex,y[‖y-G(x)‖1],
(2)
式中:G表示生成網(wǎng)絡(luò),x表示輸入的水下圖像,y表示與輸入圖像對(duì)應(yīng)的參考圖像,E表示數(shù)學(xué)期望。
內(nèi)容感知損失:圖像內(nèi)容感知損失項(xiàng)可以驅(qū)動(dòng)G生成與參考圖像內(nèi)容相似的增強(qiáng)圖像。受文獻(xiàn)[24]、文獻(xiàn)[25]的啟發(fā),將圖像內(nèi)容函數(shù)φ(·)定義為由預(yù)先訓(xùn)練的VGG-19網(wǎng)絡(luò)的conv5_2層提取的高級(jí)特征。內(nèi)容感知損失的定義如式(3)所示:
Lcon=Ex,y[‖φ(y)-φ(G(x))‖2],
(3)
式中:x表示輸入的水下圖像,y表示與輸入圖像對(duì)應(yīng)的參考圖像,φ(·)表示圖像內(nèi)容函數(shù),G表示生成網(wǎng)絡(luò),E表示數(shù)學(xué)期望。
色彩感知損失:該損失項(xiàng)可促進(jìn)G生成與參考圖像色彩相似的增強(qiáng)圖像,其計(jì)算過(guò)程可描述為:
(4)
式中:r、g、b分別表示參考圖像與生成圖像的紅、綠、藍(lán)顏色通道的差值;rmean表示參考圖像與生成圖像紅色通道的平均值。
(5)
r=yc_r-G(x)c_r,
(6)
g=yc_g-G(x)c_g,
(7)
b=yc_b-G(x)c_b,
(8)
上述式中:x表示輸入的水下圖像;y表示與輸入圖像對(duì)應(yīng)的參考圖像;c_r、c_g、c_b分別表示圖像的紅、綠、藍(lán)三顏色通道。
IRGAN使用多項(xiàng)損失函數(shù)進(jìn)行網(wǎng)絡(luò)模型的學(xué)習(xí),這有利于網(wǎng)絡(luò)的加速收斂,同時(shí)可以提高模型的魯棒性。目標(biāo)函數(shù)通過(guò)將對(duì)抗損失Ladv、L1損失函數(shù)、內(nèi)容感知損失Lcon和色彩感知損失Lcol_per進(jìn)行線性組合,得到公式(9):
L=Ladv+λ1·L1+λ2·Lcon+λ3·Lcol_per,
(9)
式中:λ1、λ2、λ3分別表示L1、Lcon和Lcol_per所占權(quán)重。
由于現(xiàn)實(shí)世界水下圖像的參考圖像采集比較困難,對(duì)模型學(xué)習(xí)退化水下圖像與其對(duì)應(yīng)的增強(qiáng)圖像間的映射關(guān)系造成了一定的挑戰(zhàn)。為了解決缺乏成對(duì)的訓(xùn)練數(shù)據(jù)問(wèn)題,Islam[20]等人提出大規(guī)模現(xiàn)實(shí)世界水下圖像數(shù)據(jù)集EUVP。因此,我們利用現(xiàn)有的數(shù)據(jù)集EUVP 構(gòu)造了一個(gè)用于訓(xùn)練IRGAN模型的數(shù)據(jù)集EUIDs。該數(shù)據(jù)集共有7 469張圖像,它被劃分為訓(xùn)練集和測(cè)試集。其中,包含作為訓(xùn)練集的3 700對(duì)配對(duì)的水下圖像,作為測(cè)試集的69張水下圖像。圖5展示了訓(xùn)練集樣本示例,第一行表示退化的水下圖像,第二行表示對(duì)應(yīng)的參考圖像。
測(cè)試集一般用在訓(xùn)練結(jié)束之后,目的是評(píng)估最終訓(xùn)練好的模型性能。其中,測(cè)試集又被劃分為測(cè)試集A和測(cè)試集B,測(cè)試集A包含46張有參考的水下圖像,測(cè)試集B包含23張無(wú)參考的水下圖像。圖6表示測(cè)試集A與測(cè)試集B的樣本示例,第一行表示測(cè)試集A樣本示例,第二行表示測(cè)試集B樣本示例。

圖5 訓(xùn)練集樣本示例Fig.5 Examples of training set samples

圖6 測(cè)試集樣本示例Fig.6 Examples of test set samples
本實(shí)驗(yàn)在Windows操作系統(tǒng)下,基于Tensorflow和Keras深度學(xué)習(xí)開源框架實(shí)現(xiàn)。計(jì)算機(jī)的配置如下:NVIDIA GeForce RTX2070 Max-Q (8 GB) GPU,Inter Core i7-10750H CPU,主頻2.60 GHz,內(nèi)存16 GB。
在訓(xùn)練過(guò)程中,設(shè)置batch_size大小為4,將所有輸入圖像的尺寸縮放至256×256×3,并將其歸一化到[-1,1]區(qū)間。公式(9)中的權(quán)重λ1=0.6,λ2=0.3,λ3=0.1。為了降低深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度,在部分卷積操作后加入批量歸一化(BN)操作。它能加速模型的收斂、減小震蕩、使訓(xùn)練過(guò)程更加穩(wěn)定,同時(shí)可以防止訓(xùn)練后的模型出現(xiàn)過(guò)擬合。此外,采用Adam優(yōu)化器(β1=0.5,β2=0.999)驅(qū)動(dòng)模型進(jìn)行學(xué)習(xí);設(shè)置生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.000 01,訓(xùn)練輪數(shù)epoch為50。
為了證明所提算法在清晰度提升、對(duì)比度增強(qiáng)和顏色校正等方面的有效性,將其與現(xiàn)有的水下圖像增強(qiáng)方法做對(duì)比分析。對(duì)比方法包括基于非物理模型的方法(CLAHE,文獻(xiàn)[7]中的方法)、基于物理模型的方法(UDCP)、基于數(shù)據(jù)驅(qū)動(dòng)的方法(Water-Net,F(xiàn)UnIE-GAN)。在實(shí)驗(yàn)部分,先對(duì)色彩感知損失項(xiàng)做消融實(shí)驗(yàn),再對(duì)引入的IR模塊是否可以提升模型的性能進(jìn)行分析,最終分別對(duì)測(cè)試集A和測(cè)試集B中的退化水下圖像做增強(qiáng)處理,并對(duì)各方法的實(shí)驗(yàn)結(jié)果做定性和定量的對(duì)比分析。
3.3.1 色彩感知損失項(xiàng)的消融實(shí)驗(yàn)
為證明采用色彩感知損失項(xiàng)對(duì)退化水下圖像顏色校正的有效性,分別對(duì)包含色彩感知損失的IRGAN(withLcol_per)和不包含色彩感知損失的IRGAN(withoutLcol_per)進(jìn)行實(shí)驗(yàn)。在測(cè)試集A上,采用全參考圖像質(zhì)量評(píng)價(jià)指標(biāo)(PSNR和SSIM)對(duì)兩種模型的性能進(jìn)行對(duì)比分析,定量對(duì)比結(jié)果如表1所示。PSNR和SSIM值越大,表明增強(qiáng)后的圖像亮度、對(duì)比度、整體結(jié)構(gòu)以及顏色信息越接近參考圖像。從表1結(jié)果來(lái)看,IRGAN(withLcol_per)在PSNR和SSIM評(píng)價(jià)指標(biāo)上的取值均優(yōu)于IRGAN(withoutLcol_per),表明Lcol_per可以提升模型性能,有效校正水下圖像存在的顏色偏差,改善水下圖像的色彩效果。

表1 IRGAN(without Lcol_per)和IRGAN(with Lcol_per)在測(cè)試集A上的實(shí)驗(yàn)結(jié)果
為了更加準(zhǔn)確地評(píng)估色彩感知損失項(xiàng)對(duì)增強(qiáng)模型的作用,分別將IRGAN(withLcol_per)和IRGAN(withoutLcol_per)用于增強(qiáng)測(cè)試集B中的退化水下圖像。本部分采用兩種非參考圖像質(zhì)量評(píng)價(jià)指標(biāo)(IE和NIQE)對(duì)增強(qiáng)后的結(jié)果進(jìn)行評(píng)估。其中,信息熵(IE)可以表示圖像信息的豐富程度,其值越大,圖像包含的信息越豐富;自然圖像質(zhì)量評(píng)估(NIQE)可以表示圖像色彩的自然程度,其值越小,圖像越自然。定量對(duì)比結(jié)果如表2所示。從表2結(jié)果來(lái)看,加入Lcol_per后,信息熵(IE)和自然圖像質(zhì)量評(píng)估(NIQE)有更好的取值,均優(yōu)于未加入Lcol_per的IRGAN(withoutLcol_per)模型。

表2 IRGAN(without Lcol_per)和IRGAN(with Lcol_per)在測(cè)試集B上的實(shí)驗(yàn)結(jié)果
3.3.2 IR模塊的對(duì)比實(shí)驗(yàn)

圖7 未采用IR模塊和采用IR模塊的對(duì)比實(shí)驗(yàn)結(jié)果。(a)水下圖像;(b)GAN;(c)IRGAN。Fig.7 Results of comparative experiments without IR module and with IR module. (a) Underwater images; (b) GAN; (c) IRGAN.
為了證明采用IR模塊的有效性,分別對(duì)本文模型和未采用IR模塊的GAN模型進(jìn)行實(shí)驗(yàn),定性的實(shí)驗(yàn)結(jié)果如圖7所示。圖7中,未采用IR模塊的GAN模型雖大致可以校正退化水下圖像呈現(xiàn)出的藍(lán)綠色調(diào),但校正效果欠佳。與本文模型相比,GAN模型增強(qiáng)的圖像鮮艷程度偏低,亮度偏暗,使得圖像整體的視覺感知效果較差。而所提算法將Inception模塊與殘差學(xué)習(xí)相結(jié)合,克服了深層網(wǎng)絡(luò)的梯度消失問(wèn)題,有效提升了模型的性能,使得增強(qiáng)后的圖像在清晰度、對(duì)比度和顏色校正方面均表現(xiàn)良好。
為了客觀的評(píng)估IR模塊對(duì)增強(qiáng)模型的作用,對(duì)測(cè)試集A和測(cè)試集B中的圖像用上述兩種模型分別處理。本部分考慮采用兩種全參考圖像質(zhì)量評(píng)價(jià)指標(biāo)和3種非參考圖像質(zhì)量評(píng)價(jià)指標(biāo)對(duì)增強(qiáng)結(jié)果進(jìn)行評(píng)估。其中,采用的全參考圖像質(zhì)量評(píng)價(jià)指標(biāo)[25-27]包括PSNR和SSIM,非參考圖像質(zhì)量評(píng)價(jià)指標(biāo)包括水下圖像質(zhì)量度量(UIQM)[28]、信息熵(IE)、基于梯度關(guān)聯(lián)的圖像質(zhì)量評(píng)估(OG-IQA)[29]。定量的實(shí)驗(yàn)結(jié)果如表3和表4所示。

表3 GAN和IRGAN在測(cè)試集A上的實(shí)驗(yàn)結(jié)果
PSNR和SSIM的值越大,表明待評(píng)圖像的亮度、對(duì)比度、整體結(jié)構(gòu)以及包含的信息越接近參考圖像。由表3可知,模型引入IR模塊,使得增強(qiáng)后的水下圖像與參考圖像之間的差距更小,在圖像亮度、對(duì)比度、結(jié)構(gòu)信息等方面更接近于參考圖像。

表4 GAN和IRGAN在測(cè)試集B上的實(shí)驗(yàn)結(jié)果
由表4中的實(shí)驗(yàn)結(jié)果可知,引入IR模塊后,所提算法增強(qiáng)的水下圖像在非參考圖像質(zhì)量評(píng)價(jià)指標(biāo)上表現(xiàn)較好,均優(yōu)于未引入IR模塊的GAN模型。
3.3.3 在測(cè)試集A上的對(duì)比實(shí)驗(yàn)
為評(píng)估所提算法的性能,在測(cè)試集A上分別進(jìn)行多次實(shí)驗(yàn),將所提算法與現(xiàn)有的水下圖像增強(qiáng)方法進(jìn)行定性和定量的對(duì)比分析,對(duì)比方法包括CLAHE[6]、文獻(xiàn)[7]中的方法、UDCP[4]、Water-Net[15]、FUnIE-GAN[20]。不同方法對(duì)測(cè)試集A中圖像的處理結(jié)果如圖8所示。圖8中,CLAHE方法處理的退化水下圖像出現(xiàn)曝光現(xiàn)象,增強(qiáng)效果欠佳,導(dǎo)致增強(qiáng)后的圖像與其對(duì)應(yīng)的參考圖像存在一定差距。而通過(guò)文獻(xiàn)[7]中的方法處理的圖像呈現(xiàn)出黃色或淡藍(lán)色顏色偏差,整體視覺效果較差。UDCP方法對(duì)圖像引入了顏色偏差,主要呈現(xiàn)出藍(lán)色或藍(lán)綠色色偏。Water-Net方法有效去除了原始圖像中存在的霧化,清晰度得到提升;但亮度偏暗,色彩鮮艷程度偏低。FUnIE-GAN方法通常可以對(duì)顏色失真的圖像進(jìn)行有效校正,但偶爾會(huì)引入暗黑色色偏,使得增強(qiáng)效果不佳。所提算法在清晰度、顏色校正和對(duì)比度方面均表現(xiàn)良好,有效地提升了圖像的視覺感知。相比之下,所提算法增強(qiáng)的圖像在多個(gè)方面均最接近于參考圖像,并且有更自然的視覺感知。

圖8 不同方法在測(cè)試集A上的定性對(duì)比。(a)水下圖像;(b)CLAHE;(c)文獻(xiàn)[7]方法;(d)UDCP;(e)Water-Net;(f)FUnIE-GAN;(g)本文方法;(h)參考圖像。Fig.8 Qualitative comparison of different methods on test set A. (a) Underwater images; (b) CLAHE; (c) Method of Ref. [7]; (d) UDCP; (e) Water-Net; (f) FUnIE-GAN; (g) Our method; (h) Reference image.
為客觀證明所提算法的性能,采用峰值信噪比(PSNR)、結(jié)構(gòu)相似性(SSIM)兩種全參考圖像質(zhì)量評(píng)價(jià)指標(biāo),將所提算法與現(xiàn)有的方法做定量對(duì)比分析。各個(gè)方法在PSNR和SSIM指標(biāo)上的均值如表5所示。由表5可知,所提算法在PSNR和SSIM評(píng)價(jià)指標(biāo)上均優(yōu)于其他對(duì)比方法,表明所提算法能有效恢復(fù)圖像中所包含的內(nèi)容,提高圖像的亮度和對(duì)比度。

表5 不同方法在測(cè)試集A上的定量對(duì)比

續(xù) 表
3.3.4 在測(cè)試集B上的對(duì)比實(shí)驗(yàn)
為了更加準(zhǔn)確和全面地評(píng)估所提算法,將其與上述現(xiàn)有方法分別用于測(cè)試集B,并對(duì)各種方法處理的結(jié)果進(jìn)行定性和定量對(duì)比分析。不同方法對(duì)測(cè)試集B中圖像的處理結(jié)果如圖9所示。由圖9可知,基于非物理模型的方法(CLAHE,文獻(xiàn)[7]中的方法)不能對(duì)圖像的藍(lán)綠色調(diào)實(shí)現(xiàn)完全去除,且引入顏色偏差,在顏色校正方面的性能欠佳。基于物理模型的UDCP方法增強(qiáng)的圖像整體上呈現(xiàn)出暗黑色,且引入了藍(lán)綠色色偏。Water-Net方法和FUnIE-GAN方法對(duì)圖像的亮度提升、霧化去除和顏色校正等方面表現(xiàn)出不足,還有較大程度的改善空間。所提算法在圖像的清晰度、對(duì)比度提升和顏色校正等方面均表現(xiàn)良好。相比之下,所提算法增強(qiáng)后的圖像更加清晰自然,具有較好的泛化性能。

圖9 不同方法在測(cè)試集B上的定性對(duì)比。(a)水下圖像;(b)CLAHE;(c)文獻(xiàn)[7]方法;(d)UDCP;(e)Water-Net;(f)FUnIE-GAN;(g)本文方法。Fig.9 Qualitative comparison of different methods on test set B. (a) Underwater images; (b) CLAHE; (c) Method of Ref. [7]; (d) UDCP; (e) Water-Net; (f) FUnIE-GAN; (g) Our method.
為了客觀地評(píng)估所提算法,選取4種非參考圖像質(zhì)量評(píng)價(jià)指標(biāo)——水下圖像質(zhì)量度量(UIQM)[28]、信息熵(IE)、自然圖像質(zhì)量評(píng)估(NIQE)[30]和基于梯度關(guān)聯(lián)的圖像質(zhì)量評(píng)估(OG-IQA)[29],對(duì)經(jīng)過(guò)上述方法處理后的水下圖像進(jìn)行評(píng)估、分析。其中,UIQM是水下圖像色度度量(UICM)、水下圖像清晰度度量(UISM)和水下圖像對(duì)比度度量(UIConM)的線性組合,其值越大,圖像在色度、清晰度、對(duì)比度方面表現(xiàn)越好。IE是衡量圖像信息豐富程度的重要指標(biāo),其值越大,圖像所包含的內(nèi)容越豐富。NIQE僅利用在自然圖像中觀察到的信息對(duì)圖像質(zhì)量進(jìn)行評(píng)估,其值越小,圖像越自然。OG-IQA利用相鄰梯度間的關(guān)聯(lián)性對(duì)圖像的失真程度進(jìn)行描述,其值越小,圖像視覺質(zhì)量越好。各方法在客觀評(píng)價(jià)指標(biāo)上的平均得分如表6所示。由表6可知,除在NIQE客觀評(píng)價(jià)指標(biāo)上,所提算法在其他3個(gè)客觀評(píng)價(jià)指標(biāo)上均優(yōu)于對(duì)比方法。如表6,所提算法的UIQM評(píng)價(jià)指標(biāo)取值為2.863 4,比第二名高4.1%,表明所提算法在色度、清晰度、對(duì)比度方面表現(xiàn)得更好。在IE和OG-IQA評(píng)價(jià)指標(biāo)上,所提算法取值分別為4.794 0和-0.779 6,分別比第二名高0.9%和4.3%,表明所提算法處理后的圖像包含的信息量相對(duì)豐富,失真程度較小。綜上,所提算法增強(qiáng)的水下圖像在清晰度、對(duì)比度提升、顏色校正等方面表現(xiàn)得更為突出。

表6 不同方法在測(cè)試集B上的定量對(duì)比
針對(duì)水下圖像存在模糊、對(duì)比度低和顏色失真等問(wèn)題,本文提出了一種基于Inception-Residual和生成對(duì)抗網(wǎng)絡(luò)的水下圖像增強(qiáng)算法(IRGAN)。此外,根據(jù)公開的水下圖像數(shù)據(jù)集構(gòu)造了一個(gè)用于訓(xùn)練IRGAN模型的數(shù)據(jù)集EUIDs。IRGAN由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩個(gè)部分組成。生成網(wǎng)絡(luò)中引入Inception-Residual模塊,克服了深層網(wǎng)絡(luò)的梯度消失問(wèn)題,同時(shí)解決了過(guò)濾器尺寸的最佳組合問(wèn)題,有效提升了水下圖像的增強(qiáng)效果。生成網(wǎng)絡(luò)用于生成視覺感知良好的水下圖像;而判別網(wǎng)絡(luò)實(shí)現(xiàn)區(qū)分生成的虛假圖像和真實(shí)的參考圖像,以促進(jìn)生成網(wǎng)絡(luò)生成的圖像更接近于參考圖像。先將原始圖像縮放至256×256×3大小,再利用生成網(wǎng)絡(luò)生成與參考圖像在視覺感知上相似的圖像,采用多項(xiàng)損失函數(shù),令生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)輪流訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,與對(duì)比方法相比,IRGAN在PSNR、UIQM和IE指標(biāo)上的平均值分別為22.704 0、2.863 4和4.794 0,分別比第二名提升13.6%、4.1%和0.9%,表明所提算法在清晰度、顏色校正和對(duì)比度方面均表現(xiàn)良好,能有效提升圖像視覺感知。