王德興,黃梓陽,袁紅春
(上海海洋大學(xué)信息學(xué)院,上海 201306)
海洋占據(jù)地球70%以上的表面積,包含著大量豐富的資源[1]。而水下生物圖像作為重要的信息載體,可以協(xié)助人們提高海洋資源開采的效率。根據(jù)水下光學(xué)成像原理[2],在采集水下圖片時(shí),隨著水深的增加,不同波長的光在水中的衰減是非線性的,水對紅光吸收能力最強(qiáng),一般在水深5 m左右時(shí)就會(huì)消失,而藍(lán)光、綠光分別在30 m以及40 m處才逐漸消失。并且由于白色霧狀團(tuán)往往出現(xiàn)在淺水區(qū),獲取的水下生物圖像不僅在色彩上存在偏藍(lán)、偏綠的失真,還存在對比度低和細(xì)節(jié)模糊等問題。雖然專業(yè)的硬件設(shè)備[3-4]可以解決一些水下圖像退化問題,但其成本高昂,無法大規(guī)模普及。于是使用圖像處理技術(shù)恢復(fù)水下圖像成為研究熱點(diǎn),該方法克服了硬件平臺(tái)方法的高昂成本;同時(shí),可為后續(xù)高階視覺任務(wù),如水下目標(biāo)探測[5]、水下機(jī)器人作業(yè)[6]做了圖像預(yù)處理,提高了這些高級(jí)視覺任務(wù)的性能。
目前主流的水下圖像增強(qiáng)算法主要分為三類:基于非物理模型、基于物理模型和基于深度學(xué)習(xí)的方法。基于非物理模型的方法主要通過調(diào)整水下圖像的像素值來改善其視覺質(zhì)量,如直方圖均衡[7](HE),對比度受限自適應(yīng)直方圖均衡[8](CLAHE)。相較于單色的RGB模型,Ancuti等[9]與Ma等[10]融合多種色彩模型,提高水下圖像的對比度。Huang[11]提出了相對全局直方圖拉伸(RGHS),進(jìn)行線性自適應(yīng)拉伸優(yōu)化,避免增強(qiáng)出過飽和的區(qū)域。但是這些方法忽略了水下成像原理,會(huì)引起其他色偏噪聲等問題。而基于物理模型的方法利用不同的先驗(yàn)知識(shí)快速估計(jì)出原始圖像的背景光(Back Light)和深度圖(Transmission Map)實(shí)現(xiàn)水下圖像有效的復(fù)原,其中包括暗通道先驗(yàn)(DCP)[12],水下暗通道先驗(yàn)UDCP[13]紅色通道先驗(yàn)(RCP)[14],水下光光衰減先驗(yàn)(ULAP)[15]。但是當(dāng)先驗(yàn)知識(shí)不適用時(shí),圖像恢復(fù)的效果會(huì)變差,泛化性不高。
在過去的幾年里,隨著人工智能在水下圖像增強(qiáng)的廣泛運(yùn)用。Du等[16]利用多尺度模塊的特征提取能力,實(shí)現(xiàn)水下圖像的實(shí)時(shí)感知增強(qiáng)。Li等[17]提出水網(wǎng) (Water-Net),把經(jīng)過WB(白平衡),HE(直方圖均衡),GC(伽馬校正)的三幅圖像作為模型的輸入。Li等[18]將不同色彩空間的特征整合提出了U-color方法。除了上述的卷積神經(jīng)網(wǎng)絡(luò)(CNN)的思想,Sun等[19]首次提出Pixel2Pixel生成對抗網(wǎng)絡(luò)進(jìn)行水下圖像增強(qiáng)。而循環(huán)對抗網(wǎng)絡(luò)Cycle-GAN[20]在網(wǎng)絡(luò)結(jié)構(gòu)和循環(huán)損失上提供了一種新的思路。Fabbri等[21]提出了水下生成對抗性網(wǎng)絡(luò)(UGAN)并利用Cycle-GAN訓(xùn)練生成配對的數(shù)據(jù)集。UWGAN[22]利用UGAN訓(xùn)練配對的數(shù)據(jù)集,在生成器中添加多尺度特征提取模塊,增強(qiáng)圖像質(zhì)量。Islam等[23]使用5個(gè)編碼解碼器與殘差連接構(gòu)建模型FUnIE-GAN。Naik等[24]提出Shallow-Uwnet使用了最少的模型參數(shù)獲得了與當(dāng)時(shí)最優(yōu)模型相當(dāng)?shù)男阅?。Huang等[25]提出一個(gè)基于半監(jiān)督mean-teacher網(wǎng)絡(luò)模型,將未標(biāo)記的數(shù)據(jù)納入網(wǎng)絡(luò)訓(xùn)練,解決了水下圖像增強(qiáng)領(lǐng)域缺少真實(shí)的配對的數(shù)據(jù)集等問題。Peng等[26]利用U形狀結(jié)構(gòu)的Transformer模型有效的消除水下圖像的偽影和色偏,并發(fā)布了包含4 279個(gè)圖像對的大規(guī)模水下數(shù)據(jù)集LSUI,有利于水下圖像領(lǐng)域的進(jìn)一步發(fā)展。然而,目前的基于深度學(xué)習(xí)的模型通常具有大量的參數(shù)和復(fù)雜的結(jié)構(gòu),難以在低配置設(shè)備部署,若追求模型的輕量化,往往達(dá)不到很好的增強(qiáng)效果。
針對上述方法的局限性,提出了一種輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型,其中包含2個(gè)結(jié)構(gòu)。設(shè)計(jì)了一個(gè)色溫調(diào)整模塊,通過兩種池化方法對特征圖的全局空間信息進(jìn)行壓縮并與Ghost卷積模塊融合更好的提取圖片特征。設(shè)計(jì)了一個(gè)多色彩模型校正結(jié)構(gòu),通過動(dòng)態(tài)卷積模塊對色彩的拉伸,將RGB顏色模型分別轉(zhuǎn)換為HSI和LAB色彩模型進(jìn)行動(dòng)態(tài)自適應(yīng)調(diào)整。最后進(jìn)行圖像融合,進(jìn)一步增加水下生物圖像對比度并去除色偏。
輕量級(jí)神經(jīng)網(wǎng)絡(luò)的總體架構(gòu)如圖1所示。

圖1 網(wǎng)絡(luò)總體架構(gòu)Fig.1 Overall network architecture
該神經(jīng)網(wǎng)絡(luò)由色溫調(diào)整模塊和動(dòng)態(tài)卷積多色校正模型兩部分組成。原始圖像將被壓縮成256×256的尺寸大小。該圖像經(jīng)過2個(gè)模塊對原始圖像進(jìn)行增強(qiáng)。2個(gè)模塊分別基于圖像的最大像素值和平均像素值為基準(zhǔn)進(jìn)行調(diào)整。在得到初步增強(qiáng)的兩幅圖像后,為了不增加網(wǎng)絡(luò)復(fù)雜度,利用Ghost卷積模塊將兩部分特征圖進(jìn)行融合。為了更好地提取圖片特征,殘差增強(qiáng)模塊采用基于Ghost卷積構(gòu)成以加強(qiáng)模型的非線性能力。將合并的特征圖結(jié)果饋送到動(dòng)態(tài)卷積多色校正模塊,在該模塊中,首先將合并的特征圖分別轉(zhuǎn)換到HSI和LAB的色彩空間上,在每個(gè)色彩空間中通過動(dòng)態(tài)卷積模塊對圖像進(jìn)一步進(jìn)行拉伸增強(qiáng)。其次,在動(dòng)態(tài)卷積拉伸模塊中動(dòng)態(tài)融合不同階段的特征,從而幫助模型更好地進(jìn)行圖像增強(qiáng),最后將圖像全部轉(zhuǎn)為RGB色彩空間,同樣利用基于Ghost的殘差增強(qiáng)模塊進(jìn)行圖片融合。該模型利用Ghost色溫調(diào)整在保證圖像增強(qiáng)的同時(shí)使模型具備輕量化的結(jié)構(gòu),使用動(dòng)態(tài)卷積核和多色彩空間的融合能實(shí)現(xiàn)對輸入圖像的自適應(yīng)力更全面地對圖像進(jìn)行校正,緩解模型對不同階段特征的提取,有效地提高水下生物圖像增強(qiáng)模型的表征能力。
1.2.1 全局平均池化和全局最大池化模塊
水下的生物圖像色溫往往是不平衡的,由于不同波長的光在水中以不同的速率衰減,可見光中的紅色光隨著水深增加首先會(huì)被吸收,因?yàn)槠渚哂凶铋L的波長或最小的能量,一般來說在3~4 m的深度就開始消失,到達(dá)10 m會(huì)完全消失。藍(lán)色和綠色波長較短,穿透能力不如紅色,在水中也易擴(kuò)散分散,正是因?yàn)樗畬獾奈仗匦詫?dǎo)致水下生物圖像呈現(xiàn)藍(lán)色或者綠色的色偏。所以首先對初始圖像進(jìn)行色溫平衡校正,色溫調(diào)整模塊主要由全局平均池化和全局最大池化兩個(gè)模塊構(gòu)成,能對圖像進(jìn)行初步的平衡。其具體結(jié)構(gòu)如圖2所示。圖中AVG表示全局平均池化,GMP表示全局最大池化,兩種池化方法與Ghost卷積進(jìn)行相除形成線性組合,可以減少輸入圖像的無用的特征權(quán)重,強(qiáng)化模型對關(guān)鍵特征的關(guān)注度。

圖2 全局平均池化和全局最大池化模塊Fig.2 Global average pooling and global max pooling modules
該結(jié)構(gòu)通過對圖片的全局特征信息進(jìn)行全局最大池化和平均池化操作,得到通道描述符,用于實(shí)現(xiàn)整體和局部的非線性特征,進(jìn)而對圖片的色溫進(jìn)行調(diào)整以提高對比度。這一步驟旨在滿足灰色世界理論和白色補(bǔ)丁假設(shè),而兩者都是基于Von Kries假設(shè)。該假設(shè)[27]是一種應(yīng)用于色彩適應(yīng)的方法,該理論說明自動(dòng)白平衡AWB使用對角矩陣就能進(jìn)行色彩矯正。具體來說,該方法需要一個(gè)將增益獨(dú)立地應(yīng)用于每個(gè)錐體響應(yīng),以保持參考白色的適應(yīng)外觀恒定。其將眼球中3個(gè)視錐響應(yīng)分別表示為L、M、S,將視錐的光譜靈敏度表示為l(λ),m(λ)和s(λ)。對于入射到視網(wǎng)膜上的任何給定刺激ir(λ)假定圓錐響應(yīng)如公式(1)所示。
(1)

(2)
式中:k表示獨(dú)立應(yīng)用三個(gè)錐體的比例因子。
Von Kries假設(shè)雖然是在LMS錐函數(shù)空間來表示原始光源和新光源之間的適應(yīng)性關(guān)系,在圖像增強(qiáng)中,根據(jù)比色法定義可以擴(kuò)展到其他三色顏色通道中使用,來調(diào)整色溫平衡。在水下圖像中,使用LMS基本原理能夠?qū)⒒赗GB色彩通道的圖像與真實(shí)圖像之間形成對應(yīng)關(guān)系。但為了更進(jìn)一步使得圖像在水下不同光照的條件下,根據(jù)圖像中的光譜分布自適應(yīng)地調(diào)整圖像的色彩平衡,考慮每一個(gè)顏色通道之間的校正關(guān)系,修改不同顏色通道的增益以獲得更準(zhǔn)確的顏色表現(xiàn)。利用神經(jīng)網(wǎng)絡(luò)的CNN的卷積思想Von Kries假設(shè)可以被寫作公式(3):
I′=Conv1×1(I)
(3)
式中:I表示原始水下生物圖像的像素,I′表示真實(shí)的圖像像素,通過卷積操作可以更好地映射顏色之間的關(guān)聯(lián)。相對于傳統(tǒng)卷積而言,為了獲得全面的特征提取能力,需要增加大量的卷積核數(shù)量和通道數(shù),這會(huì)帶來冗余和高計(jì)算量的問題。即使是使用1×1的卷積核,也難以避免冗余的情況。為了解決這些問題,可以使用Ghost卷積[28]這一輕量級(jí)的卷積模塊。Ghost卷積通過僅運(yùn)用少量的卷積核生成部分特征圖,然后使用線性變換代替生成相似特征圖的過程,從而在保證一定性能的前提下盡量減少計(jì)算量和參數(shù)量。因此,Ghost卷積可用于取代傳統(tǒng)卷積層中的1×1卷積核。由于生成中間圖的過程中會(huì)產(chǎn)生相似的特征圖,Ghost卷積會(huì)將傳統(tǒng)卷積分為兩部分。首先,利用小卷積生成部分的特征圖,以減少冗余。通過第二部分的分組卷積操作可以得到總特征圖當(dāng)中的一部分輸出特征圖,最后通過Identity恒等映射將前兩部分得到的特征圖進(jìn)行相加。這樣可以顯著減少計(jì)算量和參數(shù)量。Ghost卷積與傳統(tǒng)卷積的對比如圖3所示。

圖3 傳統(tǒng)卷積和Ghost卷積的對比Fig.3 Comparison of ordinary convolution and Ghost convolution
Ghost卷積具有一個(gè)恒等映射。假設(shè)輸出特征圖數(shù)量為n,輸入特征圖的大小為h·w·c,輸出特征圖大小為h′·w′·n,卷積核大小為k·k可以推理出Ghost模塊和標(biāo)準(zhǔn)卷積得到相同數(shù)量的特征圖的理論加速比為公式(4):

(4)
式中:s表示線性運(yùn)算的數(shù)量,每個(gè)線性運(yùn)算核的平均內(nèi)核大小為d×d。
普通卷積的計(jì)算量約為Ghost卷積的s倍,同樣參數(shù)量的計(jì)算也約為s倍,這充分展示了Ghost卷積在計(jì)算量方面的優(yōu)勢。綜上所述,利用Ghost卷積代替?zhèn)鹘y(tǒng)的1×1卷積可以加速模型的收斂速度和效率,同時(shí)又能保證對水下生物圖像色溫的校正??梢詫⒐?3)的校正關(guān)系可以進(jìn)一步寫作公式(5):
I′=GhostConv1×1(I)
(5)
使用Ghost卷積可以減少特征圖的冗余,從而加快模型的收斂速度。為了進(jìn)一步學(xué)習(xí)水下生物圖像和真實(shí)圖像之間的聯(lián)系,受白色補(bǔ)丁算法的啟發(fā),在Ghost卷積的基礎(chǔ)上引入特征圖的像素最大值,以更好地恢復(fù)圖像。白色補(bǔ)丁算法是一種基于圖像全局亮度的增強(qiáng)方法,其核心思想是找到圖像中亮度最高的區(qū)域,將該區(qū)域的像素值作為參考值,然后對整個(gè)圖像進(jìn)行線性變換,來調(diào)整圖像的亮度和對比度。經(jīng)過白色補(bǔ)丁算法處理后,圖像變得相對更亮,能有效提高圖片亮度。利用該思想相當(dāng)于對Von Kries模型中的比例因子k進(jìn)行優(yōu)化,其優(yōu)化后的結(jié)果如公式(6)所示:
GMPa=maxIa(x),a∈{R,G,B}
(6)
(7)
受到公式(6)啟發(fā),在公式(5)中添加GMP作為原始圖片中像素中最大的值,意圖在色溫不平衡的區(qū)域中給予圖像最大響應(yīng)規(guī)范的白色刺激。實(shí)際模型中是通過對圖像的高頻部分進(jìn)行全局最大池化操作,增強(qiáng)圖像的紋理和邊緣信息,讓模型更加關(guān)注感興趣的區(qū)域,取感興趣區(qū)域內(nèi)的最大值作為輸出得到Igmp,利用全局最大池化思想,進(jìn)一步將公式(5)的校正關(guān)系寫作公式(8):
(8)
(9)
同理,受灰色世界理論的啟發(fā),灰色世界是一種基于圖像全局顏色平衡的增強(qiáng)方法,其核心思想是假設(shè)圖像中所有顏色的平均值相等,即整個(gè)圖像的顏色是灰色的。通過對圖像中的每個(gè)像素進(jìn)行色彩平衡調(diào)整,使其顏色變得更加自然和準(zhǔn)確。引入AVG作為原始圖片中像素中平均的像素值,對Von Kries模型中的比例因子k進(jìn)行優(yōu)化,其優(yōu)化后的結(jié)果如公式(10)所示:
(10)
(11)
受公式(10)的啟發(fā),在公式(5)中添加AVG作為每一種顏色通道的像素均值,通過調(diào)整圖像中暗部和亮度的平均值讓水下生物圖像的色溫變的平衡。實(shí)際模型中,使用全局平均池化思想計(jì)算特征圖每個(gè)通道的平均值,并將其作為圖像的灰度值。通過訓(xùn)練圖像的局部對比度和細(xì)節(jié)信息,可以得到最終的輸出特征圖Iavg。全局平均池化是將感興趣的區(qū)域進(jìn)行平均值操作,進(jìn)一步將公式(5)的校正關(guān)系寫作公式(12):
(12)
(13)
最后將經(jīng)過AVG和GMP的輸出特征圖與殘差模塊進(jìn)行連接,將輸出的兩幅特征圖通過3×3的Ghost卷積合并在一起得到經(jīng)過最終校正的色溫調(diào)整圖。
1.2.2 殘差模塊
為了解決模型中梯度消失和爆炸而導(dǎo)致的模型無法繼續(xù)優(yōu)化,同時(shí)為了學(xué)習(xí)從X(失真圖像)到期望Y(增強(qiáng)圖像)的映射關(guān)系,便于更好加強(qiáng)水下生物圖像與真實(shí)圖像之間的聯(lián)系,加強(qiáng)模型的性能,在GMP和AVG模塊上引入殘差增強(qiáng)模塊。如圖4所示。

圖4 殘差模塊示意圖Fig 4 Picture of Residual module
圖中X為輸入的特征圖,Y為輸出的特征圖,其對應(yīng)關(guān)系為公式(14):
Y=Tanh(GhostConv(X))
(14)
引入殘差模塊能進(jìn)一步提升收斂速度,該結(jié)構(gòu)由Tanh激活函數(shù)和3×3的Ghost卷積層實(shí)現(xiàn)的,旨在增加相鄰像素之間的聯(lián)系。3×3的Ghost卷積在輕量化的同時(shí)增加了模型的非線性度,提高模型擬合能力。Tanh激活函數(shù)可以將任意實(shí)數(shù)映射在-1到1之間,使神經(jīng)元輸出更加穩(wěn)定。與具有相同值域的Sigmod激活函數(shù)相比,Tanh激活函數(shù)對輸入信號(hào)的響應(yīng)曲線更陡峭,使得它對特征圖微小的變化更敏感,從而在一定程度上提高了模型的表達(dá)能力。
由于不同水深光的吸收程度不同,與真實(shí)圖像對比之下,水下生物圖像會(huì)產(chǎn)生藍(lán)色綠色等不同的色偏,圖像通常是由RGB色彩空間中存儲(chǔ)和顯示的。由于RGB三個(gè)分量高度相關(guān),容易受到亮度、遮擋、陰影等因素變化的影響。相比之下,HSI色彩空間直觀地反映了圖像的色調(diào)、飽和度、亮度和對比度。LAB色彩空間使顏色分布更好,能夠表達(dá)人眼可以感知的所有顏色。在動(dòng)態(tài)卷積多色校正模塊中,將經(jīng)過色溫調(diào)整的特征圖分別轉(zhuǎn)換到HSI路徑,RGB路徑和LAB路徑,在每條路徑中輸入的特征圖將經(jīng)過動(dòng)態(tài)卷積拉伸模塊進(jìn)行調(diào)整。動(dòng)態(tài)拉伸模塊如圖5所示。

圖5 動(dòng)態(tài)卷積拉伸模塊示意圖Fig.5 Picture of dynamic convolution and stretching module
該公式設(shè)計(jì)的原理是有直方圖拉伸演變而來,直方圖拉伸常用于改善圖像的對比度。直方圖拉伸的目的是通過線性伸縮直方圖的像素值范圍,使得像素值分布更加均勻,從而增強(qiáng)圖像的對比度。直方圖拉伸將圖像的像素值通過以下的數(shù)學(xué)變換映射到新的像素值范圍中如公式(15)所示:
(15)
該方法的優(yōu)點(diǎn)在于簡單易實(shí)現(xiàn),能夠有效地增強(qiáng)圖像的對比度。缺點(diǎn)是它可能會(huì)導(dǎo)致一些像素值被拉伸到極端值,從而失去細(xì)節(jié)。omax和omin的定義必須經(jīng)過人工設(shè)置。為了增強(qiáng)圖像的對比度,可以將omax設(shè)置為1,omin設(shè)置為0。但是缺點(diǎn)是可能無法實(shí)現(xiàn)最佳的效果。為了解決這一問題,受到Lin等[29]的啟發(fā),利用注意力機(jī)制對輸入的圖片進(jìn)行Global Max Pooling操作,GMP是對全局求最大,只去找圖片中像素分?jǐn)?shù)最高的那個(gè)區(qū)域。而去忽略其他分?jǐn)?shù)低的區(qū)域,在單個(gè)色彩空間中的特征圖可以由經(jīng)過公式(16)的轉(zhuǎn)換,在不失去特征圖細(xì)節(jié)的同時(shí)增強(qiáng)圖像對比度:
(16)
為了更好地適應(yīng)圖像中不同的特征,在公式(3)中加入動(dòng)態(tài)卷積[30]以便對后續(xù)的網(wǎng)絡(luò)進(jìn)行訓(xùn)練。校正關(guān)系可以進(jìn)一步寫出公式(17):
(17)
式中:Id表示 RGB 色彩空間中的直方圖拉伸像素值。動(dòng)態(tài)卷積利用了注意力機(jī)制,結(jié)合預(yù)先初始化好的卷積參數(shù),可以實(shí)現(xiàn)動(dòng)態(tài)變更,從而降低重復(fù)率。使用動(dòng)態(tài)卷積可以提升卷積核生成的計(jì)算量而不是添加更多卷積或更多通道數(shù)來提升模型的精度。其結(jié)構(gòu)如圖6所示。

圖6 動(dòng)態(tài)卷積原理示意圖Fig 6 Picture of dynamic convolution Principle
動(dòng)態(tài)卷積的邏輯結(jié)構(gòu)中包含一個(gè)attention模塊控制每一個(gè)分卷積的權(quán)重,這里的Conv1和Conv2表示的是卷積層里的核大小k,把每一個(gè)k乘對應(yīng)的權(quán)重πk,使用k個(gè)加和的權(quán)重對輸入的特征圖進(jìn)行卷積操作得到最后的輸出結(jié)果。由于動(dòng)態(tài)卷積是根據(jù)關(guān)注度動(dòng)態(tài)聚合多個(gè)平行卷積核,這些卷積核尺寸小,組合多個(gè)卷積核不僅計(jì)算效率高,而且由于這些內(nèi)核通過注意力以非線性方式聚合,因此具有更強(qiáng)的表示能力。
同樣的,將輸出特征圖與殘差模塊相結(jié)合,最后通過3×3的Ghost卷積將RGB路徑的特征與HSI, LAB路徑的相應(yīng)特征緊密連接后形成最終的輸出圖像,可以更好地提升水下生物圖像的對比度。

(18)
(19)

(20)
最終的組合損耗是MAE損耗、SSIM損耗和VGG感知損耗的線性組合,公式(21)如下:
Lfinal=LMAE+λ1LSSIM+λ2LVGG
(21)
式中:λ1和λ2根據(jù)經(jīng)驗(yàn)分別設(shè)置為 0.25 和 1,以平衡不同損失的規(guī)模。
在深度學(xué)習(xí)模型訓(xùn)練中,數(shù)據(jù)集的數(shù)量和質(zhì)量將對模型性能產(chǎn)生一定的影響,由Islam等[23]提出的EUVP數(shù)據(jù)集包含單獨(dú)的成對和未成對圖像樣本集,EUVP數(shù)據(jù)集包含了大量的成對和未成對水下圖像,這些圖像雖然感知質(zhì)量較差,但展現(xiàn)了良好的效果。該數(shù)據(jù)集使用了7種不同的相機(jī),并在多個(gè)地點(diǎn)以及不同能見度下進(jìn)行了采集。這些圖像經(jīng)過人工挑選,以適應(yīng)數(shù)據(jù)中的各種自然變化。其中未配對的數(shù)據(jù)是由6個(gè)參與者進(jìn)行目視檢查后分開準(zhǔn)備的,以支持對水下圖像質(zhì)量的人類感知偏好進(jìn)行建模。同時(shí),配對數(shù)據(jù)則是基于CycleGAN模型進(jìn)行訓(xùn)練,以學(xué)習(xí)質(zhì)量好和質(zhì)量差的圖像之間的域轉(zhuǎn)換。EUVP數(shù)據(jù)集中共有超過12 000對配對實(shí)例和8 000個(gè)未配對實(shí)例。該數(shù)據(jù)集的重點(diǎn)在于促進(jìn)感知圖像增強(qiáng),以增強(qiáng)機(jī)器人對場景的理解。本訓(xùn)練集采用了EUVP數(shù)據(jù)集中2 185張訓(xùn)練對進(jìn)行訓(xùn)練,測試集方面采用EUVP數(shù)據(jù)集中已配對的515張包含了水下場景圖像作為測試集A以及在3 700張水下生物圖像隨機(jī)挑選的90張圖像作為測試集B。以求還原水下機(jī)器人拍攝的真實(shí)的水下圖像拍攝環(huán)境。
本模型在ubuntu系統(tǒng),CPU為AMD5950X,運(yùn)行內(nèi)存64GB,圖形計(jì)算卡為NVIDIA GeForce RTX3090(24GB)的計(jì)算機(jī)上訓(xùn)練,使用PyTorch深度學(xué)習(xí)框架。訓(xùn)練時(shí),批處理大小為 8,所有輸入圖像像素縮放為 256×256 像素,使用 Adam優(yōu)化器對模型進(jìn)行訓(xùn)練,設(shè)置初始學(xué)習(xí)率設(shè)置為0.01,訓(xùn)練輪數(shù) epoch 為 100,在每個(gè)epoch之后,學(xué)習(xí)率會(huì)按照當(dāng)前數(shù)值的5%進(jìn)行遞減,使訓(xùn)練過程更加穩(wěn)定。
為了評估模型增強(qiáng)后的圖像結(jié)果,本研究采用峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為評價(jià)指標(biāo)。PSNR是基于圖像的均方誤差(Mean Squared Error,MSE)計(jì)算的,可以量化地描述圖像重建的精確度,而SSIM是一種用于衡量增強(qiáng)后圖像與參考圖像相似度的指標(biāo),它考慮了圖像的亮度、對比度和結(jié)構(gòu)信息,更接近于人類視覺系統(tǒng)的感知特性,因此可以更好地反映圖像的視覺質(zhì)量。PSNR指標(biāo)越大意味著輸出圖像和標(biāo)簽圖像的內(nèi)容更接近,而較高的SSIM分?jǐn)?shù)意味著兩個(gè)圖像在結(jié)構(gòu)上更相似。這兩種評價(jià)指標(biāo)從不同的角度評價(jià)圖像質(zhì)量,具有一定的互補(bǔ)性。既能全面地評估水下圖像的質(zhì)量,也便于與其他方法進(jìn)行比較。此外,為了衡量本模型的復(fù)雜度,對于基于深度學(xué)習(xí)的模型,采用參數(shù)(Parameters)和浮點(diǎn)運(yùn)算數(shù)(Floating point operations,FLOPs)兩種指標(biāo)。Parameters用來形容模型大小程度,模型中包含的參數(shù)的總數(shù)量越多說明模型越大,單位為M(10的6次方)。FLOPs也是理論計(jì)算量,用于衡量算法的運(yùn)算速度,該值越小說明模型的運(yùn)算速度越快,單位為G(109)。這兩個(gè)指標(biāo)分別從模型大小和計(jì)算效率的角度提供了對深度學(xué)習(xí)模型復(fù)雜度評估,通過綜合考慮這兩個(gè)指標(biāo),可以更全面地了解和對比不同模型的復(fù)雜度。
為了評估本研究提出方法的有效性并體現(xiàn)輕量化的特點(diǎn),將本模型與現(xiàn)有的水下圖像增強(qiáng)方法做對比分析,其中對比方法包括非物理模型的方法 (CLAHE[8]、HE[7]、RayleighDistribution[33]、UCM[34]、ICM[35]、RGHS[11])基于物理模型的典型方法(DCP[12]、UDCP[13]、IBLA[36]、ULAP[15]、MIP[37]) 基于深度學(xué)習(xí)的方法(Water-Net[17]、Shallow-Uwnet[24])。其中,直方圖均衡HE,對比度受限自適應(yīng)直方圖均衡CLANE是典型的對比度增強(qiáng)方法,可改善低光圖像的對比度。這兩種方法采用單一顏色模型,能夠與本研究模型的多色校正模塊參照對比。RGHS使用了RGB和LAB兩種顏色模型進(jìn)行全局直方圖拉伸,且同樣采用灰色世界理論預(yù)處理圖像與本模型的色溫調(diào)整模塊有相似處。ICM是基于集成顏色的模型,將水下圖像里衰減最嚴(yán)重的藍(lán)色和綠色通道進(jìn)行拉伸,最后在轉(zhuǎn)變成HSI顏色模型。UCM與本模型更接近,同樣是基于Von Kries假設(shè)的選擇性直方圖拉伸色彩校正的方法。Rayleigh Distribution是利用Rayleigh函數(shù)結(jié)合ICM和UCM的變化對輸入圖像重新分布,提高對比度的方法。這4種方法都屬于多種顏色模型,更加貼近人類視覺,能有效增加圖像顏色的自然表現(xiàn)并增加圖片亮度,減少過度增強(qiáng)和過飽和區(qū)域的引入。在此之上,與其對比能夠突顯出動(dòng)態(tài)卷積模塊自適應(yīng)校正的優(yōu)勢。從水下光吸收的特性考慮,DCP、UDCP、MIP、ULAP、IBLA這5種模型分別基于暗通道先驗(yàn)、水下暗通道先驗(yàn)、最大強(qiáng)度先驗(yàn)、水下光衰減先驗(yàn)、模糊與光吸收先驗(yàn)的物理模型進(jìn)行水下圖像恢復(fù)。通過不同先驗(yàn)知識(shí)推導(dǎo)構(gòu)建模型的關(guān)鍵參數(shù),通過保留補(bǔ)償恢復(fù)圖像。這些方法通過水下成像機(jī)制,對于衰減的藍(lán)綠色光有更好的校正效果,與這些方法比較旨在展示本模型的色彩恢復(fù)上的效果。與本模型相比,Water-Net網(wǎng)絡(luò)模型同樣采用了卷積神經(jīng)網(wǎng)絡(luò)并將圖像的白平衡,直方圖均衡,伽馬校正與原始圖像一起融合作為模型的特征輸入,所以該模型的水下圖像增強(qiáng)性優(yōu)于大部分現(xiàn)有水下圖像處理方法,能夠很好地恢復(fù)色偏和圖像細(xì)節(jié)。最后為了體現(xiàn)本模型在輕量化的同時(shí)仍具有較優(yōu)的水下圖像增強(qiáng)效果,與同樣在使用較少參數(shù)條件下取得與當(dāng)時(shí)最優(yōu)效果的Shallow-Uwnet進(jìn)行比較。這些方法在水下圖像增強(qiáng)和恢復(fù)領(lǐng)域具有一定的代表性,并涵蓋了多種技術(shù)特點(diǎn)和思路,與這些方法對比旨在展示本輕量化模型能夠有效地復(fù)并修正圖像的色偏與對比度。
圖7為含有參考圖像的測試集定性分析對比圖,從圖中可以看出,第一列圖片顯示了具有偏色、低對比度、模糊和噪聲的水下退化圖像,第二列到第七列展示了6種非物理模型的增強(qiáng)水下圖像后的效果圖,最后一列GT表示的是提供的高質(zhì)量的參考圖像。對比本研究提出的方法即倒數(shù)第二列圖片(Ours),一方面能夠解決水下圖像色偏問題,整體色調(diào)更加接近提供的參考圖像。另一方面整體保持顏色豐富,增強(qiáng)了對比度和亮度,色彩自然豐富,進(jìn)一步提升了圖像視覺感知,使得更接近于真實(shí)的參考圖像。

圖7 基于非物理模型方法在測試集A上的定性對比Fig 7 Qualitative comparison of methods based on non-physical models on the test setA
對圖中各個(gè)方法進(jìn)行主觀分析可以得出,CLANE方法在處理圖像色彩還原上飽和度較高色彩還原不真實(shí),對于處理綠色色偏效果不理想,經(jīng)過HE方法處理后的圖片無法準(zhǔn)確還原真實(shí)色彩圖像,對于圖像局部有亮度提升,在邊緣細(xì)節(jié)上存在一定偏色。Rayleigh方法在圖片上表現(xiàn)泛白,對于局部的顏色表現(xiàn)飽和度過高沒有充分還原綠色色偏。UCM方法也存在相同的問題,對于深色圖片退化表現(xiàn)較好,在視覺表現(xiàn)方面圖像內(nèi)容泛紅,有些許失真。ICM在處理綠色圖像時(shí)表現(xiàn)不錯(cuò),但是對于淺色水下圖像時(shí),存在一定的泛白對深藍(lán)色圖像還原的也不夠精準(zhǔn)。RGHS方法增強(qiáng)效果還可以,但是視覺效果上還原的效果與真實(shí)圖像還存在一定差異。在處理深藍(lán)色圖像的效果并不理想。對比其余的方法,本方法在對偏綠偏藍(lán)的圖像校正都有很好的視覺效果呈現(xiàn),與參考圖像效果最為接近,圖像對比度較高,色彩較為準(zhǔn)確。
同樣圖8為含有參考圖像的測試集定性分析對比圖,第二列到第六列展示了5種物理模型的增強(qiáng)水下圖像后的效果圖,最后一列提供的高質(zhì)量的參考圖像。

圖8 基于物理模型方法在測試集A上的定性對比Fig.8 Qualitativecomparison of physics-based model methods on the test setA
可以很直觀地看出本模型與參考圖像無論是色溫還是色彩對比度都最為接近。DCP的方法對色彩的校正很輕微,只有個(gè)別區(qū)域的色彩飽和度提升,UDCP不僅沒消除應(yīng)有的綠色藍(lán)色色偏,圖像反而變得更深效果很不理想。IBLA方法在個(gè)別圖像上效果有提升,帶來了更好的亮度和清晰度但是第一張圖片產(chǎn)生了明顯的偏色,綠色的背景增強(qiáng)后變成了亮藍(lán)色。ULAP方法雖然在某些圖片上消除了一定的綠色色偏,但是對于綠色背景的暗處細(xì)節(jié)表現(xiàn)很差,原圖的細(xì)節(jié)已經(jīng)喪失,MIP的方法在4副水下圖像上都呈現(xiàn)出深綠色對圖像的校正效果不好。從主觀上看,本模型對綠色藍(lán)色的色偏消除的很好,對色彩還原的很精準(zhǔn),沒有加重或過多曝光圖像的其他通道顏色產(chǎn)生明顯色偏,與參考圖像相比較下本文提出的方法在還原水下圖像方面有很不錯(cuò)的效果。
為了更好地客觀地評估各種方法的效果,表1展示了上述11種方法在515張圖片上的平均指標(biāo)值。

表1 傳統(tǒng)方法在測試集A上指標(biāo)值Tab.1 The index value of the traditional method on the test set A

表2 深度學(xué)習(xí)方法在測試集B上指標(biāo)值Tab.2 The index value of the deep learning method on the test set B
對于有參考圖像的測試集對比下,本模型在PSNR和SSIM的指標(biāo)上都得到了最高的值,與非物理模型和基于物理模型的方法相比,本模型在對水下圖像進(jìn)行定量分析時(shí)取得了最好的效果,能夠準(zhǔn)確還原真實(shí)水下圖像的色彩。
為了體現(xiàn)本模型在其他不同水下數(shù)據(jù)集上的適應(yīng)能力,使用測試集B與深度學(xué)習(xí)方法Water-Net和Shallow-Uwnet進(jìn)行了對比分析。Water-Net能自動(dòng)學(xué)習(xí)水下圖像特征并適應(yīng)各種環(huán)境,在測試集B上的表現(xiàn)優(yōu)于大多數(shù)現(xiàn)有的深度學(xué)習(xí)方法。但是,該方法具有較大的模型參數(shù)量。Shallow-Uwnet是一種輕量級(jí)的水下圖像增強(qiáng)模型,適用于計(jì)算資源受限的場景。盡管其模型較簡單,但它仍然具備自動(dòng)學(xué)習(xí)和提取水下圖像特征的能力,從而實(shí)現(xiàn)較為滿意的圖像增強(qiáng)效果,是一種在保持性能表現(xiàn)的同時(shí),具有較高計(jì)算效率的水下圖像增強(qiáng)方法。
圖9是基于深度學(xué)習(xí)方法在測試集上的對比圖,對圖9進(jìn)行主觀分析可以看出,Water-Net對于藍(lán)色綠色的消除有較好的效果,但是由于該方法是多幅圖像融合的模型,第一幅圖出現(xiàn)了重影,對第三幅魚的圖片出現(xiàn)了偏粉,在一些暗部細(xì)節(jié)表現(xiàn)不好。Shallow-Uwnet和本方法都有不錯(cuò)的效果校正,盡管對于第三幅的顏色還原不夠準(zhǔn)確,但是都能有效消除色偏,提升圖片的局部亮度,細(xì)節(jié)清楚。

圖9 基于深度學(xué)習(xí)方法在測試集B上的定性對比Fig.9 Quantitative comparison of deep learning methods on the test set B
同樣也對基于深度學(xué)習(xí)的方法進(jìn)行了定性分析比較,雖然本文方法在PSNR指標(biāo)上不是最優(yōu)的但是在SSIM指標(biāo)上達(dá)到了最優(yōu)的結(jié)果。
除了增強(qiáng)結(jié)果的質(zhì)量,對于基于深度學(xué)習(xí)的模型,GFLOPs 和參數(shù)量也是重要的評估指標(biāo),通過這兩個(gè)評價(jià)指標(biāo)能準(zhǔn)確反映出深度學(xué)習(xí)網(wǎng)絡(luò)模型的復(fù)雜度。如表3所示,可以看出本模型采用最少的參數(shù)量和 GFLOP。與Water-Net對比本模型在參數(shù)量上比其少了106個(gè)參數(shù),而Shallow-Uwnet作為很輕量化的深度學(xué)習(xí)模型,本研究模型在參數(shù)量上也比其少了105個(gè)參數(shù)。同時(shí),本研究模型在GFLOPs參數(shù)上僅為Shallow-Uwnet方法的0.27%,是Water-Net方法的0.04%。說明了本算法得到的模型在參數(shù)量方面更小的同時(shí),運(yùn)算速度有一定的提升,滿足在低配置設(shè)備部署的要求。

表3 模型的GFLOPs和參數(shù)量Tab.3 the model GFLOPS and parameters
2.5.1 色溫調(diào)整模塊
為了驗(yàn)證本研究設(shè)置的色溫調(diào)整模塊對本模型的性能影響,將含有完整色溫調(diào)整模塊的模型、只含有全局最大池化模塊的模型、只含有全局平均池化模塊的模型、完全不含有全局最大池化和平均模塊的模型以及去除Ghost卷積的模型分別進(jìn)行消融試驗(yàn)以證明本模型對水下圖像增強(qiáng)的有效性。首先,分別在同樣的條件下訓(xùn)練4個(gè)模型,然后在相同測試集進(jìn)行指標(biāo)定量分析,得到的結(jié)果如表4。色溫調(diào)整模塊的消融試驗(yàn)對比如圖10所示。

表4 色溫調(diào)整模塊的消融試驗(yàn)Tab.4 Ablation test of color temperature adjustment module

圖10 色溫調(diào)整模塊的消融試驗(yàn)對比圖Fig.10 Comparison chart of ablation test of color temperature adjustment module
完整模型的增強(qiáng)圖像具有最好的PSNR和SSIM指標(biāo),說明增強(qiáng)后的圖像最接近真實(shí)圖像。進(jìn)一步分析消融試驗(yàn)結(jié)果,通過圖10可以發(fā)現(xiàn)完整模塊的輸出圖片在色彩最鮮艷與參考圖像最為接近,部分不含與全都不含的模塊在色彩表現(xiàn)上與參考圖像上都存在一些差距。缺少GMP或者AVG模塊在個(gè)別圖像中出現(xiàn)了明顯的偏色,圖片的對比度比較低。在不包含Ghost卷積模塊的模型上與完整模型仍存在一點(diǎn)差距,與真實(shí)圖片相比,完整模型在圖片細(xì)節(jié)上的表現(xiàn)更加鮮艷,對比度更高。但是個(gè)別圖像與真實(shí)圖片存在一定的色差。通過色溫調(diào)整模塊的消融試驗(yàn)表明,含有Ghost卷積和AVG,GMP兩個(gè)模塊的完整模型最能恢復(fù)并增強(qiáng)圖像的顏色表現(xiàn)。
2.5.2 動(dòng)態(tài)卷積多色校正模塊
為了驗(yàn)證本研究設(shè)置的動(dòng)態(tài)卷積多色校正模塊對本模型的性能影響,將含完整動(dòng)態(tài)卷積多色校正模塊的模型,不含有HSI顏色通道的模型,不含有LAB顏色通道的模型,不含有HSI和LAB顏色通道的模型以及不含有動(dòng)態(tài)卷積的普通卷積模型分別進(jìn)行消融試驗(yàn)以證明本文提出的模塊對水下圖像增強(qiáng)的有效性。首先,分別在同樣的條件下訓(xùn)練4個(gè)模型,在相同測試集進(jìn)行指標(biāo)定量分析,得到的結(jié)果如表5。

表5 動(dòng)態(tài)卷積模塊的消融試驗(yàn)Tab.5 Ablation experiment of dynamic convolution module
從表5的試驗(yàn)結(jié)果可以分析出,含有動(dòng)態(tài)卷積和3種顏色空間的完整模型在PSNR和SSIM指標(biāo)上達(dá)到了最好的效果,說明完整模型增強(qiáng)后的圖像效果最好。
通過觀察圖11可以發(fā)現(xiàn)完整模型通過動(dòng)態(tài)卷積自適應(yīng)地從3個(gè)色彩空間增強(qiáng)圖像,有效地恢復(fù)圖像的自然色彩,與參考圖像最為接近。全都不含HSI和LAB的圖像在藍(lán)綠色通道上能進(jìn)行有效的校正但是出現(xiàn)了較明顯的黃色色偏,分析表中數(shù)據(jù),缺失LAB和HSI的單顏色通道的模型效果最差。

圖11 動(dòng)態(tài)卷積多色校正模塊的消融試驗(yàn)對比圖Fig 11 Comparison chart of ablation test of dynamic convolution multi-color correction module
雖然不含LAB和不含HSI的模型在指標(biāo)上數(shù)值接近,但是觀察圖中可以發(fā)現(xiàn),不含HSI的圖像存在明顯的綠色色偏,不含LAB的圖像色溫偏冷。不含動(dòng)態(tài)卷積的圖像在局部存在黃色色偏與參考圖像存在一些差距。根據(jù)動(dòng)態(tài)卷積多色校正模塊消融試驗(yàn)表明,含有動(dòng)態(tài)卷積的完整多彩校正模塊具有最好的色彩飽和度和亮度,能夠最有效地恢復(fù)增強(qiáng)圖像色彩。
針對水下生物圖像存在的色偏和對比度低等問題,本研究提出了一種端到端的輕量級(jí)神經(jīng)網(wǎng)絡(luò)模型,通過在色溫調(diào)整模塊中以非線性的方式,將兩種全局池化方法與Ghost卷積組合,補(bǔ)償了圖像像素的色彩失真,有效減少了輸入圖像的冗余特征,降低了模型的復(fù)雜度。并且利用動(dòng)態(tài)卷積自適應(yīng)地調(diào)整網(wǎng)絡(luò)參數(shù),將多色模型各自的優(yōu)勢對色彩進(jìn)行拉伸校正,進(jìn)一步減少色偏,增強(qiáng)了對比度。本模型主要通過在對像素值直接調(diào)整從而進(jìn)行水下圖像色彩的還原,所以本模型僅占用41 KB大小的存儲(chǔ)空間,有利于水下機(jī)器人的部署。在具有各種水下場景和水下生物圖像的數(shù)據(jù)集EUVP上進(jìn)行測試,本輕量化模型在PSNR和SSIM指標(biāo)上分別達(dá)到了24.298和0.891,表現(xiàn)均優(yōu)于基于非物理和物理模型的對比方法。對于Shallow-Uwnet和Water-Net兩種深度學(xué)習(xí)模型,本模型的計(jì)算量僅各占兩者的0.27%和0.04%,同時(shí)在參數(shù)量上分別少了105和106的情況下,經(jīng)本模型增強(qiáng)后的圖像在SSIM指標(biāo)上分別比它們各提高了3.77%和6.72%。研究表明,本模型能在大幅度降低模型的參數(shù)量和復(fù)雜度的同時(shí),保證水下生物圖像的增強(qiáng)質(zhì)量,具有一定的實(shí)用價(jià)值,未來可進(jìn)一步優(yōu)化模型的性能和適用范圍,以更好地解決水下生物圖像復(fù)原中的挑戰(zhàn)。