牟新剛,崔 健,周 曉
(武漢理工大學機電工程學院,湖北 武漢 430070)
紅外相機通過接收物體的紅外輻射成像,不需要主動光源的特性,使得紅外成像技術在夜視領域有著不可比擬的優勢,在安防、工業、農業、軍事領域有廣泛的應用。隨著自動駕駛技術的興起,紅外成像技術成為自動駕駛技術夜間成像中不可或缺的重要部分。各領域對于紅外圖像的成像質量也有了更高的要求。
紅外相機的核心元器件是紅外焦平面陣列(IRFPA),主要分為制冷型和非制冷型。硬件質量水平直接影響了紅外圖片的質量。鑒于目前的電子元器件的生產制造水平,以及半導體材料的特性,紅外焦平面陣列的非均勻性噪聲不可避免。其中,條紋噪聲是影響紅外圖像質量的最突出的原因,隨著硬件生產水平的提高,仍然沒有得到很好的解決,因此也成為紅外非均勻性校正領域研究的熱門問題。
兩點校正法[1]是應用最廣泛的算法之一,使用前需要預設:像元響應在工作條件下是線性變化的;像元響應長時間穩定。基于場景的自適應非均勻性校正算法分為配準類和統計類。這些算法往往只能適應單一場景,如時域高通濾波法還會產生“鬼影”[2]。近年來隨著計算機計算能力的提高,深度學習的廣泛應用給紅外圖像非均勻性校正帶來新思路。Kuang等人[3]使用2層全卷積神經網絡進行紅外非均勻性校正。趙春暉等人[4]將神經網絡算法中的均值濾波器改進為非線性濾波器,改進紅外圖像模糊的問題。陳寶國等人[5]將相鄰幀圖像匹配算法和神經網絡算法結合,改進紅外圖像在復雜場景出現的模糊問題。唐艷秋等人[6]將神經網絡中的四鄰域均值濾波改進為P-M濾波,減小了紅外圖像的邊緣誤差。He等人[7]針對含有非均勻性噪聲的紅外圖像數據集難以采集問題,通過人為添加柱狀噪聲的方式訓練神經網絡進行校正。Mou等人[8]將殘差網絡引入深度學習網絡,提高了紅外圖像校正效果。
基于深度學習的紅外圖像非均勻性校正算法,目前多停留在使用結構簡單的神經網絡,使用復雜的神經網絡算法的研究較少。文中將生成對抗網絡的思路引入紅外圖像非均勻性校正任務,生成網絡根據輸入不斷生成紅外圖像,判別網絡區分生成的圖片與無噪聲的真實圖像,二者互相博弈,不斷迭代訓練,最終使生成網絡達到良好的校正效果。為了避免網絡深度增加造成紅外圖像信息丟失,造成校正后的紅外圖像產生模糊,文中首次提出在生成網絡在編碼網絡和解碼網絡之間采用多尺度殘差連接,用于紅外圖像非均勻性校正任務。使用該算法校正后的圖片清晰,邊緣銳利,不會產生鬼影現象,也不會引入新的噪聲,適應更加復雜的紅外圖像場景,校正效果良好。
紅外焦平面陣列探測單元的響應可以用線性數學模型表示:
yi,j(n)=Ai,jχi,j(n)+Bi,j(n)
(1)
其中,χi,j為紅外焦平面陣列單個像元的輸入;yi,j為對應像元的輸出;Ai,j為像元增益;Bi,j為像元偏置[9]。
受制于目前電子元件生產材料和工藝,每個像元的增益和偏置不同。隨著IRFPA使用的時間和環境不同,像元的增益和偏置會發生漂移,造成了紅外焦平面陣列產生非均勻性噪聲。出于成本的考慮,IRFPA像元每列共用一個放大器,導致紅外圖像出現非常明顯的列向條紋狀噪聲,這些高頻噪聲很難徹底校正。
紅外圖像的非均勻性校正使用簡單的神經網絡時,通過監督學習的方式與沒有噪聲的真實圖片對比,求出損失函數并通過梯度下降法反向傳播。紅外圖像的非均勻性校正效果并不能完全通過損失函數評價,這也導致這種方式的校正效果不佳。
生成對抗網絡分為生成網絡G和判別網絡D,G網絡本質是一個編解碼網絡,通過不同的卷積核進行多尺度信息提取,即進行編碼,生成一維向量;再經過多層反卷積操作將一維向量還原成一張校正后的圖片,即進行解碼。D網絡用于接收G網絡生成的圖片,并與真實圖片進行二分訓練,區分生成圖片和真實圖片。生成網絡不斷生成假圖片以欺騙判別網絡,判別網絡不斷學習以區分真實圖片和假圖片,二者互相對抗訓練,訓練過程如圖1所示,最終得到校正后的紅外圖像。

圖1 生成對抗網絡訓練過程
設計多級殘差連接的生成對抗網絡,制作用于紅外圖像非均勻性校正任務的數據集。使用數據集對生成對抗網絡進行對抗訓練,待網絡收斂后,得到最終用于非均勻性校正任務的網絡模型。將紅外相機拍攝的待校正單幀圖片輸入網絡進行計算,網絡輸出校正后的紅外圖片。算法實施的流程圖如圖2所示。

圖2 算法實施流程圖
生成對抗網絡中的生成網絡一般采用一個編解碼網絡,Goodfellow提出GAN網絡[10]的編解碼網絡從噪聲生成圖像,會產生不易收斂或梯度爆炸等問題。Isola提出的pix2pix網絡[11]使用條件生成網絡[12]思路,在生成網絡和判別網絡的輸入添加限制條件,使網絡訓練更快,更容易達到收斂。文中算法借鑒了pix2pix網絡的思路,使用條件生成對抗網絡作為整體框架。
紅外圖像的條紋狀非均勻性噪聲信息與圖像中的細節信息,在經過多層神經網絡的信息提取后容易丟失。受到Unet 3+網絡[13]啟發,文中算法將多尺度殘差連接引入生成網絡。通過多尺度殘差連接,解碼網絡可以接收不同尺度的特征,確保不同抽象層次的特征信息不會丟失。本節將介紹生成對抗網絡整體,生成網絡和判別網絡的結構。
紅外圖像是單通道灰度圖,與普通圖片相比缺少色彩信息,而細節、邊緣信息更加重要。生成網絡過深不利于細節邊緣信息的保留,算法計算量過大。
生成網絡的結構如圖3所示,全連接層會給網絡帶來巨量的參數,所以該網絡采用全卷積結構,在保證特征提取的基礎上減少了網絡參數。整個網絡分為兩個部分,編碼部分為EN1~EN4,解碼部分為DE5~DE7。編碼部分通過不斷的下采樣對圖像進行編碼,擴增通道數的同時減小特征圖尺寸,使網絡學習到不同尺度的特征。解碼網絡根據最后一層編碼網絡得到的編碼特征進行反卷積操作不斷擴增特征圖,逐步將編碼信息還原成圖像。每層解碼網絡還與不同的編碼網絡進行殘差連接。

圖3 生成網絡結構框圖
整個網絡有4個編碼單元,3個解碼單元。編碼部分每一層采用3×3卷積層進行特征提取,使用尺寸為2×2,步長為2的最大池化層進行降采樣。在每層之后使用ReLU激活函數。編碼網絡第一層通道數為64,每經過一層通道數加倍,經過降采樣后特征圖尺寸減半。編碼部分的參數如表1所示。

表1 編碼部分各層參數
解碼部分使用反卷積進行解碼,使特征圖尺寸加倍。Unet網絡[14]在編解碼網絡中引入殘差連接,將編碼網絡中的信息與解碼網絡特征融合以避免信息退化。但是Unet只在相同尺寸的特征圖中進行信息融合,文中算法將解碼網絡中的每一層都與不同層的特征圖進行信息融合,保證淺層信息和深層抽象信息都不會丟失。
以DE6層為例,多級殘差連接的方式如圖4所示。編碼網絡EN1經過步長為4,尺寸為2×2的最大池化進行下采樣,使用64個尺寸為3×3卷積核生成通道數為64,尺寸與DE6相同的特征圖。EN2尺寸與DE6相同,不需要進行下采樣操作,只需要卷積操作生成64通道的特征圖即可。DE5經過雙線性插值上采樣和64個尺寸為3×3的卷積操作后,生成通道數為64,尺寸與DE6相同的特征圖。EN4的操作與DE5類似。

圖4 DE6層殘差連接
最后將這4個尺寸相同,通道數均為64的特征圖進行融合,生成通道數為256的特征圖。最后特征圖與尺寸為3×3的卷積核進行卷積操作,經過ReLU激活函數得到最終的結果。整個解碼網絡需要12個殘差連接,DE6層的參數如表2所示。

表2 DE6層參數
特征圖進行卷積計算后尺寸會發生變化,為了保持特征圖尺寸在卷積操作后不變,對邊緣采取0值像素填充,同時也可以避免深度學習產生的邊緣退化問題。在卷積池化后使用批標準化處理數據分布,使網絡訓練更容易收斂。
激活函數采用經典的ReLU激活函數[15],在使用梯度下降法進行權重和偏置參數更新的過程中能過更快收斂,計算速度也更快。
當生成網絡對紅外圖片進行編解碼后,生成新圖片,判別網路要將該生成圖片與數據集中的真實圖片進行對比,判斷其與真實圖片相似的概率,用該結果反向訓練生成網絡。文中算法使用的是與Pix2pix網絡相同的PatchGAN判別網絡,該網絡使用了5層卷積結構,網絡的結構如圖5所示,其中卷積層尺寸均為3×3。

圖5 判別網絡結構圖
將生成網絡表示成G,判別網絡表示成D,輸入的原圖像為x,輸入的噪聲圖像為z,真實圖像為y,根據條件生成網絡的思路得到的目標函數為:
LGAN(G,D)=Ex,y[logD(x,y)]+
Ex,z[log(1-D(x,G(x,z)))]
(2)
上述損失函數強調的是生成網絡生成的圖片與判別器對生成圖片的判別之間的關系,但是生成對抗網絡的最終目的并不只是判別器分辨不出生成圖片和真實圖片,而是希望生成圖片更接近真實圖片,因此又加入真實圖片與生成圖片的L1范式損失函數:
LL1(G)=Ex,y,z[||y-G(x,z)||]
(3)
最終的損失函數為:
(4)
其中,λ為L1范式損失函數的系數。
FLIR和LTIR紅外數據集包含豐富的生活中不同場景的紅外圖像,數據集中圖片的邊緣清晰,場景包含道路、交通工具、行人、建筑物、植物、野外、校園、公園等內容,圖片質量清晰銳利,場景豐富。使用根據艾瑞光電公司生產的RTD611氧化釩非制冷型IRFPA自主研發的紅外相機,收集了室外場景的紅外圖像數據集。
上述三個數據集中的圖片均為連續拍攝,對于非均勻性校正而言,對同一場景的連續拍攝圖片中,圖片的細節差異較小,作為數據集不具有代表性,且容易造成最終的結果過擬合。在上述兩個數據集中相似場景圖片隨機選取2~3張,共計500張圖片作為數據集的真實圖像,裁剪成256×256尺寸,符合生成對抗網絡輸入要求。
根據IRFPA響應數學模型的原理,將數據集的輸入圖像添加標準差為[0,0.15],均值為1的增益噪聲,標準差為[0,0.15],均值為0的偏置噪聲。
本論文設計的深度學習網絡訓練的硬件環境為:CPU為Intel(R)Core(TM)i5-8300H,GPU為GeForce GTX 1050Ti。實驗使用的深度學習框架是tensorflow_gpu-1.14.0,使用GPU進行深度學習加速訓練,安裝的CUDA版本為CUDA10.0。
訓練時使用圖像旋轉90°,180°,270°和鏡像的方式對數據集進行擴增,防止過擬合,提高訓練的泛化性。
紅外圖像進行非均勻性校正后,對其非均勻性校正結果的評價分為客觀評價和主觀評價。客觀評價的方法使用常用的峰值信噪比(PSNR),結構相似性(SSIM)和粗糙度三種評價標準。峰值信噪比是最常用的評價圖像質量的方法之一,公式為:
(5)
其中,n為比特數;MSE為兩圖像之間的均方差,MSE公式為:
(6)
其中,X,Y為比較的圖像;m,n為圖像的寬和高。
結構相似性分別從亮度、對比度、結構三方面對圖像質量進行評價,公式為:
SSIM(X,Y)=l(X,Y)·c(X,Y)·s(X,Y)
(7)
其中,l表示亮度;c表示對比度;s表示結構。
粗糙度計算只需要當前圖像的像素值。由于含有真實非均勻性噪聲的紅外圖像無法取得對應的理想圖像,適合使用粗糙度來評價校正效果。其公式為:
(8)
其中,Y為圖像像素值矩陣;h矩陣為[1,-1]的水平模板;hT為h的轉置矩陣,表示垂直模板;“*”表示圖像的卷積計算。
客觀評價標準僅僅在數學分析的層面作為評價紅外圖像非均勻性校正效果的參考,人眼的主觀評價也是非常重要的指標,要比較校正后圖片與原圖片相應區域的灰度值是否一致,非均勻性條紋噪聲是否被去除,網絡是否生成了新的噪聲,校正后的圖片邊緣是否清晰,細節是否可以很容易分辨等。
將文中提出的生成對抗網絡與pix2pix網絡在同一紅外圖像數據集上進行訓練,并在同一測試集上進行非均勻性校正效果的對比,以驗證該網絡對紅外圖像非均勻性校正的有效性。對于校正后圖像質量的評價使用PSNR[16],SSIM[17]和主觀評價的方式進行。
訓練設置L1范式損失函數系數為100,圖6為文中提出的網絡損失函數變化圖,各線型分別為生成網絡總損失函數(gen_loss),生成網絡L1范式損失函數乘以系數之后(gen_loss_L1×λ)的結果,生成網絡損失函數(gen_loss_GAN),判別網絡損失函數(discrim_loss)。生成網絡損失函數和判別網絡損失函數在訓練60次之前差別較大,此時生成網絡生長圖片質量很差,判別網絡的判別能力不足。

圖6 損失函數
訓練達到60次后,二者損失函數趨近于相等,此時訓練趨于穩定,二者進行相互對抗訓練。生成網絡L1范式損失函數可以在一定程度上反應出生成網絡生成的圖片和真實圖片之間的差異,在60次之前下降迅速,說明生成網絡生成的圖片質量快速提高,在60次之后,仍然在緩慢下降,說明生成對抗網絡仍然在不斷提高生成圖片質量。從生成網絡總損失函數可以看出在訓練200次時,變化趨于穩定,為了防止繼續訓練導致過擬合,在200次訓練后停止訓練。
選取100張與數據集場景完全不同的紅外圖像,加入與數據集分布完全一致的噪聲后作為測試集對2種網絡進行非均勻性校正測試。校正效果對比如圖7所示。PSNR值如圖8所示。Pix2pix網絡大部分測試結果高于30 dB,說明圖像質量較好。文中提出的網絡在35 dB附近波動,PSNR指標高于Pix2pix,說明文中提出的網絡校正后的圖片質量更好。

圖7 校正效果對比
SSIM值如圖9所示,該指標越接近于1,說明校正后圖片與真實圖片越相似。文中提出的網絡的SSIM指標在0.9附近波動,高于pix2pix網絡,說明文中提出的網絡校正后的圖片與真實圖片更接近,校正效果更好。

圖8 測試集PSNR圖

圖9 測試集SSIM圖
主觀評價標準也是評價圖片質量的重要指標[18]。選擇背景偏亮和背景偏暗的兩張圖片展示兩種算法的校正效果,如圖7所示。對于圖7(a)圖片,圖片有大片的黑色背景,圖像細節較少,信息量較小,兩種網絡在該場景下非均勻性校正效果均表現良好,Pix2pix算法和本章算法幾乎不存在殘余的非均勻性噪聲,人物邊緣沒有出現明顯的模糊。對于圖7(b)圖片,Pix2pix算法仍留有殘余的非均勻性噪聲,圖像中出現了明顯的白色條帶,本章算法幾乎不存在殘余的非均勻性噪聲,校正效果明顯更好。
用細節較多,信息量較大的紅外圖像對2種網絡的非均勻性校正效果進行測試,測試結果如圖10所示。將含有非均勻性噪聲的原圖輸入網絡,將得到的校正后圖片的樹冠部分放大觀察,發現Pix2pix算法輸出的圖片邊緣有一定的模糊,損失了一部分邊緣細節。本章算法輸出的圖片邊緣清晰銳利,整個樹冠的細節清晰可辨,可見本章算法在復雜的場景下,對于紅外圖像的非均勻性校正效果表現更好,具有廣泛的適應性。

圖10 校正效果細節
由實驗室基于艾睿光電公司生產的RTD611非制冷型紅外焦平面陣列自主研發的長波(8~14 μm)紅外探測器拍攝的圖片如圖11(a)所示。使用的對比算法有傳統的基于場景的校正算法:雙邊濾波算法(BFTH)[19]、傳統神經網絡校正算法(NN)[20];傳統的基于單幀的校正算法:中值直方圖均衡化算法(MHE)[21]、小波-傅里葉聯合濾波算法(WD-FT)[22];基于深度學習的校正算法:基于深度學習的條帶噪聲校正算法(DLS)[23],Pix2pix算法。
以上各算法的平均粗糙度值如表3所示,平均粗糙度的計算剔除了BFTH算法和NN算法未收斂的部分。從表中數據可以看出,經過本章算法的校正后,紅外圖像的粗糙度數值最低,從客觀評價指標上說明本章算法的校正效果在對比算法中表現最好。

表3 各算法平均粗糙度
使用上述對比算法對自主研發的長波紅外探測器收集的圖片序列進行非均勻性校正。圖11(b)顯示BFTH算法出現了殘余的非均勻性噪聲,背景出現了變暗的現象,在人物的腿部出現了上一幀圖像中殘余的像素信息,即“鬼影”現象。圖11(c)顯示NN算法取得了一定的校正效果,畫面中殘余的非均勻性噪聲較少,人物邊緣出現了一定程度的過度平滑現象。圖11(d)和圖11(e)顯示MHE算法和WD-FT出現了較多的殘余非均勻性噪聲。圖11(f)~(g)顯示3種基于深度學習的算法均取得了良好的校正效果,畫面中幾乎不存在殘余的非均勻性噪聲,從局部放大圖中可以看出,本章算法人物邊緣更加銳利,頭部與背景的對比度更高,圖片整體質量好于其他對比算法。

圖11 不同方法校正效果比較
本文提出一種生成對抗網絡,分為生成網絡和判別網絡兩部分,生成網絡生成假紅外圖像輸入判別網絡,判別網絡區分生成的假紅外圖像與真實圖像,二者對抗訓練生成紅外圖像非均勻性矯正網絡模型。生成網絡使用多尺度殘差連接,讓解碼網絡和不同抽象層次的特征圖進行融合,保證網絡可以保留不同尺度的特征,盡可能避免由于網絡深度增加造成的信息丟失問題。經過實驗驗證,文中提出的網絡對于紅外圖像的條紋狀非均勻性校正有良好的效果,均方根誤差和峰值信噪比數據均高于對比算法,獲得校正后的圖片清晰銳利,邊緣清晰,細節信息得到保留,不會引入新的噪聲,由于算法基于單幀圖像,不依賴先驗信息,不會產生“鬼影”問題,對于不同的紅外圖像場景都有良好的適應性。