王紅君,楊一鳴,趙 輝,岳有軍
基于PIE和CGAN的無人農機紅外與可見光圖像融合
王紅君,楊一鳴,趙 輝,岳有軍
(天津理工大學 電氣工程與自動化學院 天津市復雜系統控制理論與應用重點實驗室,天津 300384)
為了使無人農機在復雜環境的生產過程中及時感知環境信息,避免安全事故發生,本文提出了一種PIE(Poisson Image Editing)和CGAN(Conditional Generative Adversarial Networks)相結合的紅外與可見光圖像融合算法。首先,利用紅外圖像及其對應的紅外圖像顯著區域對CGAN網絡進行訓練;然后,將紅外圖像輸入訓練好的網絡,即可得到顯著區域掩膜;在對其進行形態學優化后進行基于PIE的圖像融合;最后,對融合結果進行增強對比度處理。該算法可以實現快速圖像融合,滿足無人農機實時感知環境的需求,并且該算法保留了可見光圖像的細節信息,又能突出紅外圖像中行人和動物等重要信息,在標準差、信息熵等客觀指標上表現良好。
紅外圖像;圖像融合;生成對抗網絡
近年來,為了進一步提高農業生產效率,解決農村勞動力資源短缺的問題,農機裝備被列為“中國制造2025”十大重點研究領域之一[1]。作為智能農機的重要組成部分,無人農機的環境感知能力對于提升作業效率、保證作業安全十分重要。為了提高復雜農業環境下(大霧、沙塵天氣以及夜晚作業等)無人農機環境感知能力,研究適合無人農機的紅外與可見光圖像融合方法具有重要意義。
傳統的紅外與可見光圖像融合方法大多基于多尺度分解,即將源圖像進行多尺度變換后得到一系列的子圖像或系數,然后針對融合需求制定不同的統合框架和融合規則,融合分解得到的子圖像或系數,最后經過相對應的逆變換得到融合圖像[2]。文獻[3]提出了一種基于目標增強的多尺度變換分解的紅外和可見光圖像融合。文獻[4]提出了一種基于多尺度變換和范數優化的紅外和可見光圖像融合方法。文獻[5]提出了一種基于顯著性檢測和雙尺度變換分解的紅外和可見光圖像融合。上述方法融合規則比較復雜,處理速度偏慢,難以滿足無人農機對環境的實時監控需求。
基于深度學習的紅外與可見光融合方法,一般基于改進網絡結構進行圖像融合,文獻[6]提出了一種生成對抗網絡框架下基于深度可分離卷積的紅外與可見光圖像融合方法。文獻[7]提出了一種基于離散小波變換和生成對抗網絡來融合高光譜圖像和多光譜圖像的方法。文獻[8]提出了紅外與可見光圖像注意力生成對抗融合方法。此類方法融合質量一般取決于訓練集的質量好壞。
Pérez等人提出的泊松圖像編輯(Poisson Image Editing,PIE)[9],可以將兩幅圖像自然融合,但是在融合過程中需要手動制作紅外圖像顯著區域掩膜,無法滿足無人農機實時處理環境信息的要求,本文通過引入深度學習技術實現紅外圖像顯著區域掩膜的自動生成。在農機實際生產過程中,復雜的環境會影響紅外圖像顯著區域掩膜生成的準確性,農機環境感知能力不僅要具備實時性,而且要能夠在復雜環境中精確處理大量的圖像。本文通過自制適合本文背景的數據集來訓練條件生成對抗網絡CGAN自動生成紅外圖像顯著區域掩膜并對生成的掩膜進行形態學優化,簡化紅外圖像顯著區域掩膜的生成過程并加快了生成速度。使用Adam算法和隨機梯度下降算法優化網絡權重,并采用學習率衰減來減小成本函數收斂到最優解時的振蕩。對融合結果采用直方圖均衡化進行增強對比度處理。
泊松圖像編輯是利用基于泊松方程的通用插值機制來實現不同圖像之間的無縫融合,如圖1所示。將可見光圖像背景中與周圍環境對比度低的區域替換為紅外圖像中高亮的區域,?表示合成邊界。

圖1 泊松圖像編輯插值圖示
要使在插入的同時內容平滑,邊界無縫過渡,中的像素值應該滿足以下條件:



在融合的過程中,需要對背景圖像和目標圖像進行Mask操作,得到和區域,其表示如下:
?(,)=Mask(,)×?IR(,)+
(1-Mask(,))×?VIS(,) (4)
式中:?(,)、?IR(,)和?VIS(,)分別為融合后圖像、紅外圖像和可見光圖像在(,)處的梯度,Mask(,)為紅外圖像經過Mask操作后得到的顯著區域。
CGAN原理如圖2所示,由生成器以及判別器構成[10]。采用U-net網絡作為生成器,結構如圖3(a)所示。它是一個5層卷積神經網絡,每層網絡都包含卷積層、ReLu激活層[11]和歸一化層[12],解碼器包含反卷積層、激活層和歸一化層。編碼器的作用是特征提取,而解碼器的作用是恢復圖像。判別器采用馬爾可夫判別器[13],結構如圖3(b)所示。馬爾可夫判別器采用全卷積形式,圖像輸入作為一個×矩陣,原圖中的每一小塊都對應著×矩陣中的一個元素。

圖2 CGAN基本原理圖
CGAN經過訓練可以實現從觀察到的圖像和隨機噪聲向量到輸出圖像,即::{,}?。目標函數如式(5)所示:

在CGAN網絡訓練過程中,生成器與判別器之間互相對抗。經過訓練后生成器生成的結果無法與“真實”的圖像相區分。而經過訓練的判別器則盡可能地區分生成器生成結果圖像的真偽,與此同時,CGAN網絡生成一幅和參考值很相似的圖像。為了更好地恢復圖像的低頻信息,引入下式1距離:

本文所使用的損失函數如下式所示:

式中:為循環一致性損失系數,其數值為10。
首先,在公開TNO數據集中提取85幅紅外圖像和可見光圖像,將圖像的尺寸批量壓縮到300×300并使用Photoshop軟件繪制紅外圖像對應的掩膜圖像,通過MATLAB進行裁剪,最終得到765幅256×256紅外圖像及對應的圖像顯著性掩膜,舍棄其中165幅顯著信息缺失的圖像,將剩余的600對圖像進行逐個配對。配對后的600幅圖像為訓練集。圖4為訓練數據集中部分紅外圖像以及對應的掩膜圖像。

圖4 訓練集中部分圖像。(a) 紅外圖像;(b)紅外圖像對應的掩膜圖像
網絡訓練過程中為了優化網絡權重,使用Adam算法和隨機梯度下降算法,且每一輪迭代時都對學習率進行衰減。訓練在一臺個人計算機(AMD Ryzen 7 4800H、2.9GHz、16GB內存、NVIDIA GeForce 1650 Ti、4GB顯存)上進行,用時4.5h完成訓練。
采用TNO數據集中未經裁剪和MSRS數據集中共85幅紅外圖像作為測試數據集。經過測試,訓練后的網絡模型可以一次性快速得到測試數據集對應的掩膜圖像,85幅圖像用時僅需8s。圖5為得到的部分圖像掩膜測試結果。
經過網絡生成的掩膜圖像中會有小的空洞,并且輪廓會存在不平滑的現象,所以,本文對生成的掩膜圖像做形態學優化處理,即圖像的閉運算,先膨脹,后腐蝕。閉運算可以在不改變目標大小的前提下平滑輪廓的一部分,可以消除細小的空洞,彌合高亮部分與高亮部分中較窄的間斷,填補一部分輪廓的斷裂。優化前后對比如圖6所示。

圖6 優化前后對比
本文融合算法框架結構如圖7所示。
使用泊松無縫融合可能會對融合結果有一定的影響,比如會對邊緣產生不必要的平滑,顯著目標與周圍環境顏色趨于一致等問題,所以對融合結果采用直方圖均衡化進行增強對比度處理。融合結果選用測試集中7組圖片,使用本文融合結果與傳統的紅外與可見光圖像融合算法結果,包括加權平均方法(Weighted average、WA)[14]、PCA變換法[15]和小波變換法(Wavelet transform、WT)[16]進行對比,對比結果如圖8所示。

圖7 融合算法流程圖
為了評價融合結果的質量,本文采用3個客觀評價指標。評價指標分別是圖像標準差[17]、信息熵[18]和平均梯度[19],分別對應為下式:
式中:為圖像平均亮度值。SD值越大表明融合圖像的對比度越高。
式中:為圖像灰度等級;F()為融合圖像中灰度級級出現的概率,EN值越大表明融合圖像中信息越豐富。

式中:?F(,)=(,)-(+1,),?F(,)=(,)-(,+1)。AG值越大表明融合后圖像邊緣保留程度越好[20]。
評價對象為主觀對比圖中的7組圖像。客觀對比數據如表1所示。
為進一步證明本文算法有效性,對測試集中85組圖像進行客觀對比試驗,客觀數據SD平均值與標準差如表2所示。
客觀數據EN平均值與標準差如表3所示。
客觀數據AG平均值與標準差如表4所示。
根據圖表綜合對比分析,本文所提方法能在保留紅外圖像中顯著目標高對比度的同時,保留更多的可見光圖像細節。同時,融合后的圖像在各項指標上表現優異,能保留更多的有效信息,更加符合人眼感知情況。

表2 客觀數據SD對比

表3 客觀數據EN對比

表4 客觀數據AG對比
本文提出了一種基于CGAN和PIE的紅外與可見光圖像融合方法,該方法通過引入深度學習技術解決了傳統PIE方法掩膜生成的問題,而且相比于傳統融合方法,本文方法得到的融合圖像質量更高,可讀性更強。本文算法即保留了紅外圖像中與周圍環境有溫差的目標的對比度,又保留了可見光圖像中的環境細節。對比結果證明了本文算法的有效性。可以為無人農機在能見度低的環境下提供較好的環境感知能力,是一種可行有效的融合方法。不過該方法在融合過程中可能會受到其他非行人高溫目標的干擾,更精確的融合方法是今后努力的目標。
[1] 鄭國偉. 《中國制造2025》簡介與相關情況[J]. 中國儀器儀表, 2018(10): 25-28.
ZHENG Guowei. Introduction and related situation of "Made in China 2025" [J]., 2018(10): 25-28.
[2] 安影. 基于多尺度分解的紅外與可見光圖像融合算法研究[D]. 西安: 西北大學, 2020. Doi: 10.27405/d.cnki.gxbdu.2020.000953.
Anying. Study on infrared and visible light image fusion algorithms based on multi -scale decomposition[D]. Xi'an: Northwest University, 2020. Doi: 10.27405/d.cnki.gxbdu.2020.000953.
[3] CHEN Jun, LI Xuejiao, LUO Linbo, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]., 2020, 508: 64-78.
[4] LI G, LIN Y, QU X. An infrared and visible image fusion method based on multi-scale transformation and norm optimization[J]., 2021, 71(2): 109-129.
[5] ZHANG S, LI X, ZHANG X, et al. Infrared and visible image fusion based on saliency detection and two-scale transform decomposition[J]., 2021, 114(3): 103626.
[6] 王海寧, 廖育榮, 林存寶, 等. 基于改進生成對抗網絡模型的紅外與可見光圖像融合[J/OL]. 電訊技術, [2022-06-08]. http://kns.cnki. net/kcms/detail/51.1267.tn.20220509.1228.004.html.
WANG Haining, LIAO Yurong, LIN Cunbao, et al. Based on the integration of infrared and visible light images that are improved to generate network models [J/OL]., [2022-06-08]. http://kns.cnki.net/kcms/detail/51.1267.tn.20220509.1228.004.html.
[7] 孫佳敏, 宋慧慧. 基于DWT和生成對抗網絡的高光譜多光譜圖像融合[J]. 無線電工程, 2021, 51(12): 1434-1441.
SUN Jiamin, SONG Huihui. Hyperspectral multispectral image fusion based on DWT and generative adversarial network[J]., 2021, 51(12): 1434-1441.
[8] 武圓圓, 王志社, 王君堯, 等. 紅外與可見光圖像注意力生成對抗融合方法研究[J]. 紅外技術, 2022, 44(2): 170-178.
WU Yuanyuan, WANG Zhishe, WANG Junyao, et al. Infrared and visible light image attention generating confrontation fusion methods [J]., 2022, 44(2): 170-178.
[9] Hussain K F, Mahmoud R. Efficient poisson image editing[J]., 2015, 14(2): 45-57.
[10] Chandani P, Nayak S. Generative adversarial networks: an overview[J]., 2020, 7(3): 753-758.
[11] MOON S. ReLU network with bounded width is a universal approximator in view of an approximate identity[J]., 2021, 11(1): 427-427.
[12] WU S, LI G, DENG L, et al. L1-norm batch normalization for efficient training of deep neural networks[J]., 2019, 30(7): 2043-2051.
[13] Abdeimotaal H, Abdou A, Omar A, et al. Pix2pix conditional generative adversarial networks for scheimpflug camera color-coded corneal tomography image generation[J]., 2021, 10(7): 21-21.
[14] 甄媚, 王書朋. 可見光與紅外圖像自適應加權平均融合方法[J]. 紅外技術, 2019, 41(4): 341-346.
ZHEN Mei, WANG Shupeng. Visible light and infrared images adaptive weighted average fusion method[J]., 2019, 41(4): 341-346.
[15] 張影. 衛星高光譜遙感農作物精細分類研究[D]. 北京: 中國農業科學院, 2021. DOI:10.27630/d.cnki.gznky.2021.000383.
ZHANG Ying. Satellite High Spectrum Remote Sensing Crop Fine Classification Study[D]. Beijing: Chinese Academy of Agricultural Sciences, 2021. Doi: 10.27630/d.cnki.gznky.2021.000383.
[16] 倪釧. 紅外與可見光圖像融合方法研究[D]. 溫州: 溫州大學, 2020.Doi:10.27781/d.cnki.gwzdx.2020.000124.
NI Yan. Research on the Fusion Method of Infrared and Visible Light Image[D]. Wenzhou: Wenzhou University, 2020. Doi: 10.27781/d.cnki. gwzdx.2020.000124.
[17] CHEN J, LI X, LUO L, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]., 2020, 508: 64-78.
[18] 劉娜, 曾小暉. 基于信息熵引導耦合復雜度調節模型的紅外圖像增強算法[J]. 國外電子測量技術, 2021, 40(12): 37-43. Doi: 10.19652/j.cnki. femt.2102956.
LIU Na, ZENG Xiaohui. Based on information entropy guidance coupling complexity adjustment model of infrared image enhancement algorithm [J]., 2021, 40(12): 37-43. Doi: 10.19652/J.CNKI.FEMT.2102956.
[19] KONG X, LIU L, QIAN Y, et al. Infrared and visible image fusion using structure-transferring fusion method[J]., 2019, 98: 161-173.
[20] 王瑜婧. 顯著性檢測的紅外與可見光圖像融合算法研究[D]. 西安: 西安科技大學, 2021. Doi:10.27397/d.cnki.gxaku.2021.000608.
WANG Yujing. Research on Infrared and Visible Light Image Fusion Algorithms of Significant Detection[D]. Xi'an: Xi'an University of Science and Technology, 2021. Doi: 10.27397/d.cnki.gxaku.2021.000608.
Infrared and Visible Image Fusion of Unmanned Agricultural Machinery Based on PIE and CGAN
WANG Hongjun,YANG Yiming,ZHAO Hui,YUE Youjun
(School of Electrical Engineering and Automation, Tianjin University of Technology/Tianjin Key Laboratory of Complex System Control Theory and Application, Tianjin 300384, China)
In this study, we proposed an infrared and visible image fusion algorithm that combines PIE and CGAN to make unmanned agricultural machinery perceive environmental information promptly and avoid accidents during production in complex environments. First, we trained the CGAN using an infrared image and corresponding saliency regions. The infrared image is input into the trained network to obtain the saliency region mask. After morphological optimization, we performed image fusion based on the PIE. Finally, we enhanced the fusion results by contrast processing. This algorithm can realize fast image fusion and satisfy the requirements for real-time environmental perception of unmanned agricultural machines. In addition, the algorithm retains the details of visible images and highlights important information concerning humans and animals in infrared images. It performs well in standard deviation and information entropy.
infrared image, image fusion, generative adversarial network
TP391
A
1001-8891(2023)11-1223-07
2022-06-14;
2022-08-10.
王紅君(1963-),女,碩士,教授,研究方向為復雜系統智能控制理論及應用,流程工業綜合自動化理論與技術、電力系統及其自動化,農業信息化與精準農業智能監控理論與技術、微機控制技術、農業機器人技術。E-mail: hongewang@126.com。
楊一鳴(1997-),碩士研究生,主要研究方向為圖像處理。E-mail:1046147950@qq.com。
天津市科技支撐計劃項目(19YFZCSN00360, 18YFZCNC01120)。