










關鍵詞:井下塵霧圖像;圖像清晰化;基于網格網絡;深度學習;多尺度特征提??;Inception 架構;密集殘差連接
中圖分類號:TD67 文獻標志碼:A
0引言
隨著井下礦山數字化轉型和智能化變革的持續推進,智能視頻監控系統在煤礦生產作業過程中起著越來越重要的作用[1]。但煤礦井下環境復雜,照明條件不足,空氣中彌漫大量粉塵顆粒,常用的噴霧降塵方式會產生大量水霧。在粉塵、水霧和光線不足等環境因素影響下,視頻監控系統獲取到的圖像存在照度低、細節紋理丟失等情況[2],不利于煤礦井下可視化和智能分析,因此,研究井下圖像清晰化技術具有一定現實意義。
目前圖像清晰化算法主要分為3 類,即基于圖像增強的清晰化算法、基于物理模型的清晰化算法和基于卷積神經網絡(Convolutional Neural Networks,CNN)的清晰化算法[3]。① 基于圖像增強的清晰化算法主要包括基于直方圖分布的圖像增強算法、小波變換法和基于Retinex 理論的圖像增強算法[4-7],這類算法往往不考慮圖像質量受損因素,存在圖像失真和細節損失現象。② 基于物理模型的清晰化算法通過分析塵霧圖像形成的物理機理,結合圖像退化的先驗知識或假設來反推出無霧圖像[8-11]。其中HeKaiming 等[12]提出的基于暗通道先驗(Dark ChannelPriori,DCP)原理的清晰化算法最經典。但基于物理模型的圖像清晰化算法在處理井下塵霧圖像時普遍存在圖像較暗、色彩不自然等問題。③ 基于CNN 的清晰化算法通過深度學習自動捕獲塵霧圖像與對應清晰圖像之間的復雜映射關系,并利用獲取到的知識實現端到端的圖像復原[13-16]。這類算法的非物理模型依賴特性使得其在適應性、魯棒性和圖像生成質量上具有顯著優勢,但往往需要大量樣本數據用于學習圖像特征,而目前井下高質量圖像獲取難度較高。
煤礦井下環境復雜且數據集較少,現有塵霧圖像清晰化算法在處理井下塵霧圖像時大多存在細節丟失和過度增強等問題[17]。本文提出一種基于增強網格網絡的井下塵霧圖像清晰化算法。網格結構可以在節點之間建立多條路徑,使得特征信息在網絡中的傳遞更加高效,有利于塵霧圖像處理中的細節及整體特征提取和整合。在網格網絡的基礎上,采用注意力機制和2 種特征提取模塊進行增強,并對損失函數進行改進,提升了網絡的精確性和圖像整體視覺質量。
1算法原理
1.1增強網格網絡總體結構
井下塵霧圖像清晰化算法由圖像前處理模塊、主干模塊和輸出模塊組成,如圖1 所示。在用于語義分割的GridNet 網絡[18]啟發下,設計了多尺度增強網格網絡,通過提取圖像不同尺度下的特征并進行有效融合,實現網絡對深層信息和淺層信息的兼顧。網格網絡的整體架構呈現網格狀交錯布局,橫向由若干個特征提取模塊組成,縱向由下采樣和上采樣組成。
1) 前處理模塊由1 個3×3卷積層(Conv 3×3)和1個特征提取模塊IRDB 組成,用于從原始塵霧圖像中生成16 張特征圖,作為主干網絡的輸入。IRDB由Inception 模塊和密集殘差連接模塊(ResidualDense Block,RDB)組成。
2) 主干模塊為3 行6 列的網格網絡,每行對應1 個不同的尺度,尺度間的變換通過上/下采樣來實現。采用5 個IRDB 進行第1 個尺度的特征提取,為降低網絡復雜度,第2、3 尺度均使用5 個RDB 進行特征提取,使網絡可更高效地提取圖像原始特征信息,也更關注細節特征信息。為更好地捕捉圖像中的細節信息,在網格網絡中引入通道注意力機制。
3) 主干模塊輸出的清晰化圖像易包含偽影,因此引入輸出模塊。輸出模塊與前處理模塊的結構對稱,包含卷積層和特征提取模塊。
1.2通道注意力機制
在神經網絡中,注意力機制是一種通過自主學習權重系數來強調重要區域的機制。對于輸入是二維圖像的神經網絡來說,特征圖不同通道對關鍵信息的貢獻不同,因此對每個通道的信息賦予一個權重,權重越高,說明通道信息越重要。壓縮和激勵(Squeeze and Excitation,SE)模塊[19]可在不改變輸入特征圖大小的情況下對輸入特征圖進行通道特征加強,因此本文在網格網絡節點間加入SE 模塊來加強通道特征。
1.3特征提取模塊
RDB是深度學習中常用的模塊, 由密集連接層、局部特征融合策略和局部殘差學習機制共同構建成一個連續存儲體系,有效保留了局部特征。為在網絡資源有限的情況下增加網絡的深度和寬度,有效提取圖像細節特征,本文提出了IRDB,其結構如圖3所示。
將經Inception 模塊卷積聚合的特征作為RDB的輸入,再由RDB 對這些特征進行信息提取和傳遞。IRDB 將Inception 與RDB 的優勢進行互補,可保持Inception 模塊的多尺度特征提取能力, 并在RDB 中使用提取的特征進一步學習殘差信息和深層特征,以提供多尺度的特征表示,有助于恢復清晰的圖像細節。通過這種結合,可增強網絡的表征能力、泛化能力及其對不同尺度塵霧的處理能力。
Inception 架構可在資源有限的前提下增加網絡的深度和寬度。Inception 模塊由1×1,3×3,5×5 卷積層及1 個3×3 最大池化層構成,如圖4 所示。使用1×1 卷積進行升降維,在相同尺寸的模塊中疊加更多卷積,能提取更豐富的特征,同時大大減少參數量;在多個尺寸上同時進行卷積再聚合,能提取不同尺度的特征,且輸出的特征非均勻分布,而是相關性強的特征聚集,不相關的非關鍵特征弱化,從而使輸出的特征冗余信息較少,收斂速度更快。
1.4損失函數
采用平滑損失L1和內容損失L2的結合作為損失函數。平滑損失L1是一種常用的損失函數,其提供了清晰化處理后圖像和真實清晰圖像之間差異的定量測量,相較于均方差損失函數,平滑損失對異常值不太敏感,從而可防止潛在的梯度爆炸,使網絡模型更加健壯。內容損失函數的構建是基于經過預訓練的VGG?19網絡,該網絡通過輸入塵霧圖像和清晰圖像來衡量二者之間的內容損失,同時學習圖像在內容和感知層面的相似性。
本文采用的損失函數為
L=L1 + L2 (2)
式中 為超參數,取0.04。
2實驗分析
2.1數據集構建
基于深度學習的圖像清晰化方法往往需要依賴合成的成對數據進行訓練,而現階段煤礦井下塵霧圖像缺乏統一的標準化數據集,大多圖像清晰化任務使用大型合成數據集RESIDE,該數據集中的合成圖像雖然模糊程度不同,但大多較為均勻,而實際井下塵霧并不處于完全均勻分布狀態。為彌補合成數據的不足,本文部分實驗數據從多個礦井多個時間段的監控視頻中截取。截取塵霧彌漫不同階段的圖像,將塵霧發生前的圖像作為清晰圖像,與塵霧圖像構成訓練數據對,近似獲得自建井下圖像成對數據集。自建數據集包含720 對訓練圖像及180 對驗證和測試圖像,共900對,圖像分辨率為250×250。該數據集除含有不同濃度的塵霧圖像外,還包含塵霧分布均勻程度不同的圖像,以及有光源影響與無光源影響圖像等多種井下復雜情況實拍圖像,如圖5所示。
實驗采用分步訓練方式, 先使用合成數據集RESIDE 中的8 760 張圖像對網絡進行初步訓練,使得網絡模型能夠學習到圖像清晰化的一般性特征;再使用1 440 張井下圖像對網絡進行針對性訓練,進一步細化網絡模型的學習。驗證集和測試集均由1 020 張RESIDE 中圖像和180 張井下圖像組成。
實驗運行環境為Ubuntu20.04 系統,Intel Xeon(R)Silver 4214R CPU @ 2.40 GHz x48 處理器, 顯卡為NVIDIA Corporation TU102GL [Quadro RTX 8000],內存為128 GiB, CUDA 版本為11.4.2, Pytorch1.9.0,Python3.8.1。網絡模型訓練采用Adam 優化算法,可根據損失函數動態調整每個參數梯度的一階矩估計和二階矩估計, 實現參數更新。設置學習率α=0.001,每20 輪學習率降低一半,訓練輪次為100,Batch size 為32。
2.2消融實驗
在圖像處理方面, 自然圖像質量評價指標(Naturalness Image Quality Evaluator,NIQE)、結構相似度指數(Structural Similarity Index,SSIM)和峰值信噪比(Peak Signal to Noise Ratio, PSNR)被廣泛用于評價圖像處理質量。NIQE 是一種無參考圖像質量評價指標,旨在評估圖像的自然度,其值越小,對應圖像自然度越高。SSIM 是一種用于衡量圖像質量的指標,其取值范圍為?1~1,值越大表示圖像質量越好。PSNR 是一種有參考的圖像客觀評價指標,通常其數值越高表示處理后的圖像失真越小,圖像質量越好。
為驗證增強網格網絡各模塊的有效性,在井下測試數據集上進行消融實驗,結果見表1,w/o 表示某個條件未被考慮,如w/o IRDB 表示未采用IRDB。由表1 可知,單獨保留IRDB 或SE 模塊,網絡性能都有一定提升,同時保留IRDB和SE模塊的情況下,網絡性能得到進一步提升。完整網絡在井下測試集上的PSNR、SSIM均高于其他網絡模型, NIQE 最小,表明其清晰化效果最好。
為了分析IRDB 數量對圖像清晰化質量的影響,改變網格網絡模型的行數r 和列數c,使IRDB 數量發生相應變化。不同網絡配置下的實驗結果見表2??煽闯鲈贗RDB數量為5時, 該模型的PSNR、SSIM 和NIQE指標最好,其清晰化圖像細節信息更加豐富,效果也最好。
2.3圖像清晰化效果驗證
為評價基于增強網格網絡的井下圖像清晰化算法的有效性與適用性,選取井下巷道、采掘工作面等易出現塵霧的5 組場景的實拍圖像進行實驗。場景1,3,4,5均受到不同程度的非均勻塵霧影響,且亮度整體偏暗;場景2 中存在均勻塵霧,圖像整體細節不清晰。使用6 種有代表性的圖像清晰化算法與本文算法進行對比實驗,包括DCP 算法[10]、一體化清晰化算法AOD?Net[20]、基于CNN的清晰化算法DehazeNet[21]、可訓練CNN 清晰化算法GridDehaze Net[22]、由編碼器和解碼器組成的可訓練神經網絡算法GFN[23]、基于多尺度CNN 的清晰化算法MSCNN[24]。其中DCP是一種基于先驗的算法,其他算法基于深度學習,均采用與本文相同的訓練數據進行訓練。
場景1 實驗對比結果如圖6所示。場景1圖像經過本文算法、DCP算法和Dehaze Net 算法處理后,基本能夠消除大面積塵霧的影響。經Dehaze Net算法處理后,圖像整體亮度偏暗,墻壁等較暗區域細節丟失。與DCP算法相比,本文算法處理后圖像有部分水霧殘留, 其他4 種算法清晰化效果不明顯,AOD?Net 算法處理后水霧邊緣顏色出現失真現象。
場景2 實驗對比結果如圖7所示。原始場景中圖像塵霧分布均勻, 經過本文算法、DCP 算法與GFN 算法處理后, 清晰化效果都比較明顯, 但是DCP 算法在光源處出現顏色失真及整體顏色偏暗等問題。相較于GFN 算法,本文算法更好地保留了圖像的細節信息,光源處顏色失真較少,整體更清晰、自然。其他4種算法仍存在模糊和顏色失真等問題,清晰化效果不理想。
場景3 實驗對比結果如圖8所示。在光照較暗的場景3 中,本文算法和DCP 算法能夠較好地實現塵霧圖像清晰化,細節信息更豐富,清晰化處理后圖像在視覺上更加接近真實圖像。Dehaze Net 算法能夠去除較大面積塵霧,但存在細節丟失和圖像較暗問題。其他4 種算法對較暗圖像的處理效果較差,存在塵霧去除不徹底和大量細節丟失問題。
場景4 實驗對比結果如圖9所示。場景4圖像經本文算法處理后墻壁細節得到更多保留,邊緣對比更強烈, 也更容易分辨, 觀感強于DCP算法。DCP算法易出現過度清晰化的現象,原因是井下獲取的圖像色彩和對比度相對較單一, 并不滿足DCP原理。Dehaze Net算法、GridDehaze Net 算法和GFN 算法去除了大部分水霧,但仍存在較暗區域細節丟失及顏色失真等問題。MSCNN算法對井下塵霧圖像的清晰化效果不明顯,只能去除少量水霧或塵霧。AOD?Net 算法未實現井下圖像塵霧的有效去除,且圖像整體顏色失真。
場景5 實驗對比結果如圖10 所示。本文算法和DCP 算法有效解決了圖像的泛白問題,同時在一定程度上成功抑制了偽影和光暈,實現了圖像清晰度和對比度的提升。本文算法色彩更加真實自然,在視覺上更接近于無霧圖像。GFN 算法只能去除少量處于塵霧邊緣的較薄塵霧,塵霧中心區域未能有效去除。Dehaze Net 和GridDehaze Net 算法的清晰化效果都比較明顯,且圖像整體對比度有所提高,圖像細節得到保留。AOD?Net 算法和MSCNN 算法對該場景下塵霧圖像的清晰化效果較差。
2.4客觀指標評價結果
為客觀評價塵霧圖像清晰化效果,對相關圖像清晰化算法進行PSNR、SSIM 和NIQE 的計算和比較。在合成數據集上的定量評價指標見表3。由表3可知,與其他算法相比,本文算法在PSNR 和SSIM指標上均有明顯提升。PSNR 提升說明本文算法處理后的圖像失真程度降低、細節信息更多,SSIM 提升說明了本文算法處理后的圖像更加明亮、圖像結構保持得更好。本文算法處理后圖像的NIQE 最小,表明圖像更加自然。
不同算法在井下數據集上的定量評價指標見表4??煽闯霰疚乃惴ㄌ幚砗蟮膱D像在PSNR、SSIM 和NIQE 這3 個指標上都有一定改善。DCP 算法處理效果僅次于本文算法,能有效減少圖像失真。GridDehazeNet、GFN 和AOD?Net 算法在塵霧圖像清晰化方面有一定效果,DehazeNet 和MSCNN 算法對井下塵霧圖像的清晰化效果不理想。
由表3和表4的數據指標可看出,本文算法對井下數據集的適應性更強,清晰化效果比在合成數據集上更好,驗證了自建數據集的有效性。
在訓練集和測試集下7 種清晰化算法對單幅圖像的處理時間如圖11所示??煽闯霰疚乃惴ㄔ谟柧毤蜏y試集上的圖像處理速度處于中等水平,盡管單幅圖像處理速度未能達到最快,但保持在合理范圍內。
3結論
1) 通過特征提取模塊IRDB 提取輸入圖像不同尺度下的特征圖,將其融合輸入到網格網絡中進行進一步特征提取與融合。IRDB 將經過Inception 模塊卷積聚合的特征作為RDB的輸入,再由RDB對這些特征進行信息提取和傳遞,增強了網絡的表征能力、泛化能力及其對不同尺度塵霧的處理能力。
2) 在網格網絡設計中,通過上采樣和下采樣實現特征圖不同尺度變換,并引入通道注意力機制,使用SE 模塊對不同尺度下的不同通道動態調整特征權重,網絡更加靈活,對井下數據集的適應性更強。
3) 實驗結果表明:IRDB 數量為5 時,網絡模型的PSNR、SSIM和NIQE 指標最好;從視覺效果上看,用本文算法清晰化處理后的圖像細節信息更加豐富,色彩更加自然,具有良好的清晰度和對比度;在井下數據集上用本文算法處理后的圖像PSNR、SSIM 和NIQE 分別為23.69,0.8401,8.95,整體優于DCP,AOD?Net 等同類算法;本文算法在訓練集和測試集上的圖像處理速度處于中等水平,綜合考慮,本文算法用于井下塵霧圖像清晰化處理性能最優。