馬 琳 蘇 明 蘭義湧
(1.北京開放大學科學技術學院,北京 100081;2.中央民族大學理學院,北京 100081)
礦山圖像重建的關鍵在于如何準確地還原圖像的細節信息,以實現對礦山場景的真實再現。 近年來,深度學習技術在圖像處理領域的應用取得了顯著成效。 深度學習模型通過層層堆疊的神經網絡,能夠自動學習并提取圖像中的高級語義特征,從而改善圖像處理的效果,實現圖像重建。 此外,由于礦山場景的復雜性導致圖像中存在大量的細節和紋理結構,傳統的圖像處理方法難以準確捕捉這些細節信息。 因此,如何有效利用深度學習技術,提高礦山圖像重建的精度和效率成為了當前研究熱點和難點。
現階段,根據各類算法獲取圖像細節方式的差異,可分為基于插值[1-2]和基于機器學習[3-4]兩類。插值算法是一種基于特定基函數或插值核來實現原圖像與重構圖像之間映射關系的方法。 KEYS[5]采用雙三次插值(Bicubic)算法進行圖像重建,該方法重建結果缺乏細節信息,存在明顯的塊效應和視覺模糊,但算法計算較為簡便。 HAUPTMANN 等[6]提出直接學習一種由多尺度深度神經網絡建模的插值方案,從極坐標中可用傅里葉系數預測二維笛卡爾坐標中的傅里葉系數,利用少量和有噪聲的測量值重建高質量的圖像。 劉月峰等[7]使用3 種插值方法和5 種銳化方法在底層進行預處理,并將僅進行一次插值操作的圖像和先進行一次插值后進行一次銳化的圖像進行合并,并按照三維矩陣形式排列。 在非線性映射層,將這些經過預處理的三維特征映射作為深層殘差網絡的多通道輸入。 在重建層中,為了減少圖像重建的時間消耗,引入了亞像素卷積操作來完成圖像重建過程。 近年來,在機器學習算法快速發展的背景下,基于神經網絡的圖像重建算法應運而生。 卷積神經網絡(Convolutional Neural Network,CNN)[8]作為一種深度學習模型,具備對圖像進行端到端的學習和表征能力。 該算法利用其強大的特征提取和學習能力,能夠從低分辨率圖像中恢復出高分辨率細節,從而實現圖像的超分辨率重建。 通過CNN 的卷積層、池化層和激活函數等構建的深層網絡結構,可以逐層提取和學習圖像的特征信息。 這種逐層抽象的方式使得網絡能夠捕捉到不同層次、不同尺度的圖像特征,包括紋理、邊緣、結構等。 同時,CNN 還能夠通過大量的訓練樣本進行參數優化和模型訓練,進一步提升其圖像表征能力和重建效果。 QIAO 等[9]提出了一種SRCNN ( super-resolution convolutional neural network)算法,首次將CNN 應用于重建領域。 卷積神經網絡通過端到端的非線性映射極大提高了超分辨率重建的性能,并且該處理過程極大減少了人工特征干預。 CAO 等[10]提出了一種EDSR 算法,通過改進殘差網絡,舍棄了層歸一化操作,通過堆疊網絡提取深層次特征,改善了圖像重建效果。 LIU[11]通過將密集連接和殘差連接與RDN( residual dense network for image super-resolution)算法進行融合,在一定程度上提升了RDN 模型的圖像重建能力。 ZHANG 等[12]認為在高頻信息部分LR 圖像和HR 圖像通常差異較大,而差異較小的一些低頻信息將會直接到達網絡深層。 為此,提出了VDSR(Very Deep CNN for SR)算法,基于Bicubic 算法放大LR 圖像,在與目標尺寸相似的情況下融合低頻信息與高頻信息,實現了圖像重建。 VDSR 算法以單向傳播為主,基于 CNN 網絡進行傳播,使得深層次的網絡層接收到的信號弱化。 對此,ZHANG 等[13]提出了一種MemNet 網絡,該網絡結構中的記憶模塊主要由遞歸以及門控單元組成。MemNet 網絡通過自適應學習保持持續記憶,進一步加深了網絡層次。 ZHANG 等[14]提出了一種DCSR網絡,采用標準卷積以及擴張卷積相融合的方法,證明了混合卷積網絡能夠增強低分辨率圖像與高分辨率圖像之間的相關性,提升重建效果。
在礦山圖像重建方面的研究中,不少學者進行了卓有成效的工作。 ZHANG 等[15]使用從礦山已挖掘區域獲得的密集樣本信息構建一般外觀模型,而后調節該模型以考慮核心樣本圖像中的數據,通過在學習后對RBM 中隱含的分布信息進行采樣來完成重建。汪海濤等[16]基于在線多字典學習算法提出了一種礦井圖像重建模型,該模型基于K-means 聚類將訓練集劃分為多類,并通過訓練不同類的高低分辨率字典,從而提高了對復雜環境特征的表示能力,以及模型對于稀疏系數求解的準確性,提升了重建性能。 程德強等[17]基于融合層次特征以及注意力機制,提出了一種輕量化的礦井圖像超分辨率重建方法。 上述研究雖然豐富了圖像重建方法,但在礦山特定場景下依然存在不足:① 對于礦山圖像的多尺度特征提取不充分,無法充分捕捉圖像中的細節和紋理結構;② 缺乏有效的特征融合和復用機制,導致重建結果的準確性有待提升。
本研究在已有成果的基礎上,提出一種基于多尺度特征復用殘差網絡的礦山圖像重建算法。 首先,設計一個多尺度特征提取模塊,通過堆疊多個并行的卷積層和池化層,并結合局部殘差網絡構建圖像特征提取模塊,以充分提取圖像的多尺度細節特征,包括不同的語義信息和空間分辨率,從而捕捉到圖像中的不同細節和紋理結構。 其次,引入特征復用模塊,將不同尺度的特征進行融合和復用,以增強圖像重建的準確性。 通過多尺度的特征交互和信息傳遞,能夠有效利用全局和局部的上下文信息,提高圖像的重建性能。 為了驗證所提算法的有效性,在自建的礦山圖像重建數據集上進行試驗驗證。
針對礦山圖像重建中細節損失導致重建質量低下等問題,本研究提出了一種基于多尺度復用殘差網絡的礦山圖像重建算法,算法結構如圖1 所示。 該算法首先將采集的原始礦山圖像進行預處理,并將其分為多個不同大小和分辨率的子圖像。 對每一個子圖像都使用一個預訓練的殘差網絡提取特征,得到高維特征向量。 在特征提取階段之后,通過將特征向量按照尺度進行聚合,從而獲得多尺度信息。 然后利用重建網絡對聚合后的特征進行反卷積與上采樣操作,逐步恢復被遮擋的礦區圖像。 值得注意的是,在重建過程中,所有尺度的信息都被復用,使得整個算法具有更強的表達能力。 由于殘差網絡具有端對端的優化能力和語義信息的保留特點,因此該算法在重建質量、魯棒性和計算速度等方面均具有明顯優勢。

圖1 多尺度復用殘差網絡的礦山圖像重建算法框架Fig.1 Framework of mine image reconstruction algorithm based on multi-scale multiplexing residual network
礦山圖像重建的前提是需要對低質量的圖像進行提高分辨率和降噪處理。 本研究結合殘差密集網絡(Residual Dense Network,RDN)[11]提出了一種多尺度特征復用圖像重建算法。 RDN 采用了多個密集塊來提取圖像的多尺度信息,每個密集塊內部由多個殘差塊組成,從而產生了非常深的網絡結構(圖2)。同時,RDN 通過跨層連接方式在不同層之間傳遞信息,使得每個密集塊都可以利用之前的特征,從而避免了信息丟失,在保證召回率的同時顯著提高了精確度。 此外,RDN 還引入了密集連接和通道注意力機制,以進一步優化網絡性能。 密集連接保留了每個密集塊內部的特征,避免了信息丟失;通道注意力機制[18]則用于自適應地調整每個通道的權重,從而更好地利用特征圖中的信息。

圖2 殘差密集網絡Fig.2 Residual Dense Network
RDN 的核心部分是密集的殘差塊(Residual Dense Block,RDB),每個殘差塊由多層卷積層和密集的殘差連接組成,計算公式為
式中,Xi為重建任務中輸入的低分辨率圖像;Hli為殘差塊i中第l層的輸出;Fi為殘差塊中的非線性映射函數,視為一個密集連接的多層卷積網絡;D為殘差塊中卷積層的數量;L為殘差塊中最后一層的層數;TLi-1為殘差塊i中最后一層的殘差項,可進行如下計算:
為使得網絡具有多尺度檢測能力,本研究利用金字塔多尺度特征聚合模塊(Pyramid Feature Fusion Module,PFM),將不同層次的特征層使用反卷積擴展到相同的尺寸,然后進行元素級別的相加。 主要目的是對來自不同尺度的特征進行融合,以提高重建效果。 如圖3 所示,PFM 的核心部分是金字塔池化(Pyramid Pooling)操作和特征融合操作,在金字塔多尺度特征聚合模塊中,輸入特征首先被送入一個分成多個尺度的子網絡中。 每個子網絡都會對相應尺度的特征做出處理和池化操作,得到經過降采樣的尺度特征;然后通過反卷積或上采樣和相應的卷積操作,將每個尺度的特征圖恢復到原始輸入圖像的尺寸;最終,所有的尺度特征會被融合在一起,輸出給后續的神經網絡模型使用。

圖3 金字塔多尺度特征聚合模塊Fig.3 Pyramid multi-scale feature aggregation module
金字塔特征聚合模塊可表示為
式中,Fpfn為金字塔特征聚合結果;f1、f2、f3和f4分別表示輸入特征圖的不同尺度;⊕為特征圖在對應位置上的加和操作;upsample 為反卷積或上采樣操作;W為權重參數。
當輸入特征圖的不同尺度被放入金字塔多尺度特征聚合模塊之后,經過上述計算得到的輸出Fpfm將會包含從不同尺度下提取的特征信息。 這些特征信息融合在一起,每個位置的特征都具有了更全面的感受野,使得檢測器能夠更好地適應不同尺度的目標,并且具有更強的適應性和魯棒性。
Adam(Adaptive Moment Estimation)優化器[19]是一種自適應梯度下降算法,結合了RMS Prop 和Momentum 兩種優化器的優點。 相較于其他優化器,Adam 具有更快的收斂速度和更廣泛的適應性。 Adam優化器通過移動平均估計每個參數的梯度和平方梯度的無偏估計,從而動態調整學習率以更新模型的權重。 該方法計算步驟如下:
(1)梯度。 對于損失函數L與網絡參數θ,通過求解反向傳播得到參數θ的梯度值gt,其中t為當前迭代次數。
(2)梯度平方。 使用當前梯度的平方g2t作為指數加權平均的形式進行累加,并計算出其偏差校正后的值,公式為
其中,mt為歷史梯度的指數加權平均值;β1為一個0~1 范圍內的衰減因子,常規取值為0.9。
其中,vt為歷史平方梯度的指數加權平均值;β2為一個0~1 范圍內的衰減因子,常規取值為0.999。
(4)更新參數。 基于上述計算結果和當前迭代次數t,更新網絡參數θ。
本研究所提模型以Pytorch 深度學習框架為基礎,在Ubuntu 18.04 LTS 系統進行試驗。 為確保試驗結果準確可靠,選用配備32 GB 內存的Intel Core i9 CPU 和NVIDIA GeForce RTX 3090 GPU 的Ubuntu 系統服務器作為試驗平臺,以提高算法運行效率和可靠性。 首先采用圖像重建任務中的公共數據集DIV2K進行模型訓練。 DIV2K 數據集中共有1 000 幅2 560×1 440 分辨率圖像,本研究以其中800 幅高分辨率圖像作為訓練集,驗證集以及測試集各100 幅。 再使用本研究自建礦山圖像重建數據集進行遷移學習,以保證算法更適用于礦山場景數據。
本研究模型測試過程中主要采用圖像重建領域常規評價指標如結構相似性(Structural SIMilarity,SSIM)[20]以及峰值信噪比(Peak Signal to Noise Ratio,PSNR)[21]對重建效果進行評估。 結構相似度是一種用于比較圖像或視頻質量的指標, 考慮了結構信息的相似性,因此更符合人眼感知。 該指標通過測量原始圖像和待比較圖像之間的結構相似性來評估待比較圖像的質量。 在圖像重建中,結構相似度經常被用來表示與原始圖像的相對分辨率差異。 該指標通過3 個指標來描述圖像質量,即亮度相似性(Luminance Similarity)、對比度相似性(Contrast Similarity)和結構相似性(Structure Similarity)。 結構相似度可進行如下計算:
其中,l(x,y) 、c(x,y) 和s(x,y) 分別為亮度相似性、對比度相似性和結構相似性;x和y分別為原始圖像和比較圖像;α、β、γ為權重參數。
SSIM的取值區間為[-1,1],“1”表示兩幅圖像完全相同,“0”表示差異最大,“-1”表示兩幅圖像完全不同。
峰值信噪比衡量了原始信號與由該信號所產生的壓縮后信號之間的差異程度,常用于比較數字圖像或視頻編碼質量,取值越大,表示圖像質量越好。 峰值信噪比計算公式為
其中,MAX為原始信號的最大取值;MSE為原始信號與壓縮信號之間的均方誤差。 由于PSNR的計算依賴于原始信號的最大取值MAX,因此其對信號動態范圍的影響比較敏感。
為分析本研究采用的密集殘差網絡對于重建算法的影響,通過控制長短殘差連接,設計了4 組消融試驗驗證殘差性能,試驗結果見表1。 其中“×”表示在該組試驗中不采用該連接方案,“√”表示在該組試驗中采用該連接方案。

表1 密集殘差連接結構對于算法性能的影響Table 1 Influence of dense residual connection structure on algorithm performance
由表1 可知:當復用殘差網絡使得遠距離與短距離殘差交替使用時,所構建的深度學習網絡結構更為穩定,且所學習到的深層次與淺層次的多尺度有效特征更多,從而可以更快地傳遞網絡信息,提升重建效果。 僅使用短距離殘差連接會使得模型學習到較多的淺層特征,最終重建效果不理想。 當只設計遠距離殘差連接時,對于局部特征的提取能力較差。
此外,為了探究金字塔多尺度特征聚合模塊對于本研究所提算法性能的影響,設計了一組關于特征聚合的消融試驗,結果見表2。 其中,“×”表示在該組試驗中不采用該連接方案,“√”表示在該組試驗中采用該連接方案。

表2 字塔多尺度特征聚合模塊對于算法性能影響Table 2 Influence of the multi-scale feature aggregation module on algorithm performance of the tower
由表2 可知:在去除多尺度特征和聚合模塊以后,SSIM下降0.062 1,PSNR下降1.721 dB。 當保留多尺度特征時,SSIM下降0.043 5,PSNR下降1.008 dB,反映出所提算法結構具有良好的重建性能。部分礦山數據集重建效果如圖4 所示。
提出了一種基于多尺度特征復用殘差網絡的礦山圖像重建算法,以提高礦山場景下圖像重建的精度和效率。 通過設計一個多尺度特征提取模塊,可以充分提取圖像的多尺度細節特征信息。 通過引入特征復用模塊,將不同尺度的特征進行融合和復用,以增強圖像重建的準確性。 試驗表明:該算法在重建精度和效率方面性能較好,并且具有較快的訓練和推斷速度,具有一定的應用前景。