優化Mask-RCNN的高分遙感影像建筑物提取

2022-09-10 13:53:36林娜黃韜孫鵬林王玉瑩

遙感信息 2022年3期

林娜，黃韜，孫鵬林，王玉瑩

(重慶交通大學智慧城市學院，重慶 400074)

0 引言

近年來，高空間分辨率遙感影像的獲取越來越便捷，建筑物作為最常見、最復雜的地物信息之一，基于高分遙感影像的建筑物提取對遙感影像制圖、地理信息系統的數據獲取和智慧城市建設具有重要的應用價值。

傳統建筑物提取方法需要人工設計特征。2014年，胡榮明等[1]提出了增強形態學建筑物指數，利用該指數和幾何形狀約束提取了高分辨率建筑物輪廓。2017年，林雨準等[2]綜合利用光譜、形狀、紋理特征和多尺度分割的建筑物分級提取方法進行建筑物提取。傳統建筑物提取方法難以適用于復雜場景且提取精度較低。

卷積神經網絡擁有強大的特征提取能力，能夠通過訓練大量的數據集自動學習特征，使得建筑物自動提取成為可能。2015年，出現了全卷積神經網絡[3](fully convolutional networks，FCN)，將全連接結構改為卷積結構，可以處理任意尺寸的圖像。2018年，張歡等[4]提出一種深層密集反卷積神經網絡，實現了像素級別的建筑物提取。2020年，宋廷強等[5]基于SegNet網絡，增加了空間注意力融合模塊和增強的空間金字塔池化模塊，對建筑物進行提取。

上述都是基于全卷積網絡的建筑物提取，采用語義分割提取建筑物的二值圖。2017年，Ren[6]提出Faster-RCNN網絡，利用區域生成網絡(region proposal network，RPN)，減少了候選框的數量，提高了檢測速度。而He等[7]提出的Mask-RCNN是在Faster-RCNN的基礎上，添加了掩膜分支，能夠實現檢測與提取的并行處理，精度更高。2020年，何代毅等[8]在Mask-RCNN網絡的設計中添加了路徑聚合網絡和特征增強功能。2020年，徐勝軍等[9]提出了多尺度特征融合的空洞卷積殘差網絡，改善了復雜場景下建筑物分割邊界不清晰等問題。2020年，瑚敏君等[10]在Mask-RCNN的基礎上，在特征金字塔后再增加一層卷積操作，以降低混疊效應，但是大小不一的建筑物仍存在輪廓不完整的情況。

綜上，基于Mask-RCNN的相關改進能夠實現檢測與提取的并行處理，提高建筑物提取精度。本文制作了高分遙感影像建筑物提取數據集，并提出基于Mask-RCNN的優化算法，解決尺寸不一的建筑物提取輪廓不清晰、不完整的問題。

1 研究區數據

本文以重慶市渝北區為研究區，WorldView-2高分辨率遙感影像為數據源，其多光譜數據空間分辨率為1 m，全色數據空間分辨率為0.5 m。影像預處理及數據集制作流程如圖1所示。

1.1 數據集制作

本文選擇均勻分布、類別充分、具有代表性的區域制作標簽。圖2為代表區域的數據集可視化效果對比圖，其中，每個子圖的上圖為原圖，下圖為標簽圖。

1.2 數據集增強

本文對原圖和黑白二值圖標簽同步進行數據增強，圖3為數據增強后的原圖與標簽對比圖。

2 基于優化Mask-RCNN的建筑物提取算法

2.1 Mask-RCNN基本原理

Mask-RCNN是一種結構清晰的分割網絡，分為特征提取部分、RPN生成候選框、頭部預測分支3個部分，包含邊界框回歸、分類預測和二值掩膜。整體網絡結構如圖4所示。

特征提取部分由ResNet與特征金字塔網絡(feature pyramid networks，FPN)構成。ResNet網絡通過添加批量歸一化層和恒等映射結構，良好地解決了網絡退化問題，即當網絡只使用卷積層和池化層，網絡層數不斷加深時，經過梯度反向傳播，梯度消失或梯度爆炸的情況。

FPN特征金字塔網絡主要在特征提取的基礎上增加了自上而下的結構，讓不同尺度的特征圖之間進行特征融合，來增強特征圖表征能力，輸入和輸出的特征圖都是多個不同尺度的特征圖。

2.2 優化Mask-RCNN

1)優化FPN結構。FPN在特征融合之前，特征提取主干網絡的不同階段提取到的特征先經過1×1卷積進行降維，降到通道數相同后進行特征融合。但是，不同階段的特征感受野大小不一樣。感受野即特征圖上的點對應回原圖上的大小，包含的語義信息不同，將他們的特征直接相加，會減弱特征提取能力，特別是尺度差別較大的場景，提取效果下降。

因此，本文提出了一種優化特征金字塔網格，添加了更多的橫向連接、恒等連接、自上而下和自下而上的路徑。圖5為優化特征金字塔網絡的網絡結構圖，在每個特征圖上使用1×1卷積來與相鄰路徑中的相應特征融合，藍色虛線部分為恒等連接，橫向的藍色實線表示經過1×1的卷積改變通道數。豎向的藍色實線是自下而上的路徑，為了縮短從淺層路徑中的低層特征到深層路徑中的高層特征的路徑，低層特征圖通過步長為2的3×3卷積降采樣為一半大小，然后與高級特征圖融合。綠色實線為跨層上采樣連接，使用最鄰近上采樣對高層特征圖進行上采樣，然后使用3×3卷積使上采樣特征圖與低層特征圖相融合。最后和FPN類似，輸出5個特征圖送入后續RPN網絡和ROI Align層。比起傳統FPN，優化FPN將更多的低層幾何信息與高層語義信息相融合，提高尺度較小建筑物的識別精度與尺度較大建筑物的定位精度，并且避免了直接相加造成的特征表達能力減弱。

2)優化NMS算法。非極大值抑制(non-maximum suppression，NMS)的作用是去除預測階段產生的重疊檢測邊界框。NMS的不足是當建筑物較為密集的時候，由于重疊度很高的兩個建筑物會被當作是同一個物體，導致刪除掉其中得分較低的建筑物而出現漏檢。

本文用Soft-NMS替換原始NMS算法。Soft-NMS算法是在每輪迭代時，先選擇分數最高的預測框作為M框，并對每一個有重疊度相鄰檢測邊界框bi分數重新計算，越是與M框重疊度高的檢測邊界框，得分減少越多，當該框的新分數低于某設定閾值時，將該框刪除。重新計算分數用到的高斯權重函數如式(1)所示。

(1)

式中：bi為待處理的邊界框；si為bi框更新得分；σ為設置的超參數。

Soft-NMS可以在不增加計算量的前提下改善NMS的不足。

3 實驗與分析

本次實驗的硬件環境如下：中央處理器為AMD R7 3700X @ 3.60 GHz，內存為16 GB，顯卡為NVIDIA RTX2060。

3.1 實驗方法

采用遷移學習與交叉驗證的方法，使用ImageNet數據集上的ResNet-50預訓練模型的參數，節省訓練時間。交叉驗證可以有效地避免因數據集劃分的隨機性而引起的模型不穩定問題，提升模型的魯棒性。

實驗數據采用自制的重慶市渝北區數據集，一共有大小為1 024像素×1 024像素的圖片2 900張。本次實驗選取5折交叉驗證，即利用固定隨機種子將原圖和標簽圖同時化分成5等份，即每份為580張影像，每次輪流將其中4份作為訓練集，1份作為驗證集，一共進行5次實驗，每次實驗都會得出相應的模型和精度，5次結果的平均值作為對算法精度的估計。依據經驗初始學習率設為0.002 5，訓練過程使用SGD優化方法，迭代次數設為30 000次。

3.2 評價指標

選取準確率ACC、平均精確率AP、損失值Loss為評價指標，Mask-RCNN的損失函數分為分類損失函數、回歸損失函數與mask損失函數，表達式如式(2)至式(5)所示。

Loss=Lcls+Lbbox+Lmask

(2)

(3)

(4)

(5)

式中：TP是預測為正，實際為正的數目；TN是預測為負，實際為負的數目；FP是預測為正，實際為負的數目；FN是預測為負，實際為正的數目；ACC準確率為所有的預測中預測正確的占比；Precision精確率是從預測角度來看，正類被預測為正類的個數占總的正類預測個數的比例，也叫查準率；AP為在不同IoU下的平均精確值。

3.3 結果分析

本次實驗將原始的以ResNet-50為特征提取主干網絡的Mask-RCNN稱為Mask-RCNN+ResNet-50，將本文提出的優化FPN結構與優化NMS算法稱為優化Mask-RCNN，二者共同在數據集上進行實驗。

圖6為訓練過程損失值變化曲線圖，圖中藍色線為Mask-RCNN+ResNet-50算法，橙色線為優化Mask-RCNN算法。可以看出，優化Mask-RCNN的曲線震蕩幅度更小，最后得到的損失值更低，說明優化后的算法提升了穩定性，得到了更高的提取精度。

圖7為兩種算法在同一測試集上的結果對比圖，上面為Mask-RCNN+ResNet-50算法的建筑物提取結果，下面為優化Mask-RCNN算法的建筑物提取結果，黃色邊框為檢測的類別與得分，內部紫色為建筑物輪廓掩膜。圖7(a)為尺度較大的廠房區，Mask-RCNN+ResNet-50算法存在漏檢且邊界超出廠房范圍，導致掩膜不準確，優化后的算法很好地解決了此問題。圖7(b)為高層建筑物區，算法都很好地進行了提取，優化后的算法邊界框得分更高，表示精度更高，且沒有出現建筑物粘連的情況。圖7(c)為尺度較小的別墅區，Mask-RCNN+ResNet-50算法存在漏檢的建筑物，優化算法在添加更多的路徑融合后，提升了特征提取的能力，漏檢數明顯減少。圖7(d)為密集的鄉鎮區，背景復雜，土地紋理特征類似，建筑物尺寸小且密集，Mask-RCNN+ResNet-50算法存在較多誤檢和漏檢，優化算法漏檢數減少，在面對復雜背景區域的影響下，魯棒性更強。

表1為算法在數據集上交叉驗證實驗的定量結果對比。從表1可以看出，本文提出的優化Mask-RCNN算法準確率為93.01%，與Mask-RCNN+ResNet-50相比提高了4.84個百分點，在IoU閾值為0.5時，優化Mask-RCNN算法的平均精確率為88.4%，與Mask-RCNN+ResNet-50相比提高了4.9個百分點，IoU閾值越大，對算法定位的準確性要求越高，所以平均精確率有所下降，但是依然優于原始Mask-RCNN算法，優化算法的整體分類、定位與掩膜精度更高。

表1 交叉驗證測試結果對比 %

4 結束語

本文針對國內高分辨率遙感影像建筑物數據集不足的情況，選取了重慶市渝北區0.5 m分辨率的遙感影像，制作了實地面積約70 km2建筑物提取數據集。本文在Mask-RCNN的特征融合階段，融合更多的橫向連接、自下而上和自上而下路徑，更有利于大建筑物和小建筑物的統一識別。對于在數據集上的交叉驗證實驗結果，本文所提出的優化Mask-RCNN算法平均精度AP為88.4%，與Mask-RCNN+ResNet-50相比提高了4.9個百分點，漏檢更少，邊界框更貼合，建筑物輪廓掩膜效果更好。

本文的不足之處為采用的二階段檢測計算量大，相比一階段檢測計算速度慢、顯存占用大。如何在保證精度的前提下，對高分遙感影像建筑物進行實時檢測與分割是研究的重點與難點。