基于改進U?Net網絡的鐵路周邊無人機影像建筑物提取方法研究

2021-03-14 10:02:10黃一昕方文珊劉傳朋胡朝鵬

鐵道建筑 2021年11期

黃一昕方文珊劉傳朋胡朝鵬

1.中國鐵路經濟規劃研究院有限公司，北京 100038；2.中國鐵路設計集團有限公司，天津 300308

鐵路遙感技術主要是通過航天、航空等傳感器獲取地物影像，并對其進行解譯、分析和調查，獲取鐵路沿線的地形、地貌、地質構造等信息，從而對線路方案、重大構筑物等所處的地質條件做出評價，為后期選線提供技術支撐，輔助勘察設計工作［1］。無人機技術作為航空遙感的重要一環，憑借不受空域限制、影像獲取便捷、覆蓋地物全面的特點，在鐵路勘察設計階段的重要性日益凸顯。目前對于鐵路無人機影像的特征提取工作主要通過人工目視解譯完成，人工成本高，生產效率低，亟待尋求新方法，在保證精度的前提下提升工作效率。

深度學習是機器學習和人工智能領域的重要研究方向之一，它通過對海量影像數據進行學習，能夠快速、精準、自動地檢測出影像上的地物特征［2］。卷積神經網絡（Convolutional Neural Networks，CNN）是深度學習的代表性算法之一，能夠以較小的計算量學習到影像的淺層特征與深層特征［3］。U?Net 網絡是卷積神經網絡的代表性模型之一，在小數據集的情況下依然有很好的表現［4］。學者們在對U?Net 網絡進行深入研究的基礎上做了大量的改進。劉浩等［5］提出了以U?Net 網絡結構為基礎的Se?Unet，并使用dice 函數和交叉熵函數復合的損失函數進行訓練，以提升模型精度并減輕樣本不平衡問題。馮凡等［5］通過在U?Net 網絡結構中引入基于殘差的金字塔池化模塊（Pyramid Pooling Module，PPM）和基于殘差密集連接的聚合特征精化模塊，提升建筑物分類精度。宋延強等［7］通過在U?Net 網絡的編碼器部分加入通道注意力機制，突出目標特征，抑制背景噪聲干擾，從而提高深淺層信息融合的準確率。王曦等［8］針對傳統的遙感圖像分割方法效率低下、分割精細度不夠的問題，提出了一種U?Net 網絡結構與特征金字塔網絡（Feature Pyramid Networks，FPN）結構相結合的方法，緩解了對小尺度目標和大尺度目標邊緣分割不佳的問題。

本文利用U?Net 網絡對鐵路無人機影像進行建筑物提取，針對U?Net 網絡直接下采樣造成信息損失且參數量大的問題，提出帶有金字塔池化模塊與深度可分離卷積相結合的U?PPM 系列網絡。該網絡通過對影像不同尺度的特征進行聚合獲取包含不同尺度的信息，并利用深度可分離卷積代替標準卷積對影像特征進行提取。

1 U?Net網絡

U?Net 網絡于2015 年提出，該模型采用了基于編碼-解碼的架構模式，見圖1。U?Net 網絡的編碼部分通過不斷的卷積操作，逐層提取影像的特征信息。原圖一共經歷了4次卷積與池化操作。模型的解碼部分通過對影像進行反卷積操作使影像尺寸變大但維度減半，然后將其與對應編碼層的特征圖進行融合拼接，最終將影像上采樣至原圖大小。

圖1 U?Net網絡結構

U?Net網絡可以實現端到端的結果輸出，通過4次下采樣操作將圖像縮小了16倍，深層次地提取了圖像特征。再通過4 次上采樣操作進行圖像還原，將提取的高級特征圖還原到原始圖像大小，且保證了還原出來的分割影像邊緣不會太粗糙。該網絡還具備躍層連接的特點，在同一層級將高層的語義特征圖和低層的視覺特征圖相結合，使得模型高級特征圖位置語義信息與低級特征圖低層視覺信息都更為豐富，可以有效地實現多尺度預測，更好地還原圖像。

U?Net 網絡存在兩個明顯的缺點：①模型采用最大池化的方式在單一尺度上對影像進行下采樣，在一定程度上會造成影像特征信息的損失，從而影響模型后續的分類精度；②模型采用了連續的標準卷積對影像進行特征提取，雖然在一定程度上可以增大影像的感受野，但是隨著網絡深度的不斷增加，模型的運算參數變多，運算效率減慢。

2 網絡的改進

針對上述問題，通過在模型的下采樣部分引入金字塔池化模塊對影像不同尺度的特征進行聚合，提高獲取不同特征尺度的能力，進而提升模型的分類精度。使用深度可分離卷積代替標準卷積對影像特征進行提取，達到減少模型運算參數的目的。

2.1 金字塔池化模塊

金字塔池化模塊最早在金字塔場景解析網絡（Pyramid Scene Parsing Network，PSPNet）中提出，它通過全局平均池化和特征融合的方式來聚合不同區域的上下文信息，減少不同子區域間的上下文信息丟失，從而提高獲取包含不同尺度的全局信息的能力。通過PPM 獲取的高層特征圖有助于提高關鍵點檢測的能力。PPM結構如圖2所示。

圖2 金字塔池化結構

PPM 利用4 個不同的金字塔尺度融合特征，圖中第一個紅色方塊部分是通過全局池化產生的整體輸出，剩下的3 個金字塔層級將輸入的特征圖劃分為不同的子區域。PPM 共包含4 個不同尺寸的特征圖，為了保持全局特征的權重，首先對特征圖進行卷積核為1×1的卷積操作來降低維度，然后使用雙線性插值將4 幅特征圖上采樣至原圖尺寸大小，最后將不同尺度的特征融合起來作為PPM的輸出。

為了使U?Net 網絡在下采樣的過程中減少輸入影像信息的丟失，促進不同尺度影像的特征融合，將對模型的下采樣部分添加PPM 結構。在每次最大池化前分別引入輸出特征圖尺寸固定的PPM?1248 結構、PPM?14816 結構，以及輸出特征圖尺寸隨影像尺寸改變而成比例變化的PPM?change結構，如圖3所示。

圖3 引入不同PPM結構的U?Net下采樣部分

在每次下采樣操作前，PPM?1248結構根據輸入影像的大小自動調整平均池化的步長，輸出固定尺寸的特征圖。例如，輸入影像的尺寸為h（長度）×w（寬度）×c（維度），經平均池化后得到的4幅特征圖尺寸分別為1× 1×c，2 × 2 ×c，4 × 4 ×c，8× 8×c。之后利用卷積核為1×1、濾波器個數為c∕4 的卷積操作逐一對特征圖進行降維。最后采用反卷積操作將得到的特征圖上采樣至原始輸入影像大小并同輸入影像進行堆疊，見表1。

表1 PPM?1248特征圖尺寸

由于原始輸入的影像尺寸較大，直接將影像下采樣至1× 1×c、2 × 2 ×c、4 × 4 ×c、8× 8×c，會造成影像細節信息的丟失。因此，PPM?14816 結構通過調整平均池化的步長將原始影像分別下采樣至1× 1×c、4 × 4 ×c、8× 8×c、16 × 16 ×c，使得到的特征圖尺寸變大，以保證在獲取多尺度特征圖的前提下包含盡可能多的影像特征信息，見表2。

表2 PPM?14816特征圖尺寸

U?Net 網絡的4 次下采樣操作會將原始影像分別縮小至原圖大小的1∕2、1∕4、1∕8、1∕16，使用輸出特征圖尺寸固定的PPM?1248 結構與PPM?14816 結構無法更好地捕獲不同尺寸的影像特征。PPM?change 結構根據輸入影像的大小按照一定的比例構建影像特征圖，見表3。

表3 PPM?change特征圖尺寸

若輸入影像的尺寸為h×w×c，得到的特征圖尺寸分別為h∕32×h∕32×c，h∕16×h∕16×c，h∕8×h∕8×c，h∕4 ×h∕4 ×c。輸出特征圖的尺寸分別是輸入影像尺寸的1∕32，1∕16，1∕8，1∕4。PPM?change結構使每幅特征圖包含更多的影像信息。

2.2 深度可分離卷積

深度可分離卷積由Sifre 等［9］提出，應用在圖像紋理分類方面效果很好。通常使用的標準卷積既包含了特征映射的空間信息，又包含了通道之間信息。而深度可分離卷積把標準卷積分解成兩步，分別是逐通道卷積和逐點卷積［10］。逐通道卷積是對輸入的每個通道單獨做卷積，即每個通道有m個單獨的卷積核，假設輸入t個通道，輸出有mt個通道，通常m取1。逐點卷積是標準的1×1卷積，它將逐通道卷積產生的mt個特征映射看成一個整體，組合起來做一次標準卷積操作。深度可分離卷積實現了通道和空間的分離，與標準卷積相比減少了參數，網絡的訓練速度更快，能夠在網絡中傳播更多的特征信息，提高了網絡的重建質量。

本研究將在模型中使用深度可分離卷積代替標準卷積，探索引入深度可分離卷積是否可以在降低網絡參數量的同時保證分類的正確率。

3 試驗數據及處理

3.1 數據集介紹

采用某鐵路沿線的無人機航空影像作為試驗數據，該數據前期已經過影像調色、POS 解算，空三加密等操作，并生成供本項目使用的數字正射影像（Digital Orthophoto Map，DOM）。其中，DOM 的空間分辨率為0.08 m。根據設計圖要求，將影像裁剪至鐵路沿線兩側500 m范圍內，覆蓋面積約4 km2。

3.2 地面標簽制作

由于研究區域的DOM 數據缺少對應的地面真實標簽，對其進行人工手動標注。影像涉及到的建筑物主要有居民住房、彩鋼房、廠房、學校等，將這些建筑物的灰度值設為255。其余地物均為背景，灰度值設為0。采用了ArcGIS軟件矢量標注功能。為了滿足計算機GPU 的顯存要求，將標注后的影像統一裁剪至512 × 512 大小，達不到512 大小的部分填充0 值。最終，共獲得1 465 張影像。所有原始影像均為Tiff 格式，為提高模型的訓練速度，將其轉換為PNG 格式進行訓練，如圖4所示。

圖4 DOM數據及其對應地面真實標簽

3.3 影像數據增強

一般來說，數據量越大，模型越容易學習到具有代表性的特征。由于數據集有限，采用數據增強的方法擴充原始影像，將每張影像分別進行水平翻轉180°、垂直翻轉180°、隨機裁切、對比度變換、飽和度變換、亮度變換，最終結果如圖5所示。

圖5 圖像增強示意

3.4 評價指標

使用準確率、精確率、召回率和F1 分數作為最終評價指標。正樣本（Positive）為建筑物，負樣本（Negative）為背景，計算公式如下：

式中：α為模型的準確率；β為模型的精確率；γ表示模型的召回率；φ為F1 分數；TP為實際為真模型預測也為真的樣本數量；TN為實際為假模型預測也為假的樣本數量；FN為實際為真模型預測為假的樣本數量；FP為實際為假模型預測為真的樣本數量。

3.5 網絡實現設置

神經網絡在訓練時需要人為設置一些超參數來指導模型學習，如學習率、優化函數、權重衰減參數等。經過多次試驗，本文最終設置的初始學習率為0.01，使用自適應學習率方法中的Adam 優化算法［11］，批尺寸（Batch Size）為8，每個卷積層后使用線性整流函數（Rectified Linear Unit，ReLU）［12］作為激活函數，并添加批標準化（Batch Normalization，BN）層，選用sigmoid 函數σ作為最終輸出的激活函數［13］，選用二值交叉熵（Binary Cross?entropy）B作為損失函數，

式中：y*i為地面真實標簽；yi為預測值。

標簽中每個像素被設置為0 和1 來表示負類別和正類別，閾值取0.5，總共訓練30 個epoch。訓練集與測試集劃分為8∶2，計算機硬件配置見表4。

表4 計算機硬件配置

4 試驗結果及分析

共開展了7 個對比試驗。首先利用原始U?Net 網絡對影像進行訓練，網絡標記為U?Net。然后在U?net網絡下采樣部分分別引入PPM?1248、PPM?14816 及PPM?change，網絡標記為U?PPM?1248、U?PPM?14816、U?PPM?change。最后將各PPM 結構與深度可分離卷積結合，網絡標記為U?PPM?1248*，U?PPM?14816*、U?PPM?change*。7 種模型在影像測試集上的建筑物提取精度見表5。由于采用隨機采樣策略和充分的訓練，原始U?Net網絡精度較高。相對于原始網絡，改進后的網絡在精確率、召回率、總體精度、F1分數都有了明顯提升。這說明本研究的改進方法有效。

表5 建筑物提取精度

U?Net下采樣部分添加PPM結構后，U?PPM?1248、U?PPM?14816 的召回率分別為0.932 4、0.961 6，相比U?PPM?change 網絡分別降低了0.033 3、0.004 1。這說明隨著輸入影像的大小按比例調整輸出特征圖的方式，可以使更多的建筑物被網絡識別。對于總體精度而言，U?PPM?change 網絡的總體精度與其他兩種網絡相比顯著提升，對影像特征的識別更準確。F1分數進一步說明了模型的分類精度得以提升。

在PPM 結構中使用深度可分離卷積代替標準卷積時，U?PPM?1248*、U?PPM?14816*、U?PPM?change*的各項精度指標比原先稍有提升，參數量卻大幅驟減。這表明深度可分離卷積可以在降低網絡參數量的同時保證分類的正確率。

預測建筑物對比見圖6，可以看出，各個網絡都能取得較好的建筑物識別效果。與U?PPM?1248、U?PPM?14816 相比，U?PPM?change 網絡結構更顯著地保留了建筑物的細節信息和建筑物的連續性。在引入深度可分離卷積后，影像的邊緣特征顯著增強，建筑物內部的空洞呈不同程度的減少。然而，對于形狀不規則的建筑物，改進后的網絡雖然較原始U?Net 網絡有了明顯的提升，但是部分細節信息還沒有體現，應進一步提高網絡對特征的學習能力。

圖6 預測建筑物對比

5 結論與建議

1）在U?Net網絡的下采樣部分引入PPM 結構進行多尺度的特征融合有助于保留原始影像豐富的信息，提升分類精度。

2）與固定特征圖尺寸的U?PPM?1248、U?PPM?14816 網絡相比，輸出特征圖尺寸隨影像尺寸按比例變化的U?PPM?change 網絡對于影像的信息保留更豐富，能夠更精準地識別建筑物的邊緣等細節，提升聚合特征的判別力。

3）針對使用標準卷積提取地物信息參數量大的問題，使用深度可分離卷積代替標準卷積，可以在降低網絡參數量的同時保證分類的正確率。

4）本文的試驗數據中，由于鐵路沿線周邊建筑物的相似性強，訓練樣本有限且獲取到的影像均來自同一傳感器，而實際應用時往往是多源數據的混合使用，且影像覆蓋地物類型眾多。以后的模型改進中應更注重模型的普適性，增加數據集的多樣性和數量。

5）本文僅提取了研究區的建筑物，并沒有對建筑物進行分類，若將影像中的建筑物預先分成不同類型再進行提取，則可對影像實現更精細的提取，有助于后續房屋應用相關研究的開展。