基于U-Net模型的無人機影像建筑物提取研究

2021-08-19 06:51:36鄧燁，丁濤

科技創新與生產力 2021年7期

鄧燁，丁濤

（1.安徽理工大學空間信息與測繪工程學院，安徽淮南 232001；2.礦山采動災害空天地協同監測與預警安徽省教育廳重點實驗室，安徽淮南 232001）

近年來，無人機技術發展勢頭迅猛，無人機影像在生活中的使用快速增加。無人機具有時效性高、便捷、成本低等優點，利用其拍攝影像及采用影像進行地物提取有著較大的優勢。相較于衛星遙感影像，無人機影像具有分辨率較高、受云層等遮擋影響小的優點；相較于普通影像，無人機影像對地物細節描述更細致、含有更多的有用信息，傳統的影像分類方法很難有效且精確地從航拍影像中提取建筑物信息。數字城市的重要地理要素之一就是建筑物，是各類城市專題圖的重要內容，建筑物的自動獲取對于社會公眾、各行各業的應用都具有重要的意義。建筑物要素的快速提取是我國基礎地理信息建設中一項十分重要的內容。

隨著近年來信息技術的快速發展，計算機處理性能大幅提升，全卷積神經網絡在影像語義分割及目標識別領域取得了十分顯著的成果。Hosseiny等[1]提出了一種基于分段距離的色調、色飽和度、強度（HSI）異常檢測方法，該方法利用分割區域的統計特性來抑制誤報。鐘城等[2]提出了一種卷積神經網絡（Convolutional Neural Network，CNN）與生成式對抗網絡（Generative Adversarial Networks，GAN）的組合模型。陸煜斌等[3]提出了一種基于殘差網絡的改進流量分類算法，緩解了傳統卷積網絡因層次太深導致難以訓練的問題。

目前，對于圖像分類，研究者們利用全卷積神經網絡學習建立模型，已經取得了較理想的成果。于洋等[4]提出了一種結合全卷積神經網絡與數字地表模型（Digital Surface Model，DSM）數據的無人機影像建筑物自動提取方法。劉文濤等[5]在全卷積神經網絡的設計中使用了特征復用和特征增強。朱巖彬等[6]提出以SegNet模型為基礎，結合U-Net模型的模型。傳統的建筑物提取方法沒有充分利用建筑物的紋理、形狀等特征，對建筑物與其背景之間的空間關系建模能力不足，對于復雜建筑物的提取容易出現遺漏和錯誤的情況。因此，傳統建筑物以及地物分類算法并未取得巨大突破[7]。

1 無人機影像建筑物提取研究方法

1.1 全卷積神經網絡

全卷積網絡（Fully Convolutional Networks，FCN）是2015年加利福尼亞大學伯克利分校（UC Berkeley）的Jonathan Long等在《Fully Convolutional Networks for Semantic Segmentation》一文中提出的一種框架，用于圖像語義分割。經典的卷積神經網絡的接受域是一定的，導致卷積神經網絡識別不同尺度對象的能力差，由于高分辨率影像中的建筑物都以不同尺度出現，因此運用卷積神經網絡對尺度不同的建筑物進行提取，結果會產生很大的差異。由于卷積網絡對建筑物邊界不敏感，會破壞影像中建筑物邊界的完整性，而全卷積神經網絡可以做到輸入圖像和輸出圖像大小一致，保存了圖像的精度，因此人們逐漸用全卷積神經網絡代替卷積網絡提取影像中的建筑物[8]。U-Net模型屬于全卷積網絡中一個熱門的網絡結構，它在醫療圖像分割中取得了很大的進步，具有結構簡單等優點，許多的研究人員將其運用在影像建筑物提取中[9]。

1.2 U-Net模型

U-Net模型是2015年提出的語義分割模式，用于提取圖像特征，最初用于醫學領域，因其網絡的形狀類似“U”而得名。由于醫療圖像數據較少，設計網絡模型不宜過大，因此U-Net模型適用于較少數據的圖像提取[10]。通過擴展卷積，U-Net模型可以使輸入和輸出的圖像尺寸保持一致。U-Net模型包括編碼器和編碼程序共同構成的網絡。U-Net的解碼器可以看作是一個卷積神經網絡，它通過對圖像進行卷積和采樣工作來獲取圖像的明顯特征。UNet解碼器是一個上采樣的過程，它使最終輸出圖像的大小與輸入圖像的大小保持一致。U-Net模型基本架構見圖1。

圖1 U-Net模型基本架構

由圖1可知，U-Net模型結構共有5層。圖中的箭頭①表示開始對卷積圖像進行卷積的操作；箭頭②表示跳躍連接層；箭頭③表示對圖像進行下采樣操作；箭頭④表示對圖像進行上采樣操作。跳躍連接層連接圖像的深層特征和淺層特征（邊界、顏色、紋理等信息），能夠很好地保護圖像的特征。經典U-Net模型架構總共有5層，含有9層卷積層，每一層卷積都會對圖像進行兩次卷積運算，每一次卷積運算使用大小為3×3的卷積核，其個數為64個。U-Net模型中分別使用4次下采樣和4次上采樣運算。假設輸入U-Net模型的圖像大小為572×572，原圖像經過兩次卷積運算后得到64個圖像，圖像大小為568×568；再對圖像進行第一次下采樣操作，下采樣后得到64個圖像，大小為284×284。原圖像經過5組卷積和4次上采樣后圖像大小變為28×28，個數變為1 024個。先將第5組卷積后的圖像進行第一次上采樣，上采樣后的圖像與第4次下采樣的圖像合并，再對合并的圖像通過3次卷積、上采樣、跳躍連接后使圖像輸出。在U-Net模型中，卷積和下采樣以及上采樣計算中激活函數為線性整流函數（Rectified Linear Unit，ReLU），它能使訓練速度加快。U-Net模型最后利用1×1的卷積來輸出提取后的影像，激活函數使用Sigmoid或Softmax。

2 無人機影像建筑物提取實驗與分析

采用美國德克薩斯州奧斯汀（Austin）市無人機攝影測量的正射影像作為驗證數據集，此數據集包含大量植被和建筑物，用于驗證本文方法對建筑物區域數據集提取的效果。

2.1 數據來源

本文使用的開源數據是法國國家信息與自動化研究所（Institut National de Recherche en Informatique et en Automatique，INRIA）公開的圖像數據集。該圖像數據集覆蓋區域為5個城市，分別為奧斯汀（Austin）、芝加哥（Chicago）、基薩普（Kitsap）、維也納（Vienna）、西蒂羅爾（West Tyrol），面積共計810 km2。5個城市的建筑物分布、風格各不相同，奧斯汀的建筑物分布不規則且遮擋嚴重；芝加哥的建筑物分布交錯縱橫間隙小；基薩普的建筑物分布散亂；維也納有許多圓形建筑物；西蒂羅爾的建筑物比較集中化。5個城市的影像用于訓練數據集。該圖像數據集包含360張影像，影像格式為TIFF，大小均為5 000×5 000，分辨率為0.3 m。圖像覆蓋各種城市影像，從人口密集的城市到人口稀少、植被茂密的高山城鎮。該數據集中了180張被人工標注的圖像，另外180張圖像作為模型的線上測試集使用，本次實驗使用標記好的180張圖像作為數據集。

2.2 滑窗采樣

為了提高運算速率和降低對配置的需求，一副超大影像在輸入模型之前一般要進行裁剪操作，裁剪方式主要有兩種：滑窗采樣和隨機采樣。滑窗采樣是以固定的大小和步長依次按照一定順序在影像中滑動，對超大影像進行裁剪；隨機采樣是指在影像中生成隨機點，以隨機點為中心以一定的角度裁剪出符合樣本大小的影像。考慮到本文數據集比較大，要充分使用所有數據，因此本實驗采用滑窗采樣，滑動步長和滑動窗口均設置為224像素。

2.3 數據增強

為了增加訓練樣本的數據量，提高模型的泛化能力以及模型的穩健性，一般要對樣本進行數據增強。本次實驗對數據進行了下列操作。

1）旋轉操作。將一半的影像進行90°的整數倍旋轉。

2）翻轉操作。將一半的影像進行水平或者垂直翻轉。

3）歸一化。將影像中的灰度值進行歸一化。歸一化的方式有兩種：一種是將影像上像素點的灰度值除以255，另一種是將灰度值除以127.5再減去1。本次實驗使用第二種方法將影像中像素灰度值進行歸一化。

2.4 劃分數據集

使訓練所獲得的模型符合平移和旋轉不變性，滑動窗口將180張影像裁剪成108 000張大小為224×224的影像，并進行數據增強處理，處理后的影像創建訓練集與測試集，比例為8∶2。其中，訓練集主要應用于培訓模型，測試集主要應用于培訓模型分辨能力，驗證集主要應用于網絡結構，控制模型復雜度參數的確定。

2.5 實驗設備和搭載環境

本實驗在Window 10系統上完成，基于Tensorflow 2.1版本深度學習框架。Tensorflow是一個相對成熟且性能強大的深度學習庫，具有強大的可視化功能，是被運用得最廣泛的靜態框架。

本實驗使用GPU版本的Tensorflow，實驗耗時40 h，計算機相關參數見表1。

表1 計算機配置參數

2.6 實驗結果

使用U-Net模型深度遷移學習對無人機影像建筑物進行提取，結果見圖2，可視化地對實驗結果和標簽圖像進行分析。實驗結果表明，本文所用方法確實可以較為有效準確地提取出建筑物的信息，且不受建筑物分布密集程度和建筑物類型的約束。

圖2 部分實驗識別結果

由圖2可知，本文所用方法可以有效地提取實驗場景中建筑物的位置，而不受建筑物分布密度和類型的限制，矩形建筑物提取效果較好，邊緣清晰。同時，由于網絡結構本身進行下采樣和上采樣的操作過程，導致建筑物的提取結果中邊界會存在不完整或者模糊的現象。而且，建筑物周圍的樹木遮擋也會對其識別和提取造成一定的影響[11]。

2.7 評價指標

本文所采用的評價指標有：準確（Accuracy）率RA、精確（Precision）率RP、召回（Recall）率RR，對于本次實驗，本文給出一些評價指標的定義[12]。

真陽性（True Positives，TP）ITP：對于標簽中的建筑物，模型能預測為建筑物的數量。

真陰性（True Negatives，TN）ITN：對于標簽中的非建筑物，模型能預測為非建筑物的數量。

假陽性（False Positives，FP）IFP：對于標簽中的非建筑物，模型能預測為建筑物的數量。

假陰性（False Negatives，FN）IFN：對于標簽中的建筑物，模型能預測為非建筑物的數量。

準確率RA是指在單標簽分類任務中，每個樣品只有一種確定類別，預測這個類別就是正確分類，沒有預測這個類別就是錯誤分類，表達式為

精確率RP是指真實存在的“真正”的樣本，確定是“真的”所占比重，表達式為

召回率RR是指在所有實際確實為真樣本的情況下，樣本被判為“真的”所占比重，表達式為

為了更好地評價提取結果，采用以上評價指標進行分析。評價結果見表2。

表2 建筑物提取結果評價（%）

3 結束語

本文利用語義分割U-Net模型完成對正射影像中建筑物的提取，針對目標區域數據太少等問題，使用深度遷移學習的方法在開源數據集訓練U-Net模型，通過遷移學習對無人機正射影像中的建筑物進行提取。實驗結果顯示，該模型可以盡量恢復不同地物，特別是建筑物邊界等細節，能較精確地提取建筑物信息。然而，在建筑和植物紋理類似的情況下，仍然存在著錯誤提取的情況。同時，全卷積神經網絡存在下采樣操作導致提取邊界模糊的問題，下一階段將提高模型精度，以改善提取結果。