劉于昆,高郭瑞,王淑焜,戚慧,王振華,張家佑
(鄭州大學地球科學與技術學院,河南鄭州,450000)
建筑物作為城市或城郊的重要特征,精確識別建筑物在土地利用分析、交通規劃、地圖更新、城市規劃及環境保護等領域具有重要意義。隨著高分辨率衛星的發射,遙感影像空間分辨率的提升,具有更加豐富的地物空間結構和紋理特征信息,使得建筑物的精準識別定位成為可能,但同譜異物和同物異譜的現象也更加嚴重。傳統目視解譯消耗大量人力物力,基于傳統機器學習自動解譯也稍顯落后,而基于深度學習的卷積神經網絡算法自動提取建筑物在計算機發展下逐漸成為熱門,對于絕大部分的計算機視覺問題, 基于深度卷積神經網絡( DCNN)方法的效果明顯優于其他傳統方法。
本文基于VGG16(Visual Geometry Group Network 16)網絡模型,改進構建FCN、U-net、SegNet三種網絡結構,并對同一地區遙感圖像進行實驗,對比三種網絡結構對大多倫多地區(Greater Toronto Area,GTA)數據集自動提取的效果,比較三種模型的優劣性。
VGG網絡是經典的卷積神經網絡,由13個卷積層、5個池化層、3個全連接層組成。通過“卷積層+池化層”得到特征圖,然后將得到的特征圖轉換成一維向量輸入到全連接層,最后一層全連接層通常被傳到Sigmoid激活函數或Softmax激活函數中,用于二分類或多分類任務[1]。
本文以VGG16為基礎網絡結構,舍棄了它的全連接層,搭建FCN、U-net、SegNet三種模型,通過對同一數據集進行分類識別,多次試驗得到建筑物提取結果,對比分析其分類精度,找到最佳建筑物自動提取模型。
FCN網絡將傳統卷積神經網絡VGG16中的全連接層替換為卷積層,提高了分割效率、降低了計算復雜度。網中包括卷積層、激活函數層、池化層、反卷積層、裁剪層以及Eltwise層。其中卷積、池化、反卷積是最主要的操作[2]。
卷積層是FCN神經網絡的核心層,通過對輸入圖像進行卷積操作,類似圖像濾波的過程,得到初步的特征圖。池化層對輸入的特征進行壓縮,減小特征圖尺寸,突出影像中的主要特征,使得網絡計算復雜度降低。反卷積層用于將經過卷積及池化操作后的特征影像進行上采樣操作,從而恢復特征影像的尺寸,反卷積層可以使得網絡學習到更加復雜的特征。
U-net模型是基于FCN對語義分割的探索,實現了像素級的數據提取。該模型采用VGG16網絡(去除全連接層)作為編碼器,并且在VGG16網絡的每一個卷積模塊的末尾部分增加了Dropout層,避免模型出現過擬合現象。在解碼器部分,通過步長為2的轉置卷積實現特征圖的上采樣,并通過跳躍連接方式來融合編碼器的多層語義特征,從而還原圖像的分割細節[3]。U-net的網絡架構類似于一個U型結構,FCN反卷積過程是利用了最后三層,U-net模型解碼過程將每層的輸出結果進行小步幅上采樣,然后通過不斷拼接特征圖完善細節,得到最終高精度的結果。
SegNet模型是由編碼網絡、解碼網絡和逐像素分類器組成的網絡模型。SegNet沿用了FCN中圖像語義分割的思想,在池化過程中記錄了每一個最大權重的位置優化了反卷積過程。SegNet是基于像素的端到端的網絡架構,但融合了編碼-解碼結構和跳躍網絡的特點[3]。
實驗數據集為GTA建筑數據集。該數據集由大多倫多地區的遙感圖像組成。大多倫多地區大約600平方公里,是加拿大人口密度最高的都市區,同時也是北美第五大都會區。因此,大多倫多地區有很多大型城市建筑和錯綜復雜的交通道路,對其進行建筑物提取有較大的難度。
2.2.1 實驗設計
本次實驗使用GTA數據集,在網絡模型VGG16基礎上搭建FCN、U-net、SegNet模型。通過修改輸入參數進行訓練和預測,不斷調整學習率搭建好網絡模型,最后用于建筑分類。本文實驗訓練方式較為不同,將輸入圖片分為了三部分,即彩色通道、灰度通道、邊緣通道,進行輸入,在此基礎上,還對效果最好的U-net網絡進行了單輸入,做不同的對比試驗,比較三種網絡的優劣,并對其分類結果進行評價。
2.2.2 實驗結果
在網絡方面,為對比突出,卷積層均選擇VGG16的卷積層架構,卷積層之后則采用不同網絡的處理方式。在分類精度方面,U-net網絡的精度最佳。并且實驗發現,通過三通道輸入會使模型精度得到一定的提升。本文三種網絡分類結果如圖1所示。

圖1 三種模型的建筑物提取結果
從圖1可以看出,Seg-Net在大目標預測方面表現較好,但對于建筑圖象的細節部分,SegNet表現較差。FCN網絡雖然在整體上略強于SegNet網絡,但針對密集建筑物地區存在較多的虛假現象,容易將道路錯誤提取為建筑物,對建筑物密集區的提取結果較差。U-net網絡具有更精準的分割細節,對建筑物密集區區分能力更強,但是由于上采樣的弊端導致許多細小圖案之間存在粘連。實驗結果中還可以發現,許多圓形建筑均被檢測到,卻表現為正方形的預測值,進一步證實了上采樣的弊端,因此在該方面仍需改進。
2.2.3 實驗分析
為了更好地定量評價各種模型的分類效果,本文采用查準率(Precision)、查全率(Recall)及綜合分數(F1),見式(1)—(3)。

式中,TP為正確提取出的建筑物(單位為像素,下同),FP為虛警,即與參考結果無匹配的建筑物提取結果,FN 為漏分,即未提取出的建筑物,F1值越大,表明算法提取效果越好。
本次實驗中,對輸入方式做出了改變,將輸入圖片分為三個部分輸入:彩色通道、灰度通道、邊緣通道分別利用網絡提取不同類型特征,最后將特征結合以語義分割FCN網絡架構,同時也在U-net和SegNet網絡上進行了測試。從表1中可以看出來,在U-net網絡上訓練,其精確率相比在FCN有了有效的進步,也進一步證實了U-net網絡在二分類方面性能方面的強大。但當將本實驗輸入應用于SegNet網絡時,由于參數過多導致訓練難以進行,并且訓練也將會受到設備的限制,因此使用原始SegNet網絡進行實驗。

表1 三種模型對建筑物的分類精度
由圖1和表1可以發現,三類網絡得到的預測圖片在特征定位方面表現良好,但在細節方面明顯U-net網絡會強于其他兩類。但由于實驗所利用的圖片來源為同種圖片,來自同一地區,導致模型泛化性能較差。同時,通過對U-net網絡進行單輸入與多輸入進行實驗,雖然精確度有所下降,但對比發現整體預測得分有略微提升。
本文以VGG16網絡進行構建,對同一數據集迭代計算,通過對比FCN、U-net、SegNet三種網絡結構對高分辨率遙感影像建筑物自動提取的結果,得出U-net網絡結構特征提取結果最優的結論。在多次實驗中發現FCN模型雖然可以實現像素級別的特征提取,但在池化過程中往往會丟失部分細節信息,使得結果不夠完整,且計算量較為復雜。U-net模型基于VGG網絡搭建,將其作為編碼器,實現對建筑物像素級別的提取,并且增加Dropout層有效避免過擬合現象,還提高處理的效率和精度。所以,U-net網絡相比FCN和SegNet對細節的處理會更強。