胥智杰 ,楊小兵,何靈敏,潘承瑞
1.中國計量大學 信息工程學院,杭州 310000
2.中國計量大學 浙江省電磁波信息技術與計量檢測重點實驗室,杭州 310000
語義分割是將語義(類型)標簽分配給圖像的每個像素。高分辨率遙感圖像語義分割一直是遙感領域的一個長期研究課題。它在國土規劃、地理監測和智慧城市等領域中扮演著重要的角色。對高分辨率遙感圖像進行語義分割是非常困難的,尤其是在城市區域,因為那里有高度多樣化的人造物。具體來說,任務的挑戰性主要分為兩個方面,一方面是城市中大量的地物呈現出非常相似的視覺特征(樹和草坪)。另一方面是城市中精細結構的地物難以分割(樹和車),它們還會因為遮擋而相互影響。
在過去的20 年中,基于像素的方法和深度學習方法是高分辨率遙感圖像語義分割的主流方法。何靈敏等[1]使用基于像素的方法分割高分辨率遙感圖像。他們首先對高分辨率遙感圖像的不同類型地物進行像素點提取,然后使用提取的像素點訓練支持向量機,最后使用訓練好的支持向量機對測試圖像進行基于像素點的分類。這種方法能夠快速地對圖像進行語義分割,但是在分割時不考慮圖像的空間特征和圖像的拓撲關系,只考慮光譜信息,分割的結果常常帶有嚴重的椒鹽噪聲且分割精度較低。為了解決基于像素方法的缺陷,深度學習方法應運而生。相比于基于像素的方法,深度學習方法能夠從訓練圖像中自動學習空間特征和拓撲關系,并根據所學習到的特征進行語義分割[2]。FCN網絡[3-4]的提出是語義分割的一個巨大突破,它用卷積層代替了全連接層,允許任意大小的圖像分割,實現了端到端的訓練與預測。但是這種方法在物體邊界處的分割表現不佳。為了克服這一缺點,Chen等[5]在FCN網絡后引入了一個額外的條件隨機場去提高對象邊界的識別。不同于FCN 和條件隨機場結合的思想,Badrinarayanan 等[6]使用編碼器解碼器思想分割圖像,通過編碼器提取特征并壓縮特征圖的尺寸,解碼器逐步的恢復特征圖尺寸,來獲得平滑的邊界。膨脹卷積[7]的提出使在相同的計算量下得到了更大的感受視野,能夠捕獲多尺度空間特征,更好地分割不同大小的物體。Chen等[8]使用膨脹卷積加編解碼結構組建了DeepLabV3+分割網絡,該網絡具有捕獲多尺度空間特征的特點。這些優秀的網絡已經應用于各種遙感領域,但是它們不是專為高分辨率遙感圖像語義分割而設計,不能很好地分割精細地物和相似地物。
為解決該問題,本文提出了一種為高分辨率遙感圖像語義分割而設計的多尺度語義分割網絡(Multiscale Semantic Segment Network,MSSNet),并在國際攝影測量和遙感學會(ISPRS)提供的Vaihingen 和Potsdam數據集上進行實驗。此外,本文還進行了一系列的實驗來評估不同切塊策略對分割精確度的影響。綜上所述,本文的貢獻如下:
(1)提出了用于高分辨率遙感圖像語義分割的專用網絡MSSNet,它能夠準確地分割高分辨率遙感圖像。
(2)研究了高分辨率遙感圖像切塊時不同裁剪尺寸和塊間覆蓋率對分割精度的影響,為以后任務中切塊策略的選擇提供可靠的依據。
遙感技術的發展使獲得高分辨率遙感圖像更加的容易,豐富的訓練圖像使深度學習方法更容易學習圖像特征,促進了深度學習在遙感領域的發展。相比于基于像素的分割方法,深度學習方法能夠更好地理解紋理信息,得到更高的分割精度,避免椒鹽噪聲現象。
蘇健民等[9]提出使用改進的U-Net對高分辨率遙感圖像進行語義分割,該方法能夠快速地分割圖像,且對設備要求較低,但分割精度不夠高。Marmanisac等[10]提出使用FCN、SegNet和邊緣檢測相結合的集成學習方法對高分辨率遙感圖像進行語義分割,通過集成學習的方法減小分割誤差,取得了較高的分割精度。Chen等[11]提出了一種針對高分辨率遙感圖像語義分割的專用分割網絡SDFCN,它由編碼層和解碼層組成,并且加入了跳躍連接策略,相比于通用分割網絡,它有更高的分割精度,但是分割精度稍低于Marmanisac等[10]提出的集成學習的方法。Yue等[12]提出使用手動組網加自動組網相結合的方式組建高分辨率遙感圖像語義分割網絡。首先人工組建網絡的編碼層和解碼層,然后對人工組建的網絡進行訓練,最后在解碼層后加入自動組網結構重新訓練網絡,使網絡在訓練的過程中自己尋找最優的結構。這種方法能夠找到最適合的分割結構,取得較高的分割精度,但是在自動組網部分需要使用大量的GPU 長時間訓練,才能找到最優結構,訓練過程復雜。
基于編碼器解碼器結構的分割網絡一直是高分辨率遙感圖像語義分割的主流網絡。因為編碼器能夠很好地提取地物特征,解碼器結構能夠恢復特征圖尺寸并精確地進行基于像素點的分類。本文提出的多尺度語義分割網絡采用了主流的編碼器解碼器結構,網絡由編碼層、解碼層、輸出層組成,結構如圖1所示。在本章將詳細介紹多尺度語義分割網絡的結構。

圖1 多尺度語義分割網絡模型
在高分辨率遙感圖像中存在許多相似視覺特征的地物,例如草坪和樹林,大多數分割網絡在分辨相似的地物時往往會出現區域誤判,研究發現誤判的主要原因是對圖像特征提取不充分。為解決此問題,需要選用提取特征優秀的網絡作為編碼層,充分提取圖像特征。
在近幾年的ImageNet 圖像分類競賽上,ResNet101網絡[13]取得了95.4%正確率,是目前最優秀的卷積神經網絡之一,其特有的殘差結構可以更好地提取圖像特征,在反向傳播時避免梯度消失現象。對ResNet101進行了大量的實驗,發現它非常適合提取遙感圖像特征,使用它作為編碼層分割精度高于使用其他網絡。所以本文使用去除全連接層的ResNet101作為編碼層,它內部的一個個殘差塊作為編碼器,提取圖像特征。
在高分辨率遙感圖像中存在許多精細結構的地物,例如車、小段道路和單棵樹木。大多數分割網絡對精細結構地物分割時存在分割區域不準確現象,研究發現主要原因是圖像中地物尺度差異過大,圖像中既有小尺度的車,又有大尺度的樹林和建筑物群,造成網絡無法同時兼顧不同尺度的地物。為解決此問題,本文提出了一種全新的解碼器結構,如圖2 所示,它的輸入由兩部分組成,一部分是上一級解碼器的輸入,另一部分是跳躍連接層的輸入。上一級解碼器的輸出首先經過反卷積結構,擴大特征圖尺寸為原來的一倍,縮小通道數為原來的一半,然后合并經過空洞空間金字塔池化結構[8]提取的多尺度特征,最后經過兩個加入擠壓激活[14]的殘差結構進行基于像素點的分類,并在末尾使用1×1的卷積調整通道數為64。

圖2 MSSNet解碼器
與圖3的傳統解碼器相比,MSSNet的解碼器在跳躍連接層后加入了空洞空間金字塔池化結構,并替換了傳統解碼器最后兩個卷積層為加入擠壓激活的殘差結構。

圖3 傳統解碼器
擠壓激活結構如圖2(b)所示,該結構是一種注意力機制,加入殘差結構后會強化基于像素點的分類能力。加入擠壓激活的殘差結構相比傳統解碼器的單個卷積層,擁有更強的像素點分類能力,能夠更好地對地物進行分類。
空洞空間金字塔池化結構如圖2(d)所示,它能夠通過不同空洞率的空洞卷積獲取不同的感受視野,進而提取不同尺度的特征。為了使解碼器更好地提取地物不同尺度的特征,在解碼器中添加了該結構,并選擇了6、12、18的空洞率和3×3的卷積核,獲得了23×23、47×47、71×71的感受視野,感受視野的計算如公式(1)所示:

公式(1)中r為空洞率,ksize為卷積核尺寸。23×23 的感受視野接近車和樹的大小,能夠更好地提取這類小尺度地物的特征。47×47 的感受視野接近小片樹林和植被的大小,能夠更好地提取這類中尺度地物的特征。71×71的感受視野接近街道和建筑物的大小,能夠更好地提取這類大尺度地物的特征。
傳統語義分割網絡的輸出層只對最后一個解碼塊的輸出使用Softmax 分類,而它的輸出往往對語義(分類)信息比較敏感,在空間特征上比較粗糙,對位置、邊界、光線等信息不敏感。
MSSNet的輸出層結構如圖1所示,它首先合并5個解碼器的輸出,然后通過1×1的卷積調整通道數為類型數,最后使用Softmax 進行分類。相比傳統的輸出層結構,它除了獲取最后一個解碼器輸出的語義信息,還獲取了其他解碼器輸出的位置和邊界信息,使最終分割結果更加準確,邊界更加清晰。
本文在ISPRS 發布的兩個高分辨率遙感圖像數據集中對多尺度語義分割網絡進行了評估,數據集介紹如下。
Vaihingen數據集。數據集拍攝于德國的Vaihingen市,它包含3個通道的IRRG(Infrared、Red、Green)圖像、DSM(Digital Surface Model)圖像和NDSM(Normalized Digital Surface Model)圖像,圖像的平均大小為2 494×2 064,圖像總數為33 張,其中17 張用作測試集。本文實驗中使用16 張圖像作為訓練集,4 張圖像作為驗證集,17 張圖像作為測試集。實驗僅僅使用了IRRG 圖像,沒有使用DSM圖像和NDSM圖像。
Potsdam 數據集。數據集拍攝于德國的Potsdam市,它包含 IRRG 圖像、IRGB 圖像、DSM 圖像和 NDSM圖像。圖像大小為6 000×6 000,圖像總數為38張,其中14張用作測試集。本文實驗中使用17張圖像作為訓練集,5 張圖像作為驗證集,14 張圖像作為測試集。實驗僅僅使用了IRRG 圖像,并刪除了訓練集中兩張標簽錯誤的圖像。
實驗環境:硬件環境為NVIDIA TITAN X 顯卡,128 GB運行內存,Intel E5-2678V3處理器。軟件環境為Ubuntu16系統,Python3.6和Pytorch1.0開發環境。
數據預處理:首先使用512×512 的滑動窗口,按照128 的步長(塊間覆蓋率75%)進行圖像切塊,然后對切塊后的圖像進行歸一化,最后進行隨機鏡像,傾斜度為15°的隨機旋轉。
訓練策略:實驗使用了SGD 優化器,動量為0.9,初始學習率為0.01,最小學習率為0.001。損失函數使用交叉熵,學習率衰減方式為余弦退火,如公式(2)所示,迭代次數為100次,每50次重置一次學習率。

公式(2)中lrmin為最小學習率,lrmax為最大學習率,Tcur為當前迭代次數和Tmax為最大迭代次數。分別設置lrmax=0.001,lrmin=0.000 1,Tmax=50。
評估標準:為了定量地評估性能,實驗設置了三個評估量F1(F1 score)、MF1(Mean F1 score)、OA(Overall Accuracy)。單類型地物的評分標準使用F1,全局評分標準使用OA和MF1,公式如下所示:

公式(3)和公式(5)中tp為真正例,tn為假正例,fn為假負例,fp為假正例。公式(4)中n為地物類型數。
為驗證本文提出的多尺度語義分割網絡的性能,本文從深度學習網絡對比和基準方法對比兩個方面與現有的方法進行對比。
深度學習網絡對比,將MSSNet 與以下通用深度學習網絡進行對比。
(1)FCN[4]:FCN 是最經典的語義分割網絡,它將傳統CNN 中的全連接層轉化成一個個卷積層,實現了端到端的訓練與預測。
(2)SegNet[6]:首次提出使用對稱的編碼器解碼器結構進行語義分割。
(3)PSPNet[15]:提出了金字塔池化結構,該結構能夠聚集不同區域的上下文信息,進行場景理解。
(4)DeepLabV3+[8]:DeepLabV3+是目前最優秀的通用分割網絡,它提出了空洞空間金字塔池化結構,該結構能夠獲取不同尺度的地物特征。
基準方法對比:將本文方法與相同數據集論文方法和數據集排行榜方法進行對比,方法如下。
(1)SVL_3[16]:該方法使用DNVI、飽和度和NDSM特征,訓練了一個基于Adaboost 的分類器,應用CRF(Conditional Random Field)模型進行最終預測。
(2)UT_Mev[17]:該方法首先使用DNVI 對圖像進行預處理,然后使用MeVisLab軟件進行分割。
(3)HUST[18]:該方法使用隨機森林對圖像進行基于像素點的分類,再使用CRF處理預測結果。
(4)DLR_10[10]:該方法使用了FCN、SegNet和邊緣檢測相結合的方式進行分割。
(5)UZ_1[19]:該方法提出了一種新型的CNN-FPL網絡分割高分辨率遙感圖像。
(6)KLab_3[20]:該方法使用Shapmask網絡和RefineNet網絡進行分割。
(7)TreeNet[12]:該方法使用人工組網和自動組網相結合的方式組建了TreeNet網絡,并使用TreeNet進行分割。
高分辨率遙感圖像往往尺寸巨大,需要以滑動窗口的方式進行切塊,才能進行訓練和預測。在切塊時裁剪尺寸過小會造成網絡缺乏對全局場景信息的理解,過大會提高對GPU內存的占用,增加設備成本,不利于工業應用。相鄰塊間覆蓋率過小會造成訓練樣本數量減小,分割精度過低,覆蓋率過大會造成訓練樣本過多,訓練速度緩慢。什么樣的裁剪尺寸和塊間覆蓋率最適合進行分割是一個非常值得研究的問題。
為了研究切塊時塊間覆蓋率和裁剪尺寸對分割精度的影響,本文在Vaihingen 數據集上進行了不同切塊策略實驗。首先固定裁剪尺寸為512×512,分別按照0%、25%、50%、75%的塊間覆蓋率(步長分別為:512、384、256、128)進行實驗,實驗結果如圖4(a)所示,可以看出當覆蓋率為75%時OA和MF1得分最高。然后固定塊間覆蓋率為75%,按照256×256、320×320、416×416、512×512 的尺寸進行裁剪,實驗結果如圖4(b)所示,在512尺寸下OA和MF1得分最高。

圖4 不同切塊策略
為評估MSSNet 的性能,本文將其與通用的語義分割網絡進行對比,評估不同網絡對于分割精度的影響。
(1)Vaihingen數據集對比
表1 顯示了MSSNet 與其他通用網絡在Vaihingen數據集上的定量對比,從最終得分來看,MSSNet在MF1評分標準上高于目前最先進的通用分割網絡DeepLabV3+1.4個百分點,在OA評分標準上高于1個百分點。從不同分類上看,按照F1 評分標準,MSSNet 在所有分類上均取得第一名的成績。圖5顯示了MSSNet與其他通用網絡在Vaihingen 數據集上的定性對比,從第二行具有挑戰性的高密度車場景中可以看出MSSNet 對每一個車的分割都非常精細,而其他網絡多分現象明顯,甚至把陰影處的灰色車分割為建筑物。從第一行和第三行樹和植被較多的場景中可以看出MSSNet 分類錯誤情況較少,而其他通用網絡分類時經常混淆相似地物。

表1 在Vaihingen測試集上定量對比深度學習方法%
MSSNet 能夠取得如此好的成績原因主要有兩點:(1)MSSNet在解碼層加入了空洞空間金字塔池化結構,強化了多尺度特征提取能力。(2)MSSNet在輸出層合并了全部解碼器的特征,得到了更多的語義、位置、邊界信息,強化了分割能力。為了驗證MSSNet的解碼器在多尺度特征提取上的有效性,替換了MSSNet的解碼器為圖3所示的傳統解碼器,實驗結果如表1中MSSNet-TD所示。從最終得分上看OA 降低了1.1 個百分點,MF1降低了1.6個百分點。從不同分類上來看所有得分都降低了,尤其是車的得分,降低了3.5個百分點。從圖5中可以看出,精細結構的地物出現較為明顯的多分現象。實驗證明MSSNet 的解碼器相比于傳統解碼器擁有更強的提取多尺度特征能力。為了驗證MSSNet 輸出層強化分割能力的有效性,在替換解碼器為傳統解碼器的基礎上又替換輸出層為傳統輸出層,實驗結果如表1中MSSNet-TD-TO所示。從最終得分上看,相比MSSNet-TD 網絡 OA 降低了 1 個百分點,MF1 降低了 1.9 個百分點,從圖5中可以明顯看出地物邊界不清晰。實驗證明MSSNet的輸出層相比傳統網絡的輸出層能夠得到更多的位置和邊界信息,強化分割能力。MSSNet-TD-TO相比于 MSSNet,OA 降低了 2.1 個百分點,MF1 降低了 3.5個百分點,實驗證明MSSNet的結構相比于傳統分割網絡的結構在遙感語義分割上更加優秀。

圖5 在Vaihingen測試集上定性對比深度學習方法
(2)Potsdam數據集對比
表2 顯示了MSSNet 與其他通用網絡在的Potsdam數據集的定量對比。從最終得分來看,MSSNet 在MF1評分標準上高于第二名DeepLabV3+1.2 個百分點,在OA評分標準上高于1.1個百分點。從不同分類上看,按照F1評分標準,MSSNet在所有分類上均取得了第一名的成績。圖6 顯示了MSSNet 與其他通用網絡在Potsdam數據集上的定性對比,從第二行車較多并有單棵樹木的場景中可以看出樹和車的分割范圍精細,多分現象不明顯,而其他網絡多分、誤分現象嚴重。從第三行植被和樹較多的場景中可以看出樹林區域分割較為準確,植被和樹混淆現象較少,而其他網絡常常出現相似地物的誤分現象。

表2 在Potsdam測試集上定量對比深度學習方法%

圖6 在Potsdam測試集上定性對比深度學習方法
在Potsdam數據集的實驗中可以看出MSSNet的分割不具有單數據集偶然性,它在其他遙感數據集上依然表現良好。
為了評估所提出方法的有效性,將其與相同數據集論文方法和數據集排行榜方法進行對比。
(1)Vaihingen數據集對比
定量對比如表3所示,本文提出的方法獲得了87.0%的OA和85.3%的MF1,超過了大部分基準方法。從表3中可以看出DLR_10高于本文提出的方法,原因是它采用了FCN、SegNet 和邊緣檢測相結合的集成學習方法,減少了誤差。但是這種方法有訓練復雜、運行速度慢和對硬件要求高的缺點。在單網絡模型對比上,如表1 所示,MSSNet 明顯高于DLR_10 方法中的FCN和SegNet。

表3 在Vaihingen測試集上定量對比基準方法%
(2)Potsdam數據集對比
定量對比如表4所示,本文提出的方法獲得了87.3%的OA和88.7%的MF1,超過了大部分基準方法。從表4中可以看出TreeNet 高于本文提出的方法,原因是它采用了手動組網和自動組網相結合的方式,通過自動組網讓網絡自己選擇最優結構。但是這種方法訓練過程復雜,在自動組網部分需要大量的GPU 進行長時間運算才能找到最優結構。

表4 在Potsdam測試集上定量對比基準方法%
高分辨率遙感圖像的語義分割在國土規劃、地理監測等領域有著廣泛的應用,是遙感領域一個非常重要的研究課題。對高分辨率遙感圖像進行語義分割時首先要考慮分割精確度,因為在較大比例尺下,圖像分割錯誤1 cm就可能造成幾十米的誤差。
為了獲得更高的分割精確度,MSSNet 采用了較大的網絡架構,它由117 個卷積層構成,需要計算180 MB的網絡參數。在預測時需要占用3.6 GB顯卡內存,2 GB運行內存,在使用NVIDIA TITAN X 顯卡的實驗環境下一秒鐘可以分割28 張512×512 的圖像。在工程應用時為了流暢的運行,電腦配置應不低于Inter I5處理器,4 GB運行內存,6 GB顯卡內存。
本文提出了一種新型的多尺度語義分割網絡分割高分辨率遙感圖像,它的編碼層可以充分提取遙感圖像的地物特征,解碼層可以提取多尺度特征并進行基于像素點分類,輸出層能夠強化分割能力,輸出最終的預測結果。在Vaihingen 和Potsdam 數據集的實驗中可以看出MSSNet相比通用網絡模型具有更高的分割精確度,在相似地物分割上混淆率低,在精細地物分割上范圍準確。相比已發表方法,MSSNet 在相似地物和精細地物的分割上更為精確且訓練過程簡單、易于使用。
在未來,可以考慮使用更加適合提取高分辨率遙感圖像特征的網絡替換編碼層的ResNet101網絡,也可以在解碼層加入更加優秀的分割結構強化基于像素點的分類能力。