高 梁,錢育蓉+,劉 慧
(1.新疆大學 軟件學院,新疆 烏魯木齊 830046;2.新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046;3.新疆大學 信號檢測與處理重點實驗室,新疆 烏魯木齊 830046;4.新疆大學 軟件工程重點實驗室,新疆 烏魯木齊 830046)
遙感圖像處理在城市規劃、農林管理等方面具有重要作用,傳統的研究方法主要依賴于圖像的光譜、紋理信息,需要大量的人力、物力,并且這些方法往往只針對某幾類的地物進行分類,泛化性能較差。近年來,基于深度學習方法在圖像處理領域表現出突出的性能。卷積神經網絡(convolutional neural network,CNN)在語義分割任務中具有重要的應用。
基于CNN改進的網絡,往往會受限于卷積核的大小,只能獲取固定大小的感受野,使得圖像的上下文信息沒有得到充分利用[1]。為了擴大網絡的感受野,一些研究者嘗試使用多尺度上下文信息的融合的方法[2]、空洞卷積[3-5]的方法、自注意力的方法[6-8]。基于自注意力的Transfor-mer[9-11]可以通過建模全局的上下文信息[12]。但是,Transformer需要在大量數據的預訓練前提下,才能達到較好的性能,對于一些中型或者小型的遙感數據集中表現結果較差[13]。
多模態融合模型[14-16]可以綜合利用不同模態信息,能夠提高網絡的分割性能。常見的遙感圖像數據集通過俯視拍攝的方式獲取,其真實地物高度信息丟失,使得某些地物在水平方向上具有相似的特征,網絡容易誤分類。除此之外,遙感圖像還具有低照度、多遮擋、空間信息不足的特點。僅僅使用RGB圖像進行網絡訓練,無法充分利用遙感圖像中的空間信息,提高網絡分割的精度。遙感圖像的高度信息可以作為一種特征編碼加權普通圖像的特征信息。因此,為了進一步提高深度網絡在遙感數據集的分割能力,擴大網絡的感受野,本文提出了融合高度信息的遙感圖像語義分割網絡。
圖1顯示了本文提出網絡的總體結構。因為編碼器-解碼器結構可以有效擴大網絡的感受野,提高網絡獲取上下文信息的能力。因此,本文提出的網絡也是編碼器-解碼器結構的。如圖1所示,本文提出的網絡有5個模塊組成:普通圖像編碼器、數字表面模型(normalized digital surface model,nDSM)圖像編碼器、位置編碼模塊(Position Encoding)、Transformer和用于恢復圖像分辨率的解碼器組成。在解碼器結構的設計上,本文并不是簡單的對編碼器的鏡像。本文在解碼器中加入自注意力來建模像素之間的語義關聯,來提高網絡對特征的表達能力。

圖1 網絡的總體結構
本文設計了兩個編碼器分別從普通圖像和nDSM圖像中提取特征。除了第一層中輸入通道的數量不同外,兩個編碼器的結構彼此相同。本文選用殘差網絡(residual network,ResNet)作為提取特征的主干網絡。因為語義分割是一個端到端的任務。本文沒有使用ResNet中的全連接層,而是只使用了前四層用來提取特征。
普通圖像在普通圖像編碼器的開始階段依次經過一個卷積核大小為7×7的卷積層(convolution,Conv)、批標準化層(batch normalization,BN)、ReLu激活函數。在nDSM圖像編碼器中,因為nDSM圖像是一個單通道的圖像,所以將初始階段的卷積層的輸入通道數設置為1。在后面的特征信息提取過程中,圖像會經過池化層來降低特征圖的分辨率。然后,圖像在經過殘差層的過程中,圖像的特征信息會被網絡提取出來。在高級特征圖中,特征圖的每一個通道都可以被認為是網絡對某一類特征信息的響應。因此,圖像經過一系列的殘差層之后,網絡可以獲取輸入圖像豐富的特征信息。
nDSM圖像中包含了地物的高度信息,可以作為一種輔助的信息,來加權網絡對某類特征信息的響應。在網絡的編碼器提取特征的每一個階段中,nDSM圖像編碼器將獲取的特征信息融入到普通圖像編碼器中。通過這種方法來增強網絡對不同類別特征信息的表達。在編碼器的最后階段,提出的網絡將融合的特征圖輸入到位置編碼模塊中。
Transformer可以通過自注意力有效捕獲上下文信息。首先,將特征圖x輸入到位置編碼模塊進行特征融合,增加位置信息,增強標記嵌入模塊的特征提取能力,位置編碼模塊的結構如圖2(a)所示。位置編碼設計為逐像素的注意力,使得網絡可以處理任意大小的輸入圖像,不需要插值或微調。位置編碼模塊使用3×3的卷積來獲得像素方向的權重,然后通過Sigmoid函數進行縮放。x∈Rc×h×w為輸入的特征圖,c為特征圖的通道數,h和w分別為特征圖的高和寬,x在位置編碼模塊的計算過程如下所示

圖2 位置編碼器和Transformer設計細節
=BN(Conv(x))×Sigmoid(Conv(BN(Conv(x))))
(1)

圖3 EMSA設計細節
EMSA(q,k,v)=IN(Softmax(Conv(qkTdk)))v
(2)
在這里,Conv(.) 卷積核的大小為1×1,它可以模擬不同頭部之間的相互作用
x′=+EMSA(LN())
(3)
在EMSA之后加入了前饋神經網絡(feed-forward network,FFN),以進行特征變換和非線性處理
x=x′+FFN(LN(x′))
(4)
編碼器主要是用來獲取富含語義信息的特征圖。在解碼器部分,高級特征圖通過特征映射逐漸恢復到輸入圖像的分辨率。在本節中,將詳細描述本文設計的解碼器結構,該結構的設計細節如圖4所示。

圖4 解碼器層結構
圖像的上下文信息對于語義分割至關重要,提高網絡獲取上下文信息的能力可以提高語義分割的精度。自注意計算可以獲得像素之間的語義關聯,通過計算得到的協方差矩陣,可以判斷兩個像素之間的特征是相似和迥異。一個像素和特征圖中的其它像素進行自注意計算,就可以獲取該像素與特征圖中其它像素之間的關系。高級特征的每個通道的圖可以看作是一個類特有的響應,不同的語義響應是相互關聯的。通過利用任意兩個通道圖之間的依賴關系,本文改進了相關語義的特征表示。因此,本文將注意力加入到解碼器中來建模任意兩個通道之間的依賴關系。具體的,輸入的特征圖x∈Rc×h×w,c為圖像的通道數,h為圖像的高度,w為圖像的寬度。在x和x的轉置之間執行矩陣乘法。計算公式如下所示
ej,i=exp(xj×xi)∑Ci=1exp(xj×xi)
(5)
其中,ej,i第i個通道對第j個通道的影響
Ej=∑Ci=1(ej,ixi)+xi
(6)
另外,本文將ej,i與xi的轉置進行矩陣的乘法,得到的結果與xi進行元素求和的操作,最終得到經過特征增強的特征圖E∈Rc×h×w。Ej中的每個值都代表了當前通道圖與其它所有的通道圖的加權和,這模擬了通道之間的長期語義相關性。
為了驗證所提出方法的有效性,本文使用韋興根和波茨坦數據集進行網絡的測試。在這一節中,本文首先介紹數據集。然后,本文介紹了實驗中設置的一些參數。
2.1.1 韋興根
韋興根數據集包含33張圖像,每張圖像由從較大的正射影像鑲嵌圖中提取的真實正射影像組成,地面采樣距離為9 ms,每個圖像約為2500×2500分辨率大小。本文使用的圖像包含3個波段,分別對應于近紅外(near infra red,NIR)、紅色(Red,R)和綠色(Green,G)波長,即NIRRG圖像。本文使用了nDSM作為另外一種數據源輸入到網絡中。nDSM就是將數字表面模型(digital surface model,DSM)中的地表信息過濾,得到了所有高于地面的地物相對于地面的高度信息,能夠反映地物的真實高度。這種高度信息對于區分遙感圖像中不同類型地物(如建筑物與不透水表面、樹與矮植)具有重要作用。
請注意,本文使用了目標邊緣未經侵蝕的真實圖用于測試。本文按照官方的劃分原則,將其中的16張作為訓練集(圖像id:1,3,5,7,11,13,15,17,21,23,26,28,30,32,34,37),另外的17張作為測試集(圖像id:2,4,6,8,10,12,14,16,20,22,24,27,29,31,33,35,38)。為了適應本文實驗設備的GPU內存大小,本文將提供的原始圖片裁剪為256×256的小圖片,使用了隨機的橫向翻轉和縱向翻轉來增強數據集。
2.1.2 波茨坦
波茨坦語義標注數據集由38張圖像組成,地面采樣距離為5 ms,每個圖像約為6000×6000分辨率大小,該圖像為RGB圖像,使用nDSM圖像作為一個輔助數據源。本文按照官方的劃分原則,將其中的13張作為測試集(因為提供的標簽數據集中缺少03_13,所以選用的圖像id:02_13,02_14,03_14,04_13,04_14,04_15,05_13,05_14,05_15,06_13,06_14,06_15,07_13),另外的24張作為訓練集(圖像id:2_10,2_11,2_12,3_10,3_11,3_12,4_10,4_11,4_12,5_10,5_11,5_12,6_7,6_8,6_9,6_10,6_11,6_12,7_7,7_8,7_9,7_10,7_11,7_12)。本文同樣使用了沒有經過邊緣侵蝕的地面真實值用于測試,并且采用了和韋興根數據集相同的數據增強方式。
本文使用了數據提供者建議的評價指標,有:交并比(intersection over union,IoU)、F1分數(F1)、總體精度(overall accuracy,OA)、平均IoU(mean intersection over union,mIOU)、平均F1分數(mean F1-score,mF1)。在介紹這些指標的具體公式之前,先介紹混淆矩陣的一些符號:真正例(true positive,TP)、真負例(true negative,TN)、假正例(false positive,FP)和假負例(false negative,FN)
precision=TPTP+FP
(7)
recall=TPTP+FN
(8)
其中,precision代表了標記為正類的元組實際為正類所占的百分比。recall代表了正元組標記為正的百分比。
IoU和mIoU的計算公式如下
IoU=A∩BA∪B
(9)
mIoU=1N∑Nk=1IoU
(10)
其中,A代表了真實值,B代表了預測值,N為目標類別數。
F1、mF1和OA計算公式如下
F1=2precision×recallprecision+recall
(11)
mF1=mean(2precision×recallprecision+recall)
(12)
OA=TP+TNTP+FP+FN+TN
(13)
本文使用的實驗環境的參數版本為:PyTorch 1.4.0,CUDA 10.1,Python 3.7和CuDNN 7.6.5。這些網絡使用Adam優化器,權重衰減為0.0002。為了減輕不平衡類別的影響,本文采用的交叉熵損失權重如下所示
Wclass=1log(Pclass+c),c=1.12
(14)
Pclass是類別平衡參數,主要是解決數據集類別分布不平衡的問題。韋興根和波茨坦數據集中,本文將批處理大小設置為16,以適應本文的GPU內存,初始化學習率為0.0005,網絡在單個2080TiGPU上跑200 epochs。
在這一章節中,本文通過一系列的消融實驗討論了提出網絡的有效性。然后,本文將提出的方法在韋興根和波茨坦數據集中與最先進的方法進行比較,并且討論了實驗的結果。
在這一節中,本文將提出的網絡與基線網絡(fully convolutional network,FCN)進行實驗對比,FCN[1]將CNN中的全連接層替換為卷積層實現了端到端的輸出,使用了能夠增加特征圖尺寸的反卷積層,實現了精細的分割結果,極大推動了深度學習在像素級別的語義分割任務中的應用。在韋興根數據集中的定量比較結果見表1,黑色字體代表性能最好。雙分支網絡同樣使用了ResNet作為特征提取網絡,使用NIRRG和nDSM圖像作為輸入圖像,而雙分支+改進解碼器與雙分支網絡相比,多了一個基于自注意的解碼器。最后,本文提出網絡與雙分支+改進解碼器網絡相比多了一個Transformer。

表1 消融實驗結果
通過表1可以看出雙分支的網絡會比單分支的網絡實驗的結果要好,這應證了本文的猜想,多個數據源可以為網絡提供更多的特征信息,提高網絡的分割的精度。對比雙分支網絡和加了改進解碼器的網絡,可以看到提出的解碼器可以進一步提升網絡的特征提取能力。對比雙分支+改進解碼器網絡和本文提出的網絡,可以看到Transformer能夠進一步提升網絡性能。總的來說,本文提出的網絡在消融實驗中,比單分支網絡FCN提高了2.3%mF1、3.33%mIoU和2.41%OA。
為了更加清晰地展示本文提出的網絡的特征提取能力,使用了類激活映射的方法對FCN和本文提出網絡的最后一個卷積層進行了可視化,如圖5所示,圖像中的高亮區域代表了網絡對特定類別的重點關注區域,而在圖像暗的區域,則代表的是網絡不關注區域。類激活映射可以展示網絡對不同類別地物的識別能力。類激活映射圖最初在文獻[18]中提出,通過將特征圖與某個類對應的權重相乘,然后用熱力圖歸一化,最后將這些圖恢復到輸入圖像的大小,就可以看到網絡的重點關注區域。圖5中的第一列的第一行是輸入的普通圖像,第一列的第二行是標簽圖。圖5從第二列到第五列分別代表了網絡對不同類別的地物特征的識別能力。對比第一行和第二行的類激活映射圖,可以看到本文提出的網絡對特征識別能力更強。

圖5 消融實驗的類激活映射
混淆矩陣作為精度評價一種方式,可以看出網絡的分割性能。混淆矩陣中的主對角線是被正確分類數目的占比。在韋興根數據集結果的對比如圖6所示,混淆矩陣主對角線圖像塊的顏色越深,被認為是被正確分類的數據越高。從圖6中可以看出,樹和矮植容易被誤分類,這主要是因為樹和矮植在水平方向上特征相似,類間差異小,單數據源的FCN無法有效區分這兩種地物。但是將具有高度信息的nDSM圖像加入到網絡當中去時,可以看到本文提出網絡對這兩種地物誤分類降低。除此之外,從圖6中可以看出小尺度的車也容易被分到不透水表面的那一類中。這是因為小尺度的車在卷積運算獲取特征的過程中,容易受周圍的不透水表面特征的影響,本文提出的網絡因為使用了具有自注意力機制的解碼器,可以增強對特征的提取能力,因而本文提出的網絡可以較好的識別這兩種地物。除此之外,Transformer可以建模全局的上下文信息,使得網絡能夠識別當前像素與圖像中其它像素的關系,因而本文提出的網絡可以對像素進行更加準確分類。
本文在韋興根數據集上將本文的網絡與Unet[19]、RESUnet[20]、Fast-scnn[21]、PSTNet[16]、MAVNet[22]、MFNet[23]、RTFNet[24]進行實驗對比。Unet采用了一個編碼器-解碼器的結構來擴大網絡的感受野,并且通過級聯的方式將低級細節信息融入到高級的特征圖當中,但是Unet冗余信息太多,導致網絡訓練很慢。RESUnet主要實現了Unet和Resnet的結合。Fast-scnn針對卷積運算進行了改進,減少了重復計算。PSTNet是一個融合RGB圖和熱圖的網絡,但是該網絡在處理nDSM圖像時,出現了網絡不收斂的情況,考慮到PSTNet不能有效的從nDSM圖像中獲取高度信息,在實驗中主要是針對普通圖像進行了實驗。MAVNet 是一種用于微型飛行器的高效殘差分解卷積網絡。MFNet是一種融合RGB圖像和熱圖的網絡,解決了夜間能見度低和惡劣天氣條件下獲取的RGB圖像分割精度低的問題。在RTFNet融合了RGB和熱圖實現了低照度和眩光條件下的高精度語義分割。
本文分別對比了單一數據源和多數據源網絡的實驗性能。對于單分支的網絡,NIRRG圖像是三通道的圖像可以直接輸入。除此之外,為了驗證高度信息在單分支網絡中的作用,本文還將NIRRG和nDSM圖像合并為四通道圖像輸入到單分支網絡中。對于雙分支的網絡,NIRRG和nDSM圖像可以分別輸入到編碼器當中。所有網絡都經過訓練,直到損失收斂,實驗結果見表2,黑色字體表示最好的結果,下劃線表示次好。

表2 韋興根數據集定量比較結果
通過表2可以看出本文提出的網絡在綜合指標mF1、mIoU和OA取得最好的性能,并且對建筑物、矮植、不透水表面有一個好的分割結果,但是在樹和車這兩個類別中可以得到第二好和第三好,主要的原因是樹和矮植特征相似,網絡在獲取樹的特征容易受到周圍矮植特征的影響,這個問題在其它網絡的分割結果中也有所體現。因此遙感圖像中的這種類間相似性對分割模型的性能有較大的影響,仍然是當前遙感領域需要研究的問題。車相較于其它地物高度信息不明顯,nDSM提供的高度信息不能有效提高車的識別結果。
在韋興根數據集中的定性比較結果如圖7所示。通過圖7可以看出本文提出的網絡可以對不同大小的地物有一個較好的識別,并且對不同大小的地物邊界識別較為精確。遙感圖像中的類間相似性也是影響網絡識別性能的重要因素,方框的區域來看,樹和矮植就是具有這種類間相似性的兩種地物。這兩種相似的地物如果僅僅只通過NIRRG圖像來看,肉眼很難分辨出兩種地物的邊界。從圖7中可以看出UNet_3、RESUnet_4、Fast-scnn_3、Fast-scnn_4、PSTNet、MAVNet不能對樹的邊界實現有效的識別,而本文的網絡可以從高度信息特征和全局上下文信息的層面獲取關于地物的特征信息,實現較為精確的分類。

圖7 韋興根數據集定性比較結果
本文在波茨坦數據集中對比了單一數據源和多數據源網絡的實驗性能,實驗結果見表3,黑色字體表示最好的結果,下劃線表示次好。對于單分支的網絡,RGB圖像是三通道的圖像可以直接輸入。除此之外,為了驗證高度信息在單分支網絡中的作用,本文還將RGB和nDSM圖像合并為四通道圖像輸入到單分支網絡中。對于雙分支的網絡,RGB和nDSM圖像可以分別輸入到編碼器當中。所有網絡都經過訓練,直到損失收斂。

表3 波茨坦數據集定量比較結果
通過表3可以看出,本文提出的網絡可以對不同大小的地物有個較好的識別。總的來說,本文提出的網絡在指標mIoU、OA和mF1均能達到最好的結果。但是針對樹和車這類目標仍然存在著一些性能上的不足,針對無法通過高度信息融合來提高分類精度的地物,仍然需要探尋其它有效的方法來提高遙感圖像語義分割的精度。
在波茨坦數據集中的定性比較結果如圖8所示。從圖8中可以看出本文對不同類別的地物均有一個較為準確的識別。特別的,在圖8中方框區域,汽車的右邊有一棵樹,但是因為樹只有枝干,肉眼很難分辨出樹特征。網絡對于這樣的地物特征也很難處理,導致Unet_4、RESUet_3、RESUet_4、Fast-scnn_3、Fast-scnn_4、PSTNet、MAVNet對于這一區域識別的不夠準確,出現了大量的誤分類。本文提出的網絡可以從多個數據源上獲取特征信息,并且利用Transformer有效獲取特征圖的上下文信息。因此,本文提出的網絡實現較為準確的分割。

圖8 波茨坦數據集定性比較結果
本文提出了一個融合高度信息的遙感圖像語義分割網絡。該網絡采用了雙分支的結構,分別提取普通圖像和nDSM圖像的特征信息。針對傳統的卷積網絡無法有效獲取上下文信息的問題,本文提出的網絡融合Transformer,Transformer通過EMSA獲取特征圖的全局上下文信息,能夠提高網絡的特征提取能力。除此之外,本文還將自注意力加入到解碼器當中,使得解碼器對于高級特征圖的語義信息建模的更加準確。通過類激活映射圖可以看到本文提出的網絡對于地物的特征信息更加敏感。通過對比實驗驗證本文提出的網絡與其它先進的網絡相比,取得了一個具有競爭力的結果。通過實驗發現對于某些地物不能通過融合高度信息提高分割的精度,后續將繼續進行多模態語義分割的研究,來提高模型的分割精度,并考慮推廣到城市規劃的實際應用當中。