柏潔馨,湯泊川
(1.新疆大學 軟件學院,新疆烏魯木齊,830046;2.新疆大學 軟件工程重點實驗室,新疆烏魯木齊,830046)
語義分割為圖像的每個像素分配語義標簽,是像素級的分類任務。在遙感領域,語義分割也稱為土地利用和土地覆蓋類型的分類 ,在遙感的智能解譯中起著重要作用,并為許多遙感應用提供了基礎,例如土地資源管理[1]、城市規劃[2]等。
傳統的圖像分割方法根據圖像的顏色、空間結構和紋理信息等特征進行處理分析。隨著GPU的飛速發展,深度學習在許多領域實現了相當大的突破,憑借其強大的特征表達能力和數據擬合能力,許多不同類型的深度學習模型被廣泛應用于語義分割任務[3]。例如,Long提出了一種可以接受任意尺寸圖像輸入的全卷積網絡(FCN)[4]。Zhao提出的 PSPNet[5]使模型能夠考慮更多的全局上下文信息,并促進多尺度特征的融合。與PSPNet類似,由Chen提出的DeepLab V3+[6]網絡也考慮了更多的上下文信息,具有更高的分割精度 。近年來注意力機制也被應用在遙感圖像語義分割領域[7],它屬于一種優化策略。受上述網絡的啟發,我們提出了一種結合注意力機制和多并行空洞空間金字塔池的網絡SMANet,用于高分辨率遙感圖像的自動解譯。
本文網絡整體設計采用編碼器-解碼器結構,如圖1所示,上部表示編碼結構,下部表示解碼結構。在網絡編碼階段采用ResNet50 作為主干網絡,編碼部分特征提取被劃分為四個階段,由于過多的下采樣操作會導致像素信息的丟失,故將Stage4階段的所有3×3卷積替換為空洞率為2的空洞卷積,使圖像只下采樣到原圖的1/16,減少圖像像素損失的同時增大網絡的感受野。另外增加了注意力模塊及條形池化模塊,以增強網絡對小目標物體及條帶狀目標物體的關注度。最后通過多并行空洞空間金字塔模塊MASPP(Multiparallel atrous spatial pyramid pooling)獲得的特征圖可用于提取有關類別和空間上下文的更詳細信息。由于連續上采樣會導致目標物體信息的細節丟失,因此在解碼階段本文將多個尺度的特征圖融合,以確保保留目標的局部細節特征。最后,將融合后的特征經過雙線性插值上采樣到原圖大小,再通過SoftMax分類器進行分類,得到最終分割結果。

圖1 網絡整體結構圖
在遙感圖像中的道路和水體是窄的、條帶狀的細長區域,具有方形核形狀的傳統池化層忽略了線性特征的建模。相比之下,條帶池更符合這些條帶狀目標的形狀,它利用長而窄的內核來捕獲道路區域中的長距離依賴性,從而增強CNN模型中線性特征的嵌入,因此本文引入了由SPNet[8]提出的條形池化模塊SPM。
SPM使用具有長但窄的內核形狀的多個條帶池層,從水平和垂直方向捕獲多尺度長距離上下文。與全局平均池化相比,條形池化關注的是長而窄的范圍,而不是整個特征圖,從而避免了在相距很遠的位置之間建立不必要的連接。但如果將網絡中的所有Pooling操作全部換成Strip Pooling操作,則會導致原來的非長條物體的效果變差,且SPM為輕量級模塊,因此將SPM添加到主干網絡每個階段中最后一個構建塊的3×3卷積層之后。

圖2 SPM模塊結構圖

圖3 MASPP模塊結構圖

圖4 CBAM模塊結構圖
空洞空間金字塔池化(ASPP)是DeepLabv2[9]提出的一個模塊。它的結構由不同空洞率的并行空洞卷積組成,不同空洞率下的空洞卷積感受野也不同,因此ASPP可以準確有效地識別任何尺度的信息。DeepLabv3[10]的工作表明,并行結構比順序結構執行得更好。但ASPP模塊和PSPNet[5]中的SPP模塊都沒有注意到它們在不同規模輸出上下文中的層次依賴性。本文在在ASPP模塊的基礎上提出了MASPP模塊,將不同空洞率的空洞卷積串聯起來,從而彌補空洞率過大造成的信息丟失。聚合分層信息的方式是從全局到局部,較大區域的上下文信息用于幫助提高較小上下文中的準確性,這樣的結構可以充分利用多尺度上下文的層次依賴性。原ASPP空洞率分別為6、8和12,限制了信息尺度的豐富性,并忽略了小對象的識別和檢測。因此本文將空洞率設為1、3、5,以保證大小目標都獲得關注。然后,將MASPP模塊的并行輸出結果按卷積核從大到小的順序進行融合,融合的結果與經過1×1卷積的編碼器特征映射相乘。最后,利用全局平均池化生成具有全局上下文的權重向量,以幫助選擇關鍵特征。
低層特征映射包含了大量的細節信息,如形狀、邊界、面積等,而高層特征映射提取了更多的語義信息,可以對像素進行分類。為了使模型能夠聚焦于分散的目標,在編碼階段,加入CBAM模塊[7]。主要包括兩個部分:通道注意力和空間注意力。首先,為輸入特征映射建立通道注意模型,對輸入的特征圖做全局平均池化和全局最大池化,每個通道的權重通過自學習自動獲得,再將輸出結果與輸入的特征圖相乘,得到一個通道注意特征映射。然后,進行空間注意建模,并將上述通道注意特征圖作為輸入進行空間卷積運算,獲得特征圖上不同空間位置對應的注意權重。最后,將通過空間和通道混合注意機制處理的特征圖乘以輸入的通道注意特征圖,進行自適應特征細化。在訓練和預測過程中,該模型能夠更好地聚焦于遙感圖像中最重要的特征通道和空間位置,從而提高了模型的檢測能力。
本文選用公開數據集進行實驗。
使用到的數據集是武漢稠密標記數據集(Wuhan dense labeling dataset,WHDLD)。該數據集是對武漢市區的一副大型遙感圖像裁剪得到的,可用于多標簽任務,每個圖像的像素都被手動標記為建筑物、人行道、植被、道路、水以及裸露的土地這六類。該數據集分別有4940張大小為256×256的原圖和標簽,我們將數據集按9:1的比例進行隨機劃分,得到4446張圖像作為訓練數據集,494張圖像作為測試集。
在實驗中采用平均像素精度(mPA)、平均交并比(mIoU)這兩個主流評價指標來評估模型的好壞。mPA計算每個類內預測正確的像素數目比重,之后求所有類的平均數,如公式(1)所示;MIoU 表示模型計算預測得到的標準圖像與人工標記的圖像交集與并集之比,如公式(2)所示。
TPc表示正確預測的正樣本的數量,FPc表示錯誤預測的正樣本像素數量,TNc表示正確提取負樣本像素的數目,FNc表示遺漏的負樣本的的像素數目,N表示類別的數量,c表示特定類別。
本實驗操作環境為64位Windows 10,采用 Pytorch深度學習框架,編程語言為Python3.8,通過 NVIDA 2080TI 11GB GPU 進行加速,測試及訓練都在該平臺上進行。使用ResNet50 預訓練權重、采用ReLU激活函數以及交叉熵損失函數對網絡進行訓練,使用Adam優化器進行網絡梯度的更新,權重衰減設為2×10-5,迭代次數設為180,學習率衰減設置為(1-(cur epoch/max epoch))0.9,批處理大小設置為8。
為了驗證提出模型的有效性,在WHDLD數據集上分別對MASPP模塊、SPM模塊及CBAM模塊進行消融實驗。
如表1,模型一是以Resnet50為主干網絡的DeepLabV3+模型,評價指標mIoU僅有61.51%;引入SPM模塊后mIoU提高了0.51%,表明SPM模塊對條帶狀結構物體預測性能的提升;添加MASPP模塊后mIoU較模型1又提高了1.91%,表明該模塊捕獲多尺度上下文信息的有效性;模型4添加了CBAM注意力模塊后mIoU又比模型3有了0.25%的提高,表明該模塊能夠較好地聚焦于遙感圖像中最重要的特征通道和空間位置,從而提高模型的檢測性能。同時添加該三個模塊后 mIoU 比基線模型提高了2.67%,充分證明了本文所提出方法的有效性。

表1 消融實驗結果
為了進一步驗證本文提出的 SMANet網絡模型的有效性,我們選擇了一些語義分割方面經典且有效的網絡進行對比實驗,有FCN[4]、PSPNet[5]、DeepLabV3+[6]、SPNet[8]和SegNet[11],另外,近兩年興起了基于Transformer模型的網絡,我們也對其進行了對比實驗,如CSWin Transformer[12]。為保證實驗的公平性,統一部署在相同環境中進行訓練和測試過程,且所有圖像尺寸和實驗參數設置都保持一致。
WHDLD數據集對比實驗:為了驗證網絡復雜場景的分割效果,故在WHDLD遙感圖像數據集上進行對比實驗,結果如表2所示。因為該數據集圖像的亮度較暗,導致所有網絡在此數據集上的分割性能都有下降。從表2可以看出,經典的SegNet[11]網絡在該數據集上的mIoU精度僅達到了42.14%,雖然我們的mPA沒有取得最好的驗證結果,但是我們的mIoU值比效果次好的CSWin-B網絡高出了2.88%,比SegNet網絡的mIoU精度高了22.04%。

表2 WHDLD數據集對比結果
本文提出了一種基于ASPP改進并結合注意力機制的語義分割神經網絡,用于在遙感圖像上執行圖像語義分割任務。對于遙感圖像中大類內方差和小類間方差的特征,將空間和通道注意機制引入模型中以引導模型關注更有價值的特征。提出了一個MASPP模塊,以幫助模型從全局到局部細化對象細粒度信息。實驗結果表明,本文所提出的網絡與現有網絡對比能夠提升一定的分割精度。未來工作計劃在提升精度的同時降低計算量,采用輕量級的網絡結構,加快模型訓練速度,以更好的應用在實際工作中。

圖5 WHDLD數據集可視化結果圖