








關鍵詞:遙感圖像;圖像分割;輕量化;多尺度
0引言
隨著遙感技術的飛速發展,多分類遙感分割作為一項關鍵任務,成為解決全球資源管理、環境監測和城市規劃等復雜問題的關鍵技術。從高分辨率遙感圖像中準確地提取和分類地表信息,對于推動可持續發展、應對氣候變化以及解決自然災害等挑戰至關重要。遙感圖像復雜程度高,一般包含多種類別信息,圖像中不同目標的尺寸大小也千差萬別,在上述影響下想要實現遙感圖像的精確分割十分困難,這一任務的復雜性和數據的高維度性質使得傳統的分割方法面臨嚴峻挑戰。
傳統分割方法主要有包括分水嶺算法、邊緣檢測法、閾值分割法和區域生長法等。這些方法相比于人工分割,在提高檢測效率的同時避免了人工分割誤差的產生。然而這些方法只能對單一、非變化場景的分割起到較好的分割效果,并不具有普適性。在面對多類別、復雜地形和光譜變化的情況下,常常難以同時保持高準確度和高效性。近年來,深度學習技術的興起為解決這些挑戰提供了新的可能性。以FCN、U-Net和DeepLabv3+等為代表的語義分割方法,對每個像素賦予合適的標簽,實現了圖像端到端的像素級分類。Alam等將U-Net和SegNet結合起來生成一個集成式網絡進行分割,其在BDCI數據集上取得了高于U-Net和Seg-Net單個模型的分割效果。Sravya等提出了一種深度明智金字塔池網絡-DPPNet,使用了具有多重擴展深度明智殘差連接的密集塊。Shen等提出了一種基于殘差塊和多尺度特征融合的語義分割網絡,可以提取信息更加豐富的特征圖,性能超越了U-Net。然而,盡管深度學習模型在提高分割精度上取得了顯著成果,但其通常伴隨龐大的參數量和復雜的計算過程,對計算資源要求較高,限制了在資源受限的場景中的應用。輕量化模型的設計不僅關乎對地球資源的高效管理,還關系到在移動平臺、嵌入式系統和邊緣計算環境中實現實時、高效的遙感分割應用。目前一些主流的經典輕量化分割網絡包括ICNET、ENET和CGNET等,這些輕量化網絡模型小、運算速度快,但大都輕量化過度導致分割效果差。因此,在保證模型精度的前提下,如何減少分割模型參數量使其更加輕量化并提高推理速度是當前研究亟需解決的問題。同時針對遙感圖像本身類別多樣、目標尺寸不一等特點,在模型設計中需要采取一些多尺度的特征提取方式來保證更豐富的特征從而實現精確分割。
因此本文重點研究如何設計一個多類別遙感分割模型利用多尺度特征提取方式提高分割性能的同時,在模型輕量化方面也取得顯著進展。由此提出了一種輕量化多尺度遙感分割模型,該算法使用了2種輕量化卷積塊結合而成的主干網絡,其中一種卷積-MSConv采用多尺度特征提取方式,并且模型加入了改進過后的注意力機制——特征融合注意力模塊(Feature Fusion Attention Module,MSAM)和更加輕量化的池化方法——局部重要性池化(LocalImportance Pooling,LIP)以及多尺度特征提取——空洞空間卷積池化金字塔(Atrous Spatial PyramidPooling,ASPP)模塊。在公開數據集WHDLD上進行了消融實驗并與一些經典分割模型進行了實驗對比,以驗證模型的可行性和先進性。
1本文方法
多尺度特征提取分割網絡(Multi-Scale FeatureExtraction and Segmentation Network, MSNET)模型結構如圖1所示,由3個主要部分組成:基于Mobile-NetV2的輕量化編碼網絡部分,多尺度特征提取ASPP模塊部分,以及基于多尺度特征融合解碼模塊MS-Modle的解碼部分。MobileNetV2骨干網絡采用1、3、7數量排列。下采樣(DownSample)采用LIP模塊,上采樣(UpSample)采用雙線性插值上采樣。
1.1輕量化編碼部分
對于應用于高分辨率遙感圖像的語義分割問題設計的深度學習算法來說,受到應用設備的內存和功耗限制,網絡本身的輕量級和高效性尤為關鍵。如何在減少網絡計算量的同時保證精度受到了廣泛關注,其中MobileNet系列表現出色,于是使用MobileNetV2作為編碼網絡。MobileNetV2在V1深度可分離卷積的基礎上采用了具有線性瓶頸的結構,使得V2的精度和運行速度進一步得到優化。MobileNetV2模塊結構如圖2所示,卷積模塊由倒置殘差結構組成,首先使用1x1標準卷積進行升維,然后通過深度可分離卷積提取特征,最后使用1×1標準卷積進行降維然后輸出。這種設計減少了參數量又極大地保留了提取特征的豐富度,同時減少了信息丟失。
1.2多尺度特征融合解碼模塊MS-Modle
多尺度融合解碼模塊MS-Modle由特征融合部分和輕量化解碼部分構成。特征融合部分使用MSAM把編碼部分和解碼部分的特征圖進行融合,并使用通道加空間注意力機制進行特征提??;輕量化解碼部分使用多尺度卷積MSConv作為解碼卷積,在遙感圖像復雜場景情況下多尺度特征提取可以發揮很好的作用,以實現輕量化的同時保持分割性能。
1.2.1MSAM
MSAM在卷積塊注意力模塊(Convolutional BlockAttention Module,CBAM)的基礎上改進而來,整體結構如圖3所示。首先,在CBAM模塊的網絡架構中加入殘差的思想,將原始特征F與經過通道注意力和空間注意力的特征F直接求和進行融合。其次,將通道注意力模塊的全連接層替換為一維卷積,避免了全連接層破壞圖像結構。
經過一系列處理后,特征圖的尺寸不會改變,因此這種注意力機制可以便捷地插入到任何特征之后,網絡不需要做改變。最后,將F與輸出特征F采用殘差思想向結合生成最后的特征圖F,如式(3)所示,F與編碼層特征進行通道拼接最后輸出。
1.2.2輕量化解碼部分
在解碼部分更加專注多尺度的特征提取,于是在解碼部分的卷積模塊使用了設計的多尺度輕量化卷積模塊MSConv。ConvNeXt模型設計時就已經證明了7x7卷積的分割性能為最優,但受制于7x7大小卷積帶來的巨大參數量以及計算量,7x7卷積并沒有得到研究者大量使用。在MSConv中,采用通道二分組然后分別進行3x3大小深度卷積和7x7大小深度卷積探測相結合的方式,相比普通7x7標準卷積大大降低了參數量,同時2種不同大小的卷積核能夠探測到不同尺度的特征。在解碼部分使用這種多尺度的模塊能更好地利用多尺度MSAM部分輸出的特征圖,使分割精度更高。模塊結構并沒有使用主流的殘差結構或者倒殘差結構,使用了一種新型結構,先進行特征提取然后再進行特征升維降維,這種方式更加輕量化,同時在分割效果上幾乎與主流結構效果一致。MSConv結構如圖4所示,輸入的特征圖進行分組為2組,2組特征圖分別進行3x3深度卷積和7x7深度卷積,然后分別進行1X1升維和降維,其中升維降維比率設置為3倍。
1.3ASPP和LIP池化
本文利用即插即用的ASPP模塊和LIP模塊來進一步提升模型的性能以及輕量化改進。ASPP模塊是從空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊演變而來的,其目的是通過不同尺度的卷積核對特征進行采樣,從而實現對任意尺度的區域進行準確有效的分類。這種融合局部和全局特征信息的方法可以增強空間維度上特征之間的相關性。
卷積神經網絡(Convolutional Neural Network,CNN)通常使用下采樣來縮小特征空間,但是在一些特別的任務中可能會丟失一些重要細節,損失模型精度。在下采樣的過程中自動增加特征判別功能能夠在一定程度上緩和這一現象。LIP模塊就是通過輸入特征自動學習重要性度量來更新模塊參數權重,自適應地確定哪些特征更重要,需要通過下采樣來保持,從而減少了重要信息的丟失。在網絡的特定層中引入這種池化機制,可以使網絡更加專注于圖像中的關鍵特征,從而在圖像分割中取得更為優越的性能。
2實驗
為了驗證本文方法的有效性,在公開的WHDLD數據集上與一些經典的分割算法進行了對比實驗。本節介紹所使用的數據集、實驗環境、評估指標和實驗結果。
2.1數據集
WHDLD數據集是武漢大學發布的開源遙感圖像分割數據集,圖像分辨率為256pixel×256pixel;類別為裸土、建筑物、人行道、道路、車輛和水體6類,共有4940張圖像。按照4:1的比例隨機劃分每個類別的訓練集和驗證集,其中3952張圖像用于訓練,988張圖像用于測試。WHDLD數據集的一些圖像和標簽如圖5所示。
2.2實驗環境和評估指標
本文的實驗硬件環境為NVIDIA GeForce RTX30708 GB, Intel(R)Core(TM)i7-10700K CPU@3.80 GHz,64GB運行內存;軟件環境為Python3.8,PyTorch 1.12.1。
為了評估模型分割的準確性,使用平均交并比(Mean Intersection over Union,MIoU)、像素準確率(Accuracy)、精準度(Precision)、Recall(召回率)和F1-Score來衡量分割性能。用參數量、計算量和在GPU上單張圖片的運算時間作為模型輕量化的參考。
2.3對比結果分析
為了公平地比較,各模型添加的模塊的參數、數據集、輸入圖像大小、相關超參數、訓練策略和實驗環境等,在對比實驗以及消融實驗、注意力機制實驗、網絡對比實驗中都是相同的。
2.3.1網絡對比試驗
為了進行全面評估、驗證本文方法的有效性,在WHDLD數據集上進行了2種網絡對比實驗:一種是主流經典大模型和MSNET進行對比,另一種是主流輕量化模型和MSNET的對比。
第一組是主流經典大模型DeepLabv3+、SegNet、PspNet和MSNET進行實驗對比。各模型在WHDLD數據集上的測試結果如表1所示。
由表1可以看出,MSNET在MIoU、F1-Score、Accuracy、Precision和Recall上明顯優于其他經典分割網絡,特別是MIoU達到了72.43%,遠遠超過了其他模型。綜合指標F1-Score和Recall達到83.12%和83.11%,相比于其他模型增幅十分明顯。這也代表了模型的整體均衡表現優秀,魯棒性良好。MSNET的參數量和計算量相比其他網絡有大幅下降,使得MSNET模型對設備計算、存儲性能的要求低,運算時間在GPU上為7.46ms,相比于其他模型速度提升明顯。這些都得益于輕量化骨干對模型的減重,以及模型整個架構的設計。本實驗也證實了MSNET性能全方面表現出色。
第二組是主流輕量化模型ICNET、ENET、CGNET和MSNET進行實驗對比。各模型在WHDLD數據集上的測試結果如表2所示。由表2可以看出,盡管MSNET的參數量計算量和其余模型相比并不具有優勢,但是單純看參數量和計算量并不能體現模型運算速率的快慢,只能說在存儲上有一定優勢,而0~3M的參數量差距對目前大部分設備的內存容量影響微乎其微。實際上模型推理速度不單單受模型參數量、計算量的影響,也與訪存量和一些其他因素息息相關。在ShuffleNetV2中提出:①同樣大小通道數可以最小化內存訪問代價(Memory Access Cost,MAC)。②太多分組會增加MAC。③網絡碎片化會減少并行度。所以本模型大量使用了相同輸入輸出的卷積操作,并且僅僅使用了對運算效率影響最小的二分組卷積來減少計算量、參數量,整體架構大多采用相同模塊堆疊而成不會產生太多碎片化操作。因此MSNET模型在與其他輕量化模型的對比實驗中能夠產生參數量、計算量高于個別模型但是計算速率更優的效果,取得了7.44ms的最優運算速率,并且在分割精度上各項指標都優于其他輕量化模型,特別是綜合指標MIoU和F1-Score提升較大。本實驗也證明了MSNET模型在輕量化模型類別中的出色表現。
在DLRSD遙感數據集上驗證了本文模型的有效性,該數據集是一個密集的標簽數據集,共包含17個類別,分割難度更高,數據集包含2100張圖片和標簽對,按照8:2的比例劃分為訓練集和測試集。訓練結果如表3所示,與在WHDLD數據集中的結果基本一致,MSNET的分割精度指標相較于其他模型都有小幅提升,各指標提升幅度均在3%~9%,這也充分證明了MSNET模型的普適性。
2.3.2消融實驗
為了驗證MSNET各模塊的合理性和有效性,設計了消融實驗來探究網絡中不同模塊組合的執行對結果的影響。WHDLD數據集上MSNET的消融實驗如表4所示,基礎算法Baseline為圖一模型不添加注意力機制MSAM、ASPP模塊以及未使用LIP下采樣,使用MobileNet卷積下采樣狀態,當Baseline僅使用主干網絡提取特征并輸出結果而不添加任何模塊時,MIoU和F1-Score僅為70.33%和81.57%。添加ASPP模塊、MSAM、LIP模塊時都在之前基礎上得到了分割精度指標的全面提升。添加完所有模塊后的模型MSNET在綜合分割指標MIoU、F1-Score上分別上升至72.43%、83.12%,并且在所有模塊添加完后運算速率并未產生較大增幅,7.74ms的運算速率依舊是一個非常不錯的速度。這些消融實驗表明,所提出的網絡模塊在執行分割任務時可以有效提高分割精度,并且對運算速率影響較小。
2.3.3注意力機制改進實驗
為了驗證改進的注意力機制,設計了注意力機制的消融實驗,結果如表5所示。可以看出,基礎算法Baseline(ASPP)為上文基礎算法Baseline添加ASPP模塊狀態。原始的CBAM注意力機制并未帶來分割效果的明顯提升。然而,當使用改進的方法時,比使用基準網絡取得了更好的結果。證實改進后的特征融合注意力模塊MSAM更有效。
2.3.4各模型預測圖對比
WHDLD數據集中各模型預測圖對比如圖6所示,可以看出,MSNET在預測效果上整體最佳,能有效分割簡單圖像及復雜圖像,除去過于細致部分都能準確分割。其他對比模型在一些簡單預測圖上基本都能較好地分割出目標類別,但在復雜圖像上部分模型出現細節不夠、類別錯誤等問題,其中ENET表現最差,在簡單圖像和復雜圖像的預測上都出現了較大誤測。
3結束語
近年來,隨著衛星成像技術和深度學習技術的發展,遙感圖像分割逐漸成為熱點問題,受到眾多研究者的關注。然而,遙感圖像中多類別目標的分割仍然存在許多困難,遙感圖像復雜且目標大小及類別多樣,目前在輕量化方面的研究較為少見。為了對大尺寸、高分辨率遙感圖像進行自動、快速、有效的多類別分割,并在不損失精度的情況下降低計算成本,提出了一種端到端的圖像分割模型——MSNET。在輕量化方面,整體模型架構采用MobileNetV2作為編碼主干特征提取網絡、MSConv作為解碼主干特征提取網絡、LIP作為整個模型的輕量化池化方法,因此整體模型可以保證高效的自動特征提取,同時顯著減少模型參數總數。其次在特征提取方面,設計了由ASPP模塊和MSConv等多尺度特征提取網絡模塊以及MSAM,這些模塊提高了算法在不同尺度分割目標時的分割精度。最后,在公共數據集WHDLD上進行評估,F1-Score達到83.12%,每張256pixelx256 pixel大小圖片的推理時間為0.0074s,證實了MSNET模型能高效地在遙感圖像上進行快速、準確的多類別分割。