江勇 張紅梅 付雪峰 阮仁松



關鍵詞:高分遙感影像;建筑物變化檢測;深度可分離卷積;坐標注意力機制;特征金字塔
中圖分類號:TP79 文獻標識碼:A
文章編號:1009-3044(2023)10-0001-04
0 引言
城市建設所導致的地表覆蓋類型變化將對地球資源和生態環境產生深遠的影響[1]。地表變化檢測是遙感應用的重要組成部分,它為基礎地理空間數據更新、城市規劃、環境影響評價和應急救災決策提供必要信息。建筑物是城市地表主要類型之一,在城市化過程中,不斷有建筑物被新建、改建和拆除。而依靠人工實地調查建筑物變化費時且精度不夠,不能滿足當前智慧城市管理的需求[2]。因此,建筑物變化智能解譯仍為遙感技術應用的重要研究內容。
遙感技術已日趨成熟,對地觀測能力達到了前所未有的水平[3]。目前,遙感數據源更加多樣,信息提取技術快速發展。然而現有研究表明,遙感影像分辨率的提高并未帶來解譯精度的大幅提高[4-6]。隨著分辨率的提高,噪聲和背景信息的干擾也更明顯,仍然存在“同物異譜”和“同譜異物”現象,利用高分遙感影像進行建筑物變化檢測仍然面臨挑戰,需繼續深入研究。
國內外學者在利用遙感技術進行地表變化檢測方面已做了諸多努力,特別是在提取策略和提高提取效率方面做了大量研究,提出了很多方法[7]。從高分辨率圖像提取建筑物及變化信息的研究也取得了一些進展[8-9]。但隨著影像分辨率的提高,地物細部特征得以展現,圖像信息量增大但圖像整體復雜度將上升,已有方法在檢測過程中出現誤判概率更高,造成結果圖精度低難以達到生產要求,或存在效率不高的問題。
本文嘗試將語義分割模型應用于遙感變化檢測中,通過構建改進型UNet模型進行基于高分辨率遙感影像的建筑物變化檢測,即利用多時相高空間分辨率遙感影像來識別和分析建筑物的變化。
1 數據資料與預處理
實驗采用季順平團隊基于航片和衛片制作的建筑樣本數據,即WHU建筑數據集[10]。該數據集源自同一覆蓋面積為20.5km2地區2012年和2016年的航片數據,可反映該地區2011年地震后的建筑物變化,且提供了真實變化標簽圖像。不同時期(T1、T2)遙感影像的規格均為32 507 ×15 354,生成的標簽圖像也是32 507×15 354。由于圖幅較大,若將其作為樣本數據直接送入網絡進行訓練,可能會因內存不足而無法完成訓練任務。因此,對數據集進行了兩項處理:1) 以規則滑動窗口將遙感圖像切成256×256的小尺寸圖像;2)將這些小尺寸遙感圖像按9:1隨機分為互不重疊的訓練集和驗證集。
2 改進型UNet模型構建
2.1 UNet模型原型
UNet模型原型由Ronneberger于2015年提出。它的網絡結構由兩部分組成(圖1):全卷積部分和反卷積部分。全卷積部分用一個編碼路徑實現特征提取,即通過編碼路徑中的多個卷積和池化等操作,生成了從低維到高維不同尺寸的特征圖;反卷積則用一個解碼路徑來精確定位,經解碼路徑中的多次反卷積上采樣操作,最后輸出與輸入圖像具有相同尺寸的結果圖。
2.2 帶深度可卷積分離的殘差結構
深度可分離卷積先對輸入圖像進行逐層卷積,再進行逐點卷積。即采用逐層卷積把H×W×C×N的空間特征圖像分為C組,然后對每組做逐點卷積,以獲得C個通道的空間特征,再進行1×1卷積得到每個點的特征組成。
隨著網絡深度的逐步擴大,網絡會出現收斂困難或不收斂的現象。因此,借鑒He團隊[11]提出的殘差結構思想,構建的殘差結構如圖2所示。此方法可在不增加模型參數的同時擴大數據的表征范圍,使輸入網絡結構中的特征更豐富,從而提高網絡性能。
2.3 坐標注意力機制
為防止因2D全局池化引起方位信息損失,先用兩個1D全局池化操作將沿垂直與水平方向的輸入特征分別聚合為兩種相互獨立的空間方位感知特征圖,再將其分別編碼為兩種注意力地圖,空間方位信息也因此可以被存儲于其所生成的注意力地圖中,然后使用乘法將兩種注意力地圖都應用于輸入特征圖中并進一步強調注意區域表示(圖3)。圖3中的W、H、C 分別是特征圖像的寬、高和波段數。
坐標注意力編碼波段間關系和遠程精確位置信息依賴分兩步執行[12]:
2.4 特征金字塔
本文采用圖4所示特征金字塔結構(FPN),它由自下而上路徑、自上而下路徑和橫連構成。此結構可使每一層不同尺度的特征圖都具有較強的語義信息,能在增加較少計算量的前提下融合低分辨率語義信息較強的特征圖和高分辨率語義信息較弱但空間信息豐富的特征圖。
2.5 改進型UNet 模型
改進型UNet呈對稱結構,是一個端到端的模型,在網絡中最大卷積層為35,共實現4次下采樣、4次上采樣操作,但無全連接層,如圖5所示。編碼部分由4 層帶有深度可分離卷積塊的殘差結構和1層普通3×3 卷積構成。為了降低梯度小時現象,把ReLu作為模型的激活函數。每進行一次卷積計算,都會帶有BN 層,使得所有batch在編碼的每一級特征中都有歸一化分析操作,使每一次分布都比較穩定,從而提高建模的魯棒性,加快收斂。在第2、3次下采樣中,經過殘差結構的卷積后,在其階躍連接部分引入坐標注意力機制,使其更好地提取深層信息。解碼層由從底向上的反卷積層組成,在解碼前先增加一個丟失層,把該層的概率參數設置為0.5,隨機地讓一半隱藏節點權重被識別,這可以在一定程度上增強系統的泛化性能并抑制過擬合。在每次反卷積后,進行兩次3×3卷積運算以減少混淆效應,同時添加分支路徑。由于在解碼階段中每一個特征都是支路,會輸出4個預測,再由上采樣統一最后輸出大小,之后做通道匯合。此策略提取了各個尺度的信息,這些信息在建模訓練和反向傳播過程中都發揮著關鍵作用,還有助于建模的穩健性大幅提升。最后獲取特征圖并傳送到模型末端Sig?moid分類器。此模型通過Adma優化器實現模型優化,在后向傳播過程中,所用的能量損失函數為交叉熵損失函數。
3 實驗結果與分析
3.1 實驗條件
改進型UNet模型運行的軟硬件環境:處理器為英特爾Xecon(R) CPU E5-1620 v3 @3.50GHz,內存為32GB,顯卡為NVIDIA GeForce GTX1080Ti;深度學習框架為Pytorch,編程語言為Python3.6,開發環境為Pycharm。
3.2 模型訓練
訓練時的輸入影像維數為3×256×256,訓練流程如圖5所示。模型訓練樣本來自規格相同的T1和T2期影像數據,并對標簽圖像進行了one-hot處理。從模型訓練的準確率與損失值隨迭代增加變化曲線(圖6)中可發現,在經過一百輪訓練后,模型都達到了準確度較高的穩定狀態,可在訓練完成后,對測試數據做出預測。
3.3 評估指標
采用5種不同模型對建筑物開展兩組變化檢測試驗,并選擇準確率、召回值、F1值和運行時間為主要評價指標。F1值的計算公式為:
式中,P為準確率;R為召回率。
3.4 實驗結果
為了對模型效能進行定性和定量的評價,選取了兩個實驗區(A、B)進行實驗。兩組實驗的輸入影像規格均為1024×1024×3。實驗初始學習率為0.0001,每批次訓練的樣本數為16個,其他參數為默認值。
a.T1時期影像;b.T2時期影像;c.真實變化情況;d.UNet的結果;e.DSG UNet的結果;f.CA UNet的結果;g.FPN CA UNet的結果;h.改進UNet的結果
5種模型的變化檢測結果見圖7和圖8,其中白色為建筑變化區。由圖可知,UNet雖然能夠分析鄰域元素間的交叉關系,但變化檢測效果并不好,有丟失特征的情況,說明其在建筑特征提取方面仍存在不足;而DSG UNet模型因為采用了殘差結構,盡管仍存在損失特征的情況,但分割效率卻明顯提高;而CA UNet 模型則因為采用了坐標注意力機制,使得模型預測時的定位精度提高;FPN的CA UNet模型因為引進了坐標注意力機制并在解碼中形成了一個金字塔系統,使模型預測點數提高的同時檢測圖邊緣效果更佳;而改進型UNet模型因同時擁有殘差結構、坐標注意力機制和FPN的多尺度預測能力,檢測效果更優。其特征提取效率和對微小變化的檢測能力都更好,能克服噪聲的影響,也對“偽改變”具有更好的識別能力。
模型運行效能的評價指標值見表1。由表1 可知,改進型UNet的召回率和F1指標值最優,準確度和測試時間也表現較好。分析認為,改進型UNet模型在編碼部分引入的4層殘差機制,在分割結果圖的邊緣明顯改善;在階躍連接部分,從最后兩層引入的坐標注意力機制有助于召回率的明顯提高;在解碼部分,由于采用了FPN技術,分割結果圖邊緣的效果明顯改善。改進型Unet模型的架構有利于特征提取,有更優的對小目標的檢測能力。實驗所得該模型的準確度、召回率以及F1值均達96%以上,且和其他語義分割模型相比,時效性也更好。
4 結束語
針對傳統監督分類、面向對象分類以及經典UNet 模型效能方面的不足,文章試驗了把深度學習和語義分割的理論運用到建筑物變化檢測中。改進型UNet 模型以UNet為基本框架,通過殘差結構改善了圖像特征提取,在階躍連接中導入坐標注意力機制,有效減少了對非變化類圖像特征的關注度,增強了模型對不同建筑物圖像特征的敏感度,在解碼過程加入了FPN,將淺層細節知識與深層語義知識集成,增強了對建筑物特征提取能力和對細小物體的檢測能力。從實驗結果來看,用改進型UNet模型從高分遙感影像提取建筑物變化信息具有很高精度,可作為建筑物變化檢測的方法,具有推廣價值。由于受標簽數據集的限制,此模型還未用其他遙感數據進行檢驗,下一步將開展針對GF-2、GF-6等衛星獲取的高分辨率多光譜遙感數據的測試。