



摘要: 針對在遙感圖像變化檢測中數據量不足或標簽圖像精確度較低時, 導致模型無法充分學習特征, 影響檢測精確度的問題, 提出一個基于U-Net網絡改進后的FCA-EF模型. 該模型首先基于多頭自注意力機制和前饋神經網絡的Transformer模塊建立編碼層, 通過長距離跳躍連接機制在編碼層對數據全局特征進行提取, 實現了不同層級之間的信息傳遞. 其次, 該模型以卷積神經網絡(CNN)模塊為骨干建立解碼層, 利用CNN模塊的局部感知特性提取深層次局部特征, 并通過長距離跳躍連接機制融合編碼器所提取的全局特征, 增強模\對細節的捕捉能力與變化檢測的準確性. 再次, 針對標簽圖像表示信息不完整的問題提出一種新的標簽填充與優化方法, 并經過消融實驗證明了其有效性. 最后, 結合FCA-EF模型與標簽填充方法, 在吉林一號衛星遙感圖像的變化檢測中取得了優異結果, 在總體精確度、 F1得分、 召回率、 交并比等指標上與其他經典模型相比均有提升, 有效提高了遙感圖像變化檢測的精確度.
關鍵詞: 遙感圖像; 變化檢測; FCA-EF模型; 標簽填充方法
中圖分類號: TP391文獻標志碼: A文章編號: 1671-5489(2025)02-0492-07
Remote Sensing Image Change Detection MethodBased on FCA-EF Model
YANG Xiaotian1,2, YU Xin1,2, HUANG Lu1,2, YU Shengze3, LIU Ming3
(1. Shaanxi Academy of Aerospace Technology Application Company Limited, Xi’an 710100, China;2. China Academy of S
pace Technology (Xi’an), Xi’an 710100, China;3. School of Mathematics and Statistics, Changchun University of Technology, Changchun 130012, China)
收稿日期: 2024-01-02.
第一作者簡介: 楊笑天(1991—), 男, 漢族, 碩士, 工程師, 從事遙感大數據智能處理、 分析及應用的研究, E-mail: 415542866@qq.com. 通信作者簡介: 劉 銘(1979—), 男, 漢族, 博士, 教授, 從事機器學習、 大數據分析與數據挖掘的研究, E-mail: jlcclm@163.com.
基金項目: 吉林省發改委基本建設項目(批準號: 2022C043-2)和吉林省自然科學基金(批準號: 20200201157JC).
Abstract: Aiming at the problem ofinsufficient data volumes or low accuracy of labeled images in the field of remote sensing image change detection, which led to the model being unableto fully learn features, and affectedthe accuracy of detection, we proposed an improvedFCA-EF model based on the U-Net network. Firstly, the model was based on "multi-head self-attention mechanisms and Transformer module of feedforward neural networks to establish encoding layers. Through long-distance skip connection mechanism, theglobal features of the data were extracted in the encoding layer, achievinginformation transfer between different layers. Secondly,the model used convolutional neural network (CNN) module as the backbone to establish "decoding layers, extracted deep local features by usingthe local perceptual characteristics of CNN module,and fused the global features extracted by the encoder via long-distance skip connection mechanism to enhance "the model’s ability to capture details and accuracy ofchange detection. Thirdly, a new label filling and optimization method was proposed to address the problem of incomplete information representation in label image, "and its effectiveness was confirmed through ablation experiments. Finally, combined with the FCA-EF model and label filling method, the proposed method achieved excellent results inthe change detection of remote sensing images
from Jilin-1 satellite. Compared with other classical models, theoverall accuracy, F1 score, recall rate,intersection over union (IoU) and other indicators were improved,effectively improving the accuracy ofremote sensing image change detection.
Keywords: remote sensing; change detection; FCA-EF model; label filling method
在遙感圖像[1]分析領域, 變化檢測技術(change detection, CD)[2]至關重要, 它通過對同一物體或區域在不同時間點的圖像數據進行分析, 結合地物特征與圖像形態學處理, 可有效識別出目標狀態或性質的變更[3].該技術對環境監控、 城市發展規劃、 災害處理及土地使用和覆蓋的研究都具有重要價值. 隨著無人機和衛星遙感技術的飛速發展, 研究人員可迅速獲得高分辨率的遙感圖像, 不僅大幅度增強了對遙感圖像變化檢測的數據基礎, 也相應提升了對算法處理速度和數據處理能力的要求. 未來遙感圖像變化檢測的發展將更側重于算法的智能化、 自動化和實時處理能力[4], 以更好地適應快速變化的數據環境和廣泛的應用需求.傳統的遙感圖像變化檢測方法通常依賴于人工目視解譯和半監督機器學習算法, 這些方法受限于主觀判斷, 需要人工干預, 不僅會消耗大量的人力和時間成本, 還難以保證其結果的一致性和準確性. 隨著人工智能的不斷發展, 深度學習技術日益完善, 其中卷積神經網絡(convolutional neural network, CNN)和Transformer[5]模型被引入計算機視覺領域, 并已證明了其在處理高分辨率遙感圖像的識別和分類上的優勢, 開辟了遙感圖像變化檢測的新途徑. 但實際應用中的變化檢測仍存在很多問題, 特別是高質量遙感圖像數據的需求, 圖像分辨率的提升增強了細節識別能力, 也使障礙的陰影更清晰; 同時, 多變的天氣條件、 光照變化和云層遮擋等因素進一步增加了遙感圖像變化檢測的復雜性[6].因此, 本文提出一種增強遙感圖像標簽的方法, 以實現對標簽的進一步增強效果[7], 在評估指標時使標簽更具有全面性, 從而取得良好的效果.
為解決遙感圖像變化檢測中的問題, 目前已提出了許多先進的算法模型, 全卷積神經網絡(FCN)[8]是通過將傳統CNN中的全連接層轉換為卷積層, 并利用反卷積層進行上采樣, 解決了由于卷積圖像尺寸縮小的問題, 使FCN能進行像素級的圖像分類, 有效結合不同深度層的特征, 從而增強了網絡的魯棒性和精度. 隨著深度學習的發展, 基于自注意力機制(self-attention)的Transformer網絡成為重要里程碑, 其通過自注意力機制對全局中的依賴關系進行提取, 使特征提取不受限于局部區域. Dosovitskiy等[9]提出了Vision Transformer, 其將Transformer模型跨領域應用于計算機識別領域, 極大推進了Transformer模塊的廣泛使用. 此外, Daudt等[10]提出的FC-EF模型采用全卷積結構, 可接受任意尺寸的圖像輸入, 通過在編碼器和解碼器之間進行特征融合, 強化了模型對遙感圖像的處理能力, 其優勢之一是不需要進行預訓練或遷移學習, 使其在變化檢測任務中表現卓越, 推動了遙感圖像檢測技術的進步. 然而, 上述模型在實際應用中仍存在一定的局限性, 在數據量不足或特征圖像區域精確度較低的情況下, 模型可能無法充分覆蓋所有訓練數據的變化類型, 從而影響其特征識別效果, 這些問題可能導致模型泛化能力減弱, 變化檢測精確度下降.
針對上述問題, 本文提出一個以U-Net網絡[11]為骨干網絡進行改進的FCA-EF(fully convolutional attention-early fusion)模型, 其基于多頭自注意力機制與前饋神經網絡的Transformer模塊建立模型的編碼層和長距離連接機制, 以CNN網絡模塊為骨干建立解碼層, 利用CNN模塊的局部感知特性提取圖像深層次局部特征[12], 并通過長距離鏈接機制融合編碼器所提取的全局特征, 最終使模型可以更好地學習遙感圖像的全局變化信息, 進而增強模型對細節的捕捉能力和變化檢測的準確性. 該模型針對遙感圖像數據集較少、 標簽信息量相對不足的情況可以實現較好的識別效果. 與幾種經典變化檢測算法進行對比, 驗證了該方法的有效性.
本文方法創新點如下:
1) 針對標簽圖像表示內容不完整、 所含信息不足等問題, 本文提出一種新的填充標簽方法, 利用SAM(segment anything model)模型[13]分割后的方式對標簽數據進行增強操作, 并通過消融實驗結果表明該方法可提高標簽的質量, 增強模型性能.
2) 本文提出的FCA-EF模型, 可通過由多頭自注意力機制與前饋神經網絡的Transformer模塊所建立的編碼層進行全局特征的提取, 并可與CNN模塊進行融合實現不同方式的信息傳遞, 通過長距離鏈接機制融合編碼器所提取的全局特征. 利用該方式, FCA-EF模型不僅提高了變化檢測的準確性, 還優化了模型對遙感圖像中復雜場景的理解能力.
3) 通過標簽填充方法與FCA-EF模型對吉林一號衛星遙感圖像進行變化檢測, 并通過總體精確度、 F1得分、 召回率、 交并比等指標進行評分, 最終得出FCA-EF模型在此數據集上效果最佳, 驗證了本文模型與方法的有效性.
1 相關理論及技術
1.1 對標簽進行填充的方式
在遙感圖像變化檢測任務中, 如何準確識別圖像中的變化區域是實現檢測的關鍵. 若標簽圖像包含的信息不完整, 則會導致模型準確率下降、 泛化能力降低.
針對該問題, 本文提出一種填充并優化標簽的新方法, 以提升變化檢測準確率. 首先, 將標簽圖像進行灰度值變換, 以增強圖像中的細節, 使其在后續處理中能提供更豐富的信息. 其次, 將變換后的標簽利用SAM模型對標簽進行二次分割. SAM模型可用于各種背景中所有對象的識別與分割, 適用于處理標簽不完整的圖像, 該模型通過識別圖像中的潛在變化區域, 生成更精確的掩碼區域. 最后, 將SAM模型生成的掩碼區域與變換后的圖像進行融合, 以重點反映圖像中產生變化的區域, 生成更完整和準確的標簽數據集, 實現對原始標簽的有效填充和優化. 填充樣例如圖1所示.
由圖1可見, 填充后的標簽圖像相較于原始標簽能更全面地反映不同時刻下遙感圖像之間的差異性, 提升了遙感圖像變化檢測的性能, 提高了標簽的質量. 該方法為遙感圖像變化檢測領域提供了一種新方式, 優化了模型對遙感圖像數據的特征提取能力.
1.2 Transformer模塊
Transformer模塊的編碼器結構由兩個歸一化、 一個多頭自注意力機制(MSA)及一個多層感知器(MLP)組成, 如圖2所示.
Transformer編碼器的MLP由兩個線性變換層及其中間的非線性激活函數組成, 其目的是將特征映射至高維空間, 再映射回輸出維度并與輸入維度保持一致. 自注意力層通過3個矩陣將輸入序列投影至權重, 可得三元組, Q,K,V表示不同的Query,Key和Value矩陣, 其自注意力公式如下:
Attention(Q,K,V)=Softmax
QKTdkV,(1)
其中dk表示矩陣K的維度, 通常取dk=64進行計算. 先通過計算矩陣Q,K,V中不同向量之間的得分, 可根據得分反應其與不同向量的相關程度. 然后通過除以dk對分數進行縮放, 并采用Softmax函數對分數進行歸一化, 將其轉為概率形式. 最終通過向量Q和K的轉置做點積得到權重, 對所有向量V進行加權求和, 完成信息聚合操作. 在Transformer編碼器計算的整個過程中都保證了其在處理信息時能有效區分不同位置, 從而提高了Transformer編碼過程的精確度及效率.
1.3 FCA-EF模型結構
FCA-EF網絡模型整體結構將Transformer的編碼器、 CNN模塊通過長距離跳躍連接的方式整合在一起, 使該模型可以更好地學習遙感圖像的全局變化信息. 首先將輸入圖像分為4×4大小的模塊, 由Transformer編碼器提取空間關系和特征信息, 然后特征圖再接池化層進一步降維, 并利用Transformer編碼器與池化層的輸出與后續CNN模塊通過長距離跳躍連接等方式進行融合, 最終通過CNN模塊恢復為初始大小并得到輸出圖. FCA-EF模型網絡結構如圖3所示.
圖3 FCA-EF模型的結構Fig.3 Structure of FCA-EF model
FCA-EF模型結構的優勢在于其融合了Transformer的多頭注意力機制以及CNN的特點, 進而實現全局特征提取和局部特征捕獲的協同效果, 使模型可以精確地識別出遙感圖像變換, 并可以處理任意尺寸的圖像數據. 此外, FCA-EF模型無需依賴任何預訓練和遷移學習, 可以更好地應對標簽圖像不完善的情況, 支持復雜的遙感圖像檢測變換任務, 在遙感變化檢測領域有較大潛力及應用價值.
2 實驗及結果分析
2.1 對比模型
為驗證FCA-EF模型在遙感圖像變化檢測方面的可行性, 本文選取變化檢測領域內的幾個經典模型與其進行對比分析. 選取的模型如下: ResUnet模型[14]是一個結合了殘差網絡和U-Net結構的深度學習模型, 其通過在編碼器與解碼器之間引入殘差連接, 有效解決了深層網絡中的梯度消失問題, 適用于對高分辨率要求的圖像識別任務; SAM-CD模型[15]的主要特點是其結合了注意力機制和變化檢測的結構, 通過在網絡中引入空間注意力模塊和通道注意力模塊, 使其在變化檢測任務中性能優異, 顯著增強了信息利用率和準確性; Siam-NestedUNet模型[16]通過對U-Net結構進行改進, 引入嵌套的結構使網絡在不同尺度上進行特征提取和融合, 從而提高了對圖像細節的捕捉能力, 適用于圖像檢測等任務; CGNet模型[17]是一種輕量級深度學習模型, 其通過點群卷積和通道混洗技術顯著減少計算需求, 適用于實際應用場景中對計算效率和性能優化的要求; FC-SiamDiff模型是在全卷積網絡基礎上, 通過引入孿生網絡結構, 利用雙路網絡分別處理多時相圖像數據, 并在解碼器階段進行特征差分處理, 從而提高對變化區域的檢測能力. 利用上述模型與FCA-EF模型進行檢測結果比較, 可進一步驗證FCA-EF模型在遙感圖像變化檢測方面的有效性和可行性.
2.2 數據集
實驗選擇吉林一號衛星遙感圖像的耕地變化檢測數據集(https://www.jl1mall.com/store/ResourceCenter), 該數據集分辨率優于0.75 m, 圖像大小為256×256, 遙感圖像為RGB三通道tif格式, 標注文件為單通道png格式. 選取數據集6 000余組, 每組包含2個時相影像及標簽, 先將其按6∶2∶2劃分為訓練集、 驗證集和測試集進行實驗, 再將圖像與填充后標簽進行融合, 結果如圖4所示.
2.3 實驗設置
實驗環境基于Linux操作系統, 開發環境為Python3.11.6, 各模型基于Pytorch2.3.1版本實現, CUDA版本為12.5, 運行環境為4塊NVIDIA GeForce RTX3090 GPU.
2.4 評價指標
為驗證本文方法的有效性, 采用總體精確度(OA)、 F1得分、 召回率(Recall)和交并比(intersection over union, IoU)評估本文遙感圖像檢測變化的準確性, 各指標分別定義如下:
Rec=TPTP+FN,(2)
Pre=TPTP+FP,(3)
F1=2×Pre×RecPre+Rec,(4)
OA=TP+TNTP+FP+TN+FN,(5)
IoU=TPTP+FP+FN,(6)
其中TP,FP,TN和FN分別表示測試結果與實際一致都產生變化、 測試有變化但實際無變化、 測試與實際均無變化、 實際有變化但測試無變化. 本文通過這些指標評估模型對變化區域的識別能力, 提高模型的可靠性.
2.5 實驗結構分析
2.5.1 填充標簽消融實驗
通過引入本文提出的填充標簽方法, 對原始標簽不完整現象進行優化, 下面對填充標簽方法進行消融實驗, 驗證該方法是否有效. 利用FCA-EF模型分別對填充標簽與不填充標簽兩種方式進行消融實驗, 所得結果列于表1.
由表1可見, 用填充標簽的方法進行優化后, 在總體精度、 交并比和F1分數中使模型總體精度分別提高了0.74,4.55,2.41個百分點, 對模型性能的提升較顯著, 驗證了本文提出的填充標簽方法有效.
2.5.2 Transformer規模分析
在Transformer編碼器中, 通常將輸入映射到隱藏層, Transformer的規模大小通常由隱藏層的層數和Transformer層數共同決定. Transformer模型規模分為base模型與big模型兩種類型. 在base模型下, 其尺寸大小為512且多頭注意力為8個; 在big模型下, 其尺寸大小為1 024, 多頭注意力為16個. 本文參數設置與Transformer中相同, 實驗結果列于表2.
由表2可見, 使用規模較大的Transformer模型使變化檢測結果得到了微小提升, 但其帶來的參數大小甚至多出兩倍, 極大增加了模型的訓練時間, 降低了實驗效率. 因此, 本文選取基礎版本的Transformer模型進行實驗, 可在保證遙感圖像變化檢測準確性的同時, 有效利用計算資源, 提高實驗的整體效率.
2.5.3 對比實驗
采用吉林一號衛星遙感圖像數據集, 利用本文模型與對比模型對數據集進行測試, 并比較不同網絡模型在同一任務上的性能, 結果列于表3. 由表3可見,FCA-EF模型各指標在綜合評價中取得了最佳結果. FCA-EF模型的總體準確率為8044%, 顯示出其優越的識別和分類能力, FC-EF和FC-SiamDiff模型在整體識別準確性方面性能也較出色; FCA-EF模型在交并比指標上也表現較好, 表明了其在處理復雜和交叉對象時的有效性; 在F1得分方面, FCA-EF模型在平衡預測的精確性和覆蓋度方面較好; FCA-EF模型在召回率上可有效捕捉正樣本, 減少遺漏, 說明其模擬效果良好. 實驗結果表明, 本文FCA-EF模型可以有效提取遙感圖像, 解決圖像背景中建筑、 耕地等部分背景特征帶來的干擾, 增加檢測的準確率, 進一步驗證了FCA-EF模型在遙感圖像變化檢測方面的有效性.
綜上所述, 針對在遙感圖像變化檢測中, 數據量不足或標簽圖像精確度較低時, 導致模型無法充分學習特征, 影響檢測精確度的問題, 本文提出了一個基于U-Net網絡進行改進的FCA-EF模型. 首先, 該模型利用多頭自注意力機制與前饋神經網絡的Transformer模塊, 建立模型編碼層, 并利用長距離跳躍連接機制對數據進行全局特征的提取, 實現了不同層級之間的信息傳遞. 其次, 該模型以CNN模塊為骨干網絡對應地建立了解碼層, 利用CNN模塊的局部感知性質提取深層次局部特征, 并通過長距離跳躍連接機制將編碼器所提取的全局特征進行融合, 增強模型進行變化檢測的精確度, 使FCA-EF模型在遙感圖像變化檢測任務中性能優異. 針對遙感圖像數據集較少、 標簽信息量相對不足的情況, 本文還提出了一種對標簽數據進行填充和優化的方法, 并通過消融實驗證明了該方法的有效性. 實驗結果表明, FCA-EF模型可以更好地提取遙感圖像中的關鍵信息, 且在總體精確度、 F1得分、 召回率、 交并比上取得了優異結果, 相比于變化檢測經典模型結果均有提升.
參考文獻
[1]YUAN Q Q, SHEN H F, LI T W, et al. Deep Learning in Environmental Remote Sensing: Achievements and Challenges[J].Remote Sensing of Environment, 2020, 241: 111716-1-111716-24.
[2]SHI W Z, ZHANG M, ZHANG R, et al. Change Detection Based on Artificial Intelligence: State-of-the-Art and Challenges[J].Remote Sensing, 2020, 12(10): 1688-1-1688-35.
[3]成麗波, 董倫, 李喆, 等. 基于NSST與稀疏先驗的遙感圖像去模糊方法[J].吉林大學學報(理學版), 2024, 62(1): 106-115. (CHENG L B, DONG L, LI Z, et al. Remote Sensing Image Deblurring Method Based on NSST and Sparse Prior[J].Journal of Jilin University (Science Edition), 2024, 62(1): 106-115.)
[4]劉高天, 段錦, 范祺, 等. 基于改進RFBNet算法的遙感圖像目標檢測[J].吉林大學學報(理學版), 2021, 59(5): 1188-1198. (LIU G T, DUAN J, FAN Q, et al. Remote Sensing Image Target Detection Based on Improved RFBNet Algorithm[J].Journal of Jilin University (Science Edition), 2021, 59(5): 1188-1198.)
[5]VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need[J].Advances in Neural Information Processing Systems, 2017, 30: 6000-6010.
[6]宮金杞. 復雜城市場景的高分辨率遙感影像建筑物變化檢測[J].測繪學報, 2023, 52(7): 1233. (GONG J Q. Building Change Detection in High-Resolution Remote Sensing Images of Complex Urban Scenes[J].Acta Geodaetica et Cartographica Sinica, 2023, 52(7): 1233.)
[7]劉通, 胡亮, 王永軍, 等. 基于卷積神經網絡的衛星遙感圖像拼接[J].吉林大學學報(理學版), 2022, 60(1): 99-108. (LIU T, HU L, WANG Y J, et al. Satellite Remote Sensing Image Stitching Based on Convolutional Neural Network[J].Journal of Jilin University (Science Edition), 2022, 60(1): 99-108.)
[8]LONG J, SHELHAMER E, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3431-3440.
[9]DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An Image Is Worth 16×16 Words: Transformers for Image Recognition at Scale[EB/OL].(2010-10-22)[2023-10-10].https://arxiv.org/abs/2010.11929.
[10]DAUDT R C, LE SAUX B, BOULCH A. Fully Convolutional Siamese Networks for Change Detection[C]//2018 25th IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2018: 4063-4067.
[11]RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]//International Conference Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2015: 234-241.
[12]WU H P, XIAO B, CODELLA N, et al. CVT: Introducing Convolutions to Vision Transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE, 2021: 22-31.
[13]KIRILLOV A, MINTUN E, RAVI N, et al. Segment Anything[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE, 2023: 4015-4026.
[14]DIAKOGIANNIS F I, WALDNER F, CACCETTA P, et al. ResUNet-a: A Deep Learning Framework for Semantic Segmentation of Remotely Sensed Data[J].ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 162: 94-114.
[15]DING L, ZHU K, PENG D F, et al. Adapting Segment Anything Model for Change Detection in VHR Remote Sensing Images[J].IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5611711-1-5611711-11.
[16]FANG S, LI K Y, SHAO J Y, et al. SNUNet-CD: A Densely Connected Siamese Network for Change Detection of VHR Images[J].IEEE Geoscience and Remote Sensing Letters, 2021, 19: 8007805-1-8007805-5.
[17]WU T Y, TANG S, ZHANG R, et al. Cgnet: A Light-Weight Context Guided Network for Semantic Segmentation[J].IEEE Transactions on Image Processing, 2020, 30: 1169-1179.
(責任編輯: 韓 嘯)