








摘 要:遙感圖像包含豐富的地物信息,如何從中精準(zhǔn)地識(shí)別出真正的語(yǔ)義變化區(qū)域仍是一個(gè)長(zhǎng)期的挑戰(zhàn)。針對(duì)上述問(wèn)題,提出一種結(jié)合Transformer和多尺度異構(gòu)融合模塊(MAFM)的網(wǎng)絡(luò)模型。首先利用MAFM在特征提取過(guò)程中整合不同層次的語(yǔ)義信息,為模型提供不同的感受野以豐富特征信息,增強(qiáng)模型對(duì)微小變化區(qū)域和復(fù)雜背景的感知能力。而后為了使模型充分利用雙時(shí)相遙感圖像間的依賴關(guān)系,使用語(yǔ)義概念提取器(SCE)將特征圖語(yǔ)義化為符號(hào)集,并輸入到Transformer編碼器中進(jìn)行上下文建模,將符號(hào)集通過(guò)解碼器映射回原特征空間,得到含有豐富語(yǔ)義信息的特征圖。最后將經(jīng)過(guò)編解碼的特征圖輸入到由簡(jiǎn)單卷積層組成的預(yù)測(cè)頭進(jìn)行變化區(qū)域預(yù)測(cè),生成變化區(qū)域圖。設(shè)計(jì)實(shí)驗(yàn)在LEVIR-CD數(shù)據(jù)集上對(duì)提出的網(wǎng)絡(luò)模型性能進(jìn)行評(píng)估,模型的F1分?jǐn)?shù)和交并比(IoU)分別達(dá)到90.71%和84.08%,相較于現(xiàn)有主流模型具有良好的變化區(qū)域檢測(cè)能力。
關(guān)鍵詞:遙感圖像;特征提取;MAFM;Transformer;變化檢測(cè);SCE
中圖分類號(hào):TP751.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2025)02-000-07
0 引 言
遙感圖像變化檢測(cè)是指利用遙感技術(shù)分析和識(shí)別地表或其他特征在不同時(shí)間點(diǎn)的變化。目前該技術(shù)已被廣泛應(yīng)用于土地覆蓋和土地利用分類、自然資源調(diào)查、城市擴(kuò)展監(jiān)測(cè)、環(huán)境評(píng)估以及對(duì)災(zāi)害事件的快速響應(yīng)等多個(gè)領(lǐng)域[1-4]。隨著科技的快速發(fā)展與遙感成像技術(shù)的成熟,遙感圖像的質(zhì)量也逐漸提高。遙感圖像包含豐富的地物信息,如何從遙感圖像中精準(zhǔn)地識(shí)別出真正的語(yǔ)義變化區(qū)域仍是一個(gè)長(zhǎng)期的挑戰(zhàn)。傳統(tǒng)變化檢測(cè)方法分為像素級(jí)和對(duì)象級(jí)方法[5]。像素級(jí)變化檢測(cè)方法以像素為分析基礎(chǔ),通常通過(guò)直接比較對(duì)應(yīng)像素值的方式來(lái)得到差異圖,但像素級(jí)變化檢測(cè)方法忽略了鄰域像素的空間和光譜信息,容易導(dǎo)致變化區(qū)域表達(dá)不完整[6-7];對(duì)象級(jí)變化檢測(cè)方法考慮了像素點(diǎn)周圍的空間和光譜特征,結(jié)合同質(zhì)像素形成對(duì)象,再基于對(duì)象比較光譜、形狀、紋理、空間上下文鄰域等特征[8-10]。但這些方法不僅特征提取復(fù)雜度高,而且在捕獲圖像時(shí)魯棒性較差。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Nueral Network, CNN)為主的語(yǔ)義分割方法在密集型分類任務(wù)中得到了廣泛運(yùn)用,許多研究學(xué)者提出了滿足遙感場(chǎng)景需求的深度學(xué)習(xí)方法。相比于傳統(tǒng)的遙感圖像變化檢測(cè)方法,基于深度學(xué)習(xí)的遙感圖像變化檢測(cè)方法在遙感數(shù)據(jù)特征表征學(xué)習(xí)以及多場(chǎng)景任務(wù)中表現(xiàn)出了較強(qiáng)的建模能力[11-13]。文獻(xiàn)[14]提出了3種基于全卷積神經(jīng)網(wǎng)絡(luò)的模型,全卷積早期融合(FC-EF)、全卷積孿生連接(FC-Siam-Conc)和全卷積孿生差異(FC-Siam-Diff),主要應(yīng)用于雙時(shí)相遙感圖像的變化檢測(cè),但在利用遙感圖像之間復(fù)雜的時(shí)空依賴關(guān)系方面存在不足;文獻(xiàn)[15]提出了一種結(jié)合CNN和RNN的信息傳輸模塊的端到端網(wǎng)絡(luò)框架,首次將注意力機(jī)制應(yīng)用于變化檢測(cè)任務(wù)以提高檢測(cè)性能,該方法充分利用了深度學(xué)習(xí)中的CNN和BiLSTM等模型的優(yōu)勢(shì),能夠自動(dòng)發(fā)現(xiàn)相關(guān)上下文特征和交互作用,并通過(guò)軟注意力機(jī)制來(lái)增強(qiáng)變化信息,但相較于結(jié)合Transformer的方法,其在捕捉長(zhǎng)期依賴性方面存在不足;文獻(xiàn)[16-18]結(jié)合UNet++語(yǔ)義分割網(wǎng)絡(luò)模型實(shí)現(xiàn)了遙感圖像變化檢測(cè),但UNet++在捕捉圖像內(nèi)部長(zhǎng)距離特征關(guān)聯(lián)方面可能存在不足;文獻(xiàn)[19]使用DeepLab作為特征提取的骨架網(wǎng)絡(luò)實(shí)現(xiàn)變化檢測(cè),雖然DeepLab通過(guò)擴(kuò)張卷積改善了不同尺度特征的呈現(xiàn)效果,但模型可能仍然難以捕捉到所有相關(guān)的空間細(xì)節(jié)。上述方法未充分考慮利用遙感圖像的多尺度信息和遙感圖像間的依賴關(guān)系,在遙感圖像變化檢測(cè)任務(wù)中無(wú)法很好地融合不同尺度下的語(yǔ)義特征,從而影響了對(duì)微小變化區(qū)域和復(fù)雜變化場(chǎng)景的檢測(cè)。
本文通過(guò)引入MAFM(Multiscale Asymmetric Fusion Module),在特征提取過(guò)程中整合不同語(yǔ)義層次的信息,為模型提供不同的感受野以豐富特征信息,增強(qiáng)模型對(duì)復(fù)雜場(chǎng)景的感知能力。同時(shí)為了充分利用雙時(shí)相遙感圖像間的依賴關(guān)系,本文利用SCE(Semantic Concept Extractor)和Transformer編解碼器對(duì)特征圖進(jìn)行處理,輸出含有豐富語(yǔ)義信息的特征圖。綜上所述,本文的主要貢獻(xiàn)如下:
(1)引入多尺度特征融合策略,將ResNet18特征提取網(wǎng)絡(luò)中的4個(gè)殘差塊輸出的特征圖進(jìn)行融合,為模型提供不同的感受野以豐富特征信息,使模型能更全面地捕捉圖像中的邊緣結(jié)構(gòu),從而提高邊緣檢測(cè)的準(zhǔn)確度。
(2)提出一種雙向卷積模塊(Bidirectional Convolutional Block, BCB),在水平和垂直兩個(gè)方向獲取特征,有助于加強(qiáng)不同方向的感受野以豐富特征信息,使模型能夠更加關(guān)注圖像細(xì)節(jié)和微小特征。
(3)對(duì)Transformer編解碼器的原始多層感知機(jī)(Multilayer Perceptron, MLP)進(jìn)行改進(jìn),提出一種增強(qiáng)型多層感知機(jī)(Enhanced Multilayer Perceptron, EMLP),通過(guò)引入殘差連接,使模型能夠處理更復(fù)雜的特征組合,從而提高模型在處理高維遙感圖像數(shù)據(jù)時(shí)的性能。
1 研究方法
本文提出了一種結(jié)合Transformer和多尺度異構(gòu)融合的網(wǎng)絡(luò)模型,網(wǎng)絡(luò)主要結(jié)構(gòu)由3部分組成:特征提取模塊、Transformer模塊和由簡(jiǎn)單卷積層組成的預(yù)測(cè)頭。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
將輸入圖像通過(guò)特征提取模塊后得到特征圖Xi;將特征圖Xi輸入到SCE中得到符號(hào)集Ti;將符號(hào)集Ti拼接成一個(gè)整體符號(hào)集T輸入到Transformer編碼器,經(jīng)過(guò)編碼器后輸出符號(hào)集Tnew(Tnew中包含豐富的遙感圖像語(yǔ)義信息),再將Tnew分解為Tinew;使用解碼器將其映射回原特征空間,生成含有豐富語(yǔ)義信息的雙時(shí)相遙感圖像的特征圖Xinew;將Xinew輸入到一個(gè)由簡(jiǎn)單卷積層組成的預(yù)測(cè)頭來(lái)判別變化區(qū)域。上述流程的形式為:
(1)
(2)
(3)
(4)
(5)
式中:i=1, 2;fE和fD為Transformer中的編碼器和解碼器;Y為變化區(qū)域預(yù)測(cè)圖。
1.1 MAFM
MAFM通過(guò)引入多尺度特征融合策略和BCB,進(jìn)一步提升了模型在遙感圖像變化檢測(cè)任務(wù)中的特征表達(dá)能力,MAFM模型如圖2所示。將雙時(shí)相遙感圖像輸入到引入了多尺度特征融合策略和BCB的MAFM進(jìn)行特征提取。與僅使用單一尺度的特征圖方法相比,通過(guò)利用多尺度特征融合策略可以使模型獲得更多微小特征的信息,加強(qiáng)模型在網(wǎng)絡(luò)中對(duì)遙感圖像微小特征的關(guān)注,有效整合不同語(yǔ)義層次的信息并提升特征表達(dá)能力,其與BCB相結(jié)合,可以充分發(fā)揮兩者的優(yōu)勢(shì),提高模型的特征提取能力。
輸入圖像I,得到特征圖L:
(6)
式中:fConv、fBN、fReLU、fPool分別表示卷積操作、批量歸一化(Batch Normalization, BN)、ReLU激活函數(shù)、最大池化層。將特征圖L通過(guò)ResNet塊的序列操作得到4個(gè)殘差塊:
(7)
(8)
式中:Li (i=1, 2, 3, 4)為ResNet18殘差塊。
1.2 BCB
BCB通過(guò)使用1×3和3×1的卷積,可以有效捕獲水平方向和垂直方向的特征,并且遙感圖像建筑物中存在大量水平方向和垂直方向的邊緣信息,所以使用BCB可以很好地識(shí)別這些特征,有助于提升變化區(qū)域檢測(cè)的精確度,BCB如圖3所示。
殘差塊Li進(jìn)行多尺度特征融合前,在L3和L4中加入了BCB,使模型能獲得更高質(zhì)量的邊緣信息并保留更多微小特征:
(9)
式中:Bi為經(jīng)過(guò)BCB后的特征圖;Convh為水平方向卷積;Convv為垂直方向卷積。通過(guò)拼接操作進(jìn)行多尺度特征融合:
(10)
經(jīng)過(guò)多尺度特征融合得到特征圖Lc,需要減少其通道數(shù)以防止信息重疊或冗余,最后輸出通道數(shù)為32的特征圖X:
(11)
1.3 SCE
SCE實(shí)現(xiàn)了從二維卷積特征到一維語(yǔ)義符號(hào)的轉(zhuǎn)換,可以輸出更高層與變化相關(guān)的抽象表達(dá),SCE如圖4所示。將像素分組為概念,為每個(gè)時(shí)間輸入生成一組緊湊的語(yǔ)義標(biāo)記。將特征圖X1和X2輸入到孿生雙分支結(jié)構(gòu)的SCE中,從每個(gè)時(shí)相的特征圖中提取緊湊的語(yǔ)義符號(hào)。
與NLP中的標(biāo)記賦予器相似,SCE將整個(gè)圖像分割為少量視覺(jué)詞匯,每個(gè)詞匯對(duì)應(yīng)一個(gè)符號(hào)向量。通過(guò)學(xué)習(xí)一組空間注意力圖(注意力圖用于權(quán)重分配),經(jīng)過(guò)空間池化,由特征圖得到一組語(yǔ)義符號(hào)集T1和T2。
對(duì)于輸入的特征圖X1和X2,首先使用卷積層來(lái)生成空間注意力分?jǐn)?shù)S,此過(guò)程可看做將圖像分割為視覺(jué)詞匯,每個(gè)詞匯對(duì)應(yīng)一個(gè)空間區(qū)域:
(12)
使用1×1的卷積層Conv,將特征圖X1和X2轉(zhuǎn)化為語(yǔ)義標(biāo)記。而后通過(guò)Softmax函數(shù)將空間注意力分?jǐn)?shù)S轉(zhuǎn)化為空間注意力圖A,并將其作為權(quán)重分配到各個(gè)視覺(jué)詞匯:
(13)
式中:Aij為注意力圖A在第i行和第j列位置的元素;Sij為由卷積層Conv生成的空間注意力分?jǐn)?shù)在第i行和第j列的值;exp()為用于將注意力分?jǐn)?shù)轉(zhuǎn)換為正權(quán)重的函數(shù)。通過(guò)對(duì)輸入特征X進(jìn)行重塑并且與空間注意力圖A加權(quán)求和得到符號(hào)集T1和T2:
(14)
(15)
1.4 Transformer模型
本文使用的Transformer模型主要包含編碼器和解碼器,以及EMLP。通過(guò)結(jié)合語(yǔ)義概念提取、多頭自注意力(Multi-Head Self-Attention, MSA)和殘差連接等關(guān)鍵機(jī)制,使模型能更全面地理解遙感圖像,能準(zhǔn)確描述遙感圖像中的語(yǔ)義信息和變化區(qū)域。編碼器和解碼器如圖5所示。
1.4.1 編碼器
通過(guò)SCE得到符號(hào)集T1和T2,將其拼接成一個(gè)符號(hào)集輸入到Transformer編碼器中得到新的符號(hào)集Tnew,之后將Tnew分割成T1new和T2new。Transformer編碼器由NE層的MSA(編碼器)和EMLP組成,并且加入了ViT的預(yù)正則化(PreNorm),即在網(wǎng)絡(luò)的每一層之前應(yīng)用正則化處理。PreNorm能夠確保網(wǎng)絡(luò)在進(jìn)行前向傳播時(shí)的輸入保持標(biāo)準(zhǔn)化,從而更容易訓(xùn)練和優(yōu)化模型。在每一層l,自注意力(Self-Attention)的輸入是一個(gè)三元組(Q, K, V),計(jì)算如下:
(16)
(17)
(18)
式中:T(l-1)∈R2L×C代表l-1層的輸入;Wq、Wk、Wv∈RC×d表示3個(gè)線性投影層的可學(xué)習(xí)參數(shù);d表示三元組的通道維度。其中一個(gè)注意力頭的形式為:
(19)
式中:σ( )表示在通道維度上的softmax函數(shù)。
Transformer編碼器的核心為MSA。MSA并行執(zhí)行多個(gè)獨(dú)立的注意力頭,并將輸出連接起來(lái),投影產(chǎn)生最終的輸出值。MSA的優(yōu)點(diǎn)是其可以聯(lián)合關(guān)注來(lái)自不同位置的不同表示子空間的信息,其形式為:
(20)
式中:T(l-1)代表l-1層的輸出;h表示注意力頭的數(shù)量;headj通過(guò)T(l-1)應(yīng)用注意力函數(shù)Att得到;WO∈Rhd×C表示線性投影矩陣。
1.4.2 解碼器
通過(guò)編碼器的輸出得到T1new和T2new,這兩組符號(hào)集不僅包含了興趣區(qū)域的信息,還揭示了在不同時(shí)間點(diǎn)上這些興趣區(qū)域發(fā)生的變化。現(xiàn)在將符號(hào)集T1new和T2new輸入到改進(jìn)的孿生Transformer解碼器中,將語(yǔ)義概念投影回像素空間,以得到像素級(jí)特征。
給定一個(gè)特征序列Xi,Transformer解碼器利用每個(gè)像素和符號(hào)集Tinew之間的關(guān)系來(lái)獲得細(xì)化特征Xinew。將Xi中的每個(gè)像素視為需要關(guān)注和了解的事物,同時(shí)將符號(hào)集Tinew中的每個(gè)符號(hào)視為關(guān)鍵信息。通過(guò)解碼器的多頭交叉注意力(Multi-Head Cross Attention, MCA)模塊,便于理解每個(gè)像素與符號(hào)集之間的關(guān)系,以更好地捕捉圖像的細(xì)節(jié)變化。通過(guò)將像素視為Q(Query),令牌視為K(Key),使模型能夠有效地關(guān)注和理解圖像中每個(gè)像素對(duì)于語(yǔ)義概念提取的重要性。Transformer解碼器由ND層的多頭交叉注意力模塊和MLP組成。與原始的Transformer不同,為了避免計(jì)算Xi中大量像素之間的密集關(guān)系,對(duì)原始的Transformer進(jìn)行了改進(jìn),在解碼器中刪除了MSA塊,并且采用與Transformer編碼器相同的PerNorm和EMLP參數(shù)配置。
在MSA中,Q、K、V來(lái)自相同的輸入序列,而在MCA中,Q來(lái)自圖像特征Xi,K和V來(lái)自標(biāo)記Tinew。在l層,MCA定義為:
(21)
1.4.3 EMLP
EMLP在原始MLP的基礎(chǔ)上引入了殘差連接,通過(guò)將本層輸入添加到本層輸出上,實(shí)現(xiàn)了將輸入與層內(nèi)部的變換結(jié)果相加,使信息在網(wǎng)絡(luò)中能夠更為有效地傳播,有助于緩解梯度消失和梯度爆炸問(wèn)題,提高模型收斂速度。
EMLP的基本組成單元是殘差塊,每個(gè)殘差塊由兩個(gè)線性層(Linear)、一個(gè)ReLU激活函數(shù)以及一個(gè)丟棄層(Dropout)組成。EMLP如圖6所示。
首先輸入向量Xin到第1個(gè)線性層向量,從原始維度轉(zhuǎn)換到隱藏層維度,經(jīng)過(guò)線性變換后通過(guò)ReLU激活函數(shù)引入非線性部分,隨后進(jìn)入丟棄層,通過(guò)設(shè)置丟棄率,隨機(jī)丟棄一部分神經(jīng)元以防止過(guò)擬合,接下來(lái)在第2個(gè)線性層將向量從隱藏維度映射回原始維度,最后經(jīng)過(guò)第2次丟棄操作輸出向量,將經(jīng)過(guò)處理的向量與輸入向量Xin相加,得到輸出向量Xout。通過(guò)輸入與輸出相加構(gòu)造殘差連接的方式,促進(jìn)了梯度的有效傳播。上述流程的形式為:
(22)
(23)
(24)
(25)
(26)
(27)
式中:W1、W2為線性變換權(quán)重矩陣;b1、b2為偏置;fReLU為ReLU激活函數(shù);fDropout為丟棄操作;P為設(shè)置的丟棄率(Dropout rate)。
1.5 預(yù)測(cè)頭
預(yù)測(cè)頭采用簡(jiǎn)單的卷積層進(jìn)行變化判別。將經(jīng)過(guò)Transformer輸出的雙時(shí)相特征圖X1new和X2new輸入預(yù)測(cè)頭,如下所示:
(28)
式中:特征差異圖D表示兩個(gè)特征圖相減的絕對(duì)值;表示變化分類器;σ( )表示在通道維度上的softmax函數(shù)。分類器由兩層帶有BatchNorm的3×3卷積層組成,每個(gè)卷積層的輸出通道數(shù)為32。
2 實(shí)驗(yàn)與分析
2.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)
數(shù)據(jù)集:LEVIR-CD由637對(duì)高分辨率圖像組成,大小為1 024×1 024。該數(shù)據(jù)集涵蓋了各種類型的建筑,如別墅、住宅、高層公寓、小型車庫(kù)和大型倉(cāng)庫(kù)。
環(huán)境及其參數(shù):本文提出的方法在Pytorch上實(shí)現(xiàn),使用NVIDIA GeForce RTX 3070Ti顯卡進(jìn)行參數(shù)訓(xùn)練。在訓(xùn)練過(guò)程中,將隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)作為優(yōu)化器,使初始學(xué)習(xí)率為0.01,線性衰減至0,對(duì)實(shí)驗(yàn)網(wǎng)絡(luò)進(jìn)行500輪訓(xùn)練,在每次訓(xùn)練迭代后進(jìn)行驗(yàn)證,驗(yàn)證集上的最佳模型用于測(cè)試集的評(píng)估。
評(píng)價(jià)指標(biāo):IoU為計(jì)算目標(biāo)檢測(cè)模型性能的常用指標(biāo),用于衡量模型在檢測(cè)任務(wù)中目標(biāo)位置的精度。計(jì)算公式如下:
(29)
式中:TP為真正例(True Positive),表示模型被正確預(yù)測(cè)為正類別的樣本數(shù);FP為假正例(False Positive),表示模型被錯(cuò)誤預(yù)測(cè)為正類別的樣本數(shù);FN為假負(fù)例(False Negative),表示模型被錯(cuò)誤預(yù)測(cè)為負(fù)類別的樣本數(shù)。
F1分?jǐn)?shù)(F1-score)為統(tǒng)計(jì)學(xué)中用來(lái)衡量二分類模型精確度的指標(biāo)。它同時(shí)兼顧了分類模型的精確度(precision)和召回率(recall)。計(jì)算公式如下:
(30)
(31)
(32)
2.2 對(duì)比實(shí)驗(yàn)
為了驗(yàn)證模型的有效性,將本文提出的模型與以下主流方法,即ChangeFormer、BIT、STANet、FC-EF、FC-Siam-Diff、FC-Sima-Conc進(jìn)行對(duì)比[14, 20-22]。LEVIR-CD數(shù)據(jù)集實(shí)驗(yàn)結(jié)果見表1。圖7所示為遙感圖像變化檢測(cè)的可視化結(jié)果。
在表1中,本文提出的網(wǎng)絡(luò)模型在精確度、F1分?jǐn)?shù)和IoU指標(biāo)方面表現(xiàn)較好,分別達(dá)到了92.24%、90.71%和84.08%,相較于BIT和ChangeFormer,F(xiàn)1分?jǐn)?shù)和IoU兩個(gè)指標(biāo)分別提升了1.4個(gè)百分點(diǎn)、0.31個(gè)百分點(diǎn)和3.4個(gè)百分點(diǎn)、1.6個(gè)百分點(diǎn)。在圖7中,本文方法對(duì)微小特征具有較好的識(shí)別能力,可以識(shí)別出發(fā)生微小變化的區(qū)域,并且在減少誤報(bào)和漏報(bào)方面具有較好的表現(xiàn)。此外,本文模型在地形起伏等復(fù)雜背景下,也能保持較高的變化檢測(cè)準(zhǔn)確度。這說(shuō)明本文提出的模型在變化檢測(cè)任務(wù)上具有高精確度,并且在復(fù)雜背景下具有較強(qiáng)的魯棒性。
2.3 消融實(shí)驗(yàn)
本節(jié)設(shè)計(jì)實(shí)驗(yàn)對(duì)網(wǎng)絡(luò)模型中每個(gè)模塊的有效性進(jìn)行驗(yàn)證和分析,同時(shí)將設(shè)計(jì)實(shí)驗(yàn)對(duì)超參數(shù)的設(shè)置進(jìn)行測(cè)試。
2.3.1 模塊消融實(shí)驗(yàn)
為了驗(yàn)證BCB和EMLP在網(wǎng)絡(luò)模型中的有效性,本節(jié)將設(shè)計(jì)消融實(shí)驗(yàn)對(duì)BCB和EMLP的有效性進(jìn)行驗(yàn)證和分析。表2給出了模塊消融實(shí)驗(yàn)結(jié)果。由表2數(shù)據(jù)可知,baseline的4個(gè)指標(biāo)數(shù)值均低于加入BCB和EMLP后的數(shù)值;單獨(dú)加入BCB,4個(gè)指標(biāo)均優(yōu)于baseline,精確度得到了提升,但I(xiàn)oU提升幅度最大,為1.18個(gè)百分點(diǎn),說(shuō)明BCB的加入提高了模型在檢測(cè)變化區(qū)域時(shí)的敏感性和準(zhǔn)確性;單獨(dú)加入EMLP,4個(gè)指標(biāo)數(shù)值相較于BCB提升略小,但與baseline相比,除精確度外均有提升;當(dāng)BCB和EMLP組合使用時(shí),
3個(gè)指標(biāo)(除精確度外)的提升幅度比單獨(dú)使用BCB或者EMLP的提升幅度更大,說(shuō)明EMLP促進(jìn)了BCB的提升;與baseline相比,召回率、精確度、F1分?jǐn)?shù)、IoU分別提升了1.93個(gè)百分點(diǎn)、0.53個(gè)百分點(diǎn)、1.3個(gè)百分點(diǎn)、1.87個(gè)百分點(diǎn),說(shuō)明兩者結(jié)合使用可以提升模型整體性能,使模型的預(yù)測(cè)區(qū)域更接近真實(shí)變化區(qū)域,提升了模型對(duì)變化區(qū)域預(yù)測(cè)的準(zhǔn)確性。
2.3.2 EMLP參數(shù)消融實(shí)驗(yàn)
本節(jié)通過(guò)設(shè)計(jì)2組消融實(shí)驗(yàn)來(lái)研究在EMLP中不同的丟棄率和殘差塊數(shù)量對(duì)網(wǎng)絡(luò)模型性能的影響。第1組實(shí)驗(yàn)在殘差塊數(shù)量為4的情況下,對(duì)比丟棄率分別為0.1和0.2時(shí)的模型性能表現(xiàn);第2組在丟棄率為0.1的情況下,比較殘差塊數(shù)量為4和8時(shí)模型的性能表現(xiàn)。
丟棄率消融實(shí)驗(yàn)結(jié)果見表3。丟棄率為0.1時(shí)模型除了在召回率方面略低于丟棄率為0.2的模型,其余3個(gè)指標(biāo)均優(yōu)于丟棄率為0.2的模型。當(dāng)丟棄率為0.1時(shí),網(wǎng)絡(luò)模型在精確率和召回率上實(shí)現(xiàn)了較好的平衡,使模型能夠更好地學(xué)習(xí)和保留遙感圖像中的微小特征,保證模型有足夠的網(wǎng)絡(luò)容量來(lái)捕捉和學(xué)習(xí)關(guān)鍵特征,同時(shí)避免了模型過(guò)擬合;當(dāng)丟棄率為0.2時(shí),模型的召回率略微好于丟棄率為0.1的模型,更高的丟棄率導(dǎo)致模型在訓(xùn)練中丟棄更多的神經(jīng)元,使網(wǎng)絡(luò)模型能學(xué)習(xí)更具魯棒性的特征表示,提升了模型的泛化能力,但同時(shí)也影響了網(wǎng)絡(luò)模型對(duì)微小特征捕捉的能力,導(dǎo)致模型在精確度、F1分?jǐn)?shù)、IoU方面表現(xiàn)下降。
殘差塊數(shù)量消融實(shí)驗(yàn)結(jié)果見表4。殘差塊數(shù)量為4的模型召回率略微低于殘差塊數(shù)量為8的模型,其余3個(gè)指標(biāo)均優(yōu)于殘差塊數(shù)量為8的模型。當(dāng)殘差塊數(shù)量為4時(shí),模型能夠?qū)W習(xí)到有較高魯棒性的特征表示,從而提升模型在精確度、F1分?jǐn)?shù)、IoU上的表現(xiàn),但同時(shí)也會(huì)略微降低模型捕捉微小特征的能力;當(dāng)殘差塊數(shù)量為8時(shí),雖然模型能夠更容易捕捉到微小特征,使模型的召回率提升,但同時(shí)也可能會(huì)導(dǎo)致模型過(guò)擬合。
綜上,丟棄率為0.1和殘差塊數(shù)量為4時(shí),模型能夠在保持捕獲微小特征的能力和避免模型過(guò)擬合之間取得較好平衡,整體提升了模型檢測(cè)變化區(qū)域的性能。
3 結(jié) 語(yǔ)
本文提出了一種結(jié)合Transformer和多尺度異構(gòu)融合的遙感圖像變化檢測(cè)網(wǎng)絡(luò)模型,實(shí)驗(yàn)結(jié)果表明,提出的網(wǎng)絡(luò)模型F1分?jǐn)?shù)為90.71%,IoU為84.08%,優(yōu)于現(xiàn)有主流方法。在特征提取階段,通過(guò)采用由多特征融合策略和BCB組成的MAFM,使網(wǎng)絡(luò)模型在特征提取時(shí)既利用了多尺度特征信息的魯棒性,又吸收了BCB對(duì)復(fù)雜場(chǎng)景的建模能力,提高了網(wǎng)絡(luò)模型對(duì)于邊緣特征和微小特征提取的準(zhǔn)確性;在Transformer編解碼器中,對(duì)MLP進(jìn)行改進(jìn),提出了EMLP用于促進(jìn)信息在網(wǎng)絡(luò)中的有效傳播,緩解了梯度消失和梯度爆炸問(wèn)題,使模型能夠加速訓(xùn)練過(guò)程并提高模型的泛化能力。
綜上所述,本文提出的網(wǎng)絡(luò)模型具有良好的遙感圖像變化區(qū)域檢測(cè)能力,但其檢測(cè)精度仍有提升空間。未來(lái)的工作將著重于通過(guò)擴(kuò)充訓(xùn)練樣本來(lái)增強(qiáng)模型的學(xué)習(xí)能力,以及對(duì)特征提取網(wǎng)絡(luò)進(jìn)行改進(jìn),以進(jìn)一步提高檢測(cè)精度。
注:本文通訊作者為武斌。
參考文獻(xiàn)
[1]張良培,武辰.多時(shí)相遙感影像變化檢測(cè)的現(xiàn)狀與展望[J].測(cè)繪學(xué)報(bào),2017,46(10):1447-1459.
[2] TEWKESBURY A P, COMBER A J, TATE N J, et al. A critical synthesis of remotely sensed optical image change detection techniques [J]. Remote sensing of environment, 2015, 160: 1-14.
[3] DEMIR B, BOVOLO F, BRUZZONE L. Updating land-cover maps by classification of image time series: a novel change [J]. IEEE transactions on geoscience and remote sensing, 2012, 51(1): 300-312.
[4] JIN S, YANG L, DANIELSON P, et al. A comprehensive change detection method for updating the national land cover database to circa 2011 [J]. Remote sensing of environment, 2013, 132: 159-175.
[5] LE HéGARAT-MASCLE S, OTTLé C, GUERIN C. Land cover change detection at coarse spatial scales based on iterative estimation and previous state information [J]. Remote sensing of environment, 2005, 95(4): 464-479.
[6] WU C, DU B, CUI X, et al. A post-classification change detection method based on iterative slow feature analysis and Bayesian soft fusion [J]. Remote sensing of environment, 2017, 199: 241-255.
[7] DENG J S, WANG K, DENG Y H, et al. PCA-based land-use change detection and analysis using multitemporal and multisensor satellite data [J]. International journal of remote sensing, 2008, 29(16): 4823-4838.
[8] VOLPI M, TUIA D, BOVOLO F, et al. Supervised change detection in VHR images using contextual information and support vector machines [J]. International journal of applied earth observation and geoinformation, 2013, 20: 77-85.
[9] ZHANG C, LI G, CUI W. High-resolution remote sensing image change detection by statistical-object-based method [J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2018, 11(7): 2440-2447.
[10] GIL-YEPES J L, RUIZ L A, RECIO J A, et al. Description and validation of a new set of object-based temporal geostatistical features for land-use/land-cover change detection [J]. ISPRS journal of photogrammetry and remote sensing, 2016, 121: 77-91.
[11] CHEN L, PAPANDREOU G, KOKKINOS I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 40(4): 834-848.
[12] ZHANG W, LU X. The spectral-spatial joint learning for change detection in multispectral imagery [J]. Remote sensing, 2019, 11(3): 240.
[13] FANG B, PAN L, KOU R. Dual learning-based siamese framework for change detection using bitemporal VHR optical remote sensing images [J]. Remote sensing, 2019, 11(11): 1292.
[14] DAUDT R C, LE SAUX B, BOULCH A. Fully convolutional siamese networks for change detection [C]// 2018 25th IEEE International Conference on Image Processing (ICIP). Athens, Greece: IEEE, 2018: 4063-4067.
[15] LIU X N, ZHOU Y, ZHAO J Q, et al. Siamese convolutional neural networks for remote sensing scene classification [J]. IEEE geoscience and remote sensing letters, 2019, 16(8): 1200-1204.
[16] PENG D F, ZHANG Y Y, GUAN H Y. End-to-end change detection for high resolution satellite images using improved UNet++ [J]. Remote sensing, 2019, 11(11): 1382.
[17] YU X, FAN J F, CHEN J H, et al. NestNet: a multiscale convolutional neural network for remote sensing image change detection [J]. International journal of remote sensing, 2021, 42(13): 4898-4921.
[18] ZHANG X W, YUE Y Z, GAO W X, et al. DifUnet++: a satellite images change detection network based on UNet++ and differential pyramid [J]. IEEE geoscience and remote sensing letters, 2021, 19: 1-5.
[19] VENUGOPAL N. Automatic semantic segmentation with DeepLab dilated learning network for change detection in remote sensing images [J]. Neural processing letters, 2020, 51(3): 2355-2377.
[20] BANDARA W G C, PATEL V M. A transformer-based siamese network for change detection [C]// IGARSS 2022-2022 IEEE International Geoscience and Remote Sensing Symposium. Kuala Lumpur, Malavy-sia: IEEE, 2022: 207-210.
[21] CHEN H, QI Z, SHI Z. Remote sensing image change detection with transformers [J]. IEEE transactions on geoscience and remote sensing, 2021, 60: 1-14.
[22] CHEN H, SHI Z. A spatial-temporal attention-based method and a new dataset for remote sensing image change detection [J]. Remote sensing, 2020, 12(10): 1662.
作者簡(jiǎn)介:趙 潔(1984—),男,博士,副教授,研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)。
劉玉升(1999—),男,在讀碩士研究生,研究方向?yàn)檫b感圖像處理、機(jī)器視覺(jué)。
武 斌(1966—),男,碩士,教授,研究方向?yàn)闄C(jī)器視覺(jué)、模式識(shí)別。
收稿日期:2024-01-18 修回日期:2024-03-05
基金項(xiàng)目:天津市重點(diǎn)研發(fā)計(jì)劃科技支撐重點(diǎn)項(xiàng)目(19YFZCGX00 130);天津市企業(yè)科技特派員項(xiàng)目(19JCTPJC47200)