王 峰,程詠梅
(1.渭南師范學院, 陜西 渭南 714099; 2.西北工業(yè)大學, 西安 710072)
隨著地球觀測進程的快速發(fā)展,越來越多的在同一地理區(qū)域不同時間捕獲的SAR圖像可以被利用。由于SAR圖像可以在全天時、全天候的條件下獲取,它已成為變化檢測(change detection,CD)重要的數(shù)據(jù)源。它對洪水探測[1]、災害評估[2]、城市規(guī)劃[3]、土地覆蓋數(shù)據(jù)監(jiān)測[4]等大量應用都具有較高的實用價值。
SAR圖像本身就受到散斑噪聲的污染,這一現(xiàn)象使得SAR圖像變化檢測成為一項非常具有挑戰(zhàn)性的任務。因此,發(fā)展能夠處理散斑噪聲的魯棒性CD技術變得至關重要。為了解決此問題,學者們經過努力提出了許多魯棒性的CD方法。這些方法大致可以分為兩大類:1)監(jiān)督的方法;2)無監(jiān)督的方法。監(jiān)督的方法通過使用大量標記數(shù)據(jù)產生良好性能[5]。然而,該方法總是難以獲得足夠的標記數(shù)據(jù),因此不能滿足實際應用的需要。相反,無監(jiān)督的方法不需要任何先驗信息的支持。同時,它可以將人為誤差減少到最小。因此,在本文中,主要考慮使用無監(jiān)督的方法檢測SAR圖像的變化。無監(jiān)督的SAR圖像變化檢測方法通常由以下3個步驟組成:1)圖像預處理;2)差異圖像(difference image,DI)產生;3)DI分類。在第一步中,幾何配準是基本任務,并起著重要的作用。在DI產生步驟中,常采用對數(shù)比、高斯比和鄰域比操作產生DI圖像。對于DI分類,最主要的工作是建立一個魯棒性的分類器,這是CD中最關鍵的一步,因為一個分類器性能的好壞,直接影響到了CD精度的高低。
國內外學者們對CD提出了許多強有力的分類方法。Lu等[6]提出了基于鄰域核聚類的半監(jiān)督支持向量機(support vector machine,SVM)分類法,來檢測SAR圖像的變化區(qū)域。Li等[7]提出了基于兩級聚類的無監(jiān)督CD方法,來提高CD的性能。Gong等[8]提出了一種基于模糊C均值(fuzzy C-means,FCM)聚類的改進馬爾可夫隨機場方法來抑制散斑噪聲。在文獻[9]中,采用堆疊限制性玻爾茲曼機(restrictive boltzmann machines,RBM)來進行SAR圖像CD。雖然上述方法取得了良好的性能,但特征表示能力仍然有限。
近年來,深度卷積神經網絡(convolutional neural networks,CNNs)因其強大的特征鑒別能力,已成功地應用到了SAR圖像分析中,并在SAR圖像CD中取得了非常不錯的效果。 Liu等[10]提出了一種利用增強局部限制性卷積神經網絡(local restricted CNNs, LR-CNNs)來檢測SAR圖像中的變化區(qū)域。Gao等[11]提出了基于卷積小波神經網絡的SAR圖像中海冰變化檢測。隨后,在文獻[12]中,提出了輕量級CNNs模型檢測多實相SAR圖像中的變化區(qū)域。雖然上述基于CNNs的方法利用深度特征的表示在SAR圖像的CD方面取得了優(yōu)異的性能,但是現(xiàn)有的方法通常使用塊特征進行分類時,忽略了對SAR圖像CD性能至關重要的上下文信息。另外,基于CNNs的方法都是利用塊提取圖像特征,容易在每個塊的邊緣區(qū)域引入一些噪聲特征。如何在保留上下文信息的同時減少邊緣區(qū)域噪聲的干擾是SAR圖像CD所面臨的一個難題。
受人類視覺感知機制的啟發(fā),提出了一種魯棒、精確的多域卷積(multi-region convolution, MRC)與改進自注意機制(improved self-attention mechanism,ISAM)聯(lián)合的網絡模型(簡稱MRCISAM),用于SAR圖像的CD檢測任務。首先,該方法利用MRC模型提取SAR圖像的特征,不但能保持上下文的信息,而且能有效強調每個圖像塊的中心區(qū)域;然后,在自注意機制(self-attention mechanism,SAM)模塊中加入空洞卷積層(dilated convolution,DC),形成新ISAM模塊。該模塊能突出有用的特征區(qū)域,來引導MRCISAM網絡進行正確的變化檢測。最后,采用3種不同的真實SAR數(shù)據(jù)集進行實驗,所得實驗結果表明,本文中提出的方法比其他對比方法具有更好的性能。
假設兩幅已配準的SAR圖像I1和I2,它們分別是在T1和T2時間觀測地球同一地理區(qū)域所拍攝。CD的主要目的是生成一幅二進制圖像。其中,已經發(fā)生變化的像素將其標記為“1”,而未發(fā)生變化的像素將其標記為“0”。
本文中所提出的MRCISAM網絡的SAR圖像CD框圖如圖1所示。

圖1 MRCISAM網絡模型的SAR圖像變化檢測框圖
該方法主要分為3步。
Step 1 (預分類):對數(shù)比運算用來產生DI。然后,利用FCM算法將DI圖分為3種不同的聚類。
Step 2 (樣本圖像塊的產生):每個像素周圍生成圖像塊。將改變或未改變的高概率像素塊作為訓練樣本,并生成一些虛擬樣本。
Step 3 (通過MRCISAM網絡分類):將在Step2中生成的圖像塊作為訓練數(shù)據(jù)進行處理,并輸入到MRCISAM中。經過訓練后,將原始SAR圖像中的所有樣本塊輸入到學習的MRCISAM模型中進行分類,得到最終的變化映射圖。
在進行變化信息分析之前,先使用對數(shù)比運算符將SAR圖像的線性尺度轉換為對數(shù)尺度,然后再進行變化信息分析。對數(shù)比圖像DI通過DI= |logI2/I1|計算。結果表明,利用對數(shù)比運算符可以將乘性噪聲轉變?yōu)榧有栽肼暋+@得DI后,利用分層FCM算法將DI圖像分為3組:改變類Ωc,未改變類Ωu,中間類Ωi。像素屬于Ωc是具有高概率改變類,像素屬于Ωu是具有高概率未改變類。因此,本文選擇Ωc和Ωu作為訓練樣本。屬于Ωi類的像素將被MRCISAM進一步分類。
值得注意的是,在選擇樣本訓練MRCISAM模型時,正樣本數(shù)量與負樣本數(shù)量應一樣。對于給定的像素,分別以該像素為中心從I1和I2圖像中提取圖像塊。每個塊的大小為r×r(r=7),將輸入圖像I1和I2的塊聯(lián)合在一起,形成大小為2×r×r的圖像塊。新產生的圖像輸入到MRCISAM模型中進行訓練。訓練后,像素中心屬于Ωi類的圖像塊再進行進一步分類。
如圖1所示,整個MRCISAM網絡中包含4個MRC模型。MRC模型的細節(jié)如圖2所示。因為上下文信息對SAR圖像CD有著重要的影響,現(xiàn)有方法常采用固定大小的窗口(3×3,5×5,6×6)等來確定位置是否發(fā)生了變化。本文中認為,如果在特征提取時放棄一些邊緣區(qū)域,強調中心區(qū)域,從而就能消除邊緣區(qū)域的噪聲。為此,本文中提出提取多區(qū)域特征,來增強SAR圖像在CD中的特征表示。

圖2 MRC模塊框圖Fig.2 Illustration of the MRC module
以下是3種區(qū)域表示形式:① 整體區(qū)域。如圖2所示,它是一個方形塊,用CNNs引導捕獲中心像素的全局上下文信息。② 水平中間區(qū)域。設計圖像塊集中在水平中心區(qū)域,且將頂部和底部的像素刪除。③ 垂直中間區(qū)域。設計垂直圖像塊集中在中心區(qū)域,而將集中在左右2部分的像素刪除。如果在CNNs模型中考慮上述區(qū)域,中心區(qū)域將會得到增強,邊緣上的噪聲像素將得到有效抑制。
假設圖像塊A∈R2×r×r,將其輸入到1×1的卷積層,獲得新的特征映射F∈RC×r×r。然后,根據(jù)通道維數(shù)將F分為Fg、Fh和Fv三組。因此,Fg、Fh和Fv的形狀分別是C/3×r×r。Fg表示整體特征,Fh指的是水平中間區(qū)域特征。其中,頂部和底部的幾行像素被移除,設置為0。Fv代表垂直中間區(qū)域特征,其中,左側和右側幾列像素被移除,設置為0。在本文中將r設置為7,Fv特征的上邊兩行和下邊兩行分別設置為0,而Fh特征的左兩列和右兩列分別設置為0。
以圖像塊大小為例,輸入特征映射被卷積成15個通道,然后將其分成Fg、Fh和Fv三組,經3×3卷積層后,能夠獲得F′g、F′h和F′v,這些特征進行元素級求和融合,形成輸出特征。
Fg、Fh和Fv三組特征分別經過的卷積層后,可分別獲得F′g、F′h和F′v三組特征。將這些特征通過元素級求和進行融合如下:
Ffus=F′g+F′h+F′v
(1)
式中,Ffus∈C/3×r×r表示融合后的特征,在本文實驗中將C設置為15。因此,最終可得到MRC模型的融合特征圖大小為5×7×7。
為了學習更多的辨別特征,在MRCISAM的網絡中,本文中使用空洞卷積DC代替Transformer中自注意模塊的標準卷積。DC在過去也稱為帶有空洞濾波器的卷積,它在小波分解的átrous算法中起著關鍵作用[13]。隨后,進一步采用語義分割的方法,在不損失圖像分辨率的情況下聚合多尺度上下文特征。數(shù)學上,2個函數(shù)之間的卷積運算(*)可以表示如下:
式中:f為核大小為m的離散函數(shù);g為大小為n的濾波器;r為感受野的大小。另外,DC表示為式(3),其中k表示膨脹率。
DC是基于卷積運算,不需要重建空洞濾波器。通過使用多個膨脹率,可以在不同的范圍內應用相同濾波器來接受不同感受野。根據(jù)混合DC方案[14],在Transformer的SAM模塊中,分別對和的冗余卷積進行1-和2-的膨脹。即,1-DC在感受野方面等于標準卷積,1-膨脹的卷積和2-膨脹的卷積的感受野與標準卷積一樣,如圖3所示。采用DC能夠提供更大的接受域,并允許模型專注于局部特征信息。另外,DC的引入不但不會增加額外的計算量,而且還能夠保證快速的卷積操作和有效的推理。

圖3 空洞卷積概述
為了突出有用區(qū)域和模型特征關系,進一步研究了Transformer在機器翻譯中成功采用的SAM[15]。在Transformer的SAM單元中,輸入分為查詢(Q)、鍵(K)和值(V)3個組成部分,如圖4(a)所示。首先計算所有鍵查詢的點積,然后將SoftMax函數(shù)放在矩陣乘法的結果上,得到該值對應的權重,稱其為SAM,也可以考慮和捕獲上下文句子之間的長期依賴關系。本文中受Transformer中SAM單元的啟發(fā),將DC卷積引入到其中,設計了一種新的ISAM模塊,并將其表述為建模特征關系的唯一注意機制。在圖4(b)中,輸入先被分別劃分為q、k和v分支。接下來并行執(zhí)行1-,2-,和5-膨脹率的3×3卷積,為了減少參數(shù)的瓶頸,對1-和2-膨脹卷積后的特征在進行一次1×1卷積,然后采用SoftMax函數(shù)計算激活概率。在ISAM輸出之前,受文獻[16]啟發(fā),采用的 Sigmoid注意特征融合方案能夠更有效的融合注意特征。在DC卷積的幫助下,ISAM能夠捕獲全局特征,同時也關注局部語義信息。

圖4 SAM的體系結構概述

在方程 (6)中,計算q、k和v特征映射之間的矩陣乘法,然后計算SoftMax函數(shù)。
att(q,k,v)=softmax(q(xs)k(xs)T)v(x)
(6)
在方程 (7)中,對方程(6)輸出的注意特征映射取激活函數(shù),可獲得新的權重W, 然后在方程(8)中,利用權重W將多域卷積提取的輸入特征Ffus和與注意特征映射進行加權融合,可獲得最終輸出Fout。
W=sigmoid(att(q,k,v))(7)Fout=
att(q,k,v)?W+Ffus?(1-W)
(8)
如圖4所示,ISAM被放置在4個MRC和2個全連接層(full connected layers,FC)之間,ISAM與非局部網絡的擴展操作相比,ISAM是輕量級的,并且它可以用很少的計算成本有效的插入到其他架構中。更重要的是,它可以對全局特征關系進行建模,同時捕獲局部上下文信息,優(yōu)于簡單的注意機制單元檢測方法[17]。
差異圖像經過4層MRC模塊和ISAM模塊后,可以獲得包含有全局上下文信息,且中心區(qū)域得到增強的特征矢量Vs,其長度為5×5×7=175。將特征矢量Vs輸入到FC層后,差異圖像中變化或未變化的概率就會通過SoftMax層生成輸出。經過訓后,類中的像素通過MRCISAM網絡就可以進一步進行分類,并獲得最終的變化映射圖。
為了證明所提MRCISAM算法的有效性,本文從https://github.com/summitgao/SAR_changed_Detection_Data.網址上獲得大量的SAR圖像數(shù)據(jù)集用于MRCISAM網絡訓練,并選用3種不同類型的SAR數(shù)據(jù)集進行測試。其中,第一種數(shù)據(jù)集為舊金山數(shù)據(jù)集(San Francisco),圖像大小為256×256像素,它是由ERS-2SAR傳感器在舊金山市上空捕獲所得。第二種數(shù)據(jù)集為黃河數(shù)據(jù)集(Yellow River),圖像大小為306×491像素,它顯示了Radarset-2在中國黃河河口地區(qū)采集的一段SAR圖像。第三種數(shù)據(jù)集為渥太華數(shù)據(jù)(Ottawa),圖像大小為290×350像素,它提供了由RADARSATSAR傳感器捕獲的兩幅SAR圖像中的一部分。這些圖像展示了曾經遭受洪水破壞的地區(qū)。需要提醒的是,以上介紹的這3種數(shù)據(jù)集都受到了不同特征噪聲的污染。因此,用這些數(shù)據(jù)集進行CD是非常具有挑戰(zhàn)性的。
為了進一步證明本文方法的優(yōu)越性,選用了6種主流的CD方法與所提出的方法進行比較。這些方法分別為PCAKM[18]、GaborPCANet[19]、DBN[20]、DCNet[21]、ESCNet[22]和DDNet[23]。這些方法分別采用文獻[18-23]中所提供的默認參數(shù)來實現(xiàn)。
黃庭堅強調煉句,多有奇妙之語,朝鮮詩人就經常取黃庭堅的詩語入詩,如李穡《又賦》說朋友“詩語自變如涪翁”[2](4輯,P282),奇大升《圍棋》表示“涪翁妙句心能會”[2](40輯,P25),金錫胄《納清亭》也“徘徊為覓涪翁句”[2](145輯,P229),金鎮(zhèn)圭《壽伯氏生朝》說哥哥“孤生已感涪翁語”[2](174輯,P56)。詩人們用黃庭堅詩語主要有三種形式:巧妙點化、稍作改動和直接引入。
在本文中,采用錯檢個數(shù)(FP),漏檢個數(shù)(FN),總體誤差(OE),正確分類百分比(PCC)和Kappa系數(shù)(KC)這5種常規(guī)客觀指標評價SAR圖像CD的性能[23]。
為了獲得上下文信息,在每個樣本的像素周圍提取一個大小為r×r的圖像塊。參數(shù)r是影響SAR圖像CD性能的關鍵參數(shù)。因此,本文中將r分別設置5、7、9、11、13和15。不同r值與PCC值之間的關系如圖5所示。

圖5 不同圖像塊大小和PCC間的關系
觀察圖5可以得出,在3種不同的SAR圖像數(shù)據(jù)集上,r=7時PCC值達到最好。當r>7時,PCC的值有下降趨勢,主要原因在于大的圖像塊不能代表中心像素,并且CD容易受到散斑噪聲的影響。當r≤7時,PCC值相對較低,因為需要考慮更多的上下文信息。在接下來的實驗中,r的值被設置成7。
為了證明MRC模型和ISAM模型的有效性,本文中選用了3組不同的SAR數(shù)據(jù)集進行了消融實驗。3種實驗所用的方法分別為:① MRC網絡不含SAM模塊;② MRC與SAM模型結合,且SAM模塊中不包含DC層;③ MRC與ISAM模型結合,且ISAM模塊中加入了DC層。從表1中可以看出,MRC與ISAM模塊能有效的提高CD的性能。ISAM在3組數(shù)據(jù)集上的PCC值分別提高0.37%、0.2%和0.28%,這足以說明,DC的引入能有效的保留辨別特征。

表1 MRC與ISAM方法的消融實驗(PCC)
本節(jié)將所提出MRCISAM方法與6種相關聯(lián)的方法進行比較,所有方法的主觀視覺評價和客觀分析分別見圖6和表2、圖7和表3、圖8和表4所示。

表2 不同方法在San Francisco數(shù)據(jù)集上的測試結果

表3 不同方法在Yellow River數(shù)據(jù)集上的測試結果

表4 不同方法在Ottawa數(shù)據(jù)集上的測試結果

圖6 不同CD方法在San Francisco數(shù)據(jù)集上的視覺對比結果

圖7 不同CD方法在Yellow River數(shù)據(jù)集上的視覺對比結果

圖8 不同CD方法在Ottawa數(shù)據(jù)集上的視覺對比結果
在San Francisco數(shù)據(jù)集上,觀察圖6(d)—(i)所給出不同對比方法的變化圖和其所對應于表2中的實驗結果可知。PCAKM的方法錯檢了許多未發(fā)生變化的像素。導致PCAKM方法的FP值較高,CD的整體性能受到了影響。 DBN和DCNet方法在少量噪聲下實現(xiàn)了較好的性能,但是變化像素丟失嚴重。對GaborPCANet方法,FP和FN值得到了平衡。但在變化圖中仍存在一些白噪聲,并且在左上角忽略了一些發(fā)生變化的區(qū)域。 更多可接受的視覺結果如圖6(f)—(j)所示。比較圖6(f)—(j),DCNet方法獲得了變化區(qū)域的細節(jié),而DBN方法抑制了噪聲。此外,本文中所提的MRCISAM方法與前面的方法相比,MRCISAM方法獲得了最好的PCC和KC值。很明顯,ISAM模塊提高了CD檢測的性能。
在Yellow River數(shù)據(jù)集上,不同方法所產生變化圖如圖7所示。其相對應的客觀評價標準如表3中所列。Yellow River數(shù)據(jù)集受到嚴重的噪聲污染。因此,采用傳統(tǒng)方法很難獲得令人滿意的結果。PCAKM和GaborPCANet方法的變化圖顯示出許多噪聲區(qū)域。導致這2種方法的FP值很高。對于GaborPCANet方法,丟失了許多已變化的像素,獲得了較高的FN值。盡管抑制了噪聲干擾,但忽略了許多重要的變化信息,導致了較高的FN值。圖7(f)—(j)性能較好,并且很明顯,基于深度學習的方法可以更有效地探索上下文信息。特別是本文MRCISAM方法能有效抑制底部變化的噪聲,不但實現(xiàn)了最好的視覺效果,而且也獲得了更高的PCC和KC值。
在Ottawa數(shù)據(jù)集上,圖8給出了不同方法所獲得的變化圖,表4列出了詳細的評價標準。可以看出,PCAKM的方法丟失了許多小的變化區(qū)域。因此,該方法的FN值較高。GaborPCANet,DDNet和本文中所提出的MRCISAM方法實現(xiàn)了好的效果。從表4可以看出,MRCISAM方法優(yōu)于GaborPCANet方法,PCC值高出了約0.79%。同時,MRCISAM方法的PCC值超出DDNet方法約%0.56。在ESCNet方法的結果中,FP值最低,而FN值最高。因為許多細微的變化區(qū)域作為噪聲被消除了。此外,MRCISAM的PCC值略高于DBN和DCNet。這是因為MRCISAM具有更好的細節(jié)保護能力,從而導致FN值較低。根據(jù)PCC值和視覺效果,MRCISAM方法在Ottawa數(shù)據(jù)集上性能最好。
以上3種數(shù)據(jù)集的實驗結果表明,所提出的MRCISAM方法,能夠獲得最好的性能。此外,本文所提出的MRCISAM方法與傳統(tǒng)的基于CNNs方法相比的優(yōu)勢,就是分別采用MRC模塊提取圖像的上下文信息,采用ISAM模型來提高檢測的精度。
本文中提出了一種基于MRCISAM的SAR圖像變化檢測方法。該方法先通過MRC模型增強輸入圖像塊的中心區(qū)域特征;再利用ISAM模型對MRC模型輸出特征進行優(yōu)化,來提高CD的精度。最后,采用3組不同類型的SAR圖像進行實驗,所得實驗結果表明,本文提出的CD方法在性能上明顯優(yōu)于PCAKM、GaborPCANet、DBN、DCNet、ESCNet、DDNet和DDNet的方法。