劉博斐 雒琛
(1.中電科新型智慧城市研究院有限公司 廣東省深圳市 518000 2.哈爾濱工業大學 廣東省深圳市 150001)
研究方向是在遙感數據上的變化檢測問題。變化檢測的問題主要用于發現地表在一段時間的變化,這種變化的檢測可廣泛用于城市規劃,環境監測,農業發展,災害評估等。變換檢測的過程是通過分析在前后兩個不同時間采集到的圖像數據來判定物體或現象的變化。準確的分析結果需要基于大量、高質量的分析數據,幸運的是隨著遙感技術的發展,越來越多的高時空時相分辨率數據可以用于研究,例如衛星影像和航空影像都可以提供大量的信息用于檢測跨越一段時間的陸地使用及覆蓋變化。除此之外其他數據的融入也可以幫助提高分析精度,例如用于表示地面物體高度的點云數據可以用于建筑高度的變化檢測,路面拍攝的圖片也可以作為衛星圖像的輔助用于更高精度的變化檢測。
最多用于變化檢測的三類遙感數據是SAR 數據、多光譜數據和高光譜數據。SAR 數據是通過衛星上的傳感器收集的,得益于微波的穿透性SAR 數據不會受到大氣和光照條件的影響,因此在各種天氣條件下都能非常清楚的記錄地表狀況,這種能力使他成為變化檢測問題里最有價值的數據。同時不同的地表類別比如土壤、河流等都有不同的微波表示。同時SAR 數據很容易受到斑點噪音干擾,如果在處理時不抑制此類噪音將會影響分析精度。變化檢測中的光學數據主要由多光譜和高光譜構成,他們由圖像波段的個數來區分,多光譜圖像一般波段數小于10,而高光譜圖像波段數可以達到幾百甚至幾千。多光譜圖像一般由衛星采集而來,可以很經濟且穩定的獲得,時間和空間覆蓋率都很高,其圖像分辨率范圍可以從很低到很高(10-100 厘米/像素),它能提供非常豐富的顏色、紋理等屬性從而反映真實的地表結構,因此也廣泛的用于變化檢測領域。高光譜圖像由幾百甚至幾千連續且非常窄的光譜組成,他們能提供豐富的空間和頻譜信息,詳細的光譜變換信息是變換檢測性能的有力保證,但是由于其數據量太大,一般需要消耗大量的計算資源,并且用于訓練的數據量也不能太大。當使用來自相同傳感器的同源數據時,數據有相同的屬性及特征空間,由于衛星的拍攝周期,要獲得高頻率采集的數據最簡單、靈活的辦法就是使用來自不同衛星的異源數據,他們有不同的特征空間,因此在變化檢測方面需要更可靠的技術。遙感圖像變化檢測數據分類如圖1 所示。
時至今日為了解決在變化檢測過程中高空間高頻譜分辨率帶來的問題,越來越多的變化檢測方法被提出,這些方法可以大致分為傳統方法和基于人工智能的方法。根據檢測單元的不同,這些方法又可分為基于像素級、特征級及對象級的檢測。不管使用哪種方法,變化檢測的過程大致可分為以下三個步驟:
(1)數據預處理,由于變化檢測主要的對象是雙時相數據,因此數據首先需要進行圖像對準,還需要進行正射校正以消除光照影響,同時還需要對數據的噪音進行處理。
(2)特征提取,例如使用基于機器學習的方法提取圖像空間和頻譜的特征,未變化的區域在隱空間的特征應該相似,而變化的區域則相差甚遠。
(3)判別/分類,基于提取出來的特征判斷出該區域/像素是否發生變化。傳統的變化檢測方法大致有幾下幾種:
1.代數分析,基本思想是計算圖像的特征矩陣,比較后將變化/未變化區域通過閾值分開,最典型的代表是CVA (Change Vector Analysis)。
2.基于圖像變換,基本思想是將多光譜圖像變換到一個特別的的特征空間,在這個空間內,未變化的時相數據對有相似的特征表達而對于變化的時相數據對則是不同的,在這類方法中最著名的是主成分分析法(PCA),除此之外還有例如Kauth-Thomas 變換等。
3.圖像分類后比較法,這種方法以分類為基礎,運用統一的分類方法對每一個時相遙感影響進行單獨分類,通過對結果的比較直接發現變化,這種方法可以回避多時相數據因為季節或傳感器不同而帶來的歸一化問題,但是其精度又非常大程度受到每個時相分類精度的影響。近幾年深度學習隨著其發展在圖像處理領域取得了顯著的成績,例如圖像分類,語義分割當然也很大程度推進了變化檢測的發展。基于深度學習的變化檢測輸入數據可以是同源也可以是不同源數據,通過深度學習可以得到雙時相圖像潛在的特征表達,其處理結構可以是單數據流,雙數據流和多數據流。

圖1:遙感圖像變化檢測數據分類
發展至今,基于深度學習的變化檢測已經能很好的解決大多數的問題,通過使用傳統方法產生偽標記的數據集再與深度學習方法結合更彌補了遙感數據標記耗時、準確率低的問題。然而在這一領域還有很多問題值得思考與研究,比如如何更好的處理多時相數據,更有效地將大量遙感數據用于變化分析。

圖2:剪裁的數據塊用作神經網絡輸入

圖3:雙時相數據直接作為輸入

圖4:基于LSTM 的網絡結構
由于傳統方法基于對多時相數據的直接對比或人工提取的特征因此并不能很好的解決變化檢測的問題。機器學習在很多數據處理任務中都表現出了很好的性能,尤其在特征提取方面更是優于其他傳統方法,得益于其強大的建模和學習能力機器學習可以盡可能地模擬圖像物體和其幾何特征的關系[1]。基于機器學習的網絡可以是單數據流的框架結構也可以是雙數據流的框架結構。因為以雙時相數據作為訓練集,在基于單數據流的框架結構中雙時相數據一般會以融合的方式生成單一輸入數據,雙數據流使用最多的框架結構是孿生神經網絡結構,在兩個并行的神經網絡中參數可以共享,也有研究證明各自訓練的參數由于其可以提取各自領域特有的特征有時能提供更好的性能,即偽孿生神經網絡結構。近幾年基于機器學習或其與傳統方法相結合的變化檢測策略大致分為以下兩類:
在非監督方法中,不會使用任何人工標注的標簽,在快速增長的遙感數據上進行人工標簽非常耗時耗力,因此非監督的方法有著顯著的優點。基于變換和聚類的技術是兩類使用最多的技術[2]。在近幾年的實踐過程中,傳統方法通常用于生成差異圖(Different Image)/偽標簽,這些差異圖/偽標簽及對應的數據將作為下一步訓練的輸入。其生成最簡單常用的算法是在同源數據上使用差異操作符或比例操作符,差異操作符在光學圖像上被證明比較有效,而由于SAR 圖像易受斑點噪聲的影響因此效果并不顯著,而且噪聲無法被抑制,比例操作符則是將兩張SAR 圖像相除,然而它也只能使用局部信息。在此基礎上,對數操作和均值操作使用面更廣泛[3]。主成分分析也是一種很流行的用來給光學圖像中時相,頻譜不變的像素點進行建模的計算方法,它通過將圖像變換到正交的空間內,再選擇某一空間,這里傳統的做法是選擇第一主成分空間,然后將變化的圖直接進行對比生成差異圖,相似的方法還有光譜相關角(SCA)。基于聚類的方法基本思想則是將單一像素點分入變化、未變化類,從而實現像素級別的變化檢測。
在傳統聚類中給定對象的邊界是清晰的,在變化檢測問題中為了克服傳統聚類方法的弊端一般使用的是K 模糊聚類,即每個數據點不是被硬化分到一個聚簇而其與聚簇間的關系取自概率[0,1]之間。在[3]中,作者首先將同源數據相減并歸一化得到差異矩陣,對于每一個像素點根據其對應的差異矩陣進行k 模糊聚類,根據聚類結果將像素標記為變化/未變化點,為了提高偽標簽的精度,相鄰像素點的信息被用來刪除可能的噪音點(KNN)[4],這些噪音點明顯的特點是其大多數鄰居像素點與其不屬于同一類,經過處理的雙時相圖片可作為四層CNN 網絡的訓練集用以訓練一個能以直接進行變化檢測的分類器。基于PCA 思想的方法也是一個非常常用的用于生成偽標簽的途徑。在[5]中,同[3]作者首先在同源光學數據上使用差異分析來生成一個非常粗糙的差異圖,進行主成分變換,變換后符合條件的主成分空間必須滿足未變化的區域相對相關而變化區域不相關。借此選取的訓練數據作為一個3D-FCN 網絡的訓練集。
基于監督方法的變化檢測一般都是一個端到端過程,不會有預處理及后處理過程,一般都是有一個可以直接進行變化檢測的神經網絡組成。這些方法的輸入主要分為兩種,一種是在雙時相數據對上通過對原數據切割得到的n*n 的一對數據塊,這類網絡的輸出一般等同于分類器的輸出,也就是可以直接判別雙時相數據對是否發生變化;另一種是直接將雙時相數據對作為輸入,這類網絡的輸出一般是與輸入數據大小相同的變化圖,圖中標記發生變化的像素點[6]。
在[7]中,作者將數據塊作為輸入,最后連接一個全連接層,用于直接分類。同樣在[8]中,作者也使用了同樣的思想,如圖2。
將雙時相數據直接作為輸入的網絡一般會使用FCN 網絡,利用與語義分割相似的思想,使用上采樣的方法將處理后的數據還原到原大小。在[9]中,作者就采用了這樣的思想來生成雙時相數據的變化圖。如圖3 所示。
隨著神經網絡的發展,很對在圖像分析處理其他領域效果顯著的網絡結構在變化檢測領域也顯示出了其強大的處理能力。例如循環神經網絡(RNN, LSTM),遷移學習,對抗神經網絡(GAN),注意力機制等。

圖5:遷移學習結構

圖6:對抗神經網絡在變化檢測中應用網絡結構1
因為變化檢測問題的基礎是雙時相數據,作為一種時間序列數據,循環神經網絡可以充分利用時間相關性的特征,通過與CNN的結合,光譜、空間、時間特征都能被提取并且用于檢測分析。LSTM 結構由三個門控制數據,即輸入門、輸出門、遺忘門,每個門都是一個可以學習的權重,循環神經網絡通過利用將上一時的數據與當前數據通過循環隱藏狀態想結合而提取雙時相數據時間相關信息[5]。在[10]中作者實現了一個最基本的基于CNN 和LSTM 的網絡,雙時相數據的數據塊對作為輸入,網絡的輸出是此數據對變化/未變化的分類信息。在[11]中,作者使用了一個U-net 結構,在其前半部分,循環網絡結構被加入每一層之后,基于數據塊的網絡雖然能保證結果的準確性,因為要單獨處理每個像素點,非常耗時,因此與[5]不同的是,作者在這塊直接使用了整張數據圖作為輸入,以提高計算效率。如圖4 所示。
在變化檢測領域,由于可用于訓練的有標記的數據并不是很豐富,而圖像處理領域的其他標記數據確實非常豐富的,如果已經訓練好的網絡遷移到變化檢測的網絡,以此為基礎對網絡進行進一步的訓練可以很好的彌補標記數據不足的問題。在[12]中,作者使用了一個開源的預訓練的完整U-net 模型,之后使用已標記的數據對網絡進一步優化。在[13]中,作者使用了非同源數據作為數據集,由于非同源數據有通用的特征比如圖像中的線條、形狀,也有各自獨有的特征比如圖像光譜、材質等,神經網絡的低層提取的一般是圖像中普遍的特征,因此可以用于分享,而高層提取的是圖像特征域獨有的特征,因此應該各自訓練。如圖5 所示。

圖7:對抗神經網絡在變化檢測中應用網絡結構2

圖8:空間注意力機制

圖9:通道注意力機制 1

圖10:基于機器學習的變化檢測發展軌跡
對抗神經網絡可以在生成器和判別器的相互作用下生成從給定的噪音生成結果圖,結果圖跟原圖相比可以達到“以假亂真”的效果,這種能力在非同源數據中可以發揮很大的作用。非同源數據因為在不同的特征域中因此不能直接進行對比,如果能通過對抗網絡將源特征域的圖像轉化到目標特征域,則圖像可以直接對比。在[14]中,作者將光學數據通過對抗神經網絡變化到SAR 圖像特征域,之后進行直接對比,與傳統對抗神經網絡不同的是,在變化檢測問題中,用來判別的圖像是雙時相數據中未變化的區域塊,這能確保生成器能準確學習到圖片特征空間的特征而不受其他影響,訓練結束后,生成器可以直接用于將光學數據轉化為類SAR 圖像數據。如圖6 所示。
對抗神經網絡不僅可以用在圖像生成部分,也可以用于圖像判別部分,在[15]中,作者先使用W-net 生成變化檢測結果,整個部分作為對抗神經網絡的生成器,其結果和圖像標記作為對抗神經網絡的判別器,整個網絡優化目標是使判別器最后無法再分辨出W-net生成的變化圖和人工標記的變化圖。如圖7 所示。
注意力機制的基本思想是選擇關注所有信息的一部分同時忽略其他信息,根據其注意力在空間或通道可以分為空間注意力機制和通道注意力機制,空間注意力機制更關注“在哪”而通道注意力機制更關注“是什么”。在[16]和[17]作者都通過雙注意力機制來提高網絡的辨別能力。如圖8 所示。
總結來看,當前基于機器學習的變化檢測問題已經取得了一定的發展,大致發展歷為如圖10 所示。