楊金旻
摘要:隨著計(jì)算機(jī)技術(shù)的發(fā)展,深度學(xué)習(xí)算法在遙感圖像分析中得到了廣泛的應(yīng)用。為了全面客觀地了解深度學(xué)習(xí)在遙感分析中的應(yīng)用,有必要對(duì)其進(jìn)行更系統(tǒng)的分析,把握不同應(yīng)用所面臨的問題,以供研究以及技術(shù)人員參考。該文首先介紹了深度學(xué)習(xí)算法及常用模型,回顧了遙感領(lǐng)域從預(yù)處理到制圖過程的主要應(yīng)用技術(shù)。隨后,分析了深度學(xué)習(xí)在遙感圖像分析中的應(yīng)用,包括圖像融合、圖像配準(zhǔn)、場(chǎng)景分類、目標(biāo)檢測(cè)、土地利用與土地覆蓋分類、語義分割、基于對(duì)象的圖像分析等。最后,對(duì)目前的應(yīng)用狀況進(jìn)行了總結(jié),并提出了今后的應(yīng)用研究方向。
關(guān)鍵詞:深度學(xué)習(xí);遙感;圖像分析;圖像識(shí)別
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)24-0191-02
1 概述
遙感圖像技術(shù)已經(jīng)廣泛應(yīng)用于分類和變化檢測(cè)等領(lǐng)域。除此之外,遙感圖像技術(shù)還涉及一些預(yù)處理過程,并高度依賴于所采用的方法。因此,相關(guān)遙感技術(shù)研究一直致力于發(fā)展遙感方法,以提高預(yù)處理、分割和分類等方面的性能。神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)算法的基礎(chǔ),已經(jīng)在遙感領(lǐng)域應(yīng)用多年。然而,在數(shù)字圖書館發(fā)展之前,遙感界已將其工作重心從神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)移到支持向量機(jī)和集成分類器,如隨機(jī)森林,用于圖像分類和其他諸如變化檢測(cè)等任務(wù)。支持向量機(jī)因其處理高維數(shù)據(jù)的能力以及在有限訓(xùn)練樣本下的良好表現(xiàn)而備受關(guān)注,而隨機(jī)森林則因高精度、易于使用、對(duì)分類參數(shù)相對(duì)不敏感而獲得應(yīng)用普及。近年來,深度學(xué)習(xí)的出現(xiàn)又引起了遙感界對(duì)神經(jīng)網(wǎng)絡(luò)的興趣。自2014年以來, 深度學(xué)習(xí)算法在土地利用和土地覆蓋分類、場(chǎng)景分類和目標(biāo)檢測(cè)等許多圖像分析任務(wù)上取得了顯著的成功,遙感界更將注意力轉(zhuǎn)移到了深度學(xué)習(xí)上。
為了全面客觀地了解深度學(xué)習(xí)在遙感圖像識(shí)別中的應(yīng)用,有必要對(duì)其進(jìn)行系統(tǒng)的分析,把握深度學(xué)習(xí)的不同應(yīng)用所面臨的問題,以供研究以及技術(shù)人員參考。本文基于對(duì)遙感領(lǐng)域中與深度學(xué)習(xí)相關(guān)的主要子領(lǐng)域進(jìn)行全面回顧,包括圖像融合、圖像配準(zhǔn)、場(chǎng)景分類、目標(biāo)檢測(cè)、土地利用和土地覆蓋分類、圖像語義分割、基于對(duì)象的圖像分析等,通過分析對(duì)與深度學(xué)習(xí)在遙感相關(guān)領(lǐng)域的應(yīng)用狀況,總結(jié)主要成果和進(jìn)展,進(jìn)而展望該領(lǐng)域的研究與應(yīng)用前景。
2 深度學(xué)習(xí)算法及常用模型
深度學(xué)習(xí)是一種基于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法。神經(jīng)網(wǎng)絡(luò)由具有一定激活度A和參數(shù)Θ=W,γ的神經(jīng)元或單元組成。深度學(xué)習(xí)模型網(wǎng)絡(luò)由許多層組成,這些層將輸入數(shù)據(jù)(例如圖像)轉(zhuǎn)換為輸出(例如類別),同時(shí)逐步學(xué)習(xí)更高級(jí)的特征。輸入和輸出之間的層通常稱為“隱藏”層。一個(gè)包含多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)通常被認(rèn)為是一個(gè)“深層”神經(jīng)網(wǎng)絡(luò),術(shù)語“深度學(xué)習(xí)”也因此而來。
近年來,基于深度學(xué)習(xí)算法的體系結(jié)構(gòu)體現(xiàn)出更能有效利用圖形處理單元、校正線性單元和許多訓(xùn)練示例的特性,其在計(jì)算機(jī)視覺處理相關(guān)領(lǐng)域受到了更多關(guān)注,并且在遙感領(lǐng)域的許多應(yīng)用中擁有良好表現(xiàn)。下文將介紹遙感中幾種常用的深度學(xué)習(xí)模型,包括有監(jiān)督基于卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型,以及無監(jiān)督自編碼和深信度網(wǎng)絡(luò)模型,還包括最近流行的生成對(duì)抗網(wǎng)絡(luò)模型。
2.1卷積神經(jīng)網(wǎng)絡(luò)
基于卷積神經(jīng)網(wǎng)絡(luò)是應(yīng)用最廣泛的深度學(xué)習(xí)模型之一,最初設(shè)計(jì)用于處理多個(gè)數(shù)組形式的數(shù)據(jù),非常適合處理像素排列規(guī)則的多波段遙感圖像數(shù)據(jù)。具體來說,基于卷積神經(jīng)網(wǎng)絡(luò)主要由三種不同類型的層次結(jié)構(gòu)組成:卷積層、池層和完全連接層。在每一層,輸入圖像被一組K核卷積W=W1、W2、…、WK并添加偏置γ=b1、…、bK,每個(gè)偏置產(chǎn)生一個(gè)新的特征映射Xk。這些特征受到元素非線性變換σ·,并且對(duì)于每個(gè)卷積層l重復(fù)相同的過程:Xkl=σWkl-1*Xl-1+bkl-1。與傳統(tǒng)的多層感知器相比,在基于卷積神經(jīng)網(wǎng)絡(luò)中,在一定大小的鄰域內(nèi)的像素值使用置換不變函數(shù)(通常是max或mean操作)進(jìn)行聚集。在網(wǎng)絡(luò)卷積流的末尾,通常添加完全連接的層(即規(guī)則神經(jīng)網(wǎng)絡(luò)層),其中不再共享權(quán)重。
2.2循環(huán)神經(jīng)網(wǎng)絡(luò)
作為一種廣泛應(yīng)用的有監(jiān)督學(xué)習(xí)模型,循環(huán)神經(jīng)網(wǎng)絡(luò)模型通常用于離散序列分析。在循環(huán)神經(jīng)網(wǎng)絡(luò)中,輸入和輸出數(shù)據(jù)可以是可變長度的。因此,涉及順序輸入的某些任務(wù),例如語音和語言處理,通常更受益于循環(huán)神經(jīng)網(wǎng)絡(luò)。實(shí)際上,在條件允許的情況下,反向傳播在訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)方面的應(yīng)用最為有效。隨著前向計(jì)算所涉及的計(jì)算時(shí)間的展開,循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)產(chǎn)生非常深的前向網(wǎng)絡(luò)來學(xué)習(xí)規(guī)則深度神經(jīng)網(wǎng)絡(luò)那樣的長期依賴關(guān)系,因此很難長時(shí)間地學(xué)習(xí)和存儲(chǔ)信息。為了解決這個(gè)問題,使用了顯式內(nèi)存來擴(kuò)充網(wǎng)絡(luò)。因此,一些特殊的記憶單元被開發(fā)出來,例如長-短期記憶單元和門控遞歸單元。隨著其體系結(jié)構(gòu)和訓(xùn)練方法的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)文本中的下一個(gè)字符或序列中的下一個(gè)單詞方面得到了成功和廣泛的應(yīng)用,并被擴(kuò)展到其他更復(fù)雜的遙感圖像任務(wù)中。
2.3自動(dòng)編碼器和堆疊式自動(dòng)編碼器
自動(dòng)編碼器通常用來學(xué)習(xí)壓縮和分布式數(shù)據(jù)集表示。與輸入或輸出相比,一個(gè)隱藏層中隱藏單元的數(shù)目較小,這是聲發(fā)射最重要的特征。因此,自動(dòng)編碼器可以通過一個(gè)隱藏層來實(shí)現(xiàn)數(shù)據(jù)壓縮和降維的目的,主要用于特征層次的處理。自動(dòng)編碼器是通過一個(gè)隱藏層h和h=fWx+β將輸入x映射到潛在表示的簡單網(wǎng)絡(luò)。這里W是訓(xùn)練過程中要估計(jì)的權(quán)重矩陣,β是一個(gè)偏差向量,f表示一個(gè)非線性函數(shù)。隨后,重建的輸入γ可以表示為γ=fW′h+β′,通過反向映射和使用相同的權(quán)重來解碼潛在表示,W′=W T,β′=βT。
堆疊式自動(dòng)編碼器(或深度自動(dòng)編碼器)是由多層自動(dòng)編碼器組成的神經(jīng)網(wǎng)絡(luò),其中每一層的輸出連接到下一層的輸入。它是通過疊加聲發(fā)射層形成的。在遙感領(lǐng)域,這種多層自動(dòng)編碼器通常用于特征表示,并取得了良好的效果,特別是在光譜-空間特征學(xué)習(xí)方面。
2.4 受限Boltzmann機(jī)器與深信度網(wǎng)絡(luò)
受限Boltzmann機(jī)器是一個(gè)由可見層x和隱藏層h組成的生成隨機(jī)無向神經(jīng)網(wǎng)絡(luò),各層之間是連通的,而各層中的單元是不連通的。該機(jī)器作為兩層網(wǎng)絡(luò),表現(xiàn)出一種特殊的Markov隨機(jī)場(chǎng)。對(duì)于可見和隱藏單元的特定狀態(tài)(x,h),能量函數(shù)被定義為單元的聯(lián)合配置。與自動(dòng)編碼器一樣,深信度網(wǎng)絡(luò)中的每一層都包含多個(gè)受限Boltzmann機(jī)器,只是深信度網(wǎng)絡(luò)中的各個(gè)層都是使用受限Boltzmann機(jī)器模型訓(xùn)練的,而不是使用無監(jiān)督的自動(dòng)編碼器。最終的微調(diào)是通過在深信度網(wǎng)絡(luò)的頂層添加一個(gè)線性分類器并實(shí)現(xiàn)一個(gè)有監(jiān)督的優(yōu)化過程來完成的。
2.5 生成性對(duì)抗網(wǎng)絡(luò)
生成性對(duì)抗網(wǎng)絡(luò)最近成為一種非常流行的無監(jiān)督深度學(xué)習(xí)模型,包含兩個(gè)相互競(jìng)爭的網(wǎng)絡(luò)系統(tǒng):生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)。生成網(wǎng)絡(luò)學(xué)習(xí)從潛在空間映射到感興趣的特定數(shù)據(jù)分布(例如,圖像),而判別網(wǎng)絡(luò)區(qū)分真實(shí)數(shù)據(jù)和生成網(wǎng)絡(luò)生成的數(shù)據(jù)。生成性網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是通過生成具有真實(shí)數(shù)據(jù)分布的真實(shí)示例來“愚弄”區(qū)分性網(wǎng)絡(luò)。判別網(wǎng)絡(luò)通常是產(chǎn)生概率的標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)。兩個(gè)網(wǎng)絡(luò)都試圖在零和博弈中優(yōu)化不同的和相反的損失函數(shù)。目前,生成性對(duì)抗網(wǎng)絡(luò)已經(jīng)成功地應(yīng)用于許多計(jì)算機(jī)視覺和圖像處理應(yīng)用中。
3深度學(xué)習(xí)技術(shù)在遙感圖像識(shí)別中的應(yīng)用
3.1 圖像融合
遙感圖像融合技術(shù)是遙感圖像領(lǐng)域的一項(xiàng)基礎(chǔ)性工作,其目標(biāo)是獲得同時(shí)具有高光譜和高空間分辨率的圖像。遙感圖像融合的一個(gè)典型例子是泛銳化,它表示將低分辨率多光譜圖像和高分辨率全色圖像融合以獲得高分辨率多光譜圖像。另一個(gè)例子是低分辨率高光譜圖像和高分辨率多光譜圖像的融合以生成高分辨率圖像。遙感圖像融合可以看作是低分辨率源圖像在高分辨率源圖像輔助下的圖像超分辨率問題。
3.2 圖像配準(zhǔn)
圖像配準(zhǔn)是一種將不同傳感器、不同時(shí)間或不同視角拍攝的兩幅或多幅圖像對(duì)齊的方法。它是許多遙感分析任務(wù),如圖像融合、變化檢測(cè)、圖像拼接等的基本預(yù)備步驟。通常,圖像配準(zhǔn)包括以下四個(gè)步驟:(1)特征提取;(2)特征匹配;(3)變換模型估計(jì);(4)圖像重采樣。特征提取在圖像配準(zhǔn)中起著至關(guān)重要的作用,因?yàn)樗鼪Q定了要使用哪種類型的特征進(jìn)行圖像匹配。由于深度學(xué)習(xí)作為一種完全數(shù)據(jù)驅(qū)動(dòng)的方案,能夠從圖像中自動(dòng)學(xué)習(xí)特征,近年來被應(yīng)用到遙感圖像配準(zhǔn)中。
3.3 場(chǎng)景分類與目標(biāo)檢測(cè)
在進(jìn)行場(chǎng)景分類和目標(biāo)檢測(cè)時(shí),首先要了解它們之間的區(qū)別,因?yàn)樗鼈兌加邢嗨频倪b感應(yīng)用,而且經(jīng)常混淆。在遙感工作實(shí)踐中,場(chǎng)景分類可被定義為從大量圖片(例如農(nóng)業(yè)場(chǎng)景、森林場(chǎng)景和海灘場(chǎng)景)中確定圖像類別的過程,訓(xùn)練樣本是一系列帶標(biāo)簽的圖片。然而,目標(biāo)檢測(cè)的目的是檢測(cè)單個(gè)圖像場(chǎng)景中的不同目標(biāo),例如飛機(jī)、汽車和城市村莊,而訓(xùn)練樣本是固定大小窗口或補(bǔ)丁中的像素。
3.4 土地利用和土地覆蓋分類
在遙感地理空間數(shù)據(jù)處理中,圖像中的森林、停車場(chǎng)、機(jī)場(chǎng)、住宅區(qū)或高速公路等類型特征的定位較為常見。然而,這些特征的出現(xiàn)會(huì)受到很多因素的影響,包括圖像被捕獲的時(shí)間、傳感器設(shè)置、為糾正圖像所做的處理以及圖像所捕獲區(qū)域的地理和文化背景等。利用深度卷積神經(jīng)網(wǎng)絡(luò)可以將土地利用從甚高空間分辨率、正射校正、可見波段多光譜影像中進(jìn)行分類,包括自動(dòng)變化檢測(cè)或映射等應(yīng)用。
3.5 圖像語義分割
圖像語義分割的目的是為圖像中的每個(gè)像素指定土地覆蓋標(biāo)簽。近年來,在深度卷積神經(jīng)網(wǎng)絡(luò),特別是端到端全卷積網(wǎng)絡(luò)的推動(dòng)下,遙感圖像語義分割日益引發(fā)關(guān)注。目前,最先進(jìn)的遙感圖像語義分割框架依次由編解碼子網(wǎng)組成。深度卷積神經(jīng)網(wǎng)絡(luò)用于語義分割的主要優(yōu)點(diǎn)是能夠在非常大的接收域上探索多層次的上下文信息。然而,由于分割結(jié)果的空間分辨率較低,容易使類邊界模糊和對(duì)象細(xì)節(jié)丟失。為了解決這一問題,在遙感領(lǐng)域采用了四種主要的策略:(1)通過反褶積或多分辨率特征組合來發(fā)展非下采樣編碼網(wǎng)絡(luò);(2)通過設(shè)計(jì)對(duì)稱的未解決層和跳躍連接來改進(jìn)解碼網(wǎng)絡(luò);(3)使用集成具有不同初始化或不同的多個(gè)網(wǎng)絡(luò)的;以及(4)通過使用概率圖模型、通過融合由無監(jiān)督分割產(chǎn)生的片段、通過使用覆蓋策略或通過使用過濾方法對(duì)語義分割結(jié)果進(jìn)行后處理。然而,如何在遙感圖像語義分割的強(qiáng)下采樣(允許更豐富的上下文信息提取)和精確邊界定位(需要局部細(xì)節(jié))之間取得平衡,仍然是一個(gè)具有挑戰(zhàn)性的問題。
3.6 基于對(duì)象的圖像分析
當(dāng)使用不同的深度學(xué)習(xí)模型進(jìn)行對(duì)象分類時(shí),由于多邊形的單位不同,處理方法也有很大的不同。首先,可以直接將物體的光譜、空間和紋理特征導(dǎo)入到自動(dòng)編碼器模型中,從而訓(xùn)練網(wǎng)絡(luò)的參數(shù)。其次,使用基于補(bǔ)丁的基于卷積神經(jīng)網(wǎng)絡(luò)方法將深度特征與基于對(duì)象的分類相結(jié)合。通常情況下,基本上需要通過基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行基于對(duì)象的分類,先生成面片、后通過像素分類來表示對(duì)象的類型,但面片生成和分割的方法在一定程度上有所不同的情況除外。通過基于圖的分割創(chuàng)建預(yù)分割對(duì)象,選擇性搜索方法融合相似對(duì)象,然后提取潛在地面對(duì)象的邊界框。最后,可以將邊界框添加到訓(xùn)練數(shù)據(jù)集中,以使用執(zhí)行像素級(jí)分類的深度學(xué)習(xí)分類模型。將基于卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于城市制圖,對(duì)街道街區(qū)衍生的不規(guī)則制圖單元進(jìn)行處理,可生成實(shí)用的土地利用圖。
4 結(jié)束語
本文系統(tǒng)分析了深度學(xué)習(xí)在遙感領(lǐng)域相關(guān)子領(lǐng)域中的應(yīng)用,包括圖像融合、圖像配準(zhǔn)、場(chǎng)景分類、目標(biāo)檢測(cè)、土地利用和土地覆蓋分類、圖像語義分割、基于對(duì)象的圖像分析等,對(duì)這些子領(lǐng)域中深度學(xué)習(xí)算法的使用進(jìn)行了深入討論。在總結(jié)主要成果和進(jìn)展的基礎(chǔ)上,展望該領(lǐng)域的研究與應(yīng)用前景,以期能夠?yàn)橄嚓P(guān)研究以及技術(shù)人員全面客觀地了解深度學(xué)習(xí)在遙感分析中的應(yīng)用、把握深度學(xué)習(xí)的不同應(yīng)用中所面臨的問題提供參考與借鑒。
參考文獻(xiàn):
[1] 王斌,范冬林.深度學(xué)習(xí)在遙感影像分類與識(shí)別中的研究進(jìn)展綜述[J].測(cè)繪通報(bào),2019,(2):99-102,136.
[2] 黃金,付發(fā),趙娜.深度學(xué)習(xí)在遙感圖像目標(biāo)檢測(cè)中的應(yīng)用研究[J].無線互聯(lián)科技,2019,16(1):11-13.
[3] 劉建閩,黃帆,戴軍.基于機(jī)器學(xué)習(xí)的遙感圖像識(shí)別檢測(cè)技術(shù)研究及應(yīng)用[J].西安文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2015(4):66-69.
[4] 付偉鋒,鄒維寶.深度學(xué)習(xí)在遙感影像分類中的研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2018,35(12):7-11.
[5] 徐金曉,方圓.深度學(xué)習(xí)在高分辨率遙感影像解譯中的應(yīng)用研究[J].通信電源技術(shù),2019,36(8):68-69,72.
【通聯(lián)編輯:朱寶貴】