呂 華,鄭建文
(1.江西理工大學 建筑與測繪工程學院,江西 贛州340000;2.浙江省國土勘測規劃有限公司,浙江 杭州310030)
遙感圖像語義分割(Remote Sensing Image Semantic Segmentation,RSISS)方法是常見RSIS 方法的擴展。通過使用類別(即目標的語義標簽)標記圖像的每個像素,可以同時完成圖像像素分類和圖像目標分割兩個過程。RSISS 的主要方法有兩種,一種是基于區域的RSISS 方法,另一種是基于深度學習的RSISS 方法。
在深度學習未廣泛得到應用時,基于候選區域的語義分割方法在RSISS 中最典型。
基于區域的RSISS 方法先使用RSIS 技術劃分多個區域進行分類,常用的是基于數學理論的RSIS 方法和基于區域的RSIS 方法,如基于馬爾可夫模型、分水嶺模型等。然后,提取RSI 區域的特征。RSI 中不同地物的組成成分、表面形態和內部結構不同,所包含的光譜信息也不同,如歸一化植被指數。在RSI 中呈現出的紋理粗糙度和方向不同。最后,為各區域設定類別。利用提取的區域特征將基于區域的RSIS 轉換為基于像素的RSIS,構造分類器,并使用機器學習方法,如利用隨機森林方法等方法來獲得基于區域的RSISS 的最終結果。
近年來,隨著高分辨率RSI 的不斷發展,“同譜異物”和“同物異譜”的現象變得越來越嚴重,使得傳統的基于區域的RSISS 方法的分割準確度和精度較差。因此,以深度學習的最新進展為基礎的RSISS 開始迅速發展。其中,基于卷積神經網絡(CNN)的RSISS 方法是目前主要體現。CNN方法是使用大量具有像素注釋的像素作為訓練樣本、訓練分類器,并對圖像進行逐像素分類。在卷積層和池化層之后,CNN 將連接到完全連接的層以進行分類。全連接層將RSI在卷積和池化層中獲得的特征圖映射到固定長度的特征向量。特征向量表示RSI 屬于每個類別的概率,而概率最高的類別表示為RSI 的類別。很多綜述文章中比較并分析了主流語義分割競爭、數據集和網絡結構。以下是近年來基于深度學習的語義分割方法的概述。
LONG 等人(2015 年)[1]提出了基于全卷積網絡(FCN)的圖像語義分割模型,該模型實現了像素到像素的圖像語義分割。關鍵是將CNN 結構中的完全連接層轉換為卷積層,通過反卷積操作將其上采樣,尺寸升至原始RSI 大小,并結合中間池化層信息以生成RSIS 預測分割圖。此外,BADRINARAYANAN 等人(2017 年)[2]提出了一種SegNet深度卷積網絡模型,SegNet RSISS 模型的過程如圖1 所示。該結構的關鍵在于,編碼器將在合并時保留最大合并的索引值,并在解碼階段使用此數值,還原目標的邊緣位置,進而提高RSISS 的準確性。

圖1 SegNet 語義分割過程
但是,基于FCN 模型和基于SegNet 模型的RSISS 方法都只使用了一部分RSI 詳細信息,獲得的RSISS 結果較為粗糙且過于平滑。因此,基于DeepLab 系列框架的深度學習RSISS 模型被提出,使用卷積代替FCN 池化操作,從而減少了計算量,并確保特征圖像的尺寸大小不變,保留了RSI中的空間結構信息,從而使輸出結果更加準確。
與傳統的RSIS 方法相比,RSI 的語義分割方法顯示出較為理想的分割效果。基于深度學習的RSISS 方法可以更好地學習高空間分辨率RSI 的數據特征,提高RSI 特征識別的準確性,并且工作效率更高。目前通常使用基于CNN 優化方法來改進常見RSI 的語義分割方法,例如VGG、GoogleNet、ResNet 方法等。但是,仍舊面臨以下幾個方面的挑戰。
如何保持分割結果與語義分割目標的一致性,提高基于CNN 的深度學習RSISS 方法的分割精度。針對這個問題,學者們進行了許多相關研究。如在FCN 中,添加了反卷積融合結構,并融合了淺層詳細信息和深層語義信息。引入了空間上下文信息,以更好地定位邊界并提高RSISS 的準確性[3]。
在充分利用RSI 豐富的詳細信息和上下文信息的同時,如何平衡算法分割效果和時間復雜度之間的關系。根據先前的研究,CHEN 等人(2018 年)[4]使用DeepLab 作為網絡的前端,并與Inception 結構結合提出了一種改進的網絡。該方法在不降低特征提取能力的情況下,通過減少網絡參數的數量和網絡操作的復雜度,有效地提高網絡的訓練速度。在RSI 數據集上進行語義分割實驗表明,改進后的網絡具有更高的訓練速度和準確性。
大多數RSISS 方法都是基于訓練樣本進行標記的,需要大量的時間和精力來預先標記樣本,而手動標記具有主觀性和不確定性。因此,越來越多的研究者將注意力轉向弱監督、半監督和無監督條件下的RSI 語義分割。不需要昂貴的像素級信息即可獲得與現有方法效果相當的語義分割精度。
由于RSI 語義分割的數據集很少,因此很難直接訓練出理想的語義分割模型。現有研究通常在語義分割模型中使用RSI 和普通圖像在紋理、顏色和其他特征上的相似性,在訓練過程中對參數進行進一步的微調,以提高訓練效率和語義分割模型的分割效果。
由于高分辨率RSI 類型和特征復雜,有必要獲取不同尺度的RSI 特征執行基于深度學習的RSISS。為了獲得RSI 中不同尺度的特征,張靜等人(2019 年)[5]提出了基于融合多尺度特征的編碼器,使用不同大小的卷積核來提取不同尺度的特征。可獲得足夠的語義信息。徐昭洪等人(2019 年)[6]使用強大的VGG16 網絡作為U-net 模型的編碼器,改進的U-net 模型對RSI 中建筑物的分割和提取具有更高的精度。
與傳統的RSIS 方法相比,RSISS 方法能得到更加精確的結果,目前在學術界得到了廣泛的研究。但由于RSI 本身的諸多特性(光譜、形狀及紋理特征豐富等),對RSISS仍需進行更加深入的研究。RSISS 在土地利用規劃、地理測繪、農業和數字空間建模等方面的應用將會更加廣泛。