1
(1. 重慶市氣象科學研究所,重慶 401147; 2. 成都信息工程大學 資源環境學院,四川 成都 610225; 3. 國家衛星氣象中心,北京 100081)
三峽庫區是指長江三峽工程正常蓄水水位達到175 m時,長江兩岸受淹沒的地區,總面積為5.8萬km2。庫區位于28°20′N~31°50″N與106°20′E~110°30″E之間,地處四川盆地與長江中下游平原的結合部,跨越鄂中山區峽谷及川東嶺谷地帶,北屏大巴山、南依川鄂高原。三峽水庫正常蓄水達175 m后,將形成一個長約600 km、最寬處可達2 km、總庫容達到393億m3的峽谷型水庫。巨大的庫容不僅可以蓄洪,還成為長江流域最主要的灌溉水源,其2 250萬kW的裝機總量,為華中、華東、西南等地區提供了豐富的清潔能源[1]。
過去基于中低分辨率遙感影像提取得到的三峽庫區水體數據存在分辨率低、數據呈線狀、作用單一等缺點,已無法滿足當前精細化遙感業務的需求。因此,亟需得到一種既能準確表達庫區水體位置信息,又能統計分析庫區內水域面積的數據,為庫區防洪、航運和發電等各領域提供精確的信息支持。針對不同的遙感數據源,國內外學者提出了諸多方法,常用的有光譜譜間關系法[2]、水體指數法[3-5]、決策樹法[6-7]、密度分割法[8-9]等。王志輝等基于MODIS遙感影像,分別采用RVI、NDWI、MNDWI、NDSI等模型對洞庭湖水域進行水體信息提取,并確定MNDWI模型為最佳的水體提取模型[10];胡衛國等人利用資源一號02C遙感影像對NDVI與NDWI進行適用性研究,提出決策樹水體信息提取法更適合02C衛星的[11]。段秋亞等分別采用NDWI閾值法、支持向量機法和面向對象法對鄱陽湖GF-1影像進行水體信息提取,指出基于支持向量機法提取出的水體數據精度最高[12]。此外,趙書和等分別基于ETM+、CBERS-1和TM數據進行了水體信息提取方法適用性研究,并對各方法進行了改進分析[13]。上述水體信息提取方法主要的研究對象為面積較大的湖泊型水域,而對于江河這類狹長細小型水域的水體信息研究相對較少。狹長型河流易受周邊環境的影響,水陸分界處光譜信息復雜,提取出的水陸界限易出現邊緣殘缺或河流斷線等現象[14]。李艷華利用形態學膨脹濾波和Pavlidis對結果進行了細化處理,但是在彎曲度較大的地方依舊存在取直和細小短支的現象[15];周藝提出的FNDWI方法所針對的提取對象為城鎮周邊的細小水體,對復雜地形區域的水體信息提取效果不佳[16]。
綜上所述機器算法在整體上水體信息提取的精度較高,能滿足一般業務需要,但在細節上仍然存在較多的問題,直接影響著提取結果的質量。因此,本文提出以國產GF-1衛星數據為數據源,采用支持向量機法(Support Vector Machines, SVM)與目視解譯相結合的方法對三峽庫區復雜的水體信息進行提取。
本文所采用的數據為2016~2018年國產GF-1衛星2 m分辨率的高分辨率相機數據和8 m的多光譜高分辨率相機數據。GF-1號數據預處理流程為:輻射定標→大氣校正→正射校正→圖像融合→鑲嵌和裁剪。基于公式Lλ=Gain·DN+Bias實現高分圖像的定標,輻射定標參數來源于中國資源衛星應用中心。Gain為定標斜率;DN為衛星載荷觀測值;Bias為定標截距;Lλ的單位為W/(m2·um·sr)。采用FLASSH模型對定標后的數據進行大氣校正。校正后借助地面高程模型(DEM)對圖像中的每個像元進行地形誤差校正,使得遙感圖像滿足正射投影的需要。采用NNDiffuse融合方法,將低空間分辨率的多光譜數據與高空間分辨率的單波段數據融合生成一幅高光譜、高分辨率的遙感圖像。由于數據分辨率較高,且庫區范圍較廣,融合后的數據需按照試驗區的矢量范圍進行數據的拼接和裁剪。
支持向量機(SVM)是Vapnik等人在1995年提出的一種建立在統計學習理論的VC(Vapnik-chervonenkis)維理論和結構風險最小化(structural risk minimization, SRM)準則基礎上的學習方法[17],因此能較好地解決小樣本、非線性、高維數據和局部極小等實際問題。易用、穩定和精度較高等特點,使得SVM法得到廣泛的應用,其基本思想如圖1所示。
圖1中,H是最優分類面,H1和H2之間的距離M稱為分類間隔,最優分類面就是要求分類面不僅能夠將兩類正確分開,而且能使分類間隔最大,H1和H2上的訓練樣本稱作支持向量。給定樣本:K={(x1,y1),(x2,y2),…,(xn,yn)},其類別yi={0.1},線性SVM的二類分類問題是獲得分離超平面,其方程以及相應的分類決策函數為
w·x+b=0
(1)
f(x)=sign(w·x+b)
(2)
式中,w為法向量,b為截距,f(x)為分類決策函數。而對于線性不可分的問題,則可通過核函數將低維輸入空間的數據映射到高維空間,以便將原低維空間的線性不可分問題轉化為高維空間上的線性可分問題[18]。一般是令χ→φ(χ),即讓低維空間映射到高維空間的空間變換,在低維情況下的樣本點內積χi·χj,變換成高維情況的φ(χi)·φ(χj)。因為非線性情況下維數的增加會導致計算內積的計算量增大,于是要用到一種能將高維內積轉換成低維的函數,即核函數:
K(χ,z)=φ(χ)·φ(z)
(3)
將核函數K(χ,z)代入之前一般化SVM即線性情況下的目標函數中,可得到非線性SVM的分類決策函數:
f(χ)=sign(w·χ+b)
(4)

圖1 線性可分條件下的最優分類面Fig.1 Optimal classification surface based on linear separability
本文選取三峽庫區范圍內具有代表性的4個區域為試驗區(見圖2),采用SVM法對試驗區內水體信息進行提取和檢驗。

圖2 各試驗區域高分影像Fig.2 High-resolution picture of each test area
試驗區1位于重慶市萬州區,內含一段長江主干道和一段支流,該區域用于檢測SVM算法在較小支流處水體信息提取的精度;試驗區2位于湖北省秭歸縣內,區內水體較多,水陸交界處水體和陸地的光譜差異較小,用以探究水陸邊界光譜特征差異較小區域水體信息提取的精度;試驗區3位于湖北省夷陵區,大壩的出現將水體截斷為兩半,通過該區域來檢驗算法在提取水體時水體連續性的問題;試驗區4位于重慶市涪陵區,區內水體含沙量較大,干流和支流光譜差異明顯,含沙量較大的水域光譜特征與陸地部分裸土相似,通過該區域來檢驗含沙量較大的河流水體提取的精度。綜上,基于4個試驗區來討論高分數據及SVM法在三峽庫區水體提取中的適用性和可靠性,詳細技術路線如圖3所示。

圖3 SVM法提取水體處理流程Fig.3 Treatment process of SVM method for extracting water information
2.2.1樣本提取(感興趣區ROI)
在選擇樣本時須遵循樣本本身典型、具有足夠的充分性且樣本數目要滿足分類器的要求。結合試驗區高分影像表征的實際情況,本文按表1中各試驗區樣本類型的劃分,每一類地物分別選擇25個樣本點,并選定部分檢驗樣本。
2.2.2樣本(ROI)可分離性檢驗
為檢驗各試驗區樣本類型選擇的合理性,避免因人為選取樣本時出現的誤差,對后期地物分類造成影響,利用Export ROIs To n-visualizer將各試驗區選取的實驗樣本進行多維展示,以判斷不同樣本間的分離程度。圖4為4個試驗區各地物類型樣本在三維空間上的分布圖,通過旋轉數據點,可以從不同的角度觀察數據聚類之后分散的效果,數據團離得越遠表明分類效果越好。

表1 各試驗區樣本類型選取Tab.1 Sample type selection for each test area
注:“√”表示該區域樣本中已選擇該類,“”表示未選擇該類

圖4 地物樣本三維空間分布Fig.4 Three-dimensional spatial distribution of ground object samples
從圖4可以看出,各試驗區不同地物類型數據團間的距離相對較遠,數據團間不存在混雜融合的情況,表明各試驗區樣本可分離性較好。為更直觀地判斷不同地物樣本間的可分離性,本次研究利用Compute ROI Separability對各試驗區樣本可分離性進行定量檢驗分析,用Jeffries-Matusita,Transformed Divergence參數對分離度進行評價,結果見表2~3。

表2 各試驗區地物Jeffries-Matusita值Tab.2 Jeffries-Matusita value of each test area
從表2~3可知,4個試驗區內水體樣本與其他樣本數據團間的可分離性較高,除試驗區4水體與建筑(道路)樣本間的Jeffries-Matusita參數小于1.8之外,其余試驗區不同地物樣本與水體樣本間, Jeffries-Matusita參數和Transformed Divergence參數均大于1.8。雖然試驗區4內水體和建筑(道路)樣本間的Jeffries-Matusita評價參數值為1.14707965,而Transformed Divergence參數評價值為1.94794645,但利用人為目視判斷發現樣本選擇并沒有問題,因此也判識該樣本選擇合格。

表3 各試驗區地物Transformed Divergence值Tab.3 Transformed Divergence value of each test area
2.2.3SVM法水體邊界提取
基于SVM法直接得到的分類結果中圖斑較多,且圖斑面積較小,使得水體結果過于零碎。基于統計分析,將圖斑面積小于0.05 km2的圖斑篩選出來,采用Eliminate方法將較小的圖斑塊與臨近同類別的圖斑塊融合。Eliminate處理后利用dissolve方法將臨近同一類別的地物進行合并,最后按屬性值將水體單獨提取出來(見圖5)。

圖5 基于SVM法水體邊界粗提取結果Fig.5 Rough extraction results of water boundary based on SVM method
對分類結果需進行評價,以確定分類的可靠性,常用的分類精度通常用混淆矩陣、總體分類精度及Kappa系數進行評價。依照樣本選擇原則,對每個試驗區選擇50個真實感興趣樣本,通過真實感興趣樣本對4個試驗區水體提取的精度進行檢驗,結果見表4~5。
結合表4~5可知,試驗區1總體分類精度達到93.77%,Kappa系數為0.9101,兩類精度評價指標值均較高,表明試驗區1各地物分類精度高,分類結果符合真實地物覆蓋類型。單獨水體提取的精度結果顯示,在提取水體過程中有178個建筑(道路)類像元被錯分為水體,有13個水體類型像元被漏分;其中真實參考地物像元個數為7169,用戶分類為水體的總體像元個數為7334,由此計算得到的水體的錯分誤差為2.43%、漏分誤差為0.18%、制圖精度為99.82%、用戶精度為97.57%。且從圖6(a)中可以看出,在復雜的地物覆蓋條件下,基于SVM法能精確地提取出水體信息,并且較小的支流部分也能清晰地展現。

表4 試驗區1 地物分類混淆矩陣Tab.4 Ground object classification confusion matrix for test area 1

表5 試驗區1水體精度評價Tab.5 Water quality accuracy evaluation for test area 1
同時根據表6~11可知,其他3個試驗區基于SVM法得到的水體信息結果均較好。

表6 試驗區2 地物分類混淆矩陣Tab.6 Ground object classification confusion matrix for test area 2

表7 試驗區2水體精度評價Tab.7 Water quality accuracy evaluation for test area 2

表8 試驗區3 地物分類混淆矩陣Tab.8 Ground object classification confusion matrix for test area 3

表9 試驗區3水體精度評價Tab.9 Water quality accuracy evaluation for test area 3

表10 試驗區4 地物分類混淆矩陣Tab.10 Ground object classification confusion matrix for test area 4

表11 試驗區4水體精度評價Tab.11 Water quality accuracy evaluation in test area 4
從上文可知,無論是從整體上,還是單獨對水體的討論,4個試驗區地物分類結果都較好,精度較高,能清楚地表示水域范圍和面積,但在細節上仍存在一些需要完善的地方(見圖6)。

圖6 基于SVM法水體提取后細節誤差Fig.6 Detail error of water information extraction based on SVM method
如因大壩、橋梁等水面設施導致水體數據不連續(圖6(a));水陸邊界貼合不好(圖6(b));泥沙含量較大導致錯分(圖6(c))以及小面積區域水體漏堤(圖6(d))等問題。
總結大量的文獻可知,基于機器算法提取到的水體結果始終存在著不同的細節問題,直接影響著最終水體數據的質量。因此對于本文基于SVM法提取得到的三峽庫區水體數據,利用人工目視解釋和GIS軟件協同處理的方式對數據進行精細化處理和完善。處理內容主要包括:① 拓撲查錯;② 小區域水體補充;③ 保證水陸邊界貼合完美;④ 將岸邊較小設施和船舶合并為水體;⑤ 通過目視判斷,去除由泥沙造成的數據誤差;⑥ 補充水體短缺處,保證水體連貫。最終得到的三峽庫區完整水系圖見圖7。

圖7 三峽庫區水體分布Fig.7 Water distribution of the Three Gorges Reservoir area
圖8為經過精細化處理后的細節圖。對比圖6和圖8發現,處理保證了水陸邊界平滑屬實,缺漏的水體區域得到較好的補充和完善,被分割的數據得到連接補充。由此看出,在利用SVM法提取高精度水體數據的基礎上,通過目視解譯和GIS軟件協同處理的方法,能進一步提高水體數據的精確度。
不同于現有的水體數據,本次研究得到的水體數據呈面狀,在精確表達水體范圍位置的同時,可利用GIS處理軟件精確計算出三峽庫區及重慶市范圍內水域面積,并能以該數據為基礎計算得到水域寬度,為來往船舶提供航行數據。
圖9為依據精細化后的水體數據對三峽庫區不同區域水體面積的求算。在提取的水體數據中,三峽庫區水域的總面積為1 059.79 km2,從統計結果可知,重慶段水體占三峽庫區總面積的百分比較大,該段水體對三峽庫區水體的變化有著重要的影響,因此為更好地討論三峽庫區水體的變化,本次研究重點對重慶市內的水體進行提取分析,并對重慶市的各大型江河水體面積進行統計分析(見圖10)。

圖8 水體數據精細化處理Fig.8 Data refinement processing

圖9 三峽庫區水域面積統計Fig.9 Water area statistics in the Three Gorges Reservoir area

圖10 重慶市江河流域面積統計Fig.10 River area statistics of Chongqing city
由提取得到的重慶市水體數據統計計算可知,重慶市內水體(除去一些水域面積較小,基于高分數據分辨不清的水域)總面積為1 191.06 km2,其中較大的江河流域的面積分別為:嘉陵江面積62.63 km2,烏江面積46.13 km2,涪江總面積44.71 km2,綦江水系總面積22.64 km2,大寧河水體面積20.77 km2,渠江面積26.28 km2,大洪河水庫面積9.60 km2,長壽湖面積48.16 km2(見圖11)。

圖11 重慶市水體分布Fig.11 Water distribution map of Chongqing city
本次研究以國產高分辨率遙感衛星GF-1號數據為基礎,采用支持向量機法和目視解譯相結合的方式對三峽庫區及重慶市水體信息進行提取和分析,提取結果用以替換原始的三峽庫區水體數據,以滿足當前遙感業務的需要,具體得到以下結論。
(1) 本文基于GF-1號衛星數據,利用SVM法對三峽庫區和重慶市水體進行精提取。精度驗證結果顯示,各試驗區的總體分類精度和Kappa系數均較高,表明利用SVM法能較精準地從GF-1號衛星數據中將三峽庫區和重慶市內水體信息提取出來。
(2) 由于機器算法的不靈活性易導致水體信息數據中存在一些較小的問題,影響了水體信息數據的整體質量和完整性。本次研究為追求水體信息結果的精準性和完整性,采用目視解譯的方法對基于SVM法提取的水體信息結果進行精細化處理,最終得到完整的、精度更高的水體信息結果。
(3) 通過幾何統計,三峽庫區水體的總面積為1059.79 km2,其中重慶段的庫區面積為879.43 km2,占三峽庫區總面積的82.98%;湖北段庫區水體總面積為180.36 km2,占庫區總面積的17.02%。重慶市內水體總面積為1191.06 km2,其中較大的江河流域的面積分別為:嘉陵江面積62.63 km2,烏江面積46.13 km2,涪江總面積44.71 km2,綦江水系總面積22.64 km2,大寧河水體面積20.77 km2,渠江面積26.28 km2,大洪河水庫面積9.60 km2,長壽湖面積48.16 km2。
(4) 基于提取得到的水體數據,以高分衛星數據為底圖,可分別繪制出三峽庫區、重慶市、以及重慶市各主要支流和水系的高分辨率水體信息分布圖,能為以后的業務開展提供數據支持。