陳 軍,付 軍,孫記紅
(1.國土資源部海洋油氣資源與環境地質重點實驗室,青島 266071;2.青島海洋地質研究所,青島 266071)
用數值方法模擬觀測誤差對水質濃度反演模型參數的影響
——以葉綠素 a濃度為例
陳 軍1,2,付 軍1,2,孫記紅1,2
(1.國土資源部海洋油氣資源與環境地質重點實驗室,青島 266071;2.青島海洋地質研究所,青島 266071)
在 2003年 10月 27日和 28日觀測的太湖水質光譜試驗數據的支持下,利用數值模擬方法研究了試驗數據誤差與水質濃度反演模型經驗常數之間的關系。研究結果表明,當試驗數據誤差分別服從正態分布與均勻分布時,反演模型的經驗常數隨著試驗數據誤差的增加而呈發散狀態。根據試驗數據誤差與反演精度的關系可知,26.58%的試驗誤差對應著 30%的反演精度,這就意味著在不考慮遙感影像處理所產生誤差的前提下,嚴格控制試驗數據誤差在 26.58%以內,是反演精度打破 ±30%的技術瓶頸的關鍵要素之一。
水質;模型參數;誤差;遙感
水質濃度遙感反演的主要思路是在稀疏的幾個試驗站點的光譜數據和水質濃度數據的支持下,結合“生物 -光學”原理,借助于最小二乘法等模型分析手段,構建適用于特定區域的“生物 -光學”模型,并利用該模型從遙感影像中提取水質組分濃度的空間分布信息[1]。對于這種“以少知多”的反演模式,水質組分濃度的代表性和試驗數據的精確性將決定所構建反演模型經驗常數的可靠性。然而,受測量方法、天氣條件和試驗員對操作規范熟練程度等因素的影響,水體光譜試驗存在較大的不確定性。這種不確定性主要表現在:①水質組分濃度在垂直方向上具有“層化效應”,而光譜儀所獲取的離水輻亮度是光學深度范圍內水質組分光學特性的綜合值,這將導致試驗所提取的水體樣本和光譜儀所探測到的光信號之間的不匹配;②水質試驗最大的一個特點是接觸性和非接觸性測量模式相結合,當船舶接近試驗水區時,船舶的運動必將導致水質組分濃度在空間上的波動,進而影響試驗的取樣精度;③水質濃度遙感觀測的對象受風等自然因素影響較大,具有極大的時空不穩定性。綜上所述,水質試驗數據的這種不確定性將在數據分析和遙感建模過程中被帶到反演結果中去,進而導致遙感獲取的水質濃度產品不能客觀地反演水質組分的空間分布狀況。
在過去的數十年中,許多學者針對數據誤差對遙感產品精度的影響做了大量而有益的探索。Rousseeuw等[2]利用數值計算的方法研究與探討了數據誤差對最小二乘法求解結果的影響。研究結果表明,當觀測數據誤差服從正態分布時,最小二乘法可獲得較理想的擬合結果;而當誤差服從“非零均值且非正態分布”時,該方法便不可靠。Ge等[3]利用實測數據和遙感影像,研究與探討了地表參考點的測量誤差對幾種擬合方法求解幾何糾正模型的擬合效果的影響。研究結果表明,有序最小二乘法和連續可調整的最小二乘法具有較高的擬合精度。陳軍等[4]利用誤差傳遞原理,研究與探討了遙感反演模型對遙感數據誤差的作用機理。研究結果表明,反演模型對數據誤差的改造作用,將導致反演模型盡管有較好的相關性,但反演效果并非最優情況的發生。本文則針對水質濃度反演過程,利用數值模擬的方法,研究與探討了水質試驗數據誤差對水質濃度反演模型經驗常數的影響,旨在進一步認識測量誤差對反演精度的影響機理,對研建高精度水質遙感反演模型具有一定的理論和應用意義。
以太湖為研究區域。太湖又名震湖,位于 30°55′40″~31°32′58″N,119°52′32″~120°36′10″E之間 (圖 1)。

圖 1 太湖試驗站點分布Fig.1 Sites of experimental stations
太湖水體較渾濁,葉綠素 a和可溶性有機質濃度較高,年均葉綠素 a濃度大約為 22.23μg/L,屬于典型的Ⅱ類水體[5]。本文采用 2003年 10月 27日和 28日觀測的太湖光譜試驗數據及其水體葉綠素 a濃度數據。光譜試驗過程與操作嚴格遵守NASA的水體光學測量的有關規范[6]。利用 ASD公司的 FieldSpec地物光譜儀進行光譜測量。該光譜儀的光譜范圍為 350~1 050 nm,光譜分辨率3 nm。測量時天空晴朗,無云遮擋。在光譜測量的同時,利用尼克森采水器裝取水氣界面以下 30 cm左右處的水,并利用手持 GPS機記錄取樣點的WGS-84坐標。獲取的水樣立即放入冷藏箱中,并于當天下午帶回試驗室采用傳統的熒光法測量獲取試驗數據[7]。采樣點分布與水體反射光譜曲線分別如圖 1與圖 2所示。

圖 2 實測光譜曲線Fig.2 Spectral curves of water bodies in the field
2.1 模型參數的不確定性
假設葉綠素 a濃度與遙感參數之間的關系為

式中,Cchlai為從第 i個試驗樣本中提取的葉綠素 a濃度;Ri為第 i個試驗樣本的遙感參數;f[]為葉綠素 a濃度與遙感參數的關系模型,該模型可以為分析模型、半分析模型和經驗模型。本文采用了經驗模型 (如線性模型、對數模型和指數模型等);εi為第 i個水質樣本的葉綠素 a濃度與遙感參數的關系誤差,如果關系模型是精確的,那么εi主要來自于測量誤差。
假設水質關系誤差ε服從一定的分布[8],即

式中,g()為概率分布函數 (本文主要探討了均勻分布和正態分布兩種情況);θ為分布期望;δ為分布方差;P{ε≤X}為當ε取值小于或等于 X時所發生的概率;pi為模型的經驗常數。由于測量過程存在不確定性,導致參與式 (1)計算的試驗數據具有較大的誤差,進而造成模型經驗常數的不準確和反演結果的不可靠。
2.2 隨機模擬模型經驗常數的不確定度
模型經驗常數的不確定性直接關系到遙感反演的精度,因此,對模型經驗常數不確定性的研究具有一定的理論與應用意義,而數據誤差對模型經驗常數的影響是研究與探討經驗常數不確定性的重要環節。通常情況下,數據誤差是服從一定分布的,且參與模型計算的水體樣本容量較大,進而導致模型經驗常數的不確定度難以用常規的數學表達式描述。數值模擬的方法為模型經驗常數不確定度的研究提供了一種新的求解方式。本文所采用的數值模擬方法的文字描述如圖 3。

圖 3 隨機模擬流程Fig.3 Flow chart for random simulation processing
(1)參數初始化。初始化隨機數生成個數計算器的初始值與閾值、數據誤差分布的方差和期望以及概率分布函數 (coun t=0,coun t<100 000,δ,ε,F)。
(2)生成隨機數。根據步驟 (1)給出的概率分布模式,產生一組隨機數,即每一個試驗站點的觀測數據對應一個隨機數。
(3)計算數據誤差。根據步驟 (1)給出的概率分布函數,計算步驟 (2)中隨機數對應的隨機變量,并以該變量值作為數據誤差。
(4)重新計算測量值。對于每一個站點,實際測量值和步驟 (3)計算的數據誤差之和作為該站點的新測量值。
(5)計算模型參數。利用最小二乘法求解反演模型的經驗常數。
(6)判斷隨機數的個數是否超過了初始化設定的閾值,如果是,則執行下一步;否則執行步驟 (2)。
(7)計算模型參數的期望與方差。計算步驟(1)初始條件下 100 000個模型經驗常數的期望和方差。
3.1 葉綠素 a濃度遙感反演參數
一般說來,在 0.43~0.7μm波長范圍,含葉綠素 a的水體具有選擇性吸收和散射光譜的特征[9]。在 0.43~0.48μm光譜段,水體反射率隨著葉綠素 a濃度的增加而降低,并在 0.52μm附近出現拐點,即反射率不隨葉綠素 a濃度而變化;在 0.52~0.66μm光譜段,水體反射率隨著葉綠素 a濃度的加大而增加;在 0.685μm附近,含葉綠素 a的水體有一個明顯的熒光峰。這是由于浮游植物分子吸收光后的再發射引起的拉曼效應——即進行分子破裂和氧分子生成的光合作用激發出的能量熒光化的結果。
Landsat TM數據具有較高的空間和光譜分辨率和較豐富的數據源,其在水質遙感領域的應用得到許多學者的認可。根據 Dekker等[10]的研究結果可知,TM 2波段對葉綠素 a濃度變化較敏感,常被應用于葉綠素 a濃度的反演;TM 3波段的反射率是葉綠素 a、懸浮物和可溶有機物質等多要素光學性質的耦合,對于懸浮泥沙濃度較高的水體,TM 3波段反射率與懸浮泥沙濃度之間存在較高的相關性,因此TM 3波段常被應用于監測懸浮泥沙濃度較高水體的水質狀況;另外,波段比能有效地剔除波段中的部分耦合效應,因此 TM 2/TM 3常被應用于葉綠素 a濃度的反演[11,12]。本文以 TM 2/TM 3作為遙感參數,構建葉綠素 a濃度反演模型,并以此作為 2.2節所述算法的計算實例。
本次太湖試驗總共采集了 25個站點的水體樣本,其中葉綠素 a濃度大于 123μg/L的水體樣本共2個。由 25個試驗點數據構建的葉綠素 a濃度反演模型如圖 4所示。

圖 4 基于 25個站點的葉綠素 a反演模型Fig.4 Chlorophyll-a concentration retrieval model based on 25 experimental data
由圖 4可知,在葉綠素 a濃度小于 123μg/L時,TM 2/TM 3的比值與葉綠素 a濃度之間的相關性較好;當葉綠素 a濃度大于 123μg/L時,TM 2/TM 3的比值與葉綠素 a濃度之間的相關性較低,其相關系數僅為 0.3。鑒于此,本文剔除了兩個葉綠素 a濃度大于 123μg/L的觀測數據,得到葉綠素 a濃度小于 123μg/L時的遙感反演模型 (圖 5)。

圖 5 低濃度葉綠素 a反演模型Fig.5 Chlorophyll-a concentration retrieval model for low concentration
3.2 誤差分布狀況與模型經驗常數的關系
當數據不存在誤差時,圖 5所示的低濃度葉綠素 a反演模型將是較理想的回歸模型。然而,天氣、水質濃度在水平方向和葉綠素 a濃度在垂直方向分布的“層化效應”以及試驗條件的局限性等多種因素共同導致了水質試驗中包含了不確定性,并且這種不確定性具有不可驗證性。在這種背景下,不妨假設數據誤差為服從一定概率分布的隨機變量。本文主要針對這種現象,當數據誤差服從正態分布和均勻分布時,分別研究與探討了模型經驗常數的期望和分布方差與數據誤差的關系。
為了計算和模擬的簡便,本文做了如下假設:①數據誤差與數據值成正比;②對于水質試驗數據,數據誤差主要蘊藏在水質組分濃度值中 (光譜數據與水質組分濃度數據是一對一的映射關系,光譜數據的誤差可以通過映射關系轉化為水質濃度誤差,即認為光譜數據是精確的,則光譜數據誤差引起的偏差表現為該光譜數據對應的真實水質濃度與實際觀測的濃度之間的偏差)。圖 5表明,當葉綠素 a濃度小于 123μg/L時,線性模型能較好地描述葉綠素 a濃度與 TM 2/TM 3比值之間的定量關系。因此本文假設當葉綠素 a濃度小于 123μg/L時,葉綠素a濃度和 TM 2/TM 3的比值之間存在線性關系,即

式中,RTM2和 RTM3分別為 TM 2波段和 TM 3波段的反射率;a和 b為反演模型的經驗常數。本文主要模擬了數據誤差的取值范圍為 0%~100%時 (間隔為 0.5%)反演模型經驗常數的取值狀況。
圖 6和圖 7為隨機模擬的結果,即當海量數據誤差分別服從正態分布與均勻分布時,數據誤差與模型的經驗常數 a和 b的期望和方差之間的關系。

圖 6 模型經驗常數 a的統計量與測量誤差的關系Fig.6 Relation ship between the statistical variants of empirical constant a of retrieval model and the measurement errors

圖 7 模型經驗常數 b的統計量與測量誤差的關系Fig.7 Relation ship between the statistical variants of empirical constant b of retrieval model and the measurement errors
由圖 6和圖 7可知,模型的經驗常數隨著水質濃度測量誤差的增加而呈發散狀態,模型經驗常數與水質濃度觀測的相對誤差成正比。眾所周知,±30%的定量精度水平是可獲取而難以超越的技術瓶頸[13]。另外,根據試驗數據誤差與反演精度的關系可知,26.58%的試驗誤差對應著 30%的反演精度。這就意味著,在不考慮大氣校正、輻射定標和幾何糾正等遙感影像處理所產生誤差的前提下,要突破 ±30%的定量精度水平,必須要求模型經驗常數的誤差控制在 26.58%以內。也就是說,加強控制天氣、水質濃度在水平和垂直方向上的不均勻分布以及試驗條件不理想等不利條件對試驗精度的影響是突破水質參數達到 ±30%定量精度水平的技術瓶頸的重要內容之一。
(1)針對水質試驗過程中存在的不確定性現象,利用隨機數值模擬的方法,研究與探討了數據誤差對水質濃度反演模型常數精度的影響狀況,了解數據誤差對反演精度影響的機制,對研發高精度水質組分濃度反演模型具有一定的理論指導意義。
(2)在太湖,葉綠素 a濃度與 TM 2/TM 3的比值之間呈分段關系:當葉綠素 a濃度小于 123μg/L時,TM 2/TM 3的比值與葉綠素 a濃度之間的相關性較高 (相關系數為 0.718 4);當葉綠素 a濃度大于123μg/L時,TM 2/TM 3的比值與葉綠素 a濃度之間的相關性較低 (相關系數僅為 0.3)。
(3)當測量數據誤差分別服從正態分布與均勻分布時,反演模型經驗常數的期望和方差與測量數據誤差之間具有較高的相關性,即模型參數誤差與水質濃度觀測的相對誤差成正比。模擬結果表明,26.58%的試驗誤差對應著 30%的反演精度。而±30%的精度水平是水質濃度遙感反演可獲取而難以跨越的技術瓶頸。這就要求努力地削弱天氣、水質濃度在水平和垂直方向上的不均勻分布以及試驗條件不理想等不利因素對試驗精度的影響,使測量誤差控制在 ±26.58%以內。
[1] 陳 軍.Ⅱ類水體懸浮物遙感定量模型尺度效應與精度評估研究——以太湖為例[D].中國地質大學 (北京),2009.
[2] Rousseeuw P J,Leroy A M.Robust Regression and Outlier Detection[M].San Francisco:John Wiley&Sons,1987.
[3] Ge Y,Leung Y,M a JH,et al.Modelling for Registration of Remotely Sensed Imagery when Reference Control Points Contain Error[J].Science in China:Series D Earth Sciences,2006,49(7):739-746.
[4] 陳 軍,周冠華,溫珍河,等.遙感數據誤差對地表參數定量反演可靠性的影響[J].光譜學與光譜分析,2010,30(5):1347-1351.
[5] Wang D Y,Feng X Z,M a R H,et al.A Methold for Retrieval Water-Leaving Radiance from Landsat TM Image in Taihu Lake,EastChina[J].Chinese Geographical Science,2007,17(4):346-369.
[6] Mueller JL,Austin RW.Ocean Op tics Protocols for Seawifs Validation:NASA Techmical Memorandum 104566[M]∥Greenbelt,MD:NASA Goddard Space Flight Center,1992.
[7] 賀俊華,程永進,張 昊.內陸水體葉綠素 a含量定量檢測的研究[J].光學與光電技術,2007,5(5):16-19.
[8] Doicu A,Schreier F,Hilger S,et al.Error Analysis and Minimum Bound Method for Atmospheric Remote Sensing[J].Environmental Modelling&Software,2007,22:837-846.
[9] 趙英時.遙感應用分析原理與方法[M].北京:科學出版社,2006.
[10]DekkerA G,Peters SW M.The Use of Thematic Mapper for the Analysis of Eutrophic Lakes:a Case Study in the Netherlands[J].International Journal of Remote Sensing,1993,14:799-821.
[11]Gordon H R,Brown O B,Evans R H,et al.A Semi-analytical Radiance Model of Ocean Color[J].Jouranl of Geophysical Research,1988,93:10909-10924.
[12]Dekker A G,Vos R J,Peters SW M.Analytical Algorithms for Lake Water TSM Estimation for Retrospective Analyses of TM and SPOT Sensor Data[J].International Journal of Remote Sensing,2005,23(1):15-35.
[13]Shafique N A,Autrey B C,Fulk F,et al.Hyperspectral Narrow Wavebands Selection for Optimizing Water Quality Monitoring on the Great Miami River[J].Journal of Spatial Hydrology,2001,1(1):1-22.
(責任編輯:劉心季)
The Application of the Numerical Method to Simulating the Impact of the Observation Errors on the Parameters of the Water Quality Retrieval Model:a Case Study of Chloroplyll-a Concentration
CHEN Jun1,2,FU Jun1,2,SUN Ji-hong1,2
(1.The Key Laboratory of Marine Hydrocarbon Resources and Environmental Geology,Qingdao 266071,China;2.Qingdao Institute of Marine Geo logy,Qingdao 266071,China)
Based on the experimental data collected in the Taihu Lake on October 27 and 28,2003,the authors utilized the numerical simulation method to study the relationship between the errors of experimental data and the empirical constant of chlorophyll-a concentration retrieval model.The results indicate that,when the errors of experimental data obey normal distribution and uniform distribution respectively,the empirical constant of the retrieval model becomes divergent with the increasing error of the experimental data.In addition,according to the relationship between errors of experimental data and retrieval accuracy,26.58% experimental errors are corresponding to 30%retrieval accuracy.This means that under the prerequisite that the errors produced during the processing of remote sensing images are not taken into account,the strict control of the errors of experimental data within 26.56%constitutes one of the key elements that break the bottleneck of the retrieval accuracy at±30%.
Water quality;Model’s parameters;Errors;Remote sensing
陳 軍 (1982-),男,青島海洋地質研究所實習研究員,主要研究方向為水環境遙感和地理信息系統。
TP 79
A
1001-070X(2011)01-0057-05
2010-04-15;
2010-06-10
“十一五”國家科技支撐項目(編號:2008BAC34B03)和中國海陸地質地球物理系列圖項目(編號:GZH 200900504)共同資助。