宋 玉,塔 西 甫 拉 提·特 依 拜*,李 崇 博,侯 艷 軍,陶 蘭 花,張 飛
(1.新疆大學資源與環境科學學院,新疆 烏魯木齊 830046;2.綠洲生態教育部重點實驗室, 新疆 烏魯木齊 830046;3.新疆維吾爾自治區地質調查院,新疆 烏魯木齊 830011)
?
基于偏最小二乘法的土壤汞含量高光譜反演
宋 玉1,2,塔 西 甫 拉 提·特 依 拜1,2*,李 崇 博3,侯 艷 軍1,2,陶 蘭 花1,2,張 飛1,2
(1.新疆大學資源與環境科學學院,新疆 烏魯木齊 830046;2.綠洲生態教育部重點實驗室, 新疆 烏魯木齊 830046;3.新疆維吾爾自治區地質調查院,新疆 烏魯木齊 830011)
采集新疆準東煤田典型土壤樣品44個,在實驗室測定風干后的土樣汞含量和光譜反射率,經預處理后分析兩者的相關性,運用偏最小二乘法(PLSR)建立土壤汞含量高光譜估算模型,由均方根誤差RMSE和決定系數R2檢驗模型的預測能力和穩定性,并比較不同預處理方法的適用性。結果表明:反射率一階微分光譜是估算土壤汞含量較好的指標,估算R2為0.77、RMSE為0.032。通過各種光譜預處理方法可提高土壤汞含量的估算精度,為研究區生態環境的恢復和評價提供依據。
準東煤田;高光譜;汞含量;偏最小二乘回歸
土壤重金屬不易被微生物分解,導致其不斷積累,不僅會通過土壤水的淋溶進入水體影響水質,還會轉化成有毒化合物,影響農作物的生長,最終通過食物鏈的儲積威脅人們的身體健康,所以土壤重金屬污染受到廣泛關注[1-3]。常規評價土壤重金屬污染程度是通過野外實地采樣、室內分析,最終運用空間插值方法獲取土壤重金屬含量的分布,這種方法很難滿足大尺度、快速定量監測和評價[4-6]。隨著高光譜遙感技術的快速發展,利用土壤遙感光譜分析方法能很好地解決上述難題。高光譜遙感不但能拓寬研究的時空尺度,還能快速估算、動態監測土壤參數含量[7-9],有學者對土壤光譜反射率與土壤參數間運用多種方法建立估算模型[10-13]。劉煥軍等對土壤光譜數據進行了多種數學變換,運用多元線性回歸方法分析黑土土壤有機質和高光譜數據的相關性,并建立估算模型[14]。劉華等利用偏最小二乘法建立了鹽沼土重金屬含量預測模型,有效地預測了Zn、Cr、Cu的含量[6]。王靜等基于人工神經網絡建立了土壤鹽分與高光譜數據的預測模型[15]。沈掌泉等通過土壤碳含量與田間近紅外光譜建立的偏最小二乘估算模型發現,經歸一化差值處理后的光譜數據再建立模型可提高估算模型的精度[16]。鄭光輝等利用反射光譜估算出土壤重金屬As的含量,并通過各種光譜預處理的方法提高了模型的精度[17]。馬趙揚等運用主成分回歸法、偏最小二乘回歸法和人工神經網絡3種方法,建立了中紅外光聲光譜與土壤碳酸鈣模型,分析了CaCO3的光譜特征,其中偏最小二乘回歸模型的決定系數和均方根誤差最好,殘留預測偏差(RPD)更是高達3.0,預測效果最好[18]。趙振亮等對新疆渭庫綠洲的土壤反射光譜進行18種數學變換,并與土壤電導率、pH值建立了逐步多元線性回歸模型[19]。于士凱利用多元回歸分析建立土壤有機質含量高光譜預測模型,模型決定系數高達0.909[20]。
本文針對露天煤炭開采過程中造成的土壤重金屬汞的污染,以新疆準東煤田五彩灣礦區為靶區,分析5種光譜指標與土壤汞含量的相關性,找出敏感波段,采用偏最小二乘回歸法建立土壤汞含量高光譜預測模型,探討利用高光譜遙感技術監測土壤汞污染的可行性,為開展土壤重金屬污染治理和改善土壤環境服務。
1.1 研究區概況
準東煤田位于天山山麓、準噶爾盆地東南部,西起昌吉回族州阜康市東界,東到木壘縣老君廟,北到昌吉回族州北部邊界卡拉麥里山南麓,南接古爾班通古特沙漠北緣,東西長約220 km,南北寬約60 km,煤田總面積約13 000 km2,預測煤炭總儲量為3 900億t。本文以準東煤田五彩灣礦區及其周邊20 km范圍為研究區(東經88°45′08″~89°12′58″,北緯44°38′02″~44°59′02″),該區為戈壁灘平原,地勢平坦、開闊,地表植被稀少,沒有林地和農田,以沙地、戈壁、裸土地和裸巖石礫地為主。研究區干旱少雨,溫差大,多風,屬典型的極端干旱大陸氣候;海拔600 m左右,相對高差30~50 m;地表水系不發育,無常年水流,夏季降雨形成的暫時性水流多向南排泄于沙漠。
1.2 數據采集
2013年6月通過GPS精確定位采樣點,采集深度為0~10 cm,共采集土樣44個,測得土壤含水率在0.44%~6.5%之間,變幅不大。然后將烘干后的土樣進行碾磨,過0.2 mm篩后測量土壤重金屬含量和土壤光譜反射率。其中土壤汞含量的測定方法為原子熒光光譜法,稱取土樣0.200 g,用鹽酸(HCl)、硝酸(HNO3)、氫氟酸(HF)溶解,蒸至近干后,用 5%的HCl加熱溶解,用高純水定容至20 ml后開始測定。土壤光譜反射率采集使用美國ASD公司生產的Fieldspec3便攜式光譜儀,波段范圍為350~2 500 nm,測定光源為一盞50 W的鹵素燈,距離土樣30 cm,探頭距離土樣15 cm,視場角為 8°,垂直進行光譜數據采集。在每次采集前都要進行標準白板定標,對每個土樣測定10次,經算術平均后作為該土樣最終的光譜數據。
1.3 光譜數據預處理
在數據分析之前,先在Origin8.0軟件使用卷積平滑(Savitzky-Golay)方法對土壤的光譜曲線進行平滑去噪,目的是減小由于隨機因素產生的誤差,有效去除噪聲,可更好地體現土壤的光譜特征。
很多學者研究發現,將土壤光譜數據進行數學變換可以更好地分析光譜數據與土壤參數之間的關系,擴大土壤樣品間的光譜信息差異及土壤屬性信息的細小差異。其中對光譜數據做微分處理不僅可提高分辨率,而且能提高光譜數據與土壤各參數間的相關性[21,22]。為了突出土壤的光譜特征,除了采用原始光譜數據外,還對土壤原始光譜反射率(REF)做了4種微分變換,分別是反射率一階微分(FDR)、反射率二階微分(SDR)、反射率倒數一階微分((1/R)′)和反射率倒數對數一階微分((lg(1/R))′)。
光譜數據微分計算公式:
(1)
(2)

1.4 模型檢驗
檢驗模型精度的指標分別是決定系數R2和均方根誤差RMSE。決定系數越大,模型越穩定,均方根誤差越小,模型的預測能力越好。
均方根誤差RMSE的計算公式如下:

2.1 土壤汞含量分析
對本次測定的44個土樣的重金屬含量進行統計(表1),并將各重金屬元素含量與新疆背景值對比,得出研究區含量最高的重金屬元素為汞,是新疆汞含量背景值的5.8倍,所以本文只對汞元素進行分析。根據表2可得,研究區汞含量的最大值為0.223 mg/kg,最小值為0.013 mg/kg,平均值為0.099 mg/kg。而土樣的汞含量變異系數為52.8%,通常認定變異系數反映離散程度,且當10%≤變異系數≤100%時,為中等變異性[23],所以該研究區的土壤汞含量為中等變異性。

表1 準東煤田表層土壤重金屬含量描述性統計
表2 準東煤田表層土壤汞含量描述性統計
Table 2 Statistical parameter of the topsoil Hg content in Zhundong Coalfield

平均值(mg/kg)最大值(mg/kg)最小值(mg/kg)標準差變異系數(%)新疆背景值(mg/kg)0.0990.2230.0130.05252.80.017
2.2 土壤光譜反射率特征分析
先按照土壤汞含量(Hg)將44個樣本分為 4 類,分別是 Hg1≤0.05 mg/kg、0.05 mg/kg

圖1 不同汞含量的土壤光譜反射率
Fig.1 The soil spectral reflectance for different total Hg content
2.3 相關系數分析
將原始光譜反射率(REF)、反射率一階微分(FDR)、反射率二階微分(SDR)、反射率倒數一階微分((1/R)′)以及反射率倒數對數一階微分((lg(1/R))′)5種光譜指標與土壤汞含量做相關性分析,結果如圖2所示。
從圖2看出,在可見光-近紅外范圍內的很多波段都與土壤汞含量有光譜響應。在5種光譜指標中原始光譜反射率與土壤汞含量的相關性最小,相關系數最高值出現在350~360 nm之間,呈負相關,相關系數最低值出現在500~1 000 nm之間,呈正相關,說明在微分變換之前,在可見光波段的土壤汞含量探測力要比近紅外波段強。經微分變換后的4種光譜反射率與土壤汞含量的相關性明顯提高,相關系數在正負值之間波動很大,覆蓋了可見光-近紅外的很多波段,且近紅外波段的相關性高于可見光波段的相關性,最高相關波段為1 076 nm(R=-0.55),是反射率一階微分和土壤汞含量之間的相關。反射率二階微分和土壤汞含量的相關性略低于反射率一階微分,最高相關波段為1 685 nm(R=0.54)。而倒數一階微分和倒數對數一階微分的相關性沒有反射率一階、二階微分那么突出,兩者相關系數的曲線變化大致相同,且在可見光范圍呈明顯負相關,在近紅外范圍內變化無規律。綜上所述,在5種光譜指標中反射率一階微分與土壤汞含量的相關性最好,為最佳光譜指標。

圖2 土壤光譜反射率的變換形式與汞含量的相關系數
Fig.2 The correlation coefficient between the soil spectral reflectance and Hg content
2.4 土壤汞含量高光譜模型分析
根據上述分析結果,從采集的44個土壤樣品中隨機抽取35個作為建模樣本,其余9個作為檢驗樣本用來檢驗回歸模型的精度。采用原始光譜反射率(REF)、反射率一階微分(FDR)、反射率二階微分(SDR)、反射率倒數一階微分((1/R)′)、反射率倒數對數一階微分((lg(1/R))′)為自變量建立反演土壤汞含量的高光譜估算模型。采用DPS軟件建立土壤汞含量與土壤光譜反射率的偏最小二乘回歸模型,當樣本的因變量個數較少、自變量個數較多并存在多重線性相關時,利用偏最小二乘回歸法可以減小數據間的多重相關性。模型的預測能力和穩定性由RMSE和R2來檢驗,如表3所示。
分析表3中的5種模型,建模時,R2介于0.70~0.05,RMSE介于0.054~0.031;檢驗時,R2介于0.77~0.21,RMSE介于0.060~0.030。R2和RMSE的值變化較大。根據模型穩定性和精確性的判別標準,即決定系數越大越好,均方根誤差越小越好[24,25],得出擬合效果最好的是反射率一階微分與土壤汞含量構建的模型,建模R2為0.70,RMSE值為0.031,檢驗R2為0.77,RMSE值為0.032,擬合效果最差的是以原始光譜反射率為自變量的模型。圖3為反射率一階微分與土壤汞含量建立的高光譜模型的預測值與汞含量實測值的散點圖,直觀看出,建模樣本與檢驗樣本的值與1∶1的線很接近,說明用偏最小二乘回歸建模預測能力高,對土壤汞含量具有較好的解釋能力。
表3 土壤光譜反射率變換形式模型的比較
Table 3 Comparison between the different transformation of soil spectral model

光譜指標建模檢驗R2RMSER2RMSEREFFDRSDR(1/R)′(lg(1/R))′0.050.700.440.420.150.0540.0310.0410.0430.0500.760.770.690.300.210.0480.0320.0300.0480.060

圖3 土壤汞含量實測值與預測值散點圖
Fig.3 Scatter plot between measured value and predicted value for soil Hg content
本文對準東煤田土樣光譜數據與土壤汞含量做相關性分析,建立土壤汞含量與5種光譜指標的偏最小二乘回歸模型,并由均方根誤差RMSE和決定系數R2檢驗模型的預測能力和穩定性。結果表明:1)微分變換前,可見光波段的土壤汞含量探測力要比近紅外波段強,而微分變換后,近紅外波段的相關性要高于可見光波段,光譜反射率與土壤汞含量的相關性也比原始光譜反射率有明顯提高,且相關系數波動很大。5種光譜指標中反射率一階微分和土壤汞含量之間的相關性最好。2)5種光譜指標中擬合效果最好的是反射率一階微分與土壤汞含量構建的模型,建模R2為0.70,RMSE值為0.031,檢驗R2為0.77,RMSE值為0.032,擬合效果最差的是用原始光譜反射率建立的模型。本文證明了通過各種光譜預處理方法可提高土壤汞含量的估算精度,以及利用偏最小二乘回歸法建立準東煤田土壤汞含量估算模型的可行性。
[1] 崔龍鵬,白建峰,史永紅,等.采礦活動對煤礦區土壤重金屬污染研究[J].土壤學報,2004,41(6):896-903.
[2] 王麗,王力,和文祥,等.神木煤礦區土壤重金屬污染特征研究[J].生態環境學報,2011,20(8-9):1343-1347.
[3] 毛竹,張世熔,李婷,等.鉛鋅礦區土壤重金屬空間變異及其污染風險評價——以四川漢源富泉鉛鋅礦山為例[J].農業環境科學學報,2007,26(2):617-621.
[4] WANG G P,LIU J S.Distribution of heavy metals in sediment from the EBFZ(ERBAIFANGZI) marsh[J].Acta Pedologica Sinica,2002,39(6):810 -821.
[5] YANG M,CHEN Z Y,WANG Z H.Distribution of heavy metal elements on the tidal flat of Chongming Island,Yangtze Estuary,Shanghai[J].Shanghai Geology,2002(1):19 -23.
[6] 劉華,張利權.崇明東灘鹽沼土壤重金屬含量的高光譜估算模型[J].生態學報,2007,27(8):3427-3434.
[7] 喬璐,陳立新,張杰,等.哈爾濱市土壤有機質高光譜模型[J].東北林業大學學報,2010,38(7):116-118.
[8] 解憲麗,孫波,郝紅濤,等.土壤可見光-近紅外反射光譜與重金屬含量之間的相關性[J].土壤學報,2007,44(6):982-993.
[9] 王璐,藺啟忠,賈東,等.基于反射光譜預測土壤重金屬元素含量的研究[J].遙感學報,2007,11(6):906-913.
[10] WU Y Z ,CHEN J,TIAN Q J,et al.Possibilities of reflectance spectroscopy for the assessment of contaminant elements in suburban soils[J].Applies Geochemistry,2005,20:1015-1059.
[11] 翁永玲,宮鵬.土壤鹽漬化遙感應用研究進展[J].地理科學,2006,26(3):369-375.
[12] LIU H J,ZHANG Y Z,ZHANG B.Novel hyperspectral reflectance models for estimating black-soil organic matter in northeast China[J].Environment Monitor Assessment,2009,154:147-154.
[13] LU N,ZHANG Z,GAO Y.Recognition and mapping of soil salinization in arid environment with hyperspectral data[J].IEEE Geoscience and Remote Sensing Symposium, 2005,6:4520-4523.
[14] 劉煥軍,張柏,趙軍,等.黑土有機質含量高光譜模型研究[J].土壤學報,2007,44(1):27-32.
[15] 王靜,劉湘南,黃方,等.基于ANN技術和高光譜遙感的鹽漬土壤鹽分預測[J].農業工程學報,2009,25(12):l61-166.
[16] 沈掌泉,王珂,XUE W H.用近紅外光譜預測土壤碳含量的研究[J].紅外與毫米波學報,2010,29(1):32-37.
[17] 鄭光輝,周生路,吳紹華,等.土壤砷含量高光譜估算研究模型[J].光譜學與光譜分析,2011,31(1):173-176.
[18] 馬趙揚,杜昌文,周健民.土壤碳酸鈣中紅外光聲光譜特征及其應用[J].光譜學與光譜分析,2012,32(5):1255-1258.
[19] 趙振亮,塔西甫拉提·特依拜,丁建麗,等.新疆典型綠洲土壤電導率和pH值的光譜響應特征[J].中國沙漠,2013,33(5):1413-1419.
[20] 于士凱,姚艷敏,王德營,等.基于高光譜的土壤有機質含量反演研究[J].中國農學通報,2013,29(23):146-152.
[21] TSAI F,PHILPOT W D.A derivative-aided hyperspectral image analysis system for land-cover classification[J].IEEE Transaction on Geoscience and Remote Sensing,2002,10(2):416-425.
[22] TSAI F,PHILPOT W D.Derivative analysis of hyperspectral data[J].Remote Sensing of Environment,1998,66:41-51.
[23] 高婷婷,丁建麗,哈學萍,等.基于流域尺度的土壤鹽分空間變異特征——以渭干河-庫車河流域三角洲綠洲為例[J].生態學報,2010,30(10):2695-2705.
[24] 趙振亮,塔西甫拉提·特依拜,張飛,等.塔里木河中游典型綠洲土壤含鹽量的光譜特征[J].自然災害學報,2012,21(5):72-78.
[25] 丁建麗,伍漫春,劉海霞,等.基于綜合高光譜指數的區域土壤鹽漬化監測研究[J].光譜學與光譜分析,2012,32(7):1918-1922.
PLSR Based Hyperspectral Remote Sensing Retrieval of Soil Hg Content
SONG Yu1,2,TASHPOLAT·Tiyip1,2,LI Chong-bo3,HOU Yan-jun1,2,TAO Lan-hua1,2,ZHANG Fei1,2
(1.CollegeofResourcesandEnvironmentSciences,XinjiangUniversity,Urumqi830046;2.KeyLaboratoryofOasisEcologyunderMinistryofEducation,XinjiangUniversity,Urumqi830046;3.GeologicalResearchAcademyofXinjiang,Urumqi830011,China)
A total of 44 soil samples were collected in Zhundong Coalfield.The correlation between soil spectrum and its Hg content was analyzed on the basis of laboratory measurement,and hyperspectral models for estimating soil Hg content was established using partial least squares regression.Then root mean squared error (RMSE) was introduced to test the predictability and precision of the models,and coefficient of the determination (R2)was used to evaluate stability of the models.Then the applicability of the estimate results was compared using different preprocessing methods and different models in this paper.Results demonstrate: FDR is optimal index for predicting Hg content.The partial least squares regression (PLSR) is the optimal model to establish the relationship between the soil spectrum(FDR)and Hg content,whichR2andRMSEis 0.77 and 0.032.Estimating Hg content of the soil by the reflectance spectra and improving the accuracy of estimation through varieties of pre-processing methods,so it provides a reference for the recovery and estimate of the ecological environment in study area.
Zhundong Coalfield;hyperspectral;Hg content;PLSR
2014-10-16;
2014-12-25
國家科技支撐計劃項目(2014BAC15B01);國家自然科學基金重點項目(41130531)
宋玉(1987-),女,碩士研究生,主要研究方向為干旱區資源遙感定量研究。*通訊作者E-mail:tash@xju.edu.cn
10.3969/j.issn.1672-0504.2015.03.009
X53
A
1672-0504(2015)03-0044-04