








摘要:為確定淮北平原砂姜黑土土壤有機質(SOM)最佳反演模型,探尋最佳特征波長篩選方法,提高模型預測精度。利用原始光譜進行倒數對數(Log(1/R))、標準正態變量變換(SNV)、去包絡線(CR)、一階微分(FDR)處理,采用穩定競爭性自適應重加權算法(sCARS)篩選特征變量,對比分析競爭性自適應重加權算法(CARS)、相關系數法(|r|≥0.47)和顯著性水平法(p≤0.01)所得結果,建立SOM含量的偏最小二乘(PLSR)模型,并對比精度差異。結果表明:(1)全波段范圍內,SOM含量與原始光譜呈極顯著負相關,與Log(1/R)光譜呈極顯著正相關,與SNV光譜相關性明顯增強。CR和FDR光譜與SOM含量呈不同程度的正負相關性。(2)對比全波段,CARS和sCARS算法能夠有效去除光譜冗余信息,篩選得到特征波段數目僅占全波段的1%~5%。篩選后模型精度更高,相對分析誤差(RPD)均大于1.8。(3)相比于CARS算法,sCARS算法具備更好的穩定性和精確性。篩選到的特征波段主要分布在800~850、1850~1900、2050~2500 nm區域。(4)Log(1/R)-sCARS模型精度最佳,建模集和預測集的決定系數(R2)分別提升了0.08和0.28,RPD值為3.05,對SOM含量預測極好。
關鍵詞:土壤有機質;砂姜黑土;光譜變換;sCARS篩選;偏最小二乘模型
中圖分類號:TP79;S151.9 文獻標志碼:A 文章編號:1001-2443(2024)03-0255-09
引言
土壤有機質(soil organic matter, SOM)含量是體現土壤生產力強弱的重要參數[1-2]。為了更加快速地測量土壤有機質的含量,近年來推出了高光譜技術,相比于傳統的土壤有機質測定方法節省了時間及勞動成本,同時推動了環境、農業可持續發展,為土壤有機質的快速監測提供了保障。國內外學者研究發現可見光-近紅外(visible and near infrared, Vis-NIR)光譜能夠快速捕捉土壤信息,具有分辨率高、操作簡便等特點[3-5]。因此通常利用Vis-NIR光譜預測SOM含量,但Vis-NIR光譜往往包含大量的波段,如何在提高建模精度的前提下,減少工作量,篩選特征波段已成為研究的熱點內容。
光譜變換能更好地突出光譜的特征信息,然而不同光譜變換方法對光譜數據有不同作用,不同的變換對建模結果精度有影響[6-8]。高志海等[9]對荒漠化土地的土壤數據進行倒數對數(inverse-log reflectance, Log(1/R))變換,發現在550~900nm范圍內弓形突起變化有明顯特征。白繼偉等[10]對去除包絡線(continuum removal, CR)前后的光譜數據進行對比,發現處理后的光譜更能突出地物光譜的特征信息,可以有效提高建模精度。李雪等[7]通過實驗對比認為經過一階微分 (first-order derivative reflectance, FDR) 處理的光譜數據,其相關系數會有所提高。譚洋等[11]則認為標準正態變量變換(standard normal variable, SNV)能夠更好地減少土壤樣本表面的散射噪聲,便于后續優化建模精度。
全波段光譜數據建模效率低、耗時長,對其進行特征波段篩選可以減少波段輸入量,加快建模速度,提高模型精度[12-13]。通常使用的篩選特征波長的方法主要包括:競爭性自適應重加權算法(competitive adaptive reweighted sampling, CARS)[14]、穩定競爭性自適應重加權算法(stability competitive adaptive reweighted sampling, sCARS) 和連續投影算法(successive projections algorithm, SPA)[15]等。汪六三等[16]對光譜變換過后的光譜數據采用遺傳算法(genetic gorithms, GA)、連續投影算法、競爭性自適應重加權算法、隨機蛙跳(random frog, RF)篩選特征波段,結果表明連續投影算法優于全譜建模,在提取特征變量方面具有明顯效果。蔡亮紅等[17]將小波變換結合CARS等多種算法分別進行敏感波段提取,結果顯示小波變換和CARS-SPA算法的結合可以更好地剔除無信息變量,消除變量間的共線性問題。根據前人的研究可知CARS算法篩選出的波段數目少,效率快,建模精度高,但篩選的波段具有不確定性,而sCARS延續了CARS的篩選流程,優化了篩選過程中的穩定性,被廣泛應用于土壤特征波段篩選。丁泊洋等[18]對多種光譜變換后的近紅外光譜進行sCARS篩選,預測集的RPD為2.9,預測效果最優。李冠穩等[19]對青海省湟水流域土壤進行研究,對比CARS和sCARS兩種特征變量篩選,結果表明后者的建模效率及精度高于前者。
光譜數據與土壤屬性之間常用的建模方法包含主成分回歸分析(principle component regression, PCR)、偏最小二乘法(partial least squares regression, PLSR)、多元線性回歸(multiple linear regression, MLR) 、隨機森林(random forest, RF)、人工神經網絡(artificial neural networks, ANN)等,前三種主要是線性回歸方法,后兩者則是非線性回歸技術。大量研究表明,PLSR法能更準確地預測SOM含量,在模型預測中精度較優[20-21]。曹永研等[22]使用隨機蛙跳算法篩選特征波長,分別建立MLR、PLSR、隨機森林(random forest,RF)模型,證明PLSR法在快速預測SOM含量的精度上更有潛力。田永超等[23]對砂姜黑土、水稻土、鹽土等5種光譜數據進行光譜變換,采用4種建模方法預測SOM含量,結果表明PLS-BP神經網絡是最佳預測模型。
砂姜黑土內部含有鈣質結核,土壤黏粒含量高,耕作能力差。目前對砂姜黑土水分、養分和理化性質等研究頗多,對砂姜黑土SOM最佳反演模型的研究較少。因此,本文以安徽省淮北平原中部蒙城縣的砂姜黑土為研究對象,對原始光譜數據進行倒數對數變換、標準正態變量變換、去除包絡線和一階微分處理,采用sCARS篩選特征波段,與全波段、CARS、相關系數和顯著性水平等方法進行對比,并分別進行PLSR建模,研究sCARS結合PLSR高精度建模的可行性,為今后SOM的快速檢測做出一定的理論支持。
1 數據與方法
1.1 采樣區概況
采樣區位于安徽省淮北平原中部蒙城縣境內(116°15′43″~ 116°49′25″E,32°55′29″~ 33°29′64″N),面積約為2091km2 (圖1),盛產小麥、玉米、大豆等優質農產品。地貌類型主要為黃泛沖積平原和河間侵蝕平原,地勢由西北向東南緩緩傾斜,土壤類型以砂姜黑土、黃褐土為主。
1.2 土壤樣品采集與劃分
2016年夏季6—7月,在蒙城縣田地區域內選取108個土壤樣品,采集深度為0~20 cm。采樣時遵循等量、隨機和多點混合的原則。首先規劃好采集土壤樣品的區域,以其為中心分別作半徑為10~20 cm的半圓,即S形區域。每個區域內需采集8~12個樣品,將所有樣品隨機混合,通過四分法進行篩選,最終取1kg用于后續檢測。檢測之前土壤樣品要保持自然風干的狀態,經過木棒碾碎之后利用篩網剔除掉石塊、殘渣等雜質。進行土壤光譜測試時,篩網的標準目數為10目;通過重鉻酸鉀氧化滴定法測定有機質的含量時,篩網的標準目數為60目。在室內黑暗環境下,由鹵素燈提供光源,將土樣置于直徑為10 cm、深度為1.5 cm的容器中,采用ASD Field Spec進行光譜測定,傳感器探頭位于土樣表面以上15厘米處,探頭視角為25°,波長范圍為350~2500 nm。其中350~700 nm光譜分辨率≤0.048 nm,700~2500 nm光譜分辨率≤0.2 nm,重采樣間隔1 nm。采用濃度梯度法劃分建模集和預測集,即將SOM含量從低到高排列,按2:1比例確定建模樣本72個,預測樣本36個。表1為SOM含量在建模集和預測集的分布情況。
1.3 sCARS變量選擇
穩定競爭性自適應重加權算法(sCARS)是在競爭性自適應重加權算法(CARS)篩選變量的基礎上將穩定性Ci作為衡量指標,計算每個波長的穩定性值,進行多次循環迭代。然后利用自適應重加權采樣方法和指數衰減函數選擇穩定性較好的變量子集,最后建立PLSR模型計算權重系數,然后將權重系數較小的波段剔除,從N個波長子集中選擇交叉驗證均方根誤差最小值作為最優變量子集[24]。計算公式為
1.4 數據處理與精度評價
首先對砂姜黑土的原始數據進行Savitzky-Golay平滑,設置移動窗口寬度為11 nm,多項式階數為2,以此來平滑光譜反射率曲線,降低噪音的干擾。然后分別進行Log(1/R)、SNV、CR和FDR四種光譜變換,計算R、Log(1/R)、SNV、CR、FDR光譜與SOM之間的相關系數,探究不同光譜變換后光譜反射率與SOM的相關性變化。然后采用sCARS算法篩選特征波段,分析篩選波段的過程,研究敏感波段的數目和范圍,對比CARS、相關系數法和顯著性水平篩選法所得結果,建立PLSR模型,分析不同光譜變換和不同特征波段對建模結果精度的影響。
倒數對數變換、一階微分變換在The Unscrambler中處理;去包絡線變換在ENVI中進行;CARS和sCARS算法均在Matlab中運行;相關系數、顯著性水平和標準正態變量變換在RStudio中進行;PLSR建模及預測則在The Unscrambler中完成。
研究主要運用了三個指標進行模型精度評價,分別為決定系數(determination coefficients, R2)、均方根誤差(root mean squared error, RMSE)及相對分析誤差(relative percent deviation, RPD)。當R2越接近1,RMSE值越小時,預測模型精度越好,擬合程度也越高[25]。RPD為預測樣本的標準差(SD)與RMSE的比值。當RPDlt;1.4時,表明模型精度很差,無法對SOM含量進行預測;當1.4≤RPDlt; 2時,表明預測精度一般,能夠粗略的對模型進行估測;當RPD≥2時,則表明預測結果的準確性很高,參考價值強[26,27]。
2 結果與討論
2.1 土壤光譜曲線特征
將SOM的含量按從小到大排序,分別選擇最小值、25%分位值、50%分位值、75%分位值和最大值,探究波長與反射率的關系,分析土壤光譜曲線特征 (圖2)。從整體上看,不同有機質含量砂姜黑土的光譜曲線形態差別較小。如18.91 g/kg和21.82 g/kg,23.89 g/kg和31.30 g/kg的光譜曲線特征較一致,沒有明顯差異。同時隨著SOM含量的增加,光譜反射率降低,而6.65 g/kg光譜曲線較特殊,該光譜曲線的反射率并沒有處于最大值,有可能與SOM含量較低有關。當SOM含量較低時,其他土壤組成物質對光譜反射率影響增強,SOM對土壤反射率的影響減弱。
通過圖2可以發現,5條光譜曲線均在1400~2200 nm范圍內出現了水分吸收谷,其中1900 nm附近的吸收谷最為明顯,1400 nm、2200 nm附近的吸收谷深度次之,5條光譜曲線的吸收程度和面積均有所不同,這與張森等[28]的研究結果一致。季耿善等[29]研究也表明在土壤樣本含水時光譜曲線會出現吸收帶,1400 nm附近主要與羥基為主的OH譜帶有關,1900 nm附近主要由層間水的譜帶引起,2200nm附近存在高嶺類礦物吸收帶,2300 nm附近的吸收谷則與三價鐵和MgO的蛙石特征譜帶有關。
圖3為不同光譜變換之后,SOM含量與光譜反射率的相關系數分布曲線。圖3a表示SOM含量與原始光譜呈顯著負相關,最大相關系數絕對值為0.48。經Log(1/R)變換后,SOM含量與Log(1/R)光譜呈顯著正相關,最大相關系數為0.47(圖3b)。對比R和Log(1/R)相關系數曲線,可以發現兩者相關系數絕對值變化形態基本相同,相關系數絕對值均大于0.3。經SNV處理后,SOM與光譜數據相關系數整體較高,其中350~456 nm、613~869 nm波段范圍內的相關系數絕對值均大于0.8,相比于其他光譜變換方法相關系數明顯提升。由圖3d和圖3e可知,SOM含量與CR光譜、FDR光譜相關系數上下波動大,變化劇烈,呈現不同程度的正負相關性,最大正負所在波長分別位于1164 nm和1443 nm,相關系數絕對值分別為0.43和0.66,且相比于R光譜和Log(1/R)光譜,相關系數略有下降。
2.2 sCARS特征波段篩選
經過不同光譜變換后,篩選到的特征波段有所不同。以原始光譜為例,闡述sCARS算法篩選特征波段的過程(圖4)。分別通過篩選得到的波段數目、交叉驗證均方根誤差(RMSECV)和回歸系數三個方面,分析蒙特卡羅采樣次數(即運行次數)對篩選過程的影響。由圖4可以看出,當運行次數不斷增加時,篩選出來的波段越來越少,由急速減少到趨于平緩。RMSECV隨著蒙特卡羅采樣次數的增加呈現先減小后增大的趨勢。在第27次運行時出現轉折,這是因為在1~27次運行過程中,與SOM含量相關性較小的波段被剔除,建模精度逐漸提高;而第27次運行之后,與SOM含量相關性較大的波段被去除,RMSECV值增大,致使建模結果變差;當運行次數為27時,RMSECV處于最小值,值為1.17。此時共篩選出53個敏感波段,占總波段數的2.46%。
圖5是經過光譜變換之后,sCARS算法篩選得到的波段分布情況。可以發現經過不同處理之后,篩選的敏感波段數目從2000多驟減至100左右,占全波段的1.86%~5.02%。勾宇軒等[30]對400~2400 nm范圍內的光譜進行sCARS篩選,得到的波段數占初始波段的比率介于0.35%~5%,篩選波段所占比例與其相似。在五種sCARS篩選中,FDR處理后篩選的波段數目最多,波段數為108;Log(1/R)和CR處理后篩選波段數目次之;R和SNV篩選到的波段數最少,SNV-sCARS數目為40個。FDR-sCARS波段主要分布范圍在350~380、550~570、740~860、1390~1400、1860~1940、2030~2500nm,而SNV-sCARS波段分布在800~840、1880~1910、2070~2500 nm。五種光譜變換均在800~850、1850~1900、2050~2500 nm篩選到了敏感波段,因為在這些范圍內光譜數據與SOM之間具有較高的相關性,這與張娟娟等[31]的研究結果基本一致。張娟娟等在河南省商水縣砂姜黑土的研究中表明:對于近紅外光譜,1860~1890 nm和2000~2350 nm范圍內光譜反射率與SOM相關性較強。而經Log(1/R)、CR和FDR處理后,光譜在可見光范圍內也篩選到了一部分敏感波段,這是因為經過處理后的光譜反射率降低了背景產生的噪聲干擾,擴大了土壤樣品之間微小光譜的差異,便于提取有效波段[32]。
2.3 基于不同特征波長的PLSR模型建模
分別對原始光譜R、Log(1/R)、SNV、CR和FDR光譜進行CARS與sCARS算法篩選。由于原始光譜R、Log(1/R)和SNV光譜大多通過了0.01顯著性檢驗,顯著性水平篩選方法無法有效篩選得到有用的波段信息,而CR、FDR光譜情況與上述相反(圖3)。因此,對原始光譜R、Log(1/R)和SNV光譜進行相關系數篩選,經過反復實驗并結合前人學者研究,選擇|r|≥0.47的波段[25],此時篩選得到的波段數目分別為680、262和996。對CR、FDR光譜進行顯著性水平篩選,選擇p≤0.01的波段。將以上篩選過后的光譜進行PLSR建模,建模結果見表2。
結果表明:經CARS和sCARS篩選后,建模的波段數目大大減少,建模精度也大大提高。特別是各光譜變換經sCARS篩選后的建模性能極佳。其中原始光譜和Log(1/R)光譜結合sCARS篩選建模精度最高,預測集的R2依次為0.88和0.89,相對分析誤差RPD分別為2.94和3.05,能夠準確地預測SOM的含量;SNV、CR和FDR光譜預測結果稍弱于前兩種變換,建模集的R2分別為0.88、0.94和0.95,RMSE介于0.86~1.41 g/kg;預測集的R2分別為0.76、0.79和0.81,RMSE介于1.65~1.85 g/kg ,RPD值也均大于2。sCARS相比于CARS篩選到的波段數目略多,但CARS算法篩選的波段具有隨機性。劉國海等[33]的研究表明sCARS算法更加穩定,建模精度也極優, sCARS與PLSR模型結合能夠更好地預測SOM含量。李冠穩等[19]的研究同樣表明,相比于全波段和CARS篩選,sCARS篩選后模型精度有所提高,RPD分別提高了0.4和0.1。其建模集和驗證集R2為0.87和0.88,RMSE分別為8.33、7.80 g/kg。
在全波段光譜中,建模精度不高。R、Log(1/R)和SNV變換光譜的RPD介于1.5~1.6之間,僅能夠粗略地預測土壤有機質的含量;而CR和FDR的RPD分別為1.19和1.18,模型精度極差,這可能是因為光譜變換后兩種光譜數據與土壤有機質的相關系數大多集中于-0.4~0.4,具有弱相關性,較多波段沒有通過0.01顯著性水平。
基于R、Log(1/R)、SNV變換光譜進行相關系數篩選,預測集的R2分別為0.13、0.30和0.33,RMSE 介于3~3.5 g/kg,RPD均低于1.4,建模結果難以對SOM進行預測。在CR光譜和FDR光譜中,經顯著性水平篩選后的特征波段,其預測集RPD值分別為1.18和1.47,說明顯著性水平篩選也不適合用于砂姜黑土模型預測。
綜上所述,20種模型中,sCARS較CARS篩選的敏感波段建模精度普遍更高,其中Log(1/R)-sCARS模型精度最優,建模集和預測集的R2為0.97、0.89,此時RPD值為3.05。相對于FDR光譜,其余四種光譜變換經相關系數和顯著性水平篩選RPD值均低于全波段,不能預測土壤有機質。
由獨立驗證結果的散點圖可以看出(圖6),真實值與預測值的樣本點在1:1直線呈不同程度的上下偏離。以圖6a為例,在原始光譜全波段中,當SOM含量低于20 g/kg時,預測值基本高于真實值;當SOM含量高于20 g/kg時,預測值大多低于真實值。單海斌等[34]對北疆灰漠土進行SOM反演,其逐步回歸模型結果與本研究結論相似,這可能是因為隨著SOM含量的增加光譜趨于飽和。全波段、相關系數法和顯著性水平篩選法樣本點的離散程度很高,模型精度有待提升,有些甚至不能估測SOM含量。而經過CARS和sCARS篩選特征波段后,如圖6f和6g所示,模型的真實值與預測值數據緊貼1∶1直線,模型精度極好,與上述分析一致。
3 結論
通過對安徽省蒙城縣土壤有機質含量進行建模預測,并分析與土壤光譜曲線之間的對應關系,探究不同光譜變換和特征波段篩選下,建模效果和預測精度的差別,結果表明:
(1)不同有機質含量的砂姜黑土光譜曲線形態差別較小,在短波紅外范圍內均有3處吸收谷,與其附近譜帶相關。土壤有機質與原始光譜呈極顯著負相關,與Log(1/R)光譜呈極顯著正相關,與SNV光譜的相關性明顯增強。CR光譜和FDR光譜與SOM的相關系數波動較大,呈現不同程度的正負相關性。
(2)五種光譜變換經sCARS篩選后波段的范圍和數目有所不同,篩選到的波段主要分布在800~850、1850~1900、2050~2500 nm區域內,波段數目介于40~108。
(3)對于sCARS算法,篩選結果的RPD值均在2以上,sCARS對比其它篩選結果具有更好的穩定性和準確性,能極佳地預測SOM含量。其中Log(1/R)-sCARS-PLSR的模型精度最優,建模集和預測集的R2分別提升了0.08和0.28,RPD值為3.05,采用sCARS-PLSR建模優于其他方法,為今后SOM預測提供了研究方向。
參考文獻:
[1] OLDFIELD E E, BRADFORD M A, WOOD S A. Global meta-analysis of the relationship between soil organic matter and crop yields[J]. Soil, 2019, 5(1): 15-32.
[2] 鐘翔君, 楊麗, 張東興, 等. 不同粒徑對土壤有機質含量可見-近紅外光譜預測的影響[J]. 光譜學與光譜分析, 2022, 42(8): 2542-2550.
[3] DOTTO A C, DALMOLIN R S D, TEN CATEN A, et al. A systematic study on the application of scatter-corrective and spectral-derivative preprocessing for multivariate prediction of soil organic carbon by Vis-NIR spectra[J]. Geoderma, 2018, 314(11): 262-274.
[4] 焦彩霞, 鄭光輝, 解憲麗, 等. 可見-短近紅外成像光譜數據的土壤有機質含量估算[J]. 光譜學與光譜分析, 2020, 40(10): 3277-3281.
[5] 胡亞男, 高小紅, 申振宇, 等. 基于野外實測Vis-NIR光譜的土壤肥力估算研究——以湟水流域為例[J]. 土壤通報, 2021, 52(3): 575-584.
[6] 陳思明, 毛艷玲, 鄒小興, 等. 基于不同建模方法的濕地土壤有機質含量多光譜反演[J]. 土壤通報, 2018, 49(1): 16-22.
[7] 李雪, 范仲卿, 高涵, 等. 基于高光譜的土壤有機質快速檢測模型構建[J]. 山東農業大學學報(自然科學版), 2021, 52(5): 833-839.
[8] 周偉, 謝利娟, 楊晗, 等. 基于高光譜的三江源區土壤有機質含量反演[J]. 土壤通報, 2021, 52(3): 564-574.
[9] 高志海, 白黎娜, 王琫瑜, 等. 荒漠化土地土壤有機質含量的實測光譜估測[J]. 林業科學, 2011, 47(6): 9-16.
[10] 白繼偉, 趙永超, 張兵, 等. 基于包絡線消除的高光譜圖像分類方法研究[J]. 計算機工程與應用, 2003, 39(13): 88-90.
[11] 譚洋, 姜琦剛, 劉驊欣, 等. 基于多尺度SNV-CWT特征的黑土有機質、水分、總鐵及pH值估測[J]. 光譜學與光譜分析, 2021, 41(11): 3424-3430.
[12] JIA S, LI H, WANG Y, et al. Recursive variable selection to update near-infrared spectroscopy model for the determination of soil nitrogen and organic carbon[J]. Geoderma, 2016, 268(1): 92-99.
[13] 林志丹, 汪玉冰, 王儒敬, 等. 波長優選對土壤有機質含量可見光/近紅外光譜模型的優化[J]. 發光學報, 2016, 37(11): 1428-1435.
[14] LI H, LIANG Y, XU Q, et al. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J]. Analytica Chimica Acta, 2009, 648(1): 77-84.
[15] ZHANG J, RIVARD B, ROGGE D M. The Successive Projection Algorithm (SPA), an algorithm with a spatial constraint for the automatic search of endmembers in hyperspectral data[J]. Sensors, 2008, 8(2): 1321-1342.
[16] 汪六三, 魯翠萍, 王儒敬, 等. 土壤堿解氮含量可見/近紅外光譜預測模型優化[J]. 發光學報, 2018, 39(7): 1016-1023.
[17] 蔡亮紅, 丁建麗. 基于變量優選和ELM算法的土壤含水量預測研究[J]. 光譜學與光譜分析, 2018, 38(7): 2209-2214.
[18] 丁泊洋, 陳萬超, 張飛宇, 等. 波長選擇SCARS和偏最小二乘法建立香菇中多糖含量預測的近紅外光譜模型[J]. 天然產物研究與開發, 2017, 29(1): 125-128.
[19] 李冠穩, 高小紅, 肖能文, 等. 基于sCARS-RF算法的高光譜估算土壤有機質含量[J]. 發光學報, 2019, 40(8): 1030-1039.
[20] 喬娟峰, 熊黑鋼, 王小平, 等. 新疆阜康荒地土壤有機質高光譜特征及其反演模型研究[J]. 干旱地區農業研究, 2018, 36(5): 207-214.
[21] 呂夢琪, 宋宇杰, 翁海勇, 等. 近紅外高光譜成像掃描速度對擬南芥冠層含水率預測的影響[J]. 光譜學與光譜分析, 2020, 40(11): 3508-3514.
[22] 曹永研, 楊瑋, 王懂, 等. 基于水分和粒度的土壤有機質特征波長提取與預測模型[J]. 農業機械學報, 2022, 53(9): 1-11.
[23] 田永超, 張娟娟, 姚霞, 等. 基于近紅外光聲光譜的土壤有機質含量定量建模方法[J]. 農業工程學報, 2012, 28(1): 145-152.
[24] 李冠穩, 高小紅, 肖能文, 等. 特征變量選擇和回歸方法相結合的土壤有機質含量估算[J]. 光學學報, 2019, 39(9): 361-371.
[25] 牛芳鵬, 李新國, 靳萬貴, 等. 利用高光譜估算博斯騰湖西岸湖濱綠洲土壤有機質含量[J]. 中國土壤與肥料, 2021, 53(1): 9-16.
[26] GHOLIZADEH A, BORUVKA L, SABERIOON M, et al. A memory-based learning approach as compared to other data mining algorithms for the prediction of soil texture using diffuse reflectance spectra[J]. Remote Sensing, 2016, 8(4): 310-322.
[27] 劉艷芳, 宋玉玲, 郭龍, 等. 結合高光譜信息的土壤有機碳密度地統計模型[J]. 農業工程學報, 2017, 33(2): 183-191.
[28] 張森, 盧霞, 聶格格, 等. SVM和BP檢測濱海濕地土壤有機質[J]. 光譜學與光譜分析, 2020, 40(2): 556-561.
[29] 季耿善, 徐彬彬. 土壤粘土礦物反射特性及其在土壤學上的應用[J]. 土壤學報, 1987, 24(1): 67-76.
[30] 勾宇軒, 趙云澤, 李勇, 等. 基于CWT-sCARS的東北旱作農田土壤有機質高光譜反演[J]. 農業機械學報, 2022, 53(3): 331-337.
[31] 張娟娟, 席磊, 楊向陽, 等. 砂姜黑土有機質含量高光譜估測模型構建[J]. 農業工程學報, 2020, 36(17): 135-141.
[32] 玉米提·買明, 王雪梅. 連續小波變換的土壤有機質含量高光譜估測[J]. 光譜學與光譜分析, 2022, 42(4): 1278-1284.
[33] 劉國海, 夏榮盛, 江輝, 等. 一種基于SCARS策略的近紅外特征波長選擇方法及其應用[J]. 光譜學與光譜分析, 2014, 34(8): 2094-2097.
[34] 單海斌, 蔣平安, 顏安, 等. 基于高光譜數據的北疆綠洲農田灰漠土有機質反演[J]. 農業資源與環境學報, 2018, 35(3): 276-282.
Based on sCARS Hyperspectral Modeling of Soil Organic Matter Content in Huaibei Plain
GAO Ying-feng1.2.3,ZHAO Ming-song1.2.3,YU Zhi-lin1,ZHAO Zhi-dong1,WANG Tao1
(1. School of Geomatics, Anhui University of Science and Technology, Huainan 232001,China; 2. Key Laboratory of Aviation-Aerospace-Ground Cooperative Monitoring and Early Warning of Coal Mining-Induced Disasters of Anhui Higher Education Institutes, Huainan 232001, China; 3. Coal Industry Engineering Research Center of Collaborative Monitoring of Mining Area’s Environment and Disasters, Huainan 232001,China)
Abstract: In order to determine the best inversion model of soil organic matter (SOM) of sand and Shajiang black soil in the Huaibei Plain, the best characteristic wavelength screening method was explored to improve the prediction accuracy of the model. The original spectrum was used to perform inverse-log reflectance (Log(1/R)), standard normal variable (SNV), continuum removal (CR), and first-order derivative reflectance (FDR) processing, and the stability competitive adaptive reweighted sampling (sCARS) was used to screen the characteristic variables, and the results obtained by the competitive adaptive reweighted sampling (CARS), correlation coefficient method (|r|≥0.47) and significance level method (p≤0.01) were compared and analyzed, and a partial least squares regression (PLSR) model of SOM content was established. And compare the accuracy differences. The results show that: (1) In the whole band, the SOM content is negatively correlated with the original spectrum, positively correlated with the Log(1/R) spectrum, and significantly enhanced with the SNV spectrum. CR and FDR spectra showed different degrees of positive and negative correlation with SOM content. (2) Compared with the full band, the CARS and sCARS algorithms can effectively remove the spectral redundancy information, and the number of characteristic bands screened accounts for only 1%~5% of the full band. After screening, the accuracy of the model was higher, and the relative percent deviation (RPD) was greater than 1.8. (3) Compared with the CARS algorithm, the sCARS algorithm has better stability and accuracy. The screened characteristic bands are mainly distributed in the 800~850, 1850~1900, 2050~2500nm regions. (4) The Log(1/R)-sCARS model has the best accuracy, the determination coefficients (R2) of the modeling set and the prediction set are increased by 0.08 and 0.28, respectively, and the RPD value is 3.05, which is excellent for the prediction of SOM content.
Key words: soil organic matter; Shajiang black soil;spectral transformations; sCARS screening; partial least squares model
(責任編輯:鞏 劼)