
中圖分類號 S153.621 文獻(xiàn)標(biāo)識碼A 文章編號 1007-7731(2025)15-0089-05
DOI號 10.16377/j.cnki.issn1007-7731.2025.15.022
Influence of different spectral transformation forms on the accuracy of partial least squares estimation model of soil organic matter
ZENG Yuanwen FAN Wenwu
(Chongqing Geomatics and Remote Sensing Center, Chongqing 401147, China)
AbstractThisstudyused field-colectedsoil samplesas test subjectsto conduct experiments including soil organicmater (SOM) content determination,hyperspectral data acquisition,and preprocessing.Sixspectral transformationswereapplied to the preprocessd spectral data:absorption depth (Depth),firstderivativeof logreflectance (FD-lgR),second derivativeof log-reflectance (SD-lgR),secondderivativeof reflectance (SD-R),second derivative ofreciprocal reflectance (SD-1/R),andsecondderivativeof reciprocallog-reflectance (SD-1/lgR).Partial least squares regression (PLSR) models for SOM estimation were establishedunder diffrent spectral transformation forms to analyze thecorrelation between spectral transformationsand SOM content,as wellas their impacton model accuracy.Theresults showed thatall6transformations exhibited bands significantlycorrelated with SOMcontent,with FD-lgRhaving the highest numberofsignificantlycorrelatedbands (71).TheFD-lgRmodelachievedadetermination coefficient ( R2 )of 0.995,a root mean square error of calibration (RMSEC) of 0.O63,a cross-validation R2 of 0.775,and a relative percent difference (RPD)of 2.681,allof which were among the highest values acrossall transformations.The scater plot of predicted versus measured values indicated that theFD-lgR model's estimates were close to the actual values,with an R2 of 0.872. Overall, the regression model based on FD-lgR demonstrated high accuracy and good stability.These findings provide a reference for subsequent hyperspectral data preprocessing and estimation model construction for soil organic matter.
Keywordssoil organic matter; hyperspectral; spectral transformation; partial least squares regression
土壤有機(jī)質(zhì)(Soilorganicmatter,SOM)是土壤的重要組成部分,其含量是評價(jià)土壤肥力的重要指標(biāo);也是農(nóng)作物生長的重要養(yǎng)分之一,對作物生長有顯著影響。土壤有機(jī)質(zhì)常規(guī)調(diào)查采用現(xiàn)場取樣加室內(nèi)測試的方法,存在費(fèi)時(shí)、費(fèi)力和無法大面積鋪開等問題,因此,為快速、準(zhǔn)確和大范圍地獲取土壤有機(jī)質(zhì)含量信息,必須尋找新的技術(shù)方法來滿足現(xiàn)代精準(zhǔn)農(nóng)業(yè)的發(fā)展需求。光譜分析技術(shù)的發(fā)展,為上述問題的解決提供了新的路徑。由于其速度快、成本低、無污染,以及可同時(shí)反演多種成分等特點(diǎn),已成為替代化學(xué)檢測的有效手段之一[1-2]。研究表明,土壤有機(jī)質(zhì)在可見光波段和近紅外波段展現(xiàn)出獨(dú)特的光譜特性,其含量是影響土壤光譜特性的核心要素[3]。陳頌超等4研究發(fā)現(xiàn),水稻土在可見光與近紅外波段和中紅外波段的光譜吸收特性與其有機(jī)質(zhì)含量有一定的相關(guān)性。鄔登巍等分析了不同母質(zhì)和土地利用類型對土壤有機(jī)質(zhì)含量光譜預(yù)測模型精度的影響,并討論了該模型的適用性。
近年來,除了對土壤有機(jī)質(zhì)本身的光譜特性進(jìn)行研究外,還對土壤光譜處理方式、土壤粒徑大小、土壤光譜數(shù)學(xué)變換形式和反演模型等對土壤有機(jī)質(zhì)估算的影響進(jìn)行了深入探究。劉效棟研究發(fā)現(xiàn),就王壤有機(jī)質(zhì)反演模型而言,偏最小二乘模型優(yōu)于多元線性回歸模型,其具有更好的精度和穩(wěn)定性。郄欣等將光譜數(shù)據(jù)進(jìn)行了4種變換,并分別構(gòu)建了SVR估算模型,結(jié)果顯示,基于倒數(shù)對數(shù)一階微分這種變換形式下的模型精度最高。
本文為研究不同光譜數(shù)學(xué)變換形式對土壤有機(jī)質(zhì)反演模型精度和穩(wěn)定性的影響,在前人研究的基礎(chǔ)上,對實(shí)驗(yàn)室內(nèi)采集到的原始光譜數(shù)據(jù)進(jìn)行吸收深度(Depth)提取、反射率對數(shù)的一階微分(FD-lgR)、反射率對數(shù)的二階微分(
)反射率的二階微分(SD-R)、反射率倒數(shù)的二階微分(SD-1/R)和反射率對數(shù)的倒數(shù)的二階微分( ΦSD-1/lgR 共6種變換,分析變換之后的反射率值與土壤有機(jī)質(zhì)含量的相關(guān)性,并利用偏最小二乘回歸建立了土壤有機(jī)質(zhì)的預(yù)測模型,以篩選最優(yōu)的變換形式,為土壤光譜數(shù)據(jù)處理及土壤有機(jī)質(zhì)估算模型建立提供參考。
1材料與方法
1.1土壤樣本的制作與處理
共采集37個(gè)野外土壤樣本,將其自然風(fēng)干,然后研磨成 0.25mm 顆粒,利用重鉻酸鉀氧化一外加熱法測定土壤有機(jī)質(zhì)。具體的實(shí)驗(yàn)方法及步驟見《土壤農(nóng)化分析》8。研究區(qū)土壤有機(jī)質(zhì)含量在 0.98% }4.42% ,均值 2.31% ,變異系數(shù) 36.77% ,說明研究區(qū)土壤有機(jī)質(zhì)含量屬中等程度的空間變異性。
1.2室內(nèi)光譜測量與預(yù)處理
1.2.1光譜測定 樣本室內(nèi)高光譜測量采用ASDFieldSpec3光譜儀,其光譜采集范圍為 350~ 2 500nm ,在 350~1000nm 區(qū)間內(nèi)采樣間隔為1.4nm,1 000~2 500nm 區(qū)間內(nèi)為 2nm 。土壤光譜測試的幾何條件設(shè)計(jì)如圖1所示,各幾何參數(shù)在實(shí)驗(yàn)過程中保持不變,為消除土樣反射光譜各方向異性的干擾,測量時(shí)測土樣4個(gè)方向的光譜曲線,每個(gè)方向取5條,將各方向的光譜曲線算術(shù)平均后得到該土樣的反射光譜數(shù)據(jù)。

1.2.2光譜數(shù)據(jù)預(yù)處理 (1)光譜曲線的斷點(diǎn)校正。實(shí)驗(yàn)光譜儀是由3個(gè)子光譜儀組成,分別接收UV~VNIR 350~1100nm )、SWIR1( 1000~ 1800nm 和SWIR2 (1700~2500nm) 3個(gè)波段的光譜反射率值,在1000和 1800nm 附近會出現(xiàn)斷點(diǎn),本文利用光譜儀自帶軟件進(jìn)行斷點(diǎn)修正。2)光譜數(shù)據(jù)重采樣。為消除光譜儀原始數(shù)據(jù)在不同波段范圍內(nèi)的采樣間隔差異和光譜數(shù)據(jù)信息冗余問題,對原始光譜數(shù)據(jù)進(jìn)行 10nm 重采樣,用 10nm 波長范圍的原始數(shù)據(jù)進(jìn)行算術(shù)平均值計(jì)算,處理之后的光譜曲線仍保持了原光譜的形狀特征。(3)低信噪比波段及水吸收峰剔除。原始測得的光譜曲線在 1400.1900 和2400nm 等波段受水汽吸收的干擾作用較大,存在強(qiáng)烈的水吸收谷,因此,研究剔除了這些受水汽吸收影響嚴(yán)重的波段范圍,除此之外,還對信噪比較低的波段范圍進(jìn)行了剔除處理,具體的剔除范圍為 350~ 395nm,1 345~1 515nm,1 795~2025nm 和 2405~2500nm 。經(jīng)過波段剔除之后的土壤反射光譜曲線被分割成了3段。將3段光譜數(shù)據(jù)重新合并,即刪除沒有數(shù)據(jù)的波段范圍,經(jīng)過以上預(yù)處理之后最終剩下158個(gè)波段。光譜預(yù)處理前后曲線如圖2所示。
從圖中可以看出,光譜曲線整體呈上凸的拋物線,在 405~1005nm 波段反射率值較低,但反射率值隨著波長的增加迅速增大,在這個(gè)波段范圍內(nèi)光譜曲線較陡,特別是在 405~755nm ,在 1 010~ 2 365nm ,反射率值較大,但曲線較平緩。經(jīng)過波段剔除之后在 1 400nm 和 1900nm 處的水的吸收特征已經(jīng)不存在了,但是在 2 200nm 處的Al-OH的吸收特征比較明顯,說明土壤中存在黏土礦物。

(A)(B)分別為原始光譜曲線和預(yù)處理后的光譜曲線。
1.2.3光譜曲線數(shù)學(xué)變換 對原始光譜進(jìn)行包括Depth、FD-lgR、SD- ?lgR 、SD-R、SD-1/R和SD-1/IgR共6種變換形式。一般用光譜差分來近似代替微分,計(jì)算如式(1)。
R′(λi)=[R(λi)-R(λi-1)]/2Δλ
式中, λi 為第 i 個(gè)波段的波長; R′(λi) 為波長 λi 處的一階微分光譜; R(λi),R(λi-1) 分別表示波長λi,λi-1 處的反射光譜;
是波長 λi-1 到 λi 的間隔。二階微分的計(jì)算方法與此類似。
1.3建模方法及評價(jià)指標(biāo)
1.3.1相關(guān)性分析 將土壤有機(jī)質(zhì)含量和土壤反射率數(shù)學(xué)變換形式進(jìn)行逐波段相關(guān)性分析,計(jì)算每個(gè)波段與土壤有機(jī)質(zhì)含量的相關(guān)系數(shù) r ,其計(jì)算如式(2)。

1.3.2偏最小二乘回歸建模 偏最小二乘回歸法解決了自變量間的多重共線性問題,其利用因變量的變異信息來提取自變量中的有用信息,稱為潛變量,從而達(dá)到提高模型的建模精度和預(yù)測能力的目的。在分析過程中,一般采用交叉檢驗(yàn)法來確定保證模型較好精度所需包含的成分個(gè)數(shù)。以土壤反射光譜的6種數(shù)學(xué)變形和對應(yīng)的有機(jī)質(zhì)含量數(shù)據(jù)作為回歸分析數(shù)據(jù),選出25個(gè)和12個(gè)樣本數(shù)據(jù)分別作為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。交叉檢驗(yàn)過程中采用\"Fullcrossvalidation\"
的方法來確定模型需包含的潛變量的個(gè)數(shù)和防止過度擬合。通過以下參數(shù)對回歸模型的精度和預(yù)測能力進(jìn)行評價(jià)。1)決定系數(shù) R2 ;包括建模決定系數(shù)、交叉檢驗(yàn)絕對系數(shù)和預(yù)測絕對系數(shù) (2) 均方根誤差RMSE;包括建模均方根誤差RMSEC、交叉檢驗(yàn)均方根誤差RMSECV和預(yù)測均方根誤差RMSEP。計(jì)算如式(3)~(5)。



式中, Ym 和 Yp 分別表示實(shí)測值和預(yù)測值, Nc Ncv.Np 分別表示建模、交叉檢驗(yàn)和預(yù)測樣本數(shù)。
(3)預(yù)測相對偏差 RPD 。當(dāng) RPDgt;2 時(shí),回歸模型具有極好的預(yù)測能力;當(dāng) 1.4 模型的決定系數(shù) R2 和預(yù)測相對偏差RPD越大,均方根誤差RMSEC、RMSECV和RMSEP越小,說明模型的精度越高。
1.3.3模型精度分析 利用偏最小二乘模型的預(yù)測值和實(shí)測值分析其模型精度。
2 結(jié)果與分析
2.1 相關(guān)性分析
由表1可知,6種變換均有與有機(jī)質(zhì)含量顯著相關(guān)的波段存在。達(dá)到顯著相關(guān)性的波段大都集中在UV~VNIR波段范圍內(nèi),且最大相關(guān)波段主要分布在 475~600nm 波段( FD-lgR 除外)。變換形式FD-lgR 達(dá)到顯著相關(guān)性的波段數(shù)最多,為71,SD-1/R達(dá)到顯著相關(guān)性的波段數(shù)最少,為29;且相關(guān)系數(shù)的均值也是前者大于后者,說明對數(shù)的一階微分比倒數(shù)的二階微分更為有效。

2.2偏最小二乘建模分析
由表2可知, FD-lgR 建模的 R2 最大,為0.995,RMSEC最小,為 0.063,SD-lgR 的 R2 和RMSEC分別為0.974和0.151,其他變換形式的建模精度稍微差一些,但是 R2 均大于0.720,總體來說各個(gè)變換形式的建模精度均較好。交叉檢驗(yàn)階段,各個(gè)變換形式的 R2 出現(xiàn)了較大偏差, FD-lgR 的交叉檢驗(yàn) R2 最大,為0.775,RMSECV最小,為0.464;Depth次之,其中精度最差的是 SD-1/lgR 變換形式,其 R2 為0.395,其他變換形式的 R2 均在0.500以上。模型的預(yù)測精度檢驗(yàn)結(jié)果表明, FD-lgR 的預(yù)測精度最優(yōu), R2=0.872 RMSEP=0.216 ,其次是Depth,然后是SD-lgR, R2 最小的是SD-1/lgR;FD-lgR的RPD最大,為2.681,其次為Depth, RPD=2.08 ,說明用這兩種變換形式建立的回歸模型具有較好的預(yù)測能力,除了SD-1/IgR(1.15)以外,其他變換形式的RPD均在1.4~2.0,說明SD-1/lgR建立的回歸模型難以對有機(jī)質(zhì)含量進(jìn)行有效預(yù)測。

綜上,對反射率進(jìn)行對數(shù)變形,其在建模、檢驗(yàn)和預(yù)測階段的精度均有所提高,然而進(jìn)行反射率倒數(shù)變換使精度有所降低。綜合考慮各個(gè)階段的結(jié)果,以FD- ?lgR 建立的模型最優(yōu),其次是Depth,然后為
。Depth是在連續(xù)統(tǒng)去除的基礎(chǔ)上提取的,連續(xù)統(tǒng)去除后可以在光譜曲線中突顯出土壤樣本的特征吸收帶,使得吸收特征增強(qiáng),這可能是其建立模型精度較高的原因。
圖3顯示了各個(gè)變換形式在模型建立過程中RMSEC和RMSECV隨入選的潛變量數(shù)目的變化情況。由圖3可知,RMSEC在各個(gè)變換形式的模型建立過程中的變化規(guī)律較相似,均隨著模型人選潛變量數(shù)目的增多而減小,最后逐漸趨于0;但RMSECV變化情況存在明顯的差異,與其他變形相比,F(xiàn)D-lgR在建立偏最小二乘模型時(shí),能接納更多的潛變量,不容易出現(xiàn)過配。
(A)~(F)分別為FD- ?lgR 、Depth、SD- ?1/lgR 、SD-IgR、SD-R、SD-1/R。
圖3偏最小二乘建模過程中RMSE的變化

2.3估測模型精度分析
圖4顯示的是各個(gè)變換形式下建立模型的預(yù)測值和實(shí)測值的散點(diǎn)圖,當(dāng)數(shù)值點(diǎn)均勻地分布在1:1直線兩端的時(shí)候預(yù)測效果較優(yōu)。由圖4可知, SD-1/R 的樣點(diǎn)均勻分布在1:1直線兩側(cè),但是平均距離較大;其余各個(gè)變換形式對有機(jī)質(zhì)含量較小的樣本的預(yù)測值與實(shí)測值含量較大的樣本更為接近,表明模型對中、低有機(jī)質(zhì)含量具有較好的預(yù)測能力??偟膩碚f,反射率FD-lgR建立的模型精度最高,穩(wěn)定性最好。

3結(jié)論
本研究對野外采集的土壤樣本進(jìn)行了有機(jī)質(zhì)含量測定及室內(nèi)光譜曲線測量,并對光譜曲線進(jìn)行了Depth、FD- -lgR 、SD- ?lgR 、SD-R、SD-1/R 和SD-1/IgR共6種變換,分析了各種光譜變換形式與土壤有機(jī)質(zhì)含量的相關(guān)性,建立了土壤有機(jī)質(zhì)含量偏最小二乘回歸預(yù)測模型,分析模型的精度。結(jié)果表明,結(jié)果達(dá)到顯著相關(guān)性的波段大都集中在UV~VNIR波段范圍內(nèi),除FD- ?lgR 外,最大相關(guān)波段主要分布在475~600nm 波段范圍內(nèi);建模、交叉檢驗(yàn)和預(yù)測階段均是FD-lgR建立的回歸模型精度最高,穩(wěn)定性最好,其在建立偏最小二乘模型的時(shí)能接納更多的潛變量而不容易出現(xiàn)過配,本文為今后土壤光譜數(shù)據(jù)預(yù)處理及土壤有機(jī)質(zhì)光譜特性研究提供了參考。
參考文獻(xiàn)
[1]ANGELOPOULOUT,BALAFOUTISA,ZALIDISG,etal.From laboratory to proximal sensing spectroscopy forsoilorganic carbon estimation:areview[J].Sustainability,2020,12(2):443.
[2]李浩,于高,曹永研,等.利用CARS-CNN模型的土壤有機(jī)質(zhì)含量高光譜預(yù)測[J].光譜學(xué)與光譜分析,2024,44(8):2303-2309.
[3]尚天浩,毛鴻欣,張俊華,等.基于PCA敏感波段篩選與SVM建模的銀川平原土壤有機(jī)質(zhì)高光譜估算[J].生態(tài)學(xué)雜志,2021,40(12):4128-4136.
[4]陳頌超,彭杰,紀(jì)文君,等.水稻土可見-近紅外-中紅外光譜特性與有機(jī)質(zhì)預(yù)測研究[J].光譜學(xué)與光譜分析,2016,36(6):1712.
[5]郭登巍,張甘霖.母質(zhì)與土地利用類型對土壤光譜反演模型的影響[J].土壤,2016,48(1):173-179.
[6]劉效棟.基于高光譜遙感的黃土高原丘陵溝壑區(qū)土壤有機(jī)質(zhì)含量估測模型研究[J].西部大開發(fā)(土地開發(fā)工程研究),2018,3(12):13-18.
[7]郄欣,齊雁冰,劉姣姣,等.基于室內(nèi)高光譜數(shù)據(jù)的多種類型土壤有機(jī)質(zhì)估算模型比較[J]干旱地區(qū)農(nóng)業(yè)研究,2021,39(4):109-116,124.
[8]鮑士旦.土壤農(nóng)化分析[M].3版.北京:中國農(nóng)業(yè)出版社,2000.
[9]沈掌泉,王珂.用近紅外光譜預(yù)測土壤碳含量的研究[J].紅外與毫米波學(xué)報(bào),2010,29(1):32-37.
[10]CHANGCW,LAIRDDA,MAUSBACHMJ,etal.Near-infraredreflectancespectroscopyprincipalcomponents regression analysis ofsoil properties[J].Soil science society of America journal,20o1,65(2):480-490.
(責(zé)任編輯:胡立萍)