朱亞星,于雷,洪永勝,章濤,朱強,李思締,郭力,劉家勝
?
土壤有機質高光譜特征與波長變量優選方法
朱亞星,于雷,洪永勝,章濤,朱強,李思締,郭力,劉家勝
(華中師范大學地理過程分析與模擬湖北省重點實驗室/華中師范大學城市與環境科學學院,武漢430079)
探究土壤有機質的高光譜特征及響應規律,優選土壤有機質的敏感波長,降低土壤有機質高光譜估測模型復雜度,提高模型穩健性,為利用高光譜技術對農田土壤肥力的定量監測提供理論支撐。采集江漢平原潮土土樣130個,將其中40個樣本作為訓練集,測量其去有機質前、后的土壤有機質含量及光譜數據,計算差值及變化率,分析土壤有機質含量變化對光譜特征的影響,結合無信息變量消除(uninformative variables elimination,UVE)、競爭適應重加權采樣(competitive adaptive reweighted sampling,CARS)變量優選方法確定土壤有機質敏感波長;采用45個建模集樣本,基于偏最小二乘回歸(partial Least Squares Regression,PLSR)和反向傳播神經網絡(back propagation neural network,BPNN)建立土壤有機質含量的估算模型;利用45個驗證集樣本檢驗敏感波長對同類土壤的適用性。通過有機質去除試驗,供試土壤的平均光譜反射率在全波段均有所增加,在可見光波段變化率高于近紅外波段;比較UVE、CARS、UVE-CARS、CARS-UVE這4種變量優選方法,得到最佳變量優選方法為UVE-CARS,該方法從2001個波長變量中優選得到84個變量作為土壤有機質的敏感波長,分布于561—721、1 920—2 280 nm波段覆蓋范圍;基于敏感波長的PLSR、BPNN模型性能均優于全波段模型,其中,基于敏感波長的BPNN模型的估測能力高于PLSR,模型驗證集2、RMSE、RPD、MAE、MRE值分別為0.74、1.33 g·kg-1、2.02、1.04 g·kg-1、6.2%,可實現土壤有機質含量的有效估測。通過訓練集獲得的土壤有機質敏感波長,能夠實現對該試驗區同種土壤類型樣本土壤有機質含量的有效估測;利用去有機質試驗結合變量優選方法確定的敏感波長建模,不僅將輸入波長壓縮至全波段波長數目的4.2 %,而且提升了模型估測精度,降低了變量維度和模型復雜度,為快速準確評估農田土壤有機質含量提供了新途徑。
土壤有機質;高光譜;變量優選;偏最小二乘回歸;反向傳播神經網絡;潮土
【研究意義】土壤有機質是土壤營養元素的重要來源,是反映和判斷土壤肥力的關鍵指標[1]。高光譜技術是一種新興的農業現代化技術,具有高效、非接觸、無污染等優勢,被應用于估算土壤有機質含量的研究[2-5]。土壤高光譜是土壤各種理化性狀(有機質、氧化鐵、水分、質地和孔隙度等)的綜合外在表現,包含了豐富的土壤屬性信息,其中必然存在與土壤有機質無關的光譜信息。土壤有機質與其他理化屬性的光譜吸收峰之間相互重疊[6],呈現合頻和倍頻現象,導致土壤高光譜中存在較多與土壤有機質相關而冗余的波長信息,均嚴重影響估測模型性能和精度。鑒于此,有必要探究土壤有機質的高光譜特征,揭示土壤有機質的高光譜響應規律,為優選土壤有機質的敏感波長、構建較高精度的估測模型提供理論依據。【前人研究進展】利用土壤有機質敏感波長建立土壤有機質含量估算模型,可以降低模型復雜度,同時保持甚至提升模型精度。早期學者們采用相關分析法研究土壤有機質與土樣光譜反射率(或其不同數學變換形式)的關系,將相關系數高的波長作為土壤有機質敏感波長[7-9]。而后,學者們通過分析土壤去除有機質前、后的光譜變化特征,獲取土壤光譜反射率變化較大的波段,將其作為土壤有機質的敏感波段[10-12]。近年來,越來越多的學者采用變量優選方法[13-14],從全波段中濾除無效變量或冗余變量,優選出敏感波段。YANG等[15]基于田間較小范圍土壤光譜,采用無信息變量消除(uninformative variables elimination,UVE)方法結合連續投影算法(successive projections algorithm,SPA)優選敏感波長,采用敏感波長建立的偏最小二乘回歸(partial least squares regression,PLSR)模型的估測精度和全波段模型基本一致;于雷等[16]嘗試將不同的變量優選方法耦合進行土壤有機質敏感波長變量的優選,得到競爭適應重加權采樣(competitive adaptive reweighted sampling,CARS)與SPA方法耦合的CARS-SPA-PLSR模型估測精度略高于全波段模型。上述研究結果表明,變量優選方法可以精確、有效地確定敏感波長。【本研究切入點】然而,相關分析法僅對觀測結果進行數理統計,未能嘗試探究土壤有機質的高光譜響應機理,揭示土壤有機質的光譜響應規律;去除有機質方法雖能夠較好地確定敏感程度高的有機質響應波段,但仍需要深入分析這些敏感波段是否存在無效或冗余信息。【擬解決的關鍵問題】因此,本文以江漢平原潮土為研究對象,將去有機質試驗和變量優選方法的優勢相結合,通過分析土樣去有機質前、后的光譜數據,揭示土壤有機質的光譜響應規律,基于變量優選方法確定土壤有機質敏感波長,為利用高光譜技術監測農田土壤提供理論支撐。
試驗區位于湖北省潛江市竹根灘鎮(圖1),江漢平原腹地,地勢平坦;屬于亞熱帶季風性濕潤氣候,四季分明,雨量充沛,耕地地力優越;主要分布的土壤類型為潮土,是江漢平原最常見的土壤類型之一;主要種植棉花、大豆和花生等旱生作物。
選取試驗區內面積約為650 m×300 m田塊,設置5行、26列,行間距為75 m、列間距為25 m,布設130個樣點(圖2);采集耕層土樣,深度為0—20 cm,十字法取樣,剔除侵入體,混合均勻后四分法采樣,帶回實驗室風干、磨碎、過2 mm孔篩。
將130份土樣分為訓練集、建模集和驗證集(表1)。按照采樣順序取1號土樣后,每隔2個編號抽取1份土樣,直至結束共獲取40份供試土樣為訓練集;剩余90份土樣按照土壤有機質含量升序排列,排在奇數位的45份土樣作為建模集,排在偶數位的45份土樣作為驗證集。訓練集樣本用于土壤有機質去除試驗,確定土壤有機質敏感波長;建模集樣本用于基于敏感波長建立估算模型;驗證集樣本用于檢驗土壤有機質敏感波長對同種土壤類型的適用性。采用重鉻酸鉀容量法-外加熱法[17]測定土壤有機質含量。

圖1 試驗區地理位置圖

圖2 樣本采集示意圖

表1 土壤有機質含量統計特征
去有機質試驗的具體步驟如下:量取300 mL土樣放入5 000 mL燒杯中,加入200 mL 30% H2O2溶液,用橡膠頭玻璃棒攪動加速其氧化,待強烈氧化過后,靜置片刻,再次加入200 mL H2O2,重復上述操作,直至最后一次加入H2O2溶液時燒杯中的土樣無明顯反應且有上層清液出現,則停止操作。土樣靜置約24 h,移除上層清液,將去有機質土樣置于60℃恒溫箱烘干,重新過2 mm孔篩,測定有機質含量,獲取去除有機質后土樣的有機質含量統計特征(表2)。
土樣高光譜數據的測定采用美國Analytical Spectral Devices公司開發生產的ASD FieldSpec3地物光譜儀,波譜范圍350—2 500 nm,采樣間隔1.4 nm(350—1 000 nm)和2 nm(1 000—2 500 nm),重采樣間隔1 nm。光源為能夠提供平行光線的50 W鹵素燈。采用5°視場角光纖探頭,光源到土壤表面距離()為50 cm,光源入射角度()為30°,探頭到土壤表面距離()為15 cm[18]。將土樣置于直徑10 cm深2 cm盛樣皿中,土壤表面刮平,在暗室內進行光譜測量。每次采集光譜前,用白板(反射率100%)對光譜儀進行優化和標定。每個土樣進行4個方向(轉動3次,每次90°)的測量,每個方向保存5條光譜曲線,共20條,對其進行算術平均后得到土樣原始光譜,每條光譜去除噪聲較大的邊緣波段350—399 nm和2 401—2 500 nm之后為本文所用光譜數據。
去有機質前、后光譜的差值及變化率運算可獲取因有機質含量變化而引起的光譜變化信息,為土壤有機質的高光譜特征分析提供數據基礎。具體算法為:
=-(1)
式中,為去有機質前、后的差值光譜矩陣,為樣本數,即40,為波長變量數,即2 001,為去有機質后的光譜矩陣,為去有機質前的光譜矩陣。


UVE算法[19]是在分析PLSR模型回歸系數的基礎上,消除不提供目標矩陣信息即無用的變量信息。本文訓練集去有機質前、后的差值光譜矩陣與有機質去除量矩陣1存在如下關系:1=·+,其中表示回歸系數向量,表示誤差向量。UVE算法是將隨機變量矩陣即噪音矩陣(與自變量矩陣數目相同)加入原始光譜矩陣中,通過PLSR交叉驗證逐一剔除原始光譜矩陣中的無用變量,得到回歸系數矩陣,利用回歸系數矩陣中回歸系數向量的平均值和標準偏差的商即變量的穩定性,評價每個變量的可靠性[20-21],從而獲取可靠性較強的波長變量。表達式如下:

表2 訓練集樣本去有機質后的土壤有機質含量統計特征

式中,(b)表示回歸系數向量的平均值,(b)表示回歸系數向量的標準偏差,表示光譜矩陣中第列向量。
C=Max[abs(C)] (4)
CARS算法模仿達爾文進化理論中“適者生存”的基本原理,各波長變量將被作為單一個體,在進行個體選擇的過程中,保留具有較強適應能力的個體,剔除適應能力較弱的個體。在波長變量優選過程中,通過優選PLSR模型回歸系數絕對值相對較大的波長變量,剔除模型回歸系數絕對值相對較小的波長變量,從而獲得多個優選變量子集,再通過獲取交叉驗證模型中交叉驗證均方根誤差(root-mean-square error of cross-validation,RMSECV)最小的優選變量子集,即為最優變量子集[23-24]。
將UVE、CARS 兩種算法相結合,比較UVE、CARS、UVE-CARS、CARS-UVE這4種變量優選方法,獲取最佳變量優選方法。
UVE、CARS方法以及示意圖繪制均通過Matlab R2012a(The MathWorks,USA)軟件完成。
利用線性和非線性模型中較為典型的PLSR和BPNN方法進行建模、驗證分析。PLSR可以較好地解決樣本數量小于波長數量的問題,以及自變量之間存在多重相關性的問題;此外,該模型可以有效地提取對系統解釋能力較強的綜合變量,從而排除無解釋能力的信息,對因變量的解釋能力增強[25]。
BPNN是目前應用較為廣泛的一類人工神經網絡模型,具有較強的非線性處理能力和抗干擾能力[26]。該模型的特點是信號前向傳遞,誤差反向傳遞。在前向傳遞中,輸入信號由輸入層經隱含層逐層處理,直至輸出層;每一層的神經元狀態只影響下一層神經元狀態,如果輸出層得不到期望輸出,則轉入反向傳播,根據預測誤差調整網絡權值,權值不斷調整的過程即為網絡的學習過程;直至網絡輸出的誤差逐漸減少至可接受的程度或達到設定的學習次數為止[27-28]。本文采用訓練函數為Levenberg-Marquardt算法的trainlm,隱含層傳遞函數為正切Sigmoid函數,輸出層為purelin函數,學習速率為0.01,最大訓練次數為1 000次,模型期望誤差為0.001。
利用決定系數(determination coefficients,2)、均方根誤差(root mean squared error,RMSE)、相對分析誤差(relative percent deviation,RPD)、平均絕對誤差(mean absolute error,MAE)、平均相對誤差(mean relative error,MRE)及1﹕1線綜合評價PLSR及BPNN的模型性能。其中,2值越接近于1,表明模型的穩定性及擬合度越高;RMSE值越接近于0,表明模型的估測值與實測值誤差變幅越小;RPD值是計算樣本標準差與均方根誤差比值得到,若RPD<1.4,模型對樣本無法實施估測,1.4≤RPD<2,模型可對樣本進行粗略評估,RPD≥2,模型可對樣本進行極好的估測;MAE和MRE值能夠反應估測值誤差的真實情況。PLSR模型的建立與驗證在The Unscrambler 9.7軟件中完成,BPNN模型建立與驗證在Matlab R2012a(The MathWorks,USA)軟件中完成。
去有機質前、后平均光譜反射曲線特征比較表明,光譜反射率在全波段范圍隨有機質含量的減少而呈現增加趨勢(圖3-A),而反射率增加后的光譜曲線幾何特征與去有機質前的在不同波段存在差異:去有機質后的光譜曲線在400—600 nm的斜率及550—650 nm的弓曲差[29]均大于去有機質前(圖3-A1、3-A2),在800—2 400 nm的斜率則小于去有機質前(圖3-A3)。
應用差值運算對訓練集樣本去有機質前、后光譜的差異進行研究,提取因有機質含量變化所造成的光譜差異信息。去有機質前、后的平均差值光譜反射曲線呈現出各波段對有機質含量變化的響應規律(圖4),具體為:差值光譜反射率值在全波段范圍均大于零,其在可見光波段(400—780 nm)總體大于近紅外波段(780—2 400 nm)。可見光波段的光譜反射曲線在600 nm附近凸起,該波長處反射率值達到最大。近紅外波段的光譜反射率值在780—1 900 nm波段呈減小趨勢,1 900—2 400 nm逐漸趨于平穩,僅2 000 nm附近存在微弱的凸起。這說明各波段的光譜對有機質含量變化的響應具有差異。

圖 3 去有機質前、后平均光譜反射曲線比較

圖 4 平均差值光譜反射曲線
采用變化率表征基于不同有機質去除量,去有機質后全波段及分波段的光譜反射率變化情況:有機質去除量與去有機質后光譜反射率的變化率呈正相關關系,當樣本本身有機質去除量最大時,光譜反射率的變化率在任何波段都最大;各個供試土樣去有機質后,在全波段范圍的光譜反射率均有所增加,尤其在可見光波段增加明顯(表3)。這說明去有機質試驗,不僅對土壤有機質光譜響應規律產生直接作用,而且揭示了同一樣本的有機質含量變化對不同波段的影響效果不同,這使得優選光譜變量的必要性顯著,消除無效變量,獲取重要性變量,即對土壤有機質響應強烈的敏感波長變量尤為重要。
2.3.1 UVE變量優選 利用去有機質前、后的差值光譜矩陣與有機質去除量矩陣進行UVE變量優選,得到UVE變量穩定性分析結果(圖5-A)。其中,2 000 nm處的豎直線為變量分隔線,分隔線左側為原始矩陣2 001個光譜變量的穩定性的分布曲線,右側為UVE噪音矩陣2 001個隨機變量的穩定性的分布曲線,兩條水平線為UVE變量篩選的上下閾值線,其中閾值的選擇標準設置為C的0.99倍。從而剔除變量穩定性值位于2條閾值線以內的無用信息變量,保留2條閾值線以外的有用信息變量。經UVE變量優選后,共有575個優選變量被保留。
2.3.2 CARS變量優選 采用CARS方法優選,設置蒙特卡羅采樣次數為50次,隨著采樣數增加,被優選出的波長變量數逐漸減少(圖5B-a)。在1—23次采樣過程中,RMSECV值不斷降低,表明篩選過程中剔除的變量與有機質去除量無關,而23次采樣以后,RMSECV值呈回升趨勢,表明開始剔除與有機質去除量相關的重要變量,從而導致RMSECV值上升(圖5B-b)。當采樣次數為第23次時,RMSECV值最小即所選擇的光譜變量子集最優(圖5B-c中“*”對應的位置),其中該子集包含48個光譜變量。

圖 5 基于不同方法的變量優選

表3 去除有機質后對土壤光譜反射率的影響
2.3.3 UVE-CARS、CARS-UVE變量優選 將UVE、CARS兩種變量優選方法按照不同運行順序結合(UVE-CARS、CARS-UVE)對去有機質前、后差值光譜進行變量優選,獲得基于不同方法的優選變量分布(圖6)。
以不同變量優選方法的優選變量為自變量,有機質含量為因變量,建立、比較各PLSR模型內部交叉驗證的效果,確定最佳的變量優選方法(表4)。結果表明,采用UVE-CARS方法獲得的優選變量所建模型精度最高,由此后續基于建模集和驗證集進行分析的土壤有機質敏感波長(記為sen)以UVE-CARS方法的優選變量為準,其84個優選變量分布于561—721、1 920—2 280 nm覆蓋范圍。

圖中括號內數字是基于各變量優選方法的優選變量個數;圖右側波段表示基于各變量優選方法的優選變量的波段覆蓋范圍

表4 不同變量優選方法的優選變量PLSR模型結果
基于sen建模的同時引入全波段進行比較(圖7)。以sen對應光譜反射率為PLSR分析的自變量,土壤有機質含量為因變量,采用Full Cross Validation法確定回歸模型中最佳因子數,建立PLSR模型(簡稱sen-PLSR)。以同樣數據集為BPNN的輸入變量,土壤有機質含量為輸出變量,建立BPNN模型(簡稱sen-BPNN),將其與全波段的PLSR(簡稱F-PLSR)和BPNN(簡稱F-BPNN)進行比較(表5)。結果表明,sen-PLSR、sen-BPNN模型性能均優于基于各自方法的全波段模型。對比sen-PLSR、sen-BPNN模型,后者建模和驗證的穩定性和擬合程度均高于前者。基于sen建模,將模型的自變量數目從2 001個降低至84個,數據壓縮率為95.8%。
去有機質試驗結果表明,去有機質前、后光譜反射率曲線的幾何特征在不同波段存在差異。隨著有機質去除量的增加,去有機質后光譜反射率變化也隨之增大,尤其表現在可見光波段。這說明該試驗對于深入探討土壤有機質光譜響應規律產生直接作用,為后續確定土壤有機質敏感波長奠定基礎。供試土樣去有機質后,光譜的平均反射率在全波段范圍均有所增加,在可見光波段增加明顯。彭杰等[13]通過比較去有機質前、后土壤的光譜反射特性,認為供試的多種土壤類型土樣均在400—700 nm波段的平均光譜反射率變化最大,即去有機質對該波段的影響最大。而本文最終定量獲取土壤有機質敏感波長分布于561—721、1 920—2 280 nm覆蓋范圍,這說明將去有機質試驗與變量優選方法的優勢相結合,一些原本較隱晦的土壤有機質光譜特征信息被提取[30],該敏感波長的分布與可見光譜區受到土壤發色團和有機質本身黑色的影響,以及2 200 nm附近有機質中O-H官能團的伸縮振動和轉角振動的合頻躍遷有關[31-32]。

圖7 土壤有機質含量的實測值與估測值比較

表 5 土壤有機質含量估測模型的建模集和驗證集結果
通過去有機質前、后光譜的差值運算,基于光譜變化信息,采用多種變量優選方法從全波段范圍中獲取優選變量。單一進行UVE變量優選,則僅僅消除無用變量,并未確定對土壤有機質敏感性強的相關變量。單一進行CARS變量優選,則存在大量無用信息影響甚至遮蔽重要性信息的優選。故考慮將兩種方法按照不同運行順序進行結合,表明UVE-CARS的內部交叉驗證結果不僅優于單一優選方法,而且優于CARS-UVE,成為最佳的變量優選方法。這與2種算法本身特征及算法運行順序密切有關,UVE方法消除了光譜中對模型貢獻小甚至無用的變量,降低了噪聲干擾對模型穩健性的影響,提高模型的抗干擾能力[21],在此基礎上CARS方法優選了對模型貢獻大的波長變量集合[33],UVE-CARS在消除了無用信息后,被掩蓋的有用信息的重要性被釋放和凸顯,得到的優選變量個數甚至多于單一CARS方法,這種先“過濾”后“優選”的運算過程,能夠合理、精確、有效的確定敏感波長在全波段中的位置。
利用建模集基于敏感波長建模,輸入變量大幅減少,線性及非線性模型性能均優于全波段模型,驗證集的檢驗結果體現了敏感波長對該試驗區同類土壤有機質含量估測的適用性。其中,BPNN模型的估測能力高于PLSR的結果說明,BPNN模型具有強大的容錯能力及非線性逼近能力[34],該模型可以歸避由于儀器、人為等因素引起的異常數據對模型的不良影響,使分析結果達到了較高的估測精度[28]。尤其是sen-BPNN模型的估測效果最優,說明本文研究方法獲得的敏感波長,更能夠反映土壤有機質與光譜反射率之間的非線性關系。紀文君等[34]在進行土壤有機質高光譜估測建模研究中將PLSR提取出的主成分帶入BPNN進行訓練,與PLSR算法相比顯著提高了模型的估測精度,而主成分的提取過程是通過線性變換保留包含信息量多的組分,舍棄含信息量少的組分,這與本文變量優選方法的基本特征相一致,均將敏感性強的變量置于BPNN模型,從而實現基于非線性方法的土壤有機質含量高精度的估測。
已有研究表明,基于統計學方法建立的估測模型精度受樣本變異程度的影響較大,不同土壤類型樣本之間的變異程度越高,模型估測精度也隨之提升[35],反之亦然[36]。本文以單一潮土為研究對象,將研究區限定在一個較小的空間范圍,使土壤樣本的變異度較低,將樣本變異度對建模的影響降到最低,能夠更單純地驗證去有機質試驗和變量優選方法對提升模型估測精度的作用。本文的研究思路對該類土壤具有較好的可行性,未來可以嘗試擴大研究范圍,將該方法應用于不同土壤類型的有機質含量估測研究,逐漸豐富和完善高光譜監測土壤有機質的理論體系。
本文以江漢平原潮土的130個土樣為研究對象,利用其中的訓練集樣本進行土壤有機質去除試驗,分析去有機質前、后土壤高光譜變化規律,基于兩者的差值光譜分析土壤有機質的光譜響應特征,采用最佳的變量優選方法獲取土壤有機質敏感波長,建模集基于敏感波長分別建立土壤有機質的PLSR和BPNN的估算模型,驗證集檢驗本文研究方法對同類土壤的普適性。從而表明通過有機質去除試驗,供試土壤的光譜反射率在全波段均有所增加,尤其在可見光波段變化明顯。基于訓練集去有機質前、后差值光譜,采用最佳的變量優選方法UVE-CARS進行變量優選,最終獲得土壤有機質的敏感波長分布于561—721、1 920—2 280 nm波段覆蓋范圍。建模集基于土壤有機質敏感波長建立的PLSR、BPNN模型性能均優于全波段,其中,基于敏感波長的BPNN模型估測能力高于PLSR,建模集2、RMSE、RPD、MAE、MRE值分別為0.74、1.34 g·kg-1、2.00、1.04 g·kg-1、6.2%,驗證集2、RMSE、RPD、MAE、MRE值分別為0.74、1.33 g·kg-1、2.02 g·kg-1、1.04 g·kg-1、6.2%。本研究將去有機質試驗和變量優選方法的優勢相結合,獲取敏感波長建模,所得線性、非線性模型精度較于全波段模型均有所提升。
[1] 胡克林, 余艷, 張鳳榮, 王茹. 北京郊區土壤有機質含量的時空變異及其影響因素. 中國農業科學, 2006, 39(4): 764-771.
HU K L, YU Y, ZHANG F R, WANG R. The spatial-temporal variability of soil organic matter and its influencing factors in suburban area of Beijing., 2006, 39(4): 764-771. (in Chinese)
[2] ROSSEL VISCARRA R A, CATTLE S R, ORTEGA A, FOUAD Y. In situ measurements of soil colour, mineral composition and clay content by vis–NIR spectroscopy., 2009, 150(3/4): 253-266.
[3] 史舟, 王乾龍, 彭杰, 紀文君, 劉煥軍, 李曦, ROSSEL VISCARRA R.A. 中國主要土壤高光譜反射特性分類與有機質光譜預測模型. 中國科學: 地球科學, 2014, 44(5): 978-988.
SHI Z, WANG Q L, PENG J, JI W J, LIU H J, LI X, ROSSEL VISCARRA R A., 2014, 44(5): 978-988. (in Chinese)
[4] ZHENG G H, RYU D, JIAO C X, HONG C Q. Estimation of organic matter content in coastal soil using reflectance spectroscopy., 2016, 26(1): 130-136.
[5] BAO N S, WU L X, YE B Y, ZHOU W. Assessing soil organic matter of reclaimed soil from a large surface coal mine using a field spectroradiometer in laboratory., 2017, 288: 47-55.
[6] SHI T Z, CHEN Y Y, LIU Y L, WU G F. Visible and near-infrared reflectance spectroscopy—An alternative for monitoring soil contamination by heavy metals., 2014, 265(30): 166-176.
[7] 盧艷麗, 白由路, 楊俐蘋, 王紅娟. 基于高光譜的土壤有機質含量預測模型的建立與評價. 中國農業科學, 2007, 40(9): 1989-1995.
LU Y L, BAI Y L, LIU L P, WANG H J. Prediction and validation of soil organic matter content based on Hyperspectrum., 2007, 40(9): 1989-1995. (in Chinese)
[8] 于士凱, 姚艷敏, 王德營, 司海青. 基于高光譜的土壤有機質含量反演研究. 中國農學通報, 2013, 29(23): 146-152.
YU S K, YAO Y M, WANG D Y, SI H Q. Studies on the inversion of soil organic matter content based on hyper-spectrum., 2013, 29(23): 146-152. (in Chinese)
[9] 劉煥軍, 張柏, 趙軍, 張興義, 宋開山, 王宗明, 段洪濤. 黑土有機質含量高光譜模型研究. 土壤學報, 2007, 44(1): 27-32.
LIU H J, ZHANG B, ZHAO J, ZHANG X Y, SONG K S, WANG Z M, DUAN H T. Spectral models for prediction of organic matter in black soil., 2007, 44(1): 27-32. (in Chinese)
[10] 徐彬彬, 季耿善, 朱永豪. 中國陸地背景和土壤光譜反射特性的地理分區的初步研究. 環境遙感, 1991, 6(2): 142-151.
XU B B, JI G S, ZHU Y H. A preliminary research of geographic regionalization of China land background and Spectral reflectance characteristics of soil., 1991, 6(2): 142-151. (in Chinese)
[11] 彭杰, 張楊珠, 周清, 劉香伶, 周衛軍. 去除有機質對土壤光譜特性的影響. 土壤, 2006, 38(4): 453-458.
PENG J, ZHANG Y Z, ZHOU Q, LIU X L, ZHOU W J. Spectral characteristics of soils in Hunan province as affected by removal of soil organic matter., 2006, 38(4): 453-458. (in Chinese)
[12] 彭杰, 周清, 張楊珠, 向紅英. 有機質對土壤光譜特性的影響研究. 土壤學報, 2013, 50(3): 517-524.
PENG J, ZHOU Q, ZHANG Y Z, XIANG H Y. Effect of soil organic matter on spectral characteristic of soil., 2013, 50(3): 517-524. (in Chinese)
[13] VOHLAND M, LUDWIG M, THIELE-BRUHN S, LUDWIG B. Determination of soil properties with visible to near- and mid-infrared spectroscopy: Effects of spectral variable selection., 2014, 223-225: 88-96.
[14] XU S X, ZHAO Y C, WANG M Y, SHI X Z. Determination of rice root density from Vis–NIR spectroscopy by support vector machine regression and spectral variable selection techniques., 2017, 157: 12-23.
[15] YANG H, KUANG B, MOUAZEN A M. Quantitative analysis of soil nitrogen and carbon at a farm scale using visible and near infrared spectroscopy coupled with wavelength reduction., 2012, 63(3): 410-420.
[16] 于雷, 洪永勝, 周勇, 朱強, 徐良, 李冀云, 聶艷. 高光譜估算土壤有機質含量的波長變量篩選方法. 農業工程學報, 2016, 32(13): 95-102.
YU L, HONG Y S, ZHOU Y, ZHU Q, XU L, LI J Y, NIE Y. Wavelength variable selection methods for estimation of soil organic matter content using hyperspectral technique., 2016, 32(13): 95-102. (in Chinese)
[17] 鮑士旦. 土壤農化分析. 3 版. 北京: 中國農業出版社, 2013: 30-34.
BAO S D.Beijing: China Agriculture Press, 2013: 30-34. (in Chinese)
[18] 洪永勝, 于雷, 耿雷, 張薇, 聶艷, 周勇. 應用DS算法消除室內幾何測試條件對土壤高光譜數據波動性的影響. 華中師范大學學報, 2016, 50(2): 303-308.
HONG Y S, YU L, GENG L, ZHANG W, NIE Y, ZHOU Y. Using direct standardization algorithm to eliminate the effect of laboratory geometric parameters in soil hyperspectral data fluctuate characteristic., 2016, 50(2): 303-308. (in Chinese)
[19] CENTNER V, MASSART D L, DE NOORD O E, DE JONG S, VANDEGINSTE B M, STERNA C. Elimination of uninformative variables for multivariate calibration., 1996, 68(21): 3851-3858.
[20] 楊梅花, 趙小敏. 基于可見-近紅外光譜變量選擇的土壤全氮含量估測研究. 中國農業科學, 2014, 47(12): 2374-2383.
YANG M H, ZHAO X M. Study on soil total N estimation by Vis-NIR spectra with variable selection., 2014, 47(12): 2374-2383. (in Chinese)
[21] CAI W S, LI Y K, SHAO X G. A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra., 2008, 90(2): 188-194.
[22] 孫通, 吳宜青, 劉秀紅, 莫欣欣, 劉木華. 激光誘導擊穿光譜聯合UVE變量優選檢測大豆油中的鉻含量. 光譜學與光譜分析, 2016, 36(10): 3341-3345.
SUN T, WU Y Q, LIU X H, MO X X, LIU M H. Detection of chromium content in soybean oil by laser induced breakdown spectroscopy and UVE method., 2016, 36(10): 3341-3345. (in Chinese)
[23] 于雷, 朱亞星, 洪永勝, 夏天, 劉目興, 周勇. 高光譜技術結合CARS算法預測土壤水分含量. 農業工程學報, 2016, 32(22): 138-145.
YU L, ZHU Y X, HONG Y S, XIA T, LIU M X, ZHOU Y. Determination of soil moisture content by hyperspectral technology with CARS algorithm., 2016, 32(22): 138-145. (in Chinese)
[24] JIANG H, ZHANG H, CHEN Q S, MEI C L, LIU G H. Identification of solid state fermentation degree with FT-NIR spectroscopy: Comparison of wavelength variable selection methods of CARS and SCARS., 2015, 149: 1-7.
[25] 彭小婷, 高文秀, 王俊杰. 基于包絡線去除和偏最小二乘的土壤參數光譜反演. 武漢大學學報(信息科學版), 2014, 39(7): 862-866.
PENG X T, GAO W X, WANG J J. Inversion of soil parameters from hyperspectra based on continuum removal and partial least squares regression., 2014, 39(7): 862-866. (in Chinese)
[26] 于雷, 洪永勝, 周勇, 朱強. 連續小波變換高光譜數據的土壤有機質含量反演模型構建. 光譜學與光譜分析, 2016, 36(5): 1428-1433.
YU L, HONG Y S, ZHOU Y, ZHU Q. Inversion of soil organic matter content using hyperspectral data based on continuous wavelet transformation., 2016, 36(5): 1428-1433. (in Chinese)
[27] 王凱龍, 熊黑鋼, 張芳. 基于PLSR-BP復合模型的綠洲土壤pH高光譜反演. 干旱區研究, 2014, 31(6): 1005-1009.
WANG K L, XIONG H G, ZHANG F. PLSR-BP complex model-based hyper-spectrum retrieval of oasis soil pH., 2014, 31(6): 1005-1009. (in Chinese)
[28] 鄭立華, 李民贊, 潘孌, 孫建英, 唐寧. 基于近紅外光譜技術的土壤參數BP神經網絡預測. 光譜學與光譜分析, 2008, 28(5): 1160-1164.
ZHENG L H, LI M Z, PAN L, SUN J Y, TANG N. Estimation of soil organic matter and soil total nitrogen based on NIR spectroscopy and BP neural network., 2008, 28(5): 1160-1164. (in Chinese)
[29] 徐彬彬, 戴昌達. 南疆土壤光譜反射特性與有機質含量的相關分析. 科學通報, 1980(6): 282-284.
XU B B, DAI C D. Relationship between soil re?ectance characteristics and SOM content in south area of Xinjiang Province., 1980(6): 282-284. (in Chinese)
[30] 彭杰, 張楊珠, 龐新安, 王家強. 新疆南部土壤有機質含量的高光譜特征分析. 干旱區地理, 2010, 33(5): 740-746.
PENG J, ZHANG Y Z, PANG X A, WANG J Q. Hyperspectral features of soil organic matter content in South Xinjiang., 2010, 33(5): 740-746. (in Chinese)
[31] 盧艷麗, 白由路, 楊俐蘋, 王磊, 王賀. 東北平原不同類型土壤有機質含量高光譜反演模型同質性研究. 植物營養與肥料學報, 2011, 17(2): 456- 463.
LU Y L, BAI Y L, YANG L P, WANG L, WANG H. Homogeneity of retrieval models for soil organic matter of different soil types in Northeast Plain using hyperspectral data., 2011, 17(2): 456- 463. (in Chinese)
[32] BEN-DOR E, BANIN A. Near-infrared analysis as a rapid method to simultaneously evaluate several soil properties., 1995, 59(2): 364-372.
[33] LI H D, LIANG Y Z, XU Q S, CAO D S. Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration., 2009, 648:77-84.
[34] 紀文君, 李曦, 李成學, 周銀, 史舟. 基于全譜數據挖掘技術的土壤有機質高光譜預測建模研究. 光譜學與光譜分析, 2012, 32(9): 2393-2398.
JI W J, LI X, LI C X, ZHOU Y, SHI Z. Using different data mining algorithms to predict soil organic matter based on visible-near infrared spectroscopy., 2012, 32(9): 2393-2398. (in Chinese)
[35] ASKARI M S, O’ROURKE S M. HOLDEN N M. Evaluation of soil quality for agricultural production using visible near infrared spectroscopy., 2015, 243-144: 80-91.
[36] 武永峰, 董一威, 胡新, 呂國華, 任德超, 宋吉青. 基于近紅外漫反射光譜的農田原位表層土壤含水量定量建模方法比較. 光譜學與光譜分析, 2015, 35(12): 3416-3421.
WU Y F, DONG Y W, HU X, Lü G H, REN D C, SONG J Q. Quantification of agricultural in-situ surface soil moisture content using near infrared diffuse reflectance spectroscopy: a comparison of modeling methods., 2015, 35(12): 3416-3421. (in Chinese)
(責任編輯 李云霞)
Hyperspectral Features and Wavelength Variables Selection Methods of Soil Organic Matter
ZHU YaXing, YU Lei, HONG YongSheng, ZHANG Tao, ZHU Qiang, LI SiDi, GUO Li, LIU JiaSheng
(Key Laboratory for Geographical Process Analysis and Simulation, Hubei Province, Central China Normal University/ College of Urban & Environmental Science, Central China Normal University, Wuhan 430079)
The objective of this study is to explore the hyperspectral features and response regularity of the soil organic matter, and to select the sensitive wavelengths of soil organic matter, so as to reduce complexity of hyperspectral estimation model of soil organic matter and improve robustness of the model, which is to provide theoretical support to quantitatively monitor the soil fertility of farmland by using the hyperspectral technology.A total of 130 fluvo-aquic soil samples were collected from Jianghan plain, of which 40 were the training set samples. The soil organic matter content (SOMCraw) and spectral reflectance (SRraw) were measured from total samples, and an experiment of removal of organic matter was performed using the training set samples, and then we measured the soil organic matter content (SOMCrem) and spectral reflectance (SRrem) from samples of removal of organic matter. By calculating the difference and rate of change between SRrawand SRremfrom training set samples, we could analyze how the content changes of soil organic matter itself influence the spectral features. The soil organic matter sensitive wavelengths were determined by the methods of uninformative variables elimination (UVE) and competitive adaptive reweighted sampling (CARS). The calibration set with 45 samples was utilized to build the soil organic matter estimation models base on partial least squares regression (PLSR) and back propagation neural network (BPNN), and the validation set of 45 samples was utilized to test whether sensitive wavelengths were suitable for the same type soil.The experiment of removal of organic matter showed that the average spectral reflectance of test soil samples increased at full-spectrum with removing organic matter content, especially at the visible spectrum; after the comparison of UVE, CARS, UVE-CARS, and CARS-UVE, the optimal method of variables selection was UVE-CARS. The method of UVE-CARS provided 84 selected variables which were the soil organic matter sensitive wavelengths with coverage area of 561-721, 1 920-2 280 nm. Based on soil organic matter sensitive wavelengths, the PLSR and BPNN had better performance than full-spectrum model, and BPNN was better than PLSR in predictive ability with its value of2, RMSE, RPD, MAE, MRE were 0.74, 1.33 g·kg-1, 2.02, 1.04 g·kg-1, 6.2%, respectively, so it could effectively estimate soil organic matter.The soil organic matter sensitive wavelengths from training set could effectively estimate soil organic matter content in this test area with the same type samples. In addition, modeling of sensitive wavelengths by obtaining from the experiment of removal of organic matter and variables selection method could not only compress input wavelengths down into 4.2% of full-spectrum, but also enhance the estimation accuracy and reduce the model complexity. In this study, it provided a new approach to quickly and accurately evaluate soil organic matter content in the farmland.
soil organic matter; hyperspectra; variables selection; partial least squares regression; back propagation neural network; fluvo-aquic
2017-05-07;
國家自然科學基金(41401232)、中央高校基本科研業務費專項資金(CCNU15A05006)、華中師范大學研究生教育創新資助項目(2017CXZZ007)
接受日期:2017-10-13
聯系方式:朱亞星,E-mail:383253389@qq.com。通信作者于雷,E-mail:yulei@mail.ccnu.edu.cn