唐茂淞,張楠,李國輝,趙澤藝,李明發,王興鵬,4*
基于機器學習算法的棉田土壤鉀、鈉離子量預測
唐茂淞1,2,張楠1,2,李國輝1,2,趙澤藝1,2,李明發3,王興鵬1,2,4*
(1.塔里木大學 水利與建筑工程學院,新疆 阿拉爾 843300;2.塔里木大學 現代農業工程重點實驗室,新疆 阿拉爾 843300;3.新疆生產建設兵團第一師水文水資源管理中心,新疆 阿拉爾 843300;4.農業農村部西北綠洲節水農業重點實驗室,新疆 石河子 832000)
【目的】比較4種機器學習方法對南疆棉田土壤K+、Na+量的預測結果,確定一種預測準確度較高的機器學習模型作為可供參考的方法。【方法】采用支持向量回歸(SVR)、隨機森林回歸(RFR)、K-最近鄰回歸(KNNR)和梯度提升回歸樹(GBRT)4種機器學習算法,2020年棉田土壤K+、Na+量數據訓練模型,2021年實測數據進行測試驗證。使用平均絕對誤差()、均方根誤差()和決定系數(2)對模型預測結果進行評估。【結果】4種模型(SVR、RFR、KNNR和GBRT)對測試樣本K+量預測的分別為0.100、0.169、0.169 g/kg和0.167 g/kg;分別為0.119、0.218、0.218 g/kg和0.223 g/kg;2分別為0.687、0.437、0.430和0.395。對測試樣本Na+量預測的分別為0.841、2.841、2.826 g/kg和2.856 g/kg;分別為1.154、3.658、3.630 g/kg和3.650 g/kg;2分別為0.838、0.299、0.219和0.200。將測試樣本K+、Na+量分別按4個土層深度(0~10、10~20、20~30 cm和30~40 cm)進行預測時,SVR模型的誤差值最小,其對K+量按照4個深度預測的分別為0.122、0.114、0.056 g/kg和0.106 g/kg,分別為0.135、0.135、0.069 g/kg和0.126 g/kg;對Na+量預測的分別為0.540、0.619、0.835 g/kg和1.371 g/kg,分別為0.636、0.748、1.198 g/kg和1.710 g/kg。【結論】SVR模型預測K+、Na+量的精度最高,可推薦作為南疆棉田土壤鉀、鈉離子量預測的一種方法。
南疆棉田;土壤鹽分離子;機器學習;回歸預測模型
【研究意義】降水稀少、蒸發強烈、氣候干旱及土壤母質含鹽量高是造成南疆土壤鹽漬化嚴重的內在因素[1],而不合理的灌溉、施肥及過度開發則進一步加重了這一過程[2]。土壤中鉀(K+)、鈉(Na+)等離子量過高,將會阻滯作物對養分的吸收、抑制生長進而導致作物產量降低[3-6]。【研究進展】目前,使用機器學習算法對土壤理化指標進行預測已成為研究的熱點[7-9]。研究表明,支持向量回歸(Support Vector Regression, SVR)模型對土壤體積質量和孔隙度的預測能夠使2分別達到0.867和0.743[10],對土壤含水率的預測效果也較為理想[11]。而基于灰狼優化算法的SVR校正模型對土壤鎘量有著更高的預測精度[12]。利用隨機森林回歸(Random Forest Regression, RFR)模型對土壤有機質量的空間分布[13]、土壤pH值預測也能夠取得較好結果[14];當采用遺傳算法和貝葉斯優化算法分別對RFR進行改進后,在對土壤含鹽量的反演過程中能夠達到較佳結果[15]。借助K-最近鄰回歸(K-Nearest Neighbor Regression, KNNR)對土壤有機質量的空間分布進行預測[16],對土壤水熱變化趨勢的模擬精度較高[17]。利用梯度提升回歸樹(Gradient Boosting Regression Tree, GBRT)建立的土壤電導率的估算模型表現出較高的預測能力[18],GBRT也在對土壤水分[19]和土壤鎳量[20]的高光譜反演模擬中具有優勢。【切入點】南疆地區土壤次生鹽漬化程度十分嚴重,離子毒害導致了棉花生產力下降趨勢明顯。為此,如何對上述土壤鹽分離子量進行精確的估算,將會對預判土壤鹽漬化程度及提出適宜的防治措施具有重要意義。【擬解決的關鍵問題】本研究基于不同的鹽分處理,利用SVR、RFR、KNNR和GBRT機器學習預測模型對棉花不同生育階段及不同土層深度的土壤K+、Na+量進行預測,以期為南疆棉田土壤鹽分離子量預測提供一種新的方法。
試驗區位于新疆生產建設兵團第一師水利灌溉試驗站(40.32°N,81.17°E,海拔1 014 m),屬暖溫帶極端大陸性干旱荒漠氣候,冬季寒冷,夏季炎熱,晝夜溫差大,降水量小,蒸發量大。試驗站多年平均氣溫11.3 ℃,年平均降水量46 mm,蒸發量1 877~2 559 mm,日照時間2 950 h,無霜期207 d,地下水埋深3.5~5.0 m,平均含鹽量1.7 g/kg。試驗站土壤質地為沙壤土,0~100 cm土壤平均體積質量為1.56 g/cm3,pH值為8.6。
2020年棉花播種和收獲日期分別為4月26日和10月27日,棉田設置了1 mS/cm(T1)、2 mS/cm(T2)和3 mS/cm(T3)3個鹽分梯度。2021年棉花播種和收獲日期分別為4月22日和11月8日,棉田設置了2 mS/cm(T4)、5 mS/cm(T5)和8 mS/cm(T6)3個鹽分梯度。每個處理3次重復,棉花施肥、除草、打藥、打頂等田間管理措施均與當地農田一致。
分別在棉花苗期、蕾期、花鈴前期和花鈴后期取土測定土壤鹽分離子量,取樣深度分別為0~10、10~20、20~30 cm和30~40 cm。土樣自然風干后,以土水質量比為1∶5制備浸提液,采用火焰光度計法測定土壤K+、Na+量。
本文采用SVR、RFR、KNNR和GBRT這4種機器學習構建回歸預測模型。訓練樣本為2020年實測的K+、Na+量,2種離子量各有144個訓練數據(包括3次重復值),測試樣本為2021年實測的K+、Na+量,2種離子量各有48個測試數據(包括3次重復均值)。模型分別以K+、Na+量為因變量,自變量為初始鹽分梯度、土層深度和棉花生育期,分類變量量化標準如表1所示,通過R語言程序進行標準化消除自變量之間的量綱差異。使用、和2對模擬結果進行評估,其中,和越小,模型預測值越接近實測值,2越接近于1,模型擬合性能越好。

表1 分類變量量化標準
1.5.1 支持向量回歸(SVR)
SVR模型是一種廣義線性模型,通過核函數進行線性回歸處理[21],SVR作為一種最大似然方法,基于結構風險最小化原則可以克服過度擬合的問題[22]。SVR表達式如式(1)所示:

式中:()為回歸函數;和為超平面的系數;∈R;n和*n為 樣本支持向量;(n)為非線性核函數。
SVR的建模預測流程為:首先將低維特征空間映射到高維空間,再通過線性回歸實現低維特征空間數據的預測。SVR作為一種監督學習算法,使用對稱損失函數進行訓練,具有出色的泛化能力和高預測精度。
1.5.2 隨機森林回歸(RFR)
RFR模型是一種典型的機器學習算法,由分類與回歸樹組成,以強大的非線性擬合能力避免了出現過擬合現象[23],結合加權平均原則對決策樹的監測結果進行計算后得到最終監測結果[24]。RFR表達式如式(2)所示。

式中:為最終監測值;為因變量個數;ω()為每個因變量觀測值的權重;Y為因變量的觀測值。
RFR的建模預測流程為:對每棵樹建立一個獨立的決策樹回歸模型,最終預測結果為所有樹的平均值。
1.5.3 K-最近鄰回歸(KNNR)
KNNR模型是一種非參數模型,基于距離度量找出訓練集中與其最靠近的個訓練樣本,KNNR的歐式距離表達式如式(3)所示。

式中:為測試樣本和指定訓練樣本之間的歐氏距離;為最近鄰樣本數量;x為第1個點的第維坐標,y為第2個點的第維坐標。
KNNR的建模預測流程為:首先確定距離計算方法,確定值大小,再從訓練集中找到個與測試樣本距離最接近的樣本,最后使用個近鄰的均值作為測試樣本的預測值[25]。KNNR算法的缺點比較明顯,其對近鄰數的取值比較敏感,若值過小容易引發過擬合,若值過大可能會增大近似誤差,且KNNR計算樣本需要較長時間,特別當數據量很大時,可能會導致內存溢出。
1.5.4 梯度提升回歸樹(GBRT)
GBRT模型是一種函數空間優化算法,能適應復雜的非線性關系,GBRT在每一次迭代后產生一個精度不高的弱學習器,每個學習器之間不獨立,最終將弱學習器集成可以實現較高的精度[26]。GBRT表達式如式(4)所示。

式中:m()為最終的模型;為弱學習器的數量;θ為減少過擬合的系數;f()為弱學習器。
GBRT的建模預測流程為:首先使用一個弱學習器輸出預測結果,再使用第二個學習器去學習特征到殘差的映射,將2個學習器的輸出結果相加得到最終預測結果,經過多次迭代后,可得到最終預測結果。GBRT算法本質上是一個基于樹的模型,它集成了由CART算法生成的幾個弱學習器。GBRT方法屬于集成學習的增強類別,對于增強學習算法,得分高的弱學習器將獲得更高的權重。
首先采用 Microsoft Excel 2019錄入和整理試驗數據,然后分別采用R語言tidyverse程序包、e1071程序包、randomForest程序包、caret程序包、h2o程序包和ggplot2程序包進行數據預處理、建立SVR模型、RFR模型、KNNR模型、GBRT模型和作圖。
不同鹽分處理下棉花全生育期內0~40 cm土層K+、Na+量均值變化如圖1所示。通過2 a的試驗發現,K+量隨著棉花生育期呈先增加后減少的趨勢,蕾期和花鈴前期的K+量要高于苗期和花鈴后期。Na+量在2020年的試驗中隨著棉花生育期呈下降的趨勢,在花鈴后期達到最小,而在2021年的試驗中,Na+量變化較為穩定,各生育階段變化值較小,不同鹽分處理對K+、Na+量影響明顯。

圖1 全生育期K+、Na+量變化
以2020、2021年棉田土壤K+、Na+量實測數據為總體樣本。以2020年K+、Na+量為訓練樣本,2021年K+、Na+量為測試樣本,不同離子量統計特征如圖2所示。圖中為樣本數量,為平均值,為標準差,為變異系數。由圖2可知,K+量樣本集的變異系數范圍為38.72%~50.82%,Na+量樣本集的變異系數范圍為48.8%~73.47%。由于變異系數均在10%~100%的區間內,樣本集均屬于中等變異。從箱線圖可以看出,K+量總體樣本和訓練樣本各出現1個異常值,Na+量總體樣本和訓練樣本分別出現16個和3個異常值,但由于樣本集中的異常值均為極個別情況下對土壤離子量的實測值,故無需對偽異常進行處理。
使用R程序對訓練樣本訓練模型時,需修改svm()函數的參數,參數和分別為訓練樣本的自變量和因變量,參數type選擇“eps-regression”建立回歸預測,參數kernel選擇“radial”使用高斯核。參數是進行非線性預測的超參數,超參數是懲罰因子,由于使用了高斯核則需要對和進行同步優化,使建立的模型精度達到最佳。使用試錯法結合bootstrap采樣進行超參數搜索,通過tune.controls()函數設置使用“bootstrap”采樣的方法進行參數搜索,得到超參數和較優取值如表2所示。

圖2 不同離子量的統計特征

表2 SVR模型的超參數調優
SVR模型對訓練樣本和測試樣本的預測結果如表3所示。在訓練樣本中,SVR對Na+量取得的決定系數最大,2為0.900。在測試樣本中,SVR對Na+量取得的決定系數最大,2為0.838。綜合來看,SVR對Na+量的預測效果較好。

表3 SVR模型的預測結果
本研究使用R程序對數值型訓練樣本訓練模型時,randomForest()函數會根據輸入變量建立回歸預測模型,參數和分別為訓練樣本的自變量和因變量,參數為訓練樣本數據,超參數表示生長樹的數量。使用試錯法結合tuneRF()函數尋找較優的超參數,隨著ntreeTry參數取值遞增,OBB Error模型誤差先迅速降低,隨后略微增加,在誤差最小處確定超參數的值,得到超參數取值如表4所示。

表4 RFR模型的超參數調優
RFR模型對訓練樣本和測試樣本的預測結果如表5所示。在訓練樣本中,RFR對Na+量取得的決定系數最大,2為0.838。在測試樣本中,RFR對K+量取得的決定系數最大,2為0.437,但是對Na+量取得的決定系數較小,2為0.299。綜合來看,RFR對K+量的預測效果較好。

表5 RFR模型的預測結果
本研究使用R程序對訓練樣本訓練模型時,需修改knnreg()函數的參數,參數和分別為訓練樣本的自變量和因變量,參數為訓練樣本數據,超參數的值表明近鄰的個數。隨著近鄰的個數由0開始增加,模型的預測誤差會快速減小,在近鄰數取得某個值后誤差會緩慢增大,由此可確定影響模型精度的最佳值,通過程序循環,根據不同值訓練模型后比較值與誤差的關系,得到超參數取值如表6所示。

表6 KNNR模型的超參數調優
KNNR模型對訓練樣本和測試樣本的預測結果如表7所示。在訓練樣本中,KNNR對Na+量取得的決定系數最大,2為0.919。在測試樣本中,KNNR對K+量取得的決定系數最大,2為0.430,但是對Na+量取得的決定系數較小,2為0.219。綜合來看,KNNR對K+量的預測效果較好。

表7 KNNR模型的預測結果
在研究使用R程序對訓練樣本訓練模型時,需修改h2o.gbm()函數的參數,參數和分別為訓練樣本的自變量和因變量,參數_為訓練樣本數據,超參數和_分別表示樹的個數和樹的最大深度。通過試錯法結合h2o.grid()函數進行超參數網格搜索,使用訓練樣本對GBRT參數調優,得到超參數和_取值如表8所示。

表8 GBRT模型的超參數調優
GBRT模型對訓練樣本和測試樣本的預測結果如表9所示。在訓練樣本中,GBRT對K+量取得的決定系數最大,2為0.946。在測試樣本中,GBRT對K+量取得的決定系數最大,2為0.395。綜合來看,GBRT對K+量的預測效果較好。

表9 GBRT模型的預測結果
不同土層深度K+量的模型預測精度如表10和圖3所示,將K+量預測誤差進行對比時發現,SVR模型均取得最低誤差,4個土層深度(0~10、10~20、20~30 cm和30~40 cm)的分別為0.122、0.114、0.056 g/kg和0.106 g/kg,分別為0.135、0.135、0.069 g/kg和0.126 g/kg,表現最優。不同土層深度Na+量的模型預測精度如表11和圖4所示,將Na+量預測誤差進行對比時發現,SVR模型均取得最低誤差,4個土層深度的分別為0.540、0.619、0.835 g/kg和1.371 g/kg,分別為0.636、0.748、1.198 g/kg和1.710 g/kg,表現最優。因此,SVR模型對以深度分層的土壤K+、Na+量預測取得理想效果。

表10 不同土層深度K+量模型預測精度對比

圖3 不同土層深度K+量預測值與實測值的關系

表11 不同土層深度Na+量模型預測精度對比

圖4 不同土層深度Na+量預測值與實測值的關系
機器學習算法在土壤理化性質預測中具有應用潛力,相關研究表明,通過機器學習算法可以建立可靠有效的模型[27-29]。本研究使用SVR、RFR、KNNR、GBRT模型對棉田土壤的K+、Na+量進行預測,結果表明,SVR模型對K+、Na+量整體測試樣本的預測精度最佳,分別為0.100 g/kg和0.841 g/kg,為0.119 g/kg和1.154 g/kg,2分別達到0.687和0.838。
有研究表明,將不同試驗處理[30]、不同土層深度[31]、不同生育期[32]的樣本數據作為輸入變量建立模型是可行的,這與本文的模型構建思路一致。SVR模型和RFR模型可以實現對土壤有機碳的空間分布預測[33],以及反向傳播神經網絡適用于土壤墑情預測[34],本文使用4種機器學習算法可以實現對不同土壤離子量的預測,SVR模型對鉀鈉離子的預測精度較高,而RFR、KNNR、GBRT模型的預測效果相對較差。由于本文僅使用2 a試驗數據,其他模型可能存在樣本數量的限制而表現的預測精度較低。因此,在后續的試驗中,可連續多年在不同的棉田內采集樣本數據,使機器學習回歸預測模型在大量樣本數據的訓練下進一步提升預測精度。
本研究位于南疆棉花種植區,由于南疆獨特的土壤理化性質導致土壤含鹽量較高且棉田鹽分空間變異性大,鹽分離子對作物生長產生較為嚴重的影響。土壤母質含鉀鈉礦物比較多是土壤鉀鈉離子主要來源,施肥和灌溉也是影響土壤中鉀鈉離子量的主要因素之一,由于土壤浸提液中鹽分一般以離子的形式存在,土壤電導率可以綜合反映出土壤浸提液中各種陰陽離子量之和,也可以在一定程度上表征土壤的含鹽量[35]。在對鹽漬化土壤進行改良時,精準預測土壤鹽分離子量,對制定適宜的改良措施具有重要的參考價值。本文通過對4種機器學習方法預測南疆棉田土壤K+、Na+量的結果進行比較分析,認為SVR模型能夠較為準確地預測K+、Na+量。在實際應用時,可在棉花播前采集土樣測定土壤K+、Na+量的本底值,再結合SVR模型即可預測出棉花不同生育期各土層的K+、Na+量。
1)K+量和Na+量受鹽分影響明顯,土壤鹽分越高則K+量和Na+量越高,且在棉花生育期內, K+量隨著棉花生育期呈先增加后減少的趨勢,Na+量隨著棉花生育期呈下降趨勢。
2)在鹽分本底值、棉花生育期及土層深度的多重影響下,建立的SVR模型對土壤K+、Na+量的預測精度最高,可作為南疆棉田土壤K+、Na+量預測的一種方法。
(作者聲明本文無實際或潛在的利益沖突)
[1] 王興鵬. 冬春灌對南疆土壤水鹽動態和棉花生長的影響研究[D]. 北京: 中國農業科學院, 2018.
WANG Xingpeng. Effects of winter-spring irrigation on soil water-salt dynamics and cotton growth[D]. Beijing: Chinese Academy of Agricultural Sciences, 2018.
[2] 楊濤, 李生梅, 黃雅婕, 等. 海島棉資源自然復合鹽脅迫綜合評價[J]. 核農學報, 2021, 35(7): 1 507-1 521.
YANG Tao, LI Shengmei, HUANG Yajie, et al. Comprehensive evaluation of natural compound salt stress of sea-island cotton resources[J]. Journal of Nuclear Agricultural Sciences, 2021, 35(7): 1 507-1 521.
[3] 屈忠義, 孫慧慧, 楊博, 等. 不同改良劑對鹽堿地土壤微生物與加工番茄產量的影響[J]. 農業機械學報, 2021, 52(4): 311-318, 350.
QU Zhongyi, SUN Huihui, YANG Bo, et al. Effects of different amendments on soil microorganisms and yield of processing tomato in saline alkali soil[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 311-318, 350.
[4] 竇旭, 史海濱, 李瑞平, 等. 鹽漬化土壤剖面鹽分與養分分布特征及鹽分遷移估算[J]. 農業機械學報, 2022, 53(1): 279-290, 330.
DOU Xu, SHI Haibin, LI Ruiping, et al. Distribution characteristics of salinity and nutrients in salinized soil profile and estimation of salt migration[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(1): 279-290, 330.
[5] 鄭復樂, 姚榮江, 楊勁松, 等. 改良材料對微咸水滴灌農田土壤鹽分分布與離子組成的影響[J]. 灌溉排水學報, 2020, 39(8): 60-71.
ZHENG Fule, YAO Rongjiang, YANG Jinsong, et al. The effects of soil amendment with different materials on soil salt distribution and its ion composition under brackish-water drip irrigation[J]. Journal of Irrigation and Drainage, 2020, 39(8): 60-71.
[6] 王航, 周青云, 張寶忠, 等. 不同灌水處理下濱海鹽堿地土壤-玉米陽離子變化規律及相關關系研究[J]. 灌溉排水學報, 2021, 40(12): 36-43.
WANG Hang, ZHOU Qingyun, ZHANG Baozhong, et al. Irrigation affects the translocation of cations from soil to maize roots in saline-alkaline soil[J]. Journal of Irrigation and Drainage, 2021, 40(12): 36-43.
[7] 王銘鑫, 范超, 高秉博, 等. 融合半變異函數的空間隨機森林插值方法[J].中國生態農業學報(中英文), 2022, 30(3): 451-457.
WANG Mingxin, FAN Chao, GAO Bingbo, et al. A spatial random forest interpolation method with semi-variogram[J]. Chinese Journal of Eco-Agriculture, 2022, 30(3): 451-457.
[8] 馬國林, 丁建麗, 韓禮敬, 等. 基于變量優選與機器學習的干旱區濕地土壤鹽漬化數字制圖[J]. 農業工程學報, 2020, 36(19): 124-131.
MA Guolin, DING Jianli, HAN Lijing, et al. Digital mapping of soil salinization in arid area wetland based on variable optimized selection and machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(19): 124-131.
[9] 劉明杰, 徐卓揆, 郜允兵, 等. 基于機器學習的稀疏樣本下的土壤有機質估算方法[J]. 地球信息科學學報, 2020, 22(9): 1 799-1 813.
LIU Mingjie, XU Zhuokui, GAO Yunbing, et al. Estimating soil organic matter based on machine learning under sparse sample[J]. Journal of Geo-information Science, 2020, 22(9): 1 799-1 813.
[10] 楊瑋, 蘭紅, 李民贊, 等. 基于圖像處理和SVR的土壤容重與土壤孔隙度預測[J]. 農業工程學報, 2021, 37(12): 144-151.
YANG Wei, LAN Hong, LI Minzan, et al. Predicting bulk density and porosity of soil using image processing and support vector regression[J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(12): 144-151.
[11] ACHIENG K O. Modelling of soil moisture retention curve using machine learning techniques: Artificial and deep neural networks vs support vector regression models[J]. Computers & Geosciences, 2019, 133: 104 320.
[12] 陳穎, 張燦, 肖春艷, 等. 基于GWO-SVR的土壤鎘元素含量含水率校正預測模型研究[J]. 光學學報, 2020, 40(10): 180-187.
CHEN Ying, ZHANG Can, XIAO Chunyan, et al. Study on prediction model of soil cadmium content moisture content correction based on GWO-SVR[J]. Acta Optica Sinica, 2020, 40(10): 180-187.
[13] 尉芳, 劉京, 夏利恒, 等. 陜西渭北旱塬區農田土壤有機質空間預測方法[J]. 環境科學, 2022, 43(2): 1 097-1 107.
WEI Fang, LIU Jing, XIA Liheng, et al. Spatial prediction method of farmland soil organic matter in Weibei Dryland of Shaanxi Province[J]. Environmental Science, 2022, 43(2): 1 097-1 107.
[14] TZIACHRIS P, ASCHONITIS V, CHATZISTATHIS T, et al. Comparing machine learning models and hybrid geostatistical methods using environmental and soil covariates for soil pH prediction[J]. ISPRS International Journal of Geo-Information, 2020, 9(4): 276.
[15] 楊練兵, 陳春波, 鄭宏偉, 等. 基于優化隨機森林回歸模型的土壤鹽漬化反演[J]. 地球信息科學學報, 2021, 23(9): 1 662-1 674.
YANG Lianbing, CHEN Chunbo, ZHENG Hongwei, et al. Retrieval of soil salinity content based on random forests regression optimized by Bayesian optimization algorithm and genetic algorithm[J]. Journal of Geo-information Science, 2021, 23(9): 1 662-1 674.
[16] 胡貴貴, 楊粉莉, 楊聯安, 等. 基于主成分和機器學習的土壤有機質含量空間預測建模[J]. 干旱區地理, 2021, 44(4): 1 114-1 124.
HU Guigui, YANG Fenli, YANG Lian’an, et al. Spatial prediction modeling of soil organic matter content based on principal components and machine learning[J]. Arid Land Geography, 2021, 44(4): 1 114-1 124.
[17] 劉宏超, 馬俊杰, 李韌. 基于KNN機器學習方法對青藏高原唐古拉地區表層土壤水熱狀況的模擬[J]. 冰川凍土, 2021, 43(4): 1 243-1 252.
LIU Hongchao, MA Junjie, LI Ren. Simulation of the water-thermal features within the surface soil in Tanggula region, Qinghai-Tibet Plateau, by using KNN model[J]. Journal of Glaciology and Geocryology, 2021, 43(4): 1 243-1 252.
[18] 曹肖奕, 丁建麗, 葛翔宇, 等. 基于不同衛星光譜模擬的土壤電導率估算研究[J]. 干旱區地理, 2020, 43(1): 172-181.
CAO Xiaoyi, DING Jianli, GE Xiangyu, et al. Estimation of soil conductivity based on spectral simulation of different satellites[J]. Arid Land Geography, 2020, 43(1): 172-181.
[19] 田美玲, 葛翔宇, 丁建麗, 等. 耦合機器學習和機載高光譜數據的土壤含水量估算[J]. 激光與光電子學進展, 2020, 57(9): 232-241.
TIAN Meiling, GE Xiangyu, DING Jianli, et al. Coupled machine learning and unmanned aerial vehicle based hyperspectral data for soil moisture content estimation[J]. Laser & Optoelectronics Progress, 2020, 57(9): 232-241.
[20] 傅邦杰, 牛瑞卿, 王春勝. 丹江口庫區土壤鎳含量高光譜反演方法[J]. 遙感信息, 2021, 36(3): 44-49.
FU Bangjie, NIU Ruiqing, WANG Chunsheng. Soil nickel metal content estimation based on hyper-spectrum in Danjiangkou Reservoir area[J]. Remote Sensing Information, 2021, 36(3): 44-49.
[21] 任必武, 陳瀚閱, 張黎明, 等. 機器學習用于耕地土壤有機碳空間預測對比研究: 以亞熱帶復雜地貌區為例[J]. 中國生態農業學報(中英文), 2021, 29(6): 1 042-1 050.
REN Biwu, CHEN Hanyue, ZHANG Liming, et al. Comparison of machine learning for predicting and mapping soil organic carbon in cultivated land in a subtropical complex geomorphic region[J]. Chinese Journal of Eco-Agriculture, 2021, 29(6): 1 042-1 050.
[22] WANG Xinxin, HAN Jigang, WANG Xia, et al. Estimating soil organic matter content using sentinel-2 imagery by machine learning in Shanghai[J]. IEEE Access, 2021, 9: 78 215-78 225.
[23] 張萬濤, 吉靜怡, 李彬彬, 等. 黃土高原不同地貌區農田土壤有機質預測方法研究[J]. 植物營養與肥料學報, 2021, 27(4): 583-594.
ZHANG Wantao, JI Jingyi, LI Binbin, et al. Spatial prediction of soil organic matter of farmlands under different landforms in the Loess Plateau, China[J]. Journal of Plant Nutrition and Fertilizers, 2021, 27(4): 583-594.
[24] 段維納, 競霞, 劉良云, 等. 融合SIF和反射光譜的小麥條銹病遙感監測[J]. 光譜學與光譜分析, 2022, 42(3): 859-865.
DUAN Weina, JING Xia, LIU Liangyun, et al. Monitoring of wheat stripe rust based on integration of SIF and reflectance spectrum[J]. Spectroscopy and Spectral Analysis, 2022, 42(3): 859-865.
[25] ABEDI F, AMIRIAN-CHAKAN A, FARAJI M, et al. Salt dome related soil salinity in Southern Iran: Prediction and mapping with averaging machine learning models[J]. Land Degradation & Development, 2021, 32(3): 1 540-1 554.
[26] 金則澎, 毛峰, 程乾, 等. 梯度提升回歸樹在千島湖水體CDOM反演中的應用[J]. 遙感信息, 2022, 37(1): 110-118.
JIN Zepeng, MAO Feng, CHENG Qian, et al. Application of gradient boosting regression tree in CDOM inversion of Qiandao Lake[J]. Remote Sensing Information, 2022, 37(1): 110-118.
[27] ZHOU Tao, GENG Yajun, JI Cheng, et al. Prediction of soil organic carbon and the C:N ratio on a national scale using machine learning and satellite data: A comparison between Sentinel-2, Sentinel-3 and Landsat-8 images[J]. Science of the Total Environment, 2021, 755: 142 661.
[28] WANG Zong, DU Zhengping, LI Xiaoyan, et al. Incorporation of high accuracy surface modeling into machine learning to improve soil organic matter mapping[J]. Ecological Indicators, 2021, 129: 107 975.
[29] TAGHIZADEH-MEHRJARDI R, SCHMIDT K, TOOMANIAN N, et al. Improving the spatial prediction of soil salinity in arid regions using wavelet transformation and support vector regression models[J]. Geoderma, 2021, 383: 114 793.
[30] 王興鵬, 蔣富昌, 王洪博, 等. 基于AquaCrop模型的南疆無膜滴灌棉花灌溉制度優化[J]. 農業機械學報, 2021, 52(4): 293-301, 335.
WANG Xingpeng, JIANG Fuchang, WANG Hongbo, et al. Irrigation scheduling optimization of drip-irrigated without plastic film cotton in South Xinjiang based on AquaCrop model[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 293-301, 335.
[31] 牛曉倩, 賈小旭, 劉成功, 等. 關中平原農田土壤水力參數空間分異與模擬[J]. 水土保持學報, 2021, 35(1): 198-204.
NIU Xiaoqian, JIA Xiaoxu, LIU Chenggong, et al. Spatial variations and simulations of farmland soil hydraulic parameters in the Guanzhong Plain[J]. Journal of Soil and Water Conservation, 2021, 35(1): 198-204.
[32] 譚先明, 張佳偉, 王仲林, 等. 基于PLS的不同水氮條件下帶狀套作玉米產量預測[J]. 中國農業科學, 2022, 55(6): 1 127-1 138.
TAN Xianming, ZHANG Jiawei, WANG Zhonglin, et al. Prediction of maize yield in relay strip intercropping under different water and nitrogen conditions based on PLS[J]. Scientia Agricultura Sinica, 2022, 55(6): 1 127-1 138.
[33] MAHMOUDZADEH H, MATINFAR H R, TAGHIZADEH-MEHRJARDI R, et al. Spatial prediction of soil organic carbon using machine learning techniques in western Iran[J]. Geoderma Regional, 2020, 21: e00 260.
[34] 薛明, 韋波, 李娟, 等. 基于改進BP神經網絡與支持向量機的土壤墑情預測方法研究[J]. 土壤通報, 2021, 52(4): 793-800.
XUE Ming, WEI Bo, LI Juan, et al. Forecast method of soil moisture based on improved BP neural network and support vector machine[J]. Chinese Journal of Soil Science, 2021, 52(4): 793-800.
[35] 劉國鋒, 徐增洪, 么宗利, 等. 沖水灌溉對西北硫酸鹽型土壤中鹽分離子變化的影響研究[J]. 干旱區資源與環境, 2019, 33(3): 118-123.
LIU Guofeng, XU Zenghong, YAO Zongli, et al. Effects of irrigation on the salt ions in sulfate-type saline-alkali soil[J]. Journal of Arid Land Resources and Environment, 2019, 33(3): 118-123.
Predicting Soil K+and Na+Contents in Cotton Field Using Machine Learning Algorithm
TANG Maosong1,2, ZHANG Nan1,2, LI Guohui1,2, ZHAO Zeyi1,2, LI Mingfa3, WANG Xingpeng1,2,4*
(1. College of Water Resource and Architecture Engineering, Tarim University, Alaer 843300, China; 2. Laboratory of Modern Agricultural Engineering, Tarim University, Alaer 843300, China; 3. Hydrology and Water Resources Management Center of the First Division of Xinjiang Production and Construction Corps, Alaer 843300, China; 4. Key Laboratory of Northwest Oasis Water-saving Agriculture, Ministry of Agriculture and Rural Affairs, PR China, Shihezi 832000, China)
【Objective】The contents of K+and Na+in soil affect soil fertility and quality, and understanding their spatiotemporal changes and the factors influencing their changes is critical to improving soil management and alleviating soil alkalization. We propose a machine learning method to predict changes in K+and Na+content in soils.【Method】Taking data measured from a cotton field in Southern Xinjiang as an example, we compared four machine learning algorithms: support vector regression (SVR), random forest regression (RFR), K-nearest neighbor regression (KNNR), and gradient lifting regression tree (GBRT). All algorithms were first trained based on K+and Na+measured in 2020, and the trained models were then tested against the data measured in 2021. The accuracy and robustness of the models were evaluated using the mean absolute errors (), root mean square error (), and the determination coefficient (2).【Result】Theof SVR, RFR, KNNR and GBRT for predicting K+content was 0.100, 0.169, 0.169 and 0.167 g/kg, respectively; their associated RMSE was 0.119, 0.218, 0.218 g/kg and 0.223 g/kg, respectively, and their2was 0.687, 0.437, 0.430, and 0.395, respectively. For predicting Na+content, theof SVR, RFR, KNNR and GBRT was 0.841, 2.841, 2.826 g/kg, and 2.856 g/kg, respectively; and theirwas 1.154, 3.658, 3.630 g/kg, and 3.650 g/kg, respectively, and2was 0.838, 0.299, 0.219, and 0.200, respectively. SVR model is most accurate for predicting soil K+and Na+in the depths of 0~10, 10~20, 20~30 and 30~40 cm, with itsfor K+at the four depths being 0.122, 0.114, 0.056 g/kg and 0.106 g/kg, respectively, andbeing 0.135, 0.135, 0.069 g/kg and 0.126 g/kg, respectively. Theof SVR for predicting Na+at the four depths was 0.540, 0.619, 0.835 g/kg and 1.371 g/kg, respectively, and itswas 0.636, 0.748, 1.198 g/kg and 1.710 g/kg, respectively.【Conclusion】Among the four algorithms we compared, SVR is most accurate for predicting soil K+and Na+at depth from 0 to 40 cm, and it can be used to predict variation in K+and Na+in response to environmental change in the cotton fields in Southern Xinjiang.
South Xinjiang cotton field; soil salt ions; machine learning; regression prediction model
1672 - 3317(2023)09 - 0032 - 08
TP181
A
10.13522/j.cnki.ggps.2022405
唐茂淞, 張楠, 李國輝, 等. 基于機器學習算法的棉田土壤鉀、鈉離子量預測[J]. 灌溉排水學報, 2023, 42(9): 32-39.
TANG Maosong, ZHANG Nan, LI Guohui, et al. Predicting Soil K+and Na+Contents in Cotton Field Using Machine Learning Algorithm[J]. Journal of Irrigation and Drainage, 2023, 42(9): 32-39.
2022-07-20
2023-05-11
2023-09-13
“十四五”國家重點研發計劃項目(2022YFD1900505);兵團重大科技項目(2021AA003);塔里木大學研究生科研創新項目(TDGRI202143)
唐茂淞(1997-),男。碩士研究生,主要從事灌溉排水理論與節水灌溉研究。E-mail: tms765951540@gmail.com
王興鵬(1978-),男。教授,博士生導師,博士,主要從事旱區水資源高效利用及水環境保護研究。E-mail: 13999068354@163.com
@《灌溉排水學報》編輯部,開放獲取CC BY-NC-ND協議
責任編輯:趙宇龍