









摘" 要:隨機森林是數(shù)字土壤屬性制圖的重要方法,該文考慮數(shù)據(jù)不平衡性和環(huán)境變量多重共線性問題,對隨機森林制圖方法預(yù)處理階段開展優(yōu)化處理研究。該研究以河南省鄧州市2007年表層土壤樣點的pH推測制圖為例,針對pH數(shù)據(jù)分布的不平衡性,采用SMOGN算法確保pH推測范圍符合實際分布情況。針對環(huán)境變量的多重共線性問題,對比分析膨脹因子,主成分分析和逐步回歸等方法的制圖精度,并給出消除多重共線性的方法。當(dāng)顧及數(shù)據(jù)不平衡性和消除多重共線性后,全部樣點的平均絕對誤差和均方根誤差精度指標(biāo)均獲得提升。土壤pH范圍更廣,對pH的極端值也能夠進行推測。該文方法可有效保障pH推測值的分布范圍更符合實際情況,并提升隨機森林方法的pH推測精度。
關(guān)鍵詞:數(shù)字土壤屬性制圖;土壤pH;隨機森林;數(shù)據(jù)不平衡性;多重共線性
中圖分類號:S159-3" " " 文獻標(biāo)志碼:A" " " " " 文章編號:2096-9902(2025)05-0041-05
Abstract: Random forest is an important method for digital soil attribute mapping. In this paper, considering the data imbalance and multicollinearity of environmental variables, an optimization study is carried out in the pretreatment stage of random forest mapping method. This study took the pH prediction mapping of surface soil sample points in Dengzhou City, Henan Province in 2007 as an example. In view of the imbalance of pH data distribution, SMOGN algorithm was used to ensure that the pH prediction range was in line with the actual distribution. Aiming at the problem of multicollinearity of environmental variables, the mapping accuracy of methods such as dilation factor, principal component analysis and stepwise regression is compared and analyzed, and a method to eliminate multicollinearity is given. When data imbalance is taken into account and multicollinearity is eliminated, the average absolute error and root-mean-square error accuracy indicators of all sample points are improved. Soil pH have a wider range, and extreme pH can also be speculated. The method in this paper can effectively ensure that the distribution range of estimated pH is more in line with the actual situation, and improve the accuracy of pH estimation by the random forest method.
Keywords: digital soil attribute mapping; soil pH; random forest; data imbalance; multicollinearity
土壤pH值是衡量土壤酸堿度的重要指標(biāo),準(zhǔn)確評估其對農(nóng)業(yè)生產(chǎn)至關(guān)重要[1-2]。數(shù)字土壤制圖基于土壤-景觀關(guān)系理論,利用地貌、地形和植被等環(huán)境因素推測土壤屬性,提供精準(zhǔn)土壤信息[3]。近年來,非線性機器學(xué)習(xí)方法成為數(shù)字土壤制圖的主流[4],其中隨機森林因抗過擬合能力強而廣泛應(yīng)用[5]。龐龍輝等[6]在青海省的研究中成功利用隨機森林實現(xiàn)高精度土壤制圖,解釋了47%以上的土壤屬性空間變異。Deng等[7]利用隨機森林估計表層土壤有機碳儲量,結(jié)果優(yōu)于參數(shù)統(tǒng)計模型。楊陽等[8]研究顯示隨機森林在滇東紅壤制圖中展現(xiàn)了更好的泛化能力和抗過擬合能力,能詳細(xì)展現(xiàn)空間變化。楊珺婷等[9]利用衛(wèi)星數(shù)據(jù)和機器學(xué)習(xí)模型估算土壤有機碳和總氮,隨機森林的估測效果最佳。在實際應(yīng)用中,數(shù)據(jù)不平衡、高維度環(huán)境變量和多重共線性等數(shù)據(jù)預(yù)處理階段的問題也會影響到隨機森林方法的制圖精度[10]。然而,現(xiàn)有研究對隨機森林的預(yù)處理階段考慮不足。針對這些問題,本文以河南省鄧州市表層土壤pH為研究對象,基于地形、遙感和氣象等環(huán)境變量,運用SMOGN算法合成新樣本以平衡數(shù)據(jù)分布,并采用膨脹因子、主成分分析和逐步回歸以消除環(huán)境變量之間的多重共線性,從而優(yōu)化訓(xùn)練樣本和環(huán)境變量,提高鄧州市土壤pH的推測精度,為鄧州市土壤和農(nóng)業(yè)生產(chǎn)等提供理論指導(dǎo)和數(shù)據(jù)支撐。
1" 材料與方法
1.1" 研究區(qū)概況
鄧州市(111°37'E~112°20'E,32°22'N~32°59'N)地處河南省西南部南襄盆地中部偏西區(qū)域。位于黃河中游平原腹地,氣候帶處于北暖溫帶向北亞熱帶過渡地帶,屬于北亞熱帶大陸型半濕潤氣候。鄧州市地形起伏較小,整體呈現(xiàn)平原和丘陵相間的特點,海拔較低,四季分明,是一個適宜農(nóng)業(yè)生產(chǎn)的地區(qū)。全市總面積2 369 km2,占河南省總面積的1.41%,總耕地面積253萬畝(1畝約等于667 m2),是河南省耕地面積最大的縣級市之一。
1.2" 實驗數(shù)據(jù)集情況
1.2.1" 環(huán)境數(shù)據(jù)來源
表1為各環(huán)境數(shù)據(jù)的空間分辨率以及數(shù)據(jù)來源。
1.2.2" 樣點數(shù)據(jù)
本研究所使用表層樣點數(shù)據(jù)集是由鄧州市農(nóng)業(yè)農(nóng)村局提供的2007年測土配方施肥項目數(shù)據(jù),數(shù)據(jù)共包含4 677份土壤樣本點,取表層土壤pH作為數(shù)字土壤制圖對象。由于樣點采集和分析化驗過程中的不確定性,對樣點數(shù)據(jù)集進行異常值檢驗,對樣點值不在總體均值5倍標(biāo)準(zhǔn)差之外的異常值進行剔除。
1.3" 環(huán)境數(shù)據(jù)
本研究所使用的環(huán)境數(shù)據(jù)包括遙感數(shù)據(jù)、地形數(shù)據(jù)、氣候數(shù)據(jù)和地理坐標(biāo)。遙感數(shù)據(jù)選用Landsat 5 TM(2007年5月—2007年8月)研究區(qū)含云量最少的影像,對其進行鑲嵌、幾何校正和大氣校正等預(yù)處理操作。地形數(shù)據(jù)提取環(huán)境變量前進行拼接和填洼處理。土壤濕度數(shù)據(jù)由孫昊等[11]基于XGBoost算法,生成1982—2020年中國CCI土壤濕度逐月數(shù)據(jù)集。
經(jīng)過預(yù)處理,共選擇23種環(huán)境變量用于研究區(qū)土壤pH制圖。遙感影像數(shù)據(jù)使用ENVI 5.3軟件進行波段組合計算和紋理信息提取,得到11個環(huán)境變量,包括歸一化水體指數(shù)(NDWI)、歸一化植被指數(shù)(NDVI)、第一主成分(PC1)。對第一主成分進行紋理特征提取,包括均值(mean)、方差(variance)、協(xié)同性(homogeneity)、對比度(contrast)、相異性(dissimilarity)、信息熵(entropy)、二階性(secondmoment)和相關(guān)性(correlation)。
地形數(shù)據(jù)對30 m空間分辨率的DEM處理,得到高程、坡度、坡向、平面曲率、剖面曲率、水流強度指數(shù)SPI、地形位置指數(shù)TPI和地形濕度指數(shù)TWI等指標(biāo)。其中,年均降雨數(shù)據(jù)由年降水量柵格數(shù)據(jù)生成,土壤濕度數(shù)據(jù)通過2007年逐月數(shù)據(jù)生成年均土壤濕度。
1.4" 基于隨機森林的數(shù)字土壤屬性制圖
1.4.1" 隨機森林土壤屬性圖制圖方法
隨機森林(Random Forest,RF)是一種基于多個不同結(jié)構(gòu)決策樹的引導(dǎo)聚集(Bagging)算法。在訓(xùn)練過程中,對原始數(shù)據(jù)集進行有放回的隨機抽樣,這有助于增加模型的多樣性,從而提高隨機森林的泛化能力。在推測時,隨機森林整合每棵樹的推測結(jié)果,通常通過投票或取平均值得出最終結(jié)果,使得整體模型具有較高的精確度和抗過擬合性。隨機森林建模的2個重要參數(shù)是決策樹的數(shù)量和節(jié)點分裂數(shù)。本研究使用交叉驗證的網(wǎng)格搜索算法確定最佳組合參數(shù)。
1.4.2" 數(shù)據(jù)不平衡性分析及其消除
數(shù)據(jù)不平衡指數(shù)據(jù)集中不同類別樣本數(shù)量的非均勻分布,這會增加模型在預(yù)測少數(shù)類別樣本時的精度不足風(fēng)險[12]。SMOGN算法(Synthetic Minority Over-Sampling Technique for Regression with Gaussian Noise)[12]是一種針對回歸問題的數(shù)據(jù)不平衡過采樣方法。其主要思想是通過合成少數(shù)類樣本來平衡類別分布。該方法首先計算每個少數(shù)類樣本的K個最近鄰,然后根據(jù)樣本與鄰近樣本的相對距離和密度計算插值參數(shù),調(diào)整以保持?jǐn)?shù)據(jù)的連續(xù)性和分布特性。最后,在特征空間中生成合成樣本,使其分布與原始數(shù)據(jù)相似。經(jīng)過多次迭代,SMOGN算法能夠有效處理回歸問題中的類別不平衡,提高模型對少數(shù)類樣本的預(yù)測性能。
1.4.3" 環(huán)境變量多重共線性判斷及其消除
1)方差膨脹因子。方差膨脹因子(Variance Inflation Factor,VIF)[13]是衡量自變量間多重共線性程度的指標(biāo)。在回歸分析中,自變量之間的多重共線性會影響模型的穩(wěn)定性和可靠性,導(dǎo)致回歸系數(shù)的估計不準(zhǔn)確。計算VIF的方法是將每個自變量作為因變量,其余自變量作為自變量進行線性回歸分析(式(1))。若某個自變量的VIF較大(一般VIFgt;10),則表明該自變量可能存在嚴(yán)重的多重共線性問題。
式中:R2是該自變量與其他自變量之間的決定系數(shù)。
2)主成分分析。主成分分析(Principal Component Analysis,PCA)通過線性變換將原始數(shù)據(jù)轉(zhuǎn)換成一組各維度之間相關(guān)性較小的新變量,這些新變量被稱為主成分。通過主成分分析,可以將原始的高維數(shù)據(jù)轉(zhuǎn)換為低維的主成分,這些主成分是原始變量的線性組合,彼此之間是正交的,即不相關(guān)。因此,通過PCA降維后的數(shù)據(jù)可以減少自變量之間的相關(guān)性,有助于緩解多重共線性問題。
3)逐步回歸。逐步回歸(Stepwise Regression,SR)在一定程度上可以幫助消除多重共線性。通過逐步選擇與pH最相關(guān)的自變量,并排除不必要的變量。在每一步中,逐步回歸算法會根據(jù)AIC(赤池信息)準(zhǔn)則評估模型的性能,從而決定是否添加或移除變量。這個過程有助于減少模型中不相關(guān)或高度相關(guān)的變量,從而降低多重共線性的影響。
1.5" 模型精度評價方法
平均絕對誤差(MAE,用EMA表示)表示推測值與實測值偏差的算術(shù)平均值(式(2));均方根誤差(RMSE,用ERMS表示)表示推測值與實測值偏差的平方和觀測次數(shù)比值的平方根(式(3))。EMA和ERMS越趨于0,說明模型估算精度越高[14]。選取以上2個模型精度指標(biāo)評價模型推測結(jié)果。公式如下
2" 結(jié)果與分析
2.1" 環(huán)境變量重要性選擇
本研究運用隨機森林模型中的基尼系數(shù),對環(huán)境變量進行重要性排序,結(jié)果如圖1所示。經(jīng)過對比多次交叉驗證結(jié)果,最終選擇模型中變量重要性排序前70%的環(huán)境變量能夠提升模型的性能。所選環(huán)境變量分別為:經(jīng)度、年均降水、高程、PC1、NDVI、緯度、SPI、均值、剖面曲率、相關(guān)性、協(xié)同性、二階矩、信息熵和TWI。
2.2" 顧及數(shù)據(jù)不平衡性和不顧及數(shù)據(jù)不平衡性的實驗對比
根據(jù)原始樣點屬性pH分布情況(圖2(a)),可以看出pH范圍為6.0~8.0,但是兩邊極端值范圍內(nèi)的樣點數(shù)較少,導(dǎo)致在隨機森林模型訓(xùn)練過程中數(shù)據(jù)表現(xiàn)不佳。對此運用SMOGN算法生成新的合成數(shù)據(jù)集(圖2(b))。
對不顧及和顧及數(shù)據(jù)不平衡性的樣點數(shù)據(jù)分別使用隨機森林模型進行土壤pH的推測制圖。結(jié)果如下:由圖3看出,不顧及數(shù)據(jù)不平衡性(RF)土壤pH范圍集中在6.7~7.0,土壤均為中性,這與實際情況顯然有偏差,導(dǎo)致土壤pH不再出現(xiàn)偏酸和偏堿的現(xiàn)象,影響了農(nóng)業(yè)管理的正常決策。而顧及數(shù)據(jù)不平衡性(SMOGN_RF)的土壤pH范圍在6.4~7.7均有分布,更符合實際情況。
2.3" 顧及多重共線性和不顧及多重共線性的實驗對比
通過對重要性排序后的環(huán)境變量進行多重共線性檢驗,結(jié)果表明環(huán)境變量之間存在多重共線性問題。為避免多重共線性對模型精度造成影響,通過計算膨脹因子VIF、主成分分析(PCA)和逐步回歸(SR)3種方法,消除環(huán)境變量之間的相關(guān)性,從而解決多重共線性問題。
計算所有環(huán)境變量的膨脹因子VIF,對VIFgt;10的環(huán)境變量由大到小逐次刪除。最終選擇如下10個環(huán)境變量:經(jīng)度、緯度、DEM、剖面曲率、NDVI、TWI、PC1、相關(guān)性、協(xié)同性和二階矩。
對環(huán)境變量進行KMO和巴特利特球形檢驗,結(jié)果為0.605(gt;0.5)且sig值顯著。故可開展主成分分析。依據(jù)特征值大于1的原則,共提取5個主成分,累計貢獻率達(dá)78.97%。而由表2可知第6個主成分特征值接近1,且累計貢獻率達(dá)85.24%,因此選為第6個主成分,能基本代表環(huán)境變量絕大部分信息。
逐步回歸分析中,設(shè)置進入和除去的概率為0.05、0.10,最終選擇如下8個環(huán)境變量:經(jīng)度、緯度、DEM、TWI、SPI、剖面曲率、相關(guān)性和NDVI。
對上述3種消除多重共線性與存在多重共線性的環(huán)境變量分別構(gòu)建顧及數(shù)據(jù)不平衡性下的隨機森林模型,并對比其土壤PH分布(圖4)。由表3可以看出在顧及數(shù)據(jù)不平衡性的情況下VIF(SMOGN_
RF-VIF)、主成分(SMOGN_RF-SR)以及逐步回歸(SMOGN_RF-PCA)消除多重共線性土壤pH變化分別是6.52~7.60、6.52~7.64和6.59~7.51。且主成分下土壤pH基本統(tǒng)計特征與表層樣點數(shù)據(jù)最相似。
依據(jù)式(2)和式(3),表4在顧及數(shù)據(jù)不平衡性情況下,運用3種消除多重共線性方法,對30%的獨立樣本進行精度驗證。結(jié)果如下:平均絕對誤差SMOGN_RF-PCAlt;SMOGN_RF-VIFlt;SMOGN_RFlt;SMOGN_RF-SR,范圍為0.300 9~0.314 9,均方根誤差SMOGN_RF-PCAlt;SMOGN_RF-VIFlt;SMOGN_RFlt;SMOGN_RF-SR,范圍為0.380 1~0.396 4。主成分分析推測精度均高于其余2種方法推測精度。
由上文結(jié)果可知,顧及數(shù)據(jù)不平衡性下主成分分析精度最高,因此將其與原始數(shù)據(jù)集進行總樣本精度驗證,原始數(shù)據(jù)集精度EMA為0.300 8,ERMS為0.380 0,而顧及數(shù)據(jù)不平衡性下主成分分析精度EMA為0.283 4,ERMS為0.356 9。平衡數(shù)據(jù)下主成分分析精度與原始數(shù)據(jù)集相比較EMA提高了1.74%,ERMS提高了2.31%。
3" 討論
鄧州市是河南省的農(nóng)業(yè)大市,土壤pH直接影響植物生長和養(yǎng)分轉(zhuǎn)化,范圍為6.0~8.0,涵蓋酸性、中性和堿性反應(yīng)。使用隨機森林方法進行推測時,由于數(shù)據(jù)不平衡,結(jié)果僅顯示中性反應(yīng),與鄧州市實際土壤pH變化存在差異,這可能對農(nóng)業(yè)產(chǎn)生重大影響。通過SMOGN算法增加稀少數(shù)據(jù)的采集概率,推測結(jié)果包括酸性、中性和少量堿性反應(yīng),更符合實際情況。總樣本檢驗顯示,不平衡數(shù)據(jù)的精度高于原始數(shù)據(jù),反映了土壤pH的真實空間分布。
本研究中,隨機森林不僅用于推測制圖,也評估環(huán)境變量的重要性。經(jīng)過重要性排序和膨脹因子檢驗,發(fā)現(xiàn)重要性得分較高的變量之間存在多重共線性,影響模型穩(wěn)定性和準(zhǔn)確性。周洋等[15]在環(huán)境變量選擇時同樣考慮到多重共線性對模型精度的影響,但是僅計算了所有環(huán)境變量的方差膨脹因子(VIF),并去除了VIFgt;10的變量。本文采用膨脹因子、主成分分析和逐步回歸方法處理環(huán)境變量,優(yōu)化模型,保留對推測影響最大的變量,減少共線性影響,提高模型精度和穩(wěn)健性。
4" 結(jié)論
本研究以河南省鄧州市土壤pH的數(shù)字土壤屬性制圖為對象,優(yōu)化了隨機森林方法的預(yù)處理階段。通過SMOGN算法,有效減弱了數(shù)據(jù)分布的不平衡性;主成分分析則消除了環(huán)境變量的多重共線性。將這2種優(yōu)化手段結(jié)合后,實驗結(jié)果顯示,隨機森林的推測精度顯著提升。本文提出的預(yù)處理優(yōu)化方法更好地反映了鄧州市土壤pH的空間分布。實采土壤樣本數(shù)據(jù)顯示,東北部土壤偏堿,東南部土壤偏酸,推測圖中的pH分布與實際情況一致,呈現(xiàn)出東部和東北部偏堿、西北部和東南部偏酸的空間分布規(guī)律,推測值更符合實際,精度更高。
參考文獻:
[1] 趙明松,陳宣強,徐少杰,等.基于MGWR的土壤pH值空間建模及其影響因素分析[J].環(huán)境科學(xué),2023,44(12):6909-6920.
[2] 溫皓天,董秋瑤,王攀,等.桐柏山北麓土壤pH值空間分布特征及其影響因素[J].土壤通報,2023,54(2):295-305.
[3] 朱阿興,楊琳,樊乃卿,等.數(shù)字土壤制圖研究綜述與展望[J].地理科學(xué)進展,2018,37(1):66-78.
[4] 梅帥,童童,應(yīng)純洋,等.基于機器學(xué)習(xí)的數(shù)字土壤制圖研究進展[J].農(nóng)業(yè)資源與環(huán)境學(xué)報,2024,41(4):744-756.
[5] 楊雨菲,韓浩武,陳榮,等.數(shù)字土壤制圖的推理方法對比研究[J].土壤通報,2020,51(5):1016-1023.
[6] 龐龍輝,劉峰,趙霞,等.青海省表層土壤屬性數(shù)字制圖[J].土壤通報,2019,50(3):505-513.
[7] DENG X ,CHEN X ,MA W , et al.Baseline map of organic carbon stock in farmland topsoil in East China[J].Agriculture, Ecosystems and Environment,2018(254):213-223.
[8] 楊陽,葉江霞,王艷霞,等.基于空間大數(shù)據(jù)及機器學(xué)習(xí)的紅壤數(shù)字制圖研究[J].西部林業(yè)科學(xué),2021,50(6):31-39.
[9] 楊珺婷,李曉松.應(yīng)用哨兵2號衛(wèi)星遙感影像數(shù)據(jù)和機器學(xué)習(xí)算法對錫林郭勒草原土壤表層有機碳及全氮的估算[J].東北林業(yè)大學(xué)學(xué)報,2022,50(1):64-71.
[10] 呂紅燕,馮倩.隨機森林算法研究綜述[J].河北省科學(xué)院學(xué)報,2019,36(3):37-41.
[11] HAO SUN, XU QIAN, ZHIYU ZHAO. Monthly gap-filled CCI soil moisture over region of China (Combined Product)[DS/OL]. V1. Science Data Bank, 2023[2024-05-09].https://cstr.cn/31253.11.sciencedb.07849.CSTR:31253.11.sciencedb.07849.
[12] BRANCO P, TORGO L, RIBEIRO R P. SMOGN: a pre-processing approach for imbalanced regression[C]//First international workshop on learning with imbalanced domains: Theory and applications. PMLR, 2017: 36-50.
[13] 馬良玉,程東炎,梁書源,等.基于LightGBM-VIF-MIC-SFS的風(fēng)電機組故障診斷輸入特征選擇方法[J].熱力發(fā)電,2024,53(1):154-164.
[14] 劉傲,趙東保,魏義長,等.顧及時空特征的參考作物蒸散量集成學(xué)習(xí)估算[J].排灌機械工程學(xué)報,2024,42(2):179-186,193.
[15] 周洋,趙小敏,郭熙.基于多源輔助變量和隨機森林模型的表層土壤全氮分布預(yù)測[J].土壤學(xué)報,2022,59(2):451-460.
基金項目:國家自然科學(xué)基金(41971346);四川省科技計劃項目重點研發(fā)項目(2022YFN002)
第一作者簡介:王鳳儀(1999-),女,碩士研究生。研究方向為數(shù)字土壤制圖。
*通信作者:趙東保(1979-),男,博士,教授。研究方向為空間數(shù)據(jù)融合、空間數(shù)據(jù)挖掘。