中圖分類號:S158 文獻(xiàn)標(biāo)志碼:A 文章編號:1672-1098(2025)02-0042-09
引文格式:,等.采樣密度對土壤全氮隨機森林模擬精度的響應(yīng)[J].安徽理工大學(xué)學(xué)報(自然科學(xué)版),2025,45(2) :42-50.
Impact of Sampling Density on the Spatial Prediction Accuracy of Soil Total Nitrogen by Using Random Forest LI Xiaopeng1 ,ZHANG Shiwen' ,LIU Xiaoxue2,YAN Fang2 KONG Chenchen1 ,JIAO Yangqing' ,ZHAO Baoyu
(1.SchoolofEarthandEnvironmnt,AnhuiUniversityofSienceandTechnology,HuainanAnhui220o1,China;2.FengtaiAgriculturalProductsQualityandSafetyIspectioStation,BeijingOoo,China;3.DepartmentofFarmlandInformationMaagee, Beijing Cultivated Land Construction and Protection Center,Beijing 1OOo2O,China) Abstract:Objective A reasonable sampling densityfor regional soil total nitrogen(STN) investigation enables accurate assessment of STN content dynamics whileoptimizing resource eficiency. Understandingsampling density on spatial simulation accuracy is therefore crucial.Methods Byutilizing soil sampledata from Fangshan District,Beijing,optimal sampling numbers were calculated and diferent density gradients were established.Topographicand vegetation variables were incorporatedas auxiliary factors in random forest modeling to predictSTNspatial distribution and evaluate sampling density impacts on simulation accuracy.Results Sampling density determination solely by Cochran's formula (neglecting spatial heterogeneity)resulted in low STN predictionaccuracy.Semivariogram analysis revealed moderate spatial autocorrelation of STN. Spatial distribution exhibited a west-high-eastlow patern,aligning with elevation trends. Increased sampling density significantly enhanced random forest accuracy until reaching 37O samples,beyond which accuracy stabilized. Maximum R2(0.82) and minimum RMSE (204號 (0.15g/kg) ) occurred at 497 samples.Conclusion The optimal sampling density for STN prediction in Fangshan District ranges between 222 and 37Osamples,balancing accuracy and cost-effctiveness.This finding providesguidance for regional soil surveys.
Key Words : soil total nitrogen ;sampling density ;spatial interpolation;random forest ;interpolation accuracy
土壤全氮(Soil total nitrogen,STN)是決定土壤質(zhì)量的主要因素,也是衡量土壤肥力的重要指標(biāo),由于人為活動[1]、成土因素[2]和地形因子[3]等環(huán)境因子的影響,STN通常表現(xiàn)出顯著的變異,準(zhǔn)確估計STN的空間分布可為農(nóng)業(yè)管理提供理論支持和指導(dǎo)[4]。地理信息技術(shù)的發(fā)展與成熟使得環(huán)境因子的獲取變得容易,文獻(xiàn)[5]為實現(xiàn)一定區(qū)域內(nèi)土壤屬性的預(yù)測提出數(shù)字土壤制圖方法。
目前,土壤制圖領(lǐng)域廣泛應(yīng)用地統(tǒng)計和地理加權(quán)回歸等方法來預(yù)測STN的空間分布。由于土壤與環(huán)境變量之間存在復(fù)雜的非線性關(guān)系,并不是簡單的線性關(guān)系,故上述方法存在一定的局限性。文獻(xiàn)[6-8]將人工神經(jīng)網(wǎng)絡(luò)、回歸樹和隨機森林等機器學(xué)習(xí)模型應(yīng)用于土壤屬性預(yù)測,隨機森林模型因為其能夠避免過度學(xué)習(xí)和過擬合,計算相對簡單,預(yù)測效果較穩(wěn)定,在土壤屬性預(yù)測中被廣泛應(yīng)用[9] O
由于土壤采樣的局限性,需對給定數(shù)量的樣點數(shù)據(jù)進(jìn)行插值,實現(xiàn)土壤屬性的預(yù)測分析。因此,在確保插值精度的前提下,篩選最為科學(xué)合理的采樣點密度,使得樣點具有代表性,并降低采樣和分析成本,具有重要的科學(xué)和現(xiàn)實意義[10-11] 。
本研究以北京市房山區(qū)土壤全氮為研究對象,基于2022年耕地質(zhì)量調(diào)查數(shù)據(jù),探究不同采樣點密度下土壤全氮的空間分布與其變異特征,并選擇與土壤全氮含量相關(guān)性較大的因子作為輔助變量,利用隨機森林模型對研究區(qū)王壤全氮含量的空間分布進(jìn)行插值預(yù)測,以均方根誤差(RMSE)和決定系數(shù) (R2) )作為精度評價指標(biāo),揭示其插值精度隨采樣密度差異的變化規(guī)律,為今后土壤全氮的預(yù)測及合理采樣密度的選擇提供理論依據(jù)研究區(qū)數(shù)據(jù)
1.1 研究區(qū)概況
房山區(qū)位于北京市西南部,處于華北平原與太行山交界地帶,
總面積 2 019km2 。該地區(qū)屬于暖帶大陸性氣候,山區(qū)與平原間相對高差懸殊,氣候有明顯差異。平原地區(qū)平均氣溫 13.2% ,西部山區(qū)平均氣溫11.3c 。平原地區(qū)降水量 670.4mm ,西部山區(qū)降水量 674.9mm ,土地利用類型以林地為主,分布于全區(qū)西部和北部等大部分山區(qū),其次為耕地,主要分布于東部平原地帶(見圖1)。

1. 2 樣點數(shù)據(jù)的獲取與分析
研究區(qū)耕地土壤全氮含量數(shù)據(jù)來源于“耕地質(zhì)量等級調(diào)查評價項目”,于2022年完成野外采樣工作。按照《耕地地力調(diào)查與質(zhì)量評價技術(shù)規(guī)程0 NY/T1634-2008) 要求,在目標(biāo)地塊采用“S”型取樣法布設(shè)采樣點,采集 (0~20)cm 耕層土壤并混合均勻,保留 1kg 土樣密封保存后帶回實驗室。土壤樣品經(jīng)自然風(fēng)干后剔除植物殘根與碎石等雜質(zhì),利用研缽研磨并通過 0.25mm (60目)尼龍篩,過篩后置于干燥器中保存?zhèn)溆?。全氮含量測定采用丹麥FOSS公司生產(chǎn)的Kjeltec8400型半微量凱氏定氮儀,通過濃硫酸-硫酸銅催化劑消解、氫氧化鈉堿化蒸餾、硼酸吸收及 0.01mol/L 鹽酸標(biāo)準(zhǔn)溶液滴定等步驟,根據(jù)鹽酸標(biāo)準(zhǔn)溶液的用量計算得出土壤全氮含量。剔除異常值后最終獲得有效土壤樣點數(shù)據(jù)497個。
1.3 環(huán)境因子及其數(shù)據(jù)來源
初步選擇了8種環(huán)境因子作為輔助變量對研究區(qū)土壤全氮進(jìn)行預(yù)測,分別包括地形因子和植被因子,各輔助變量的基本信息及數(shù)據(jù)來源如表1所示。

2 研究方法
2. 1 不同采樣密度的設(shè)置
本文采用Cochran針對與區(qū)域純隨機采樣而構(gòu)造的最佳采樣數(shù)量計算公式,計算所需的最佳采樣數(shù)量,計算公式為

式中, n 所需的取樣數(shù)量; ΨtΨt 為顯著性水平相對應(yīng)的標(biāo)準(zhǔn)正態(tài)偏差; Std 為樣本標(biāo)準(zhǔn)差; d 為樣本平均值$\overrightharpoon { X }$ 乘以相對誤差。置信水平為 95% ,對應(yīng)的Z標(biāo)準(zhǔn)化正態(tài)偏差為1.96。
在特定區(qū)域的土壤研究中,一定的置信區(qū)間內(nèi),土壤取樣的合理數(shù)量直接受允許誤差大小的影響。理論上,誤差越小越好。但如果對誤差的要求過高,會顯著增加取樣數(shù)量,從而提升采樣和分析成本;而過于寬松的誤差要求,則無法滿足精度需求[11]。目前,由于對允許誤差還沒有統(tǒng)一的認(rèn)識,大部分學(xué)者在研究中計算了 5%15%.20% 條件下的合理采樣數(shù)[12-14]。根據(jù)上述公式,計算了房山地區(qū)土壤全氮含量在 95% 置信水平和一定誤差要求下的合理采樣密度(見表2)。

根據(jù)式(1)計算497個樣點數(shù)下, 95% 置信水平, 20% 均值允許誤差條件下,計算出合理采樣數(shù)目為37個。隨著相對誤差要求的降低,土壤全氮所要求的取樣數(shù)量大幅度下降, 5% 相對誤差 95% 置信水平下需要596個土壤樣本,而 20% 的相對誤差只需要37個土壤樣本。雖然Cochran公式顯著降低采樣密度,但是這是建立在土壤全氮含量在空間上完全獨立的假設(shè)上,沒有考慮樣點的空間位置和布局,具有一定局限性[15]
為了獲得更加合理的采樣密度,利用合理采樣數(shù)目的不同倍數(shù)梯度設(shè)置以及近粗遠(yuǎn)細(xì)原則,設(shè)置6個大的樣點集497(Density1, D1 ) ,370(D2) 、222(D3).148(D4).74(D5).37(D6) ,以及4個小的樣點集(444、407、333、296),樣點分布如圖2所示。

2.2 建模方法
隨機森林是一種集成學(xué)習(xí)智能算法,由大量決策樹構(gòu)成,每棵樹進(jìn)行獨立分類運算得到各自的分類結(jié)果,根據(jù)每棵樹的分類結(jié)果投票決定最終結(jié)果[16]。隨機森林算法是基于傳統(tǒng)決策樹的統(tǒng)計學(xué)習(xí)理論,可有效處理高維數(shù)據(jù),具有較高的預(yù)測準(zhǔn)確率,克服了過擬合的問題。本文使用隨機森林算法,對土壤全氮進(jìn)行建模和預(yù)測
2.3 地統(tǒng)計分析
本研究采用均方根誤差(RMSE)和決定系數(shù)(R2) 來檢驗空間預(yù)測精度和模型模擬效果,計算公式如下:


式中, Oi 為土壤樣點的STN測量值; Mi 為輸出的STN預(yù)測值
和
分別為驗證土壤樣點STN預(yù)測值和實測值的均值; n 為驗證集土壤樣點數(shù)量;σ2 為預(yù)測值的預(yù)測方差;RMSE用來評價預(yù)測的準(zhǔn)確性,RMSE值越小,預(yù)測結(jié)果越準(zhǔn)確; R2 也稱為擬合優(yōu)度,取值范圍 0~1,R2 越大表明模擬的精度越高[17] O
2.4 數(shù)據(jù)處理與分析
運用統(tǒng)計軟件SPSS27.0進(jìn)行對土壤全氮含量的描述性統(tǒng)計分析,利用 GS+ 對不同采樣密度土壤全氮含量進(jìn)行半方差分析,通過SPSS軟件對輔助變量進(jìn)行相關(guān)性分析并篩選,最終通過Matlab2023a 中的TreeBagger涵數(shù)對研究區(qū)土壤全氮進(jìn)行空間預(yù)測。
3 結(jié)果與分析
3.1不同采樣密度下土壤全氮描述性統(tǒng)計分析
不同采樣密度土壤全氮含量統(tǒng)計結(jié)果如表3所示。研究區(qū)土壤全氮含量在 (0.24~5.74)g/kg 之間,全樣點下土壤全氮平均含量為 1.50g/kg ,變異系數(shù)為 62.34% ,為中等變異。5個樣點子集均在全集的平均值上下波動,說明盡管采樣點密度減少,但是仍然保證了與全集基本一致的統(tǒng)計學(xué)特征,各樣點密度均具有一定的代表性。 D6 樣點集合變異系數(shù)較大,屬于強中等變異,表明樣點密度的減小,導(dǎo)致數(shù)據(jù)離散程度增加

3.2 不同采樣密度下土壤全氮半方差分析
半方差函數(shù)是地統(tǒng)計學(xué)中描述變量的定量參數(shù),在土壤元素空間變異性研究中應(yīng)用廣泛,用于揭示區(qū)域化變量的隨機性和結(jié)構(gòu)性特征。土壤屬性的空間變異受結(jié)構(gòu)性和隨機性因素共同影響,半方差函數(shù)模型是分析土壤屬性空間變異結(jié)構(gòu)的重要途徑[18],不同采樣密度土壤全氮含量的半方差分析結(jié)果如圖3所示。 D1,D3,D4 和 D6 采樣密度下的土壤全氮符合具有塊金效應(yīng)的指數(shù)模型, D3 和 D5 采樣密度的土壤全氮符合具有塊金效應(yīng)的球狀模型。6種采樣密度的土壤全氮變異函數(shù)擬合殘差分別為 9. 08×10-2?2. 31×10-2?1. 06×10-2 2.79×10-3,1.48×10-3,1.35×10-3 ,隨著樣點密度的增加,決定系數(shù) r2 逐漸增加,殘差逐漸減小,變異函數(shù)的擬合效果整體上呈優(yōu)化趨勢。各采樣密度塊金基比 C0/(C0+C) 均處于 25%~75% ,表明研究區(qū)內(nèi)土壤全氮具有中等強度的空間相關(guān)性。

3.3土壤全氮空間分布預(yù)測結(jié)果
對于變量輔助下的空間插值方法,利用SPSS軟件,通過土壤全氮與輔助變量之間的相關(guān)性,保證用于輔助的輔助變量與待插值土壤全氮存在顯著相關(guān)性,以判斷哪些輔助變量可以保留在模型中,去除輔助變量之間的共線性,篩選最優(yōu)最小輔助變量集(見圖4)。

以0.01水平(雙側(cè))上呈顯著相關(guān)為篩選標(biāo)準(zhǔn),高程(EL)、坡度(Slope)具有強相關(guān)性,植被指數(shù)(NDVI)和有一定相關(guān)性。因此選擇高程、坡度、歸一化植被指數(shù)(NDVI)和地形濕度指數(shù)(TWI)為輔助變量。
基于不同采樣密度,對研究區(qū)土壤全氮進(jìn)行空間預(yù)測,結(jié)果顯示(見圖5),融合一定環(huán)境因子的隨機森林模型能夠揭示因地形變化引起的土壤全氮空間分布的細(xì)節(jié)信息。研究區(qū)土壤全氮含量總體呈西高東低趨勢,與高程分布大體一致??臻g預(yù)測結(jié)果基本隨采樣密度的提高對細(xì)節(jié)的反應(yīng)能力越來越強,然而當(dāng)采樣密度增加到158時,西北部土壤全氮含量因受地形因子影響較大,出現(xiàn)明顯的局部高估現(xiàn)象,空間預(yù)測細(xì)節(jié)特征無法被準(zhǔn)確表達(dá)。由此可見,利用隨機森林方法對該區(qū)域土壤全氮進(jìn)行空間預(yù)測時,樣點密度應(yīng)控制在222以上為宜。


3.4最優(yōu)樣本集確定
根據(jù)驗證點上預(yù)測值與實測值的對比,計算不同采樣密度的RMSE和 R2 ,結(jié)果如圖6所示。整體上,隨采樣點密度的增加,RMSE減小, R2 則呈增大趨勢,僅在個別樣點數(shù)量時出現(xiàn)偏離。采樣密度從 D4 到 D3,R2 出現(xiàn)了降低,可能是隨著樣點密度的變化,部分樣點處于過于分散,過于聚集的狀態(tài)。盡管樣點密度為 D1 時RMSE最小, R2 最大,預(yù)測精度最高,但考慮到樣點密度由 D3 增加到 D2 檔時, R2 增長逐漸平緩,樣點數(shù)從 D3 增加到296、從296增加到333、從333增加到 D2 間的 R2 增幅分別為 4.40%.1.14%.3.57% ,精度差異相對較小,且當(dāng)樣點密度達(dá)到 D2 后, R2 的變化幅度已趨于平穩(wěn)。因此考慮最優(yōu)采樣點密度應(yīng)在 D3 到 D2 之間。

一般來說,土壤采樣密度越大,所得結(jié)果越能準(zhǔn)確揭示土壤屬性空間分布的信息,但綜合考慮土壤樣品采集和分析費用及時間成本,因此應(yīng)在成本與精度之間尋找一個切合點。結(jié)合圖5的空間預(yù)測分布圖,對于房山區(qū)而言,從經(jīng)濟節(jié)約考慮,利用隨機森林方法對土壤全氮進(jìn)行空間預(yù)測的最優(yōu)樣本集應(yīng)達(dá)到 D3 ,其結(jié)果基本可滿足區(qū)域土壤全氮空間預(yù)測的需要。如需進(jìn)一步提高精度且成本允許的情況下,可以適當(dāng)增加采樣密度,但不應(yīng)超過D2 ,避免因樣點密度的增加造成人力物力的浪費。
4討論與結(jié)論
研究表明,研究區(qū)土壤全氮平均含量為 1.50g/kg 變異系數(shù)為 62.34% ,屬于中等變異。基于經(jīng)典統(tǒng)計學(xué)的Cochran最佳采樣數(shù)量公式,在 95% 置信水平下,只需要37個樣點就可以滿足 5% 誤差要求。然而,不論從半方差函數(shù)的可靠性,還是從驗證結(jié)果以及空間分布情況均可發(fā)現(xiàn),37個樣點不能很好的反應(yīng)空間分布的細(xì)節(jié),隨著樣點密度的增加,預(yù)測的精度逐漸增大,變異函數(shù)的擬合效果也逐漸優(yōu)化。當(dāng)樣點數(shù)量增加到158個時,空間分布預(yù)測結(jié)果出現(xiàn)了局部高估的情況,當(dāng)樣點數(shù)達(dá)到222個時,空間預(yù)測結(jié)果以及精度均較可靠地反映了研究區(qū)土壤全氮的空間分布情況。利用Cochran公式計算的最佳采樣數(shù)量明顯少于實際需要的最小采樣量。如果不考慮當(dāng)?shù)赝寥廊目臻g變異,直接使用Cochran公式在給定置信區(qū)間和誤差要求下確定采樣數(shù)量,可能會導(dǎo)致預(yù)測誤差和不確定性超過預(yù)期。
當(dāng)樣點密度超過370個時,采樣點密度的增加對于預(yù)測精度的影響變?nèi)酰虼丝紤]經(jīng)濟成本,采樣點設(shè)置為222為最優(yōu)密度。若出于對更高精度的需求,可以適當(dāng)增加樣點密度,當(dāng)樣點超過370時,預(yù)測精度變化趨勢已趨于平穩(wěn),說明對于研究區(qū)基于部分環(huán)境輔助變量進(jìn)行隨機森林插值預(yù)測時,采樣密度不是制約其精度的唯一原因,未來還應(yīng)考慮采樣模式和輔助變量的選擇等其他影響方式對土壤全氮空間預(yù)測分布的影響。
參考文獻(xiàn):
[1]CAO Q,LI J,WANG G,et al. On the spatial variability and influencing factors of soil organic carbon and total nitrogen stocks in a desert oasis ecotone of northwestern China[J].CATENA,2021,206:105533.
[2]LARSSON M,BERGMAN J,OLSSON P A.Soil,fertilizer and plant density:exploring the influence of environmental factors to stable nitrogen and carbon isotope composition in cereal grain[J]. Journal of Archaeological Science,2024,163:105935.
[3]DAI L,GE J,WANG L,et al. Influence of soil properties,topography,and land cover on soil organic carbon and total nitrogen concentration:a case study in qinghaitibet plateau based on random forest regression and structural equation modeling[J]. Science of the Total Environment,2022,821:153440.
[4] METZGER K,BRAGAZZA L. Prediction of nitrogen ,active carbon,and organic carbon-to-clay ratio in agricultural soils by in-situ spectroscopy[J]. European Journal of Soil Science,2024,75(3) :e13508.
[5]ZHOU T,GENG Y,CHEN J,et al. High-resolution digital mapping of soil organic carbon and soil total nitrogen using DEM derivatives,sentinel-1 and sentinel -2 data based on machine learning algorithms[J].Science of the Total Environment,2020,729:138244.
[6] LIN L,LIU X. Mixture-based weight learning improves the random forest method for hyperspectral estimation of soil total nitrogen[J]. Computers and Electronics in Agriculture,2022,192:106634.
[7] VARGA I,RADOCAJ D,JURISIC M,et al. Prediction of
sugar beet yield and quality parameters with varying ni-trogen fertilization using ensemble decision trees and ar-tificial neural networks[J]. Computers and Electronicsin Agriculture,2023,212:108076.
[8]FENG B,MA J,LIU Y,et al. Application of machinelearning approaches to predict ammonium nitrogentransport in diferent soil types and evaluate the contri-bution of control factors[J]. Ecotoxicology and Environ-mental Safety,2024,284:116867.
[9]李濤宇,許秀春,楊軒,等.利用隨機森林和 XGBoost預(yù)測華北地區(qū)冬小麥生產(chǎn)中的氮淋失[J/OL].中國環(huán)境科學(xué).https://doi.org/10.19674/j.cnki.issn10006923. 20241011. 001.
[10]申志成,孫在金,徐靖文,等.不同采樣密度下區(qū)域耕地土壤鎘污染評估的不確定性分析[J].農(nóng)業(yè)環(huán)境科學(xué)學(xué)報,2024,43(11):2 545-2 552.
[11]彭敏,李括,劉飛,等.東北平原區(qū)地塊尺度土地質(zhì)量地球化學(xué)評價合理采樣密度研究[J].物探與化探,2019,43(2) :338-350.
[12]李凱,趙華甫,吳克寧,等.土壤重金屬Cd污染指數(shù)的適宜插值方法和合理采樣數(shù)量研究[J].土壤通報,2016,47(5) :1 056-1 064.
[13]謝志宜,肖娟,郭慶榮,等.基于三明治抽樣的市域耕地土壤重金屬監(jiān)測點位優(yōu)化布設(shè)方法[J].生態(tài)環(huán)境學(xué)報,2017,26(8):1 426-1 434.
[14]王銳,鄧海,賈中民,等.渝東南山區(qū)鄉(xiāng)鎮(zhèn)尺度土壤合理采樣數(shù)估算及重金屬污染評價[J].環(huán)境科學(xué)研究,2021,34(6):1 456-1 463.
[15]王子龍,陳偉杰,付強,等.土壤優(yōu)化采樣策略研究進(jìn)展[J].水土保持通報,2017,37(5):205-212.
[16]李富富,陳東湘,王院民,等.基于隨機森林與地統(tǒng)計預(yù)測城市土壤PAHs分布[J].中國環(huán)境科學(xué),2019,39(12) :5 240-5 247.
[17]姜霓雯,童根平,葉正錢,等.浙江清涼峰自然保護區(qū)土壤肥力指標(biāo)空間變異及其影響因素[J].生態(tài)學(xué)報,2022,42(6):2 430-2 441.
[18]王國芳,張吳平,畢如田,等.縣域尺度農(nóng)田深層土壤有機質(zhì)的估算及空間變異特征[J].農(nóng)業(yè)工程學(xué)報,2019,35(22) :122-131.
(責(zé)任編輯:李 麗)