999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于梯度提升樹算法的玉米施肥模型構建

2020-12-21 10:20:50嚴海軍
水資源與水工程學報 2020年4期
關鍵詞:產量模型

卓 越,嚴海軍

(中國農業大學 水利與土木工程學院,北京 100083)

1 研究背景

化肥使用對于提高農作物產量具有重要作用。但是長期以來,我國化肥投入結構不合理,肥料利用率低,造成養分比例失調。過度施用化肥不僅增加了生產成本,還導致產量下降,同時對環境和農作物造成嚴重污染[1-2]。實踐證明,精準施肥可以節約肥料、增加糧食產量、均衡土壤養分、減少環境污染[3-4],然而如何確定最佳施肥量是精準施肥的難點。因此,探究作物產量與施肥量等因素之間的關系,合理構建施肥模型、尋找最佳施肥量、實現精準施肥是被關注的研究熱點之一。

施肥決策模型主要有目標產量法、營養診斷法和肥料效應函數法[5]。其中肥料效應函數法是通過大量的田間試驗獲得施肥量與產量的關系,進而確定最優施肥量,為目前廣泛應用的一種施肥決策方法[6]。為了模擬施肥量等因素與產量之間的非線性關系,很多學者使用神經網絡的方法構建模型。馬成林等[7]先采用數據包絡分析法對數據進行預處理,再通過BP神經網絡建立模型,最終確定了最佳施肥方案。于合龍等[8]通過bagging算法生成多個BP神經網絡并通過拉格朗日乘子法進行集成從而建立模型,指出該方法優于常規BP神經網絡,并通過模型得到了最佳施肥方案。楊曉輝等[9]分別使用模擬退火算法和遺傳算法對BP神經網絡進行優化,進一步提高了施肥模型的擬合精度。王福林等[10]在模型輸入中加入玉米種植密度,使用BP神經網絡建模,得到了最佳種植密度與最佳施肥量模型,并進行了模型驗證。Dong等[11]采用小波神經網絡建立施肥模型,指出該方法的擬合精度優于隨機森林回歸與支持向量回歸,并使用模型確定了最佳施肥量。

以上研究表明,使用BP神經網絡或優化BP神經網絡可以描述施肥量等因素與作物產量之間的關系,從而制定施肥方案。然而BP神經網絡存在兩大缺陷。第一,BP神經網絡是一種個體學習器,有性能提升的瓶頸[12]。第二,BP神經網絡是一種“黑箱”模型,無法評估每個特征對輸出結果的影響程度,模型的可解釋性差[10,13]。梯度提升樹是一種常用的集成學習算法,該算法訓練多個個體學習器,再通過一定的策略結合,從而形成一個強學習器,具有擬合精度高、解釋性強等特點[14-17]。使用梯度提升樹算法建立的模型能有效地解決上述問題。本文以玉米“3414”試驗數據作為訓練樣本,通過插值算法對數據進行擴充,采用梯度提升樹算法建立施肥模型,并與常見的幾種建模方法進行對比。通過分析施肥模型求解出最大產量與最優施肥量,以期提供施肥指導。

2 材料與方法

2.1 數據集描述與處理

“3414”試驗是國內普遍采用的研究肥料效應的田間試驗方案[18],其中“3”指氮、磷、鉀3個因素,“4”指不施肥、最佳施肥量的0.5倍、最佳施肥量和最佳施肥量的1.5倍4種施肥水平,“14”指共有14種處理。

本文建模使用數據來自吉林省榆樹市10處玉米地的“3414”試驗[19]。在試驗區土壤類型、氣候等條件基本一致時,影響作物產量的因素為土壤氮、磷、鉀含量和氮、磷、鉀肥施用量這6個因素。依據當地的實際生產情況和專家經驗,得到氮、磷、鉀的最佳施用量分別為180、75和75 kg/hm2。表1列舉了10個試驗區的土壤養分含量,表2列舉了試驗區1的“3414”試驗處理與對應的產量。

表1 各試驗區的土壤養分含量 mg/kg

表2 試驗區1的14種施肥處理與產量 kg/hm2

由表2可以分析玉米施肥量與產量的關系。第2、3、6、11組數據中磷肥和鉀肥均處于最佳施用量,隨著氮肥施肥量的增加,產量呈先增加后減小的趨勢。觀察第4、5、6、7組數據,在氮肥和鉀肥處于最佳施用量時,隨著磷肥施肥量的增加,產量也呈現先增加后減小的趨勢。觀察第6、8、9、10組數據,對鉀肥也獲得相同結果。這種現象與實際情況相符,表明通過“3414”數據構建施肥模型是合理的。

表2提供的施肥量與產量數據在構建施肥模型時樣本數不夠,為此,可以通過插值算法在一定范圍內推求出新的數據點,進行數據集擴充[11]。常用的插值算法有線性插值法、多項式插值法和樣條插值法。其中線性插值法快速簡單但精度較差,而且在插值點處斜率會發生變化;多項式插值法是線性插值法的推廣,精度有所提高,但是在區間邊緣容易出現振蕩現象;樣條插值法使用特殊分段多項式進行插值,可以避免振蕩問題,精度較高。為了獲得更好的插值效果,本文采用2次樣條插值法。通過表2中的第2、3、6、11組數據可以建立試驗區1的氮肥施肥量與產量的插值曲線,其結果如圖1所示。從插值曲線上兩個相鄰的原始數據點之間選擇4個插值點從而可以得到16組數據。使用同樣的方法對磷肥施肥量、鉀肥施肥量進行插值。去掉重復的數據再加上原始數據,每個試驗區可以擴充為50組數據,對其余9個試驗區的數據進行相同的處理,可以將數據擴充為500組。

圖1 試驗區1氮肥施肥量與產量的插值曲線 圖2 不同學習率下模型迭代次數與決定系數的關系曲線

2.2 梯度提升樹

梯度提升樹(Gradient boosting decision tree,GBDT)是由Friedman[20]于2001年提出的一種集成學習算法。其主要思想是每次建立的新模型都基于上一個模型損失函數的負梯度,通過多個弱學習器合成為一個強學習器。當弱學習器為回歸樹時,其計算過程如下[21]。

步驟1:輸入訓練數據集D={(x1,y1),(x2,y2), … ,(xN,yN)}。模型的輸出為F(x),損失函數為L(y,F(x))。損失函數L的種類很多,常見的有平方差損失函數、絕對損失函數、Huber損失函數等。在梯度提升樹算法中通常使用平方差損失函數。

L(y,F(x))=(y-F(x))2

(1)

步驟2:初始化模型F0(x)。

(2)

式中:γ為葉子結點輸出值。

步驟3:對m= 1, 2, … ,M進行M次迭代,總共生成M個回歸樹。

(3)

(3)計算回歸樹Tm葉節點的最佳輸出值。

(4)

(4)更新模型

Fm(x)=Fm-1(x)+ν·γjm(x∈Rjm)

(5)

公式(5)中通常加入學習率ν來控制模型學習的速度,即每次更新Fm(x)之前,把葉子節點的輸出乘以學習率ν(0<ν≤1),以小的步長逐漸逼近最佳結果。

步驟4:迭代結束,生成模型。

2.3 模型構建

在構建模型之前首先要劃分數據集,一般選取2/3~4/5的樣本數據用于訓練,剩余樣本用于測試[22]。梯度提升樹模型中很多參數需要調整,為了評估模型在不同參數下的效果,需要從訓練集中選取一部分數據作為驗證集,用于模型調整模型參數[23]。由于本試驗的數據量較少,使用單獨劃分出的驗證集進行參數調整不具有代表性,因此采用交叉驗證的方式調整模型的參數。最終將500組數據隨機分為400組訓練數據和100組測試數據,以土壤氮、磷、鉀含量和氮、磷、鉀肥施用量為輸入量,以玉米產量為輸出量。采用5折交叉驗證和參數搜尋的方法調整模型參數。

在調節模型參數的過程中,通過score函數計算模型的決定系數R2來評判模型的優劣。首先調節迭代次數M和學習率ν。這兩個參數均可控制模型的擬合程度,改變其中一個參數會影響另一個參數的最佳值。通過參數搜尋的方式尋找迭代次數M與學習率ν的最優組合,不同學習率下迭代次數與模型決定系數的關系如圖2所示。由圖2可以看出,隨著迭代次數的增加,模型的精度越來越高;學習率較小時需要更大的迭代次數才能使模型達到較高的精度。迭代次數過少會導致模型的欠擬合,過多會導致模型的過擬合并且增加計算時間,綜合考慮選擇迭代次數M=100,學習率ν=0.1。同樣采用參數搜尋的方式可以確定回歸樹的最大深度為7,葉子節點最少樣本數為5,最大特征數為3。

3 結果與分析

3.1 預測結果與模型解釋

確定模型的最佳參數組合后使用全部訓練數據重新訓練模型,訓練結束后使用測試集檢驗模型。為了便于觀察,從100組測試數據中選取30組數據,將預測值與真實值進行對比,結果如圖3所示。由圖3可以看到產量的預測值與實際值基本吻合,只有少部分測試數據出現了偏差,表明模型的預測效果較好,準確度較高。

圖3 部分測試集模型預測值與真實值對比 圖4 模型各輸入變量的相對重要度

梯度提升樹模型通過每個變量在回歸樹中出現的次數來計算每個輸入變量的重要度[15],從而使模型具有一定的解釋性。圖4展示了每個輸入變量的相對重要度。可以看出,相對重要度最高的為土壤的含磷量SP,其次分別為施氮量FN、土壤含氮量SN、土壤含鉀量SK、施鉀量FK、施磷量FP。從氮、磷、鉀各元素的角度來看,氮元素和磷元素對產量的影響較大,而鉀元素對產量的影響較小。

當然,通過職業院校技能大賽,也反映出了我們在教學中的一些薄弱環節。如教學投入不足,教學實習和實訓設備不夠完善,選手不能適應競賽中采用的現代企業新設備、新技術、新流程,或在規定時間內完成不了比賽任務;基礎理論課教學與專業技能訓練沒有有機結合。應大力推行教學做一體化模式,使車間與教室合二為一,理論與實踐有機融合,努力培養更多高素質、技能型專業人才和實踐應用型能工巧匠。

3.2 模型比較

除了梯度提升樹之外,BP神經網絡(back propagation neural network, BPNN)、支持向量回歸(support vector regression, SVR)、隨機森林(random forest, RF)也是解決非線性問題的有力工具。為了進一步驗證梯度提升樹模型的效果,分別使用以上3種機器學習算法建立模型,并與梯度提升樹算法建立的模型進行對比。為了便于比較,使用各方法建模時,均以土壤氮、磷、鉀含量和氮、磷、鉀肥施用量作為輸入變量,使用產量作為輸出變量,并使用相同的訓練集進行訓練。

與梯度提升樹對比的3種算法中,BP神經網絡使用3層前饋網絡,隱含層個數確定為11[24],模型中加入L2正則化項防止過擬合,使用雙曲正切激活函數,用牛頓法進行迭代,建模之前對數據進行歸一化處理;支持向量回歸模型中引入RBF核函數來解決非線性問題,使用訓練集交叉驗證和網格搜索的方式最終確定懲罰系數C=115,核函數系數為0.1;隨機森林模型通過交叉驗證逐步調整模型參數,最終得到回歸樹個數Mt=250,回歸樹的最大深度為19,最大特征數為5。

采用相對誤差(RE)、均方根誤差(RMSE)和平均絕對誤差(MAE)作為模型的評價指標。圖5分別展示了4種模型在相同測試集上的相對誤差。由圖5(a)中可以看,出梯度提升樹模型的RE主要在0~1%的范圍內波動,有少部分測試數據的RE在1%~2%,平均相對誤差為0.46%。圖5(b)中BP神經網絡模型的RE主要在0~1%的范圍內波動,有少部分測試數據的RE在1%~2%,有極少測試數據的RE為2%~3%,平均相對誤差為0.54%。圖5(c)中支持向量回歸模型的RE波動較大,波動范圍主要在1%~6%,平均相對誤差為3.19%。圖5(d)中隨機森林模型的RE主要在0~2%的范圍內波動,少部分測試數據的RE位于2%~6%,平均相對誤差為1.00%。可以看出4種模型中,支持向量回歸模型的相對誤差最大,在數值上明顯高于其他3種模型;而梯度提升樹模型的相對誤差最小。

圖5 4種模型在相同測試集上的相對誤差

圖6展示了4種模型(GBDT、BPNN、SVR和RF)的均方根誤差與平均絕對誤差。其中梯度提升樹模型的RMSE和MAE分別為62.2和48.7kg/hm2,BP神經網絡模型的RMSE和MAE分別為78.5和56.5 kg/hm2,支持向量回歸模型的RMSE和MAE分別為371.6和337.5 kg/hm2,隨機森林模型的RMSE和MAE分別為133.8和104.6 kg/hm2。支持向量回歸模型的RMSE和MAE明顯高于其他3種模型,梯度提升樹、BP神經網絡、隨機森林3種模型的RMSE和MAE較小,其中梯度提升樹模型的RMSE和MAE最小。

圖6 4種模型的均方根誤差與平均絕對誤差

以上結果表明梯度提升樹算法建模效果最優,BP神經網絡和隨機森林次之,支持向量回歸最差。

3.3 確定最優施肥量

依據梯度提升樹算法構建的施肥模型可表示為:

Y=F(SN,SP,SK,FN,FP,FK)

(6)

式中:Y為產量,kg/hm2;SN、SP、SK分別為土壤中氮、磷、鉀的含量,mg/kg;FN、FP、FK分別為氮、磷、鉀肥施用量,kg/hm2;F為產量與土壤氮、磷、鉀含量和氮、磷、鉀肥施用量的函數關系。

因此在給定土壤養分含量的情況下,通過求解非線性規劃問題可以計算最大產量以及相應的施肥量。以試驗區1為例,已知:

(1)Y=F(SN,SP,SK,FN,FP,FK)

(2)SN= 102 mg/kg,SP= 45 mg/kg,SK= 156 mg/kg

(3)0

經過計算,可得試驗區1的最大產量與相應的最佳施肥量,即試驗區1的最佳施氮量為193 kg/hm2,施磷量為80 kg/hm2,施鉀量為73 kg/hm2,此時最大產量為10 161 kg/hm2。

使用相同的方法可以計算其他9個試驗區的最佳施肥量與產量。表3列舉了各試驗區的最優施肥量與產量。

表3 各試驗區的最優施肥量與產量 kg/hm2

由于梯度提升樹算法基于回歸樹,因此在一定土壤含量范圍內可能得出相同的最佳施肥量。然而各個試驗區的土壤養分含量不同,因此其最大產量也有所不同。由表3可知,試驗區7得到的產量最大,達到13 242 kg/hm2。

4 討 論

合理的施肥方案既可以提高作物的產量,同時也能減少環境污染。通過建立施肥模型尋找施肥量等因素與產量之間的關系,從而指導施肥是實現精準農業的關鍵。本文提出了一種基于梯度提升樹算法的施肥模型,得到了適合當地的最佳施肥量方案。

在4種建模方法的對比中,梯度提升樹算法建模效果最優,BP神經網絡和隨機森林其次,最后是支持向量回歸,這和Dong等[11]的研究結果十分接近。梯度提升樹算法和隨機森林算法均為基于決策樹的集成算法,建模精度較高。兩種算法的不同之處在于梯度提升樹的基學習器是串行生成,即每次生成的新學習器都是依據上一次的建模結果;隨機森林算法中的基學習器是并行生成,基學習器之間是獨立的。BP神經網絡模型雖然也有較高的建模精度,但是相比其他3種方法,在建模過程中需要更多參數調整,并且不同的參數組合對建模結果有較大的影響,相比兩種基于決策樹的建模方法缺少可解釋性。支持向量回歸雖然可以通過引入核函數的方式解決非線性的問題,但是在擬合的精度上不如其他3種方法。通過模型計算得到各試驗區的最佳施肥量盡管與當地的推薦量稍有不同,但在產量上有所提高,能夠給當地施肥提供技術指導。

本文提出的施肥模型考慮了土壤養分含量和總施肥量,因此只適用于土壤類型、氣候等條件基本一致的地區,存在一定的局限性。為了擴大施肥模型的適用范圍,使其具有更好的泛用性,今后應該在更廣泛的尺度上收集數據,并且在建模時考慮更多的影響因素。

5 結 論

(1)使用梯度提升樹算法建立的施肥模型可以反映土壤養分含量、施肥量與作物產量之間的關系,并對產量進行較高精度預測。

(2)對比4種建模方法發現,梯度提升樹模型最優,BP神經網絡和隨機森林模型次之,支持向量回歸模型最差,在今后實際應用中可以優先采用梯度提升樹算法進行建模。

(3)相比BP神經網絡、隨機森林和支持向量回歸模型,梯度提升樹算法建立的施肥模型具有更好的解釋能力。通過分析本文建立的施肥模型發現,影響產量較大的因素是土壤含磷量與施氮量,鉀元素對產量的影響較小。

(4)在已知土壤氮、磷、鉀養分含量情況下,由施肥模型可以得到最優施肥量方案和最大產量,從而有效指導施肥。

猜你喜歡
產量模型
一半模型
2022年11月份我國鋅產量同比增長2.9% 鉛產量同比增長5.6%
提高玉米產量 膜下滴灌有效
今日農業(2021年14期)2021-11-25 23:57:29
世界致密油產量發展趨勢
重要模型『一線三等角』
海水稻產量測評平均產量逐年遞增
今日農業(2020年20期)2020-11-26 06:09:10
重尾非線性自回歸模型自加權M-估計的漸近分布
2018年我國主要水果產量按省(區、市)分布
2018上半年我國PVC產量數據
聚氯乙烯(2018年9期)2018-02-18 01:11:34
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲欧美日韩高清综合678| 亚洲中文字幕23页在线| 欧美成在线视频| 日韩二区三区| 日本免费一级视频| 久久综合九色综合97婷婷| 日韩大片免费观看视频播放| 国产精品福利导航| 国产97色在线| 国产日韩欧美视频| 亚洲高清无码久久久| 高清无码一本到东京热| 在线观看av永久| 九色最新网址| 久草视频一区| 亚洲综合第一页| 欧美日韩中文字幕在线| 久久精品亚洲专区| 国产亚洲现在一区二区中文| 国内精品久久人妻无码大片高| 国产高清在线精品一区二区三区| 国产呦视频免费视频在线观看| 日韩国产一区二区三区无码| 久久黄色视频影| 亚洲色偷偷偷鲁综合| 欧美三级不卡在线观看视频| 特级精品毛片免费观看| 亚洲精品片911| 97se亚洲综合在线韩国专区福利| 玖玖免费视频在线观看| 久久黄色影院| 国产av一码二码三码无码| 无码内射在线| 国产高颜值露脸在线观看| 精品国产美女福到在线直播| 国产亚洲精品va在线| 精品国产自在在线在线观看| 国产极品美女在线| 91美女在线| 91精品专区| 国产亚洲精品自在线| 精品夜恋影院亚洲欧洲| 青青操视频免费观看| 9966国产精品视频| 一边摸一边做爽的视频17国产| 中文字幕无码中文字幕有码在线| 欧美不卡视频一区发布| 中文字幕日韩丝袜一区| 狠狠色丁香婷婷| 亚洲无码日韩一区| 亚洲色欲色欲www在线观看| 国产成人夜色91| 亚洲最新在线| 国产精品99久久久| 亚洲天堂网视频| 毛片大全免费观看| 在线色综合| 亚洲第一成年人网站| 国产成人亚洲综合A∨在线播放| 57pao国产成视频免费播放| 亚洲视频一区| 日韩毛片免费观看| 黄色网站在线观看无码| 国国产a国产片免费麻豆| 美女免费黄网站| 青青操视频在线| 久久亚洲国产视频| 国产高颜值露脸在线观看| 欧美人与牲动交a欧美精品| 国产乱视频网站| 免费国产无遮挡又黄又爽| 免费观看三级毛片| 日韩欧美国产中文| 国产乱肥老妇精品视频| AV无码无在线观看免费| 国产欧美日韩综合在线第一| 精品国产中文一级毛片在线看| 免费无码一区二区| 国产成人精品视频一区视频二区| 人妻无码一区二区视频| 欧美日韩午夜| 色吊丝av中文字幕|