doi:10.11835/j.issn.1000-582X.2025.04.009
引用格式:黃威,賈若然,鐘坤華,等.基于XGB-KF模型的農(nóng)業(yè)溫室溫度預(yù)測(cè)[J].重慶大學(xué)學(xué)報(bào),2025,48(4): 108-114.
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1000-582X(2025)04-108-07
Agricultural greenhouse temperature prediction based on the XGB-KFmodel
HUANG Wei'2, JIA Ruoran, ZHONG Kunhua', LIU Shuguang'2 (1.Chogqing Institute of Green and Intelligent Technology, Chinese Academy of Sciences,Chongqing 400714, P.R.China; 2. University of Chinese Academy of Sciences,Beijing 10o049, P.R.China; 3.Iflytek Co., Ltd., Hefei 230031, P.R. China)
Abstract:To addess the challenge of agricultural greenhouse temperature measurement being highly susceptible to noise,which limits direct prediction accuracy, this study proposes an integrated prediction model, XGB-KF, combining XGBoost and the Kalman filter.First, the model estimates the current greenhouse temperature using XGBoost.Then,the Kalman filter dynamicall adjusts the estimated result to refine the prediction.Numerical experiments are conducted using sensor data from a greenhouse in Zhuozhou, with root mean square error (RMSE) as the main evaluation metric. Compared with XGBoost, Bi-LSTM, and Bi-LSTM-KF methods, the XGB-KF model reduces RMSE by 5.22% , 10.85% and 7.45% respectively.
Keywords: integrated model; machine learning; time series; greenhouse temperature
溫度作為農(nóng)作物生長(zhǎng)的重要環(huán)境因素,影響著作物的生長(zhǎng)速度、產(chǎn)量和質(zhì)量,如何準(zhǔn)確預(yù)測(cè)和調(diào)控溫度成為現(xiàn)代農(nóng)業(yè)的重要問題。溫室大棚擁有可調(diào)控的環(huán)境,促進(jìn)作物生長(zhǎng)和提高產(chǎn)量。中國(guó)溫室建設(shè)起步較早,經(jīng)歷了改良型日光溫室、大型玻璃溫室和現(xiàn)代化溫室3個(gè)階段,但受各地區(qū)生產(chǎn)狀況和經(jīng)濟(jì)條件的影響,至今各階段不同類型的溫室依然并存。溫室溫度可以直接通過溫度傳感器來測(cè)量,但溫室中的各種環(huán)境因子對(duì)溫度測(cè)量會(huì)產(chǎn)生干擾,并帶來較多噪聲。農(nóng)業(yè)溫室溫度預(yù)測(cè)可以看作是一個(gè)時(shí)間序列預(yù)測(cè)問題。時(shí)間序列預(yù)測(cè)的方法目前大致可分為4類:傳統(tǒng)時(shí)間序列分析法、機(jī)器學(xué)習(xí)法、深度學(xué)習(xí)法及混合模型方法。
1)傳統(tǒng)時(shí)間序列分析方法,如自回歸移動(dòng)平均模型(autoregressive moving average,ARMA)3差分自回歸移動(dòng)平均模型(autoregressive integrated moving average,ARIMA)4等;
2)機(jī)器學(xué)習(xí)方法。針對(duì)溫室溫度或濕度的預(yù)測(cè),極限學(xué)習(xí)機(jī)及其改進(jìn)方法被研究和使用。Yu等采用粒子群算法對(duì)最小二乘支持向量機(jī)做優(yōu)化,在中國(guó)農(nóng)業(yè)大學(xué)壽光蔬菜產(chǎn)業(yè)集團(tuán)技術(shù)應(yīng)用與示范區(qū)的園藝監(jiān)測(cè)和管理系統(tǒng)的數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明,其對(duì)最高和最低溫度的預(yù)測(cè)比標(biāo)準(zhǔn)支持向量機(jī)和反向傳播神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)更為準(zhǔn)確。
3)深度學(xué)習(xí)方法。周翔宇等針對(duì)淺層神經(jīng)網(wǎng)絡(luò)面對(duì)溫室復(fù)雜多變環(huán)境因子表征能力弱、學(xué)習(xí)時(shí)間長(zhǎng)的問題,提出一種基于改進(jìn)深度信念網(wǎng)絡(luò)并結(jié)合經(jīng)驗(yàn)?zāi)B(tài)分解與門控循環(huán)單元的溫室預(yù)測(cè)方法。Jung等使用深度學(xué)習(xí)方法進(jìn)行溫室預(yù)測(cè)和管控,在人工神經(jīng)網(wǎng)絡(luò)(artificialneuralnetwork,ANN)、帶外生輸入的非線性自回歸模型(nonlinear autoregressive with exogenous inputs,NARX)以及長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneural network with long short-term memory,RNN-LSTM)3種方法的對(duì)比中,RNN-LSTM取得最好效果。文獻(xiàn)[9-11]則分別基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-termmemory,LSTM)方法對(duì)溫室內(nèi)部的多維元素進(jìn)行學(xué)習(xí)。
4)混合模型法。Song等使用結(jié)合卡爾曼濾波的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory with kalmanfilter,LSTM-Kalman)模型對(duì)空氣質(zhì)量數(shù)據(jù)進(jìn)行靜態(tài)預(yù)測(cè)和動(dòng)態(tài)調(diào)整,實(shí)驗(yàn)證明加入卡爾曼濾波方法后模型效果更好。Yan等針對(duì)厄爾尼諾-南方濤動(dòng)(ElNino-southern oscilltion,ENSO)超前預(yù)測(cè)的問題使用了集合經(jīng)驗(yàn)?zāi)B(tài)分解-時(shí)間卷積網(wǎng)絡(luò)(ensemble empirical mode decomposition with temporal convolutional network,EEMD-TCN),結(jié)果表明了方法的優(yōu)異性。Hu等[使用雙向長(zhǎng)短時(shí)記憶卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuralnetwork-bidirectional long short-term memory,CNN-Bi-LSTM)對(duì)城市供水量進(jìn)行預(yù)測(cè),在與 LSTM、Bi-LSTM、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuralnetwork,CNN)、堆疊自編碼器(Stacked Autoencoder,SAE)以及長(zhǎng)短時(shí)記憶卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network with long short-term memory,CNN-LSTM)4種方法的比較中取得較低誤差和更快收斂速度。
卡爾曼濾波作為一種最優(yōu)線性狀態(tài)估計(jì)方法,由卡爾曼在1960年提出[5,可以在諸多不確定性的情況下估計(jì)動(dòng)態(tài)系統(tǒng)的狀態(tài),即通過數(shù)學(xué)方法尋求與觀測(cè)數(shù)據(jù)最佳擬合的狀態(tài)向量,預(yù)測(cè)存在噪聲的數(shù)值。
針對(duì)農(nóng)業(yè)溫室溫度預(yù)測(cè)問題,研究提出一種將XGBoost(extreme gradient boosting)和 Kalman filter相結(jié)合的集成模型XGB-KF。該模型首先利用溫室內(nèi)外的相關(guān)協(xié)變量數(shù)據(jù),基于XGBoOst對(duì)溫室內(nèi)當(dāng)前時(shí)刻的溫度進(jìn)行初步預(yù)測(cè),再通過Kalman filter對(duì)估計(jì)結(jié)果進(jìn)行動(dòng)態(tài)修正。實(shí)驗(yàn)結(jié)果表明,XGB-KF法在溫室溫度預(yù)測(cè)上更準(zhǔn)確有效。
1方法理論
1.1 XGBoost
XGBoost是一種基于梯度提升決策樹(gradient boosting decision tre,GBDT)的改進(jìn)算法。GBDT是集成模型,訓(xùn)練時(shí)每一次迭代都學(xué)習(xí)一棵CART樹來擬合之前 t-1 棵樹的預(yù)測(cè)結(jié)果與訓(xùn)練樣本真實(shí)值的殘差。已知訓(xùn)練數(shù)據(jù)集
},損失函數(shù)
),正則化項(xiàng)
,整體函數(shù)可以表示為

其中: F(X) 是線性空間上的表達(dá); i 表示第 i 個(gè)樣本; k 表示第 k 棵樹;
是第 i 個(gè)樣本
的預(yù)測(cè)值:
表示 k 棵樹的復(fù)雜度
表示第 k 棵樹的函數(shù)。
由于

則目標(biāo)函數(shù)可以轉(zhuǎn)化成如下形式

1.2 Kalman filter
卡爾曼濾波適合使用在具有不確定性的動(dòng)態(tài)系統(tǒng)中,基于系統(tǒng)中的觀測(cè)值和估計(jì)值得到一個(gè)比任何依據(jù)自身估計(jì)更好的結(jié)果,從而對(duì)系統(tǒng)的下一步走向做出預(yù)測(cè)。
1.2.1 基本模型


其中:
表示系統(tǒng)狀態(tài)矩陣;
表示狀態(tài)陣的觀測(cè)量; A 表示狀態(tài)轉(zhuǎn)移矩陣; B 表示控制輸入矩陣;
表示外界對(duì)于控制系統(tǒng)的輸入; H 表示狀態(tài)觀測(cè)矩陣;
表示過程噪聲,
表示測(cè)量噪聲。
1.2.2 狀態(tài)更新
根據(jù)上一時(shí)刻的最優(yōu)估計(jì)值和控制量得到當(dāng)前時(shí)刻的最優(yōu)估計(jì)值,根據(jù)上一時(shí)刻最優(yōu)估計(jì)值的協(xié)方差得到當(dāng)前時(shí)刻的最優(yōu)估計(jì)協(xié)方差[5]


在溫室溫度預(yù)測(cè)的問題上不存在外部控制量,所以沒有
這一部分。通過卡爾曼增益對(duì)估計(jì)值和觀測(cè)值作加權(quán)融合,作出“更可信”的決策,同時(shí)更新協(xié)方差陣



2 模型及評(píng)價(jià)指標(biāo)
2.1 模型流程
XGB-KF模型的流程如圖1所示:

原始數(shù)據(jù)經(jīng)預(yù)處理后,協(xié)變量數(shù)據(jù)(溫室內(nèi)、外部濕度、氣壓)作為XGBoost的輸入數(shù)據(jù),溫室內(nèi)部溫度值作為XGBoost的預(yù)測(cè)目標(biāo)。訓(xùn)練好的XGBoost被用于估計(jì)當(dāng)前時(shí)刻的溫室內(nèi)部溫度。與此同時(shí),Kalmanfilter使用溫室內(nèi)部溫度數(shù)據(jù)作為輸入,通過數(shù)據(jù)的歷史觀測(cè)值得到當(dāng)前時(shí)刻的單步預(yù)測(cè)結(jié)果。最后,將
KalmanFilter得到的結(jié)果作為系統(tǒng)觀測(cè)值,將XGBoost得到的結(jié)果作為系統(tǒng)估計(jì)值,融合這2個(gè)值得到最終預(yù)測(cè)結(jié)果。
2.2 評(píng)價(jià)指標(biāo)
為評(píng)估模型的性能和方法的有效性,實(shí)驗(yàn)采用評(píng)價(jià)指標(biāo):均方根誤差(RMSE)和擬合優(yōu)度 


3數(shù)值實(shí)驗(yàn)
3.1 數(shù)據(jù)集
數(shù)據(jù)來自科大訊飛開放平臺(tái)提供的中國(guó)農(nóng)業(yè)大學(xué)逐州實(shí)驗(yàn)站的溫室溫度數(shù)據(jù),數(shù)據(jù)的時(shí)間范圍為2019年3月14日1點(diǎn)-2019年4月3日0點(diǎn),每條數(shù)據(jù)由時(shí)間戳和溫室內(nèi)、外的溫度、濕度、氣壓構(gòu)成,采樣頻率為每min1次。實(shí)驗(yàn)中,數(shù)據(jù)按4:1的比例劃分訓(xùn)練集和測(cè)試集,最終的實(shí)驗(yàn)結(jié)果由各方法在測(cè)試集上評(píng)估得到。
3.2 數(shù)據(jù)預(yù)處理
溫室內(nèi)、外的溫度變化情況可視化如圖2所示。溫室內(nèi)、外溫度變化范圍較大,且溫室內(nèi)部溫度和外部溫度強(qiáng)相關(guān)。為更好地獲得預(yù)測(cè)結(jié)果,對(duì)溫度進(jìn)行平穩(wěn)處理,分別對(duì)溫室內(nèi)、外的溫度取log平滑再進(jìn)一步做差,處理后溫室內(nèi)溫度和溫室內(nèi)、外溫度對(duì)數(shù)差的變化情況如圖3所示。


刪除溫室內(nèi)部溫度的缺失數(shù)據(jù),以免填充方法不當(dāng)造成更大誤差,然后采用 3σ 法則檢測(cè)氣壓特征數(shù)據(jù)中存在的異常值,使用前后數(shù)據(jù)進(jìn)行線性修正。最后,通過皮爾遜相關(guān)系數(shù)篩選出相關(guān)性較高的3個(gè)特征(溫室外部和溫室內(nèi)部的濕度差值、比值以及濕度的乘積)添加進(jìn)數(shù)據(jù)集。
3.3實(shí)驗(yàn)內(nèi)容及環(huán)境
3.3.1 實(shí)驗(yàn)內(nèi)容
對(duì)劃分過的數(shù)據(jù)集使用XGBoost、Bi-LSTM、XGB-KF以及Bi-LSTM-KF4種方法分別進(jìn)行實(shí)驗(yàn),在訓(xùn)練集上訓(xùn)練XGBoost和Bi-LSTM單模型,在測(cè)試集上使用單模型進(jìn)行預(yù)測(cè)。XGB-KF和Bi-LSTM-KF 2種模型則在測(cè)試集上對(duì)單模型的預(yù)測(cè)結(jié)果使用Kalman filter做進(jìn)一步的調(diào)整和修正,修正后的結(jié)果作為集成模型的最終預(yù)測(cè)結(jié)果。
3.3.2 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)在Windows系統(tǒng)下使用anaconda、jupyter-notebook及 python 進(jìn)行。其中,anaconda版本4.8.4.jupyter-notebook版本6.0.0,python版本3.7.3。
3.4 結(jié)果及對(duì)比分析
3.4.1 XGBoost
最佳狀態(tài)下,XGBoost單模型取得的均方根誤差(RMSE)為0.21707。預(yù)測(cè)效果如圖4所示。

3.4.2 Bi-LSTM
Bi-LSTM取得的最低RMSE為0.23077,預(yù)測(cè)效果如圖5所示。

3.4.3 XGB-KF
加入Kalmanfilter方法對(duì)XGBoost的預(yù)測(cè)結(jié)果進(jìn)行修正,修正后RMSE和
變化趨勢(shì)如圖6\~7。選取實(shí)驗(yàn)中的最佳參數(shù)運(yùn)行模型,相較于XGB00st單模型,XGB-KF模型的RMSE值從0.21707降至0.20573,降低5.22% 。
值從 0.97433~0.97694 ,提升 0.27% 。



3.4.4 Bi-LSTM-KF
加入Kalman filter對(duì)Bi-LSTM的預(yù)測(cè)結(jié)果進(jìn)行修正后,Bi-LSTM的RMSE從0.230 77降至0.22229,下降 3.67% 。
從0.99379降至0.97308,下降 2.08% 。RMSE和
的趨勢(shì)變化情況如圖8和圖9所示。



3.4.5
對(duì)比分析
各方法的指標(biāo)評(píng)估結(jié)果如表1所示,考慮到擬合優(yōu)度
值并不能完全代表模型的預(yù)測(cè)能力,且這4種方法的擬合優(yōu)度
值均較高,所以實(shí)驗(yàn)選取均方根誤差(RMSE)作為模型的主要評(píng)估指標(biāo)。最后,在與XGBoost、Bi-LSTM、Bi-LSTM-KF 3種方法的比較中,XGB-KF模型取得了最低均方根誤差(RMSE),證明其在農(nóng)業(yè)溫室溫度預(yù)測(cè)問題中的有效性。同時(shí),實(shí)驗(yàn)在僅使用CPU運(yùn)行程序情況下對(duì)XGBoost和Bi-LSTM的訓(xùn)練時(shí)間進(jìn)行記錄和對(duì)比,得到XGBoost方法的運(yùn)行時(shí)間為 4.8s ,Bi-LSTM方法的運(yùn)行時(shí)間為108.3s。在約
條數(shù)據(jù)的訓(xùn)練集上,XGBoost展現(xiàn)出明顯的速度優(yōu)勢(shì)。

4結(jié)語
針對(duì)溫室溫度測(cè)量受噪聲影響大的問題,提出集成模型XGB-KF。經(jīng)過在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn),模型在與XGBoost、Bi-LSTM、Bi-LSTM-KF方法的對(duì)比中取得了最低的均方根誤差。實(shí)驗(yàn)雖然只基于溫室溫度數(shù)據(jù),但XGB-KF模型引入?yún)f(xié)變量預(yù)測(cè)的思路對(duì)時(shí)序預(yù)測(cè)的其他應(yīng)用場(chǎng)景也有一定參考價(jià)值,如區(qū)域氣溫預(yù)測(cè)、城市供水量預(yù)測(cè)等。在未來的研究中,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、時(shí)間卷積網(wǎng)絡(luò)等優(yōu)異方法可以被考慮用于時(shí)序預(yù)測(cè)的自回歸問題中,同時(shí)它們的改進(jìn)和組合方法也值得進(jìn)一步嘗試。
參考文獻(xiàn)
[1]葛志軍,傅理.國(guó)內(nèi)外溫室產(chǎn)業(yè)發(fā)展現(xiàn)狀與研究進(jìn)展[J].安徽農(nóng)業(yè)科學(xué),2008,36(35):15751-15753. GEZJ,F(xiàn)U LDevelopment status andresearch progressofthecreenhouse industryathome andabroad[]Jouralof Anhui Agricultural Sciences,2008,36(35):15751-15753.(in Chinese)
[2]周翔宇,程勇,王軍.基于改進(jìn)深度信念網(wǎng)絡(luò)的農(nóng)業(yè)溫室溫度預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2019,39(4):1053-1058. ZHOU X Y, CHENG Y, WANG J.Agricultural grenhouse temperature prediction method based on improved deep belief network[J]. Journal of Computer Applications, 2019, 39(4): 1053-1058.(in Chinese)
[3]左志宇,毛罕平,張曉東,等.基于時(shí)序分析法的溫室溫度預(yù)測(cè)模型[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2010,41(11):173-177. ZUO Z Y,MAO H P,ZHANGX D,et al. Forecast model of greenhouse temperature based on time series method[J]. Transactions of the Chinese Society for Agricultural Machinery, 2010, 41(11):173-177. (in Chinese)
[4]Wang HHuangJJZhouHetal.Anintegratedvaritionalmodedecompositionandarimamodeltoforecastairemperature[]. Sustainability,2019,11(15):4018.
[5]LiuQ,JinDDShenJetal.AWNbasedpredictiondelofmicroclimateinagreehuseusingextremeleaingappoaches [C]/201618th InternationalConferenceonAdvanced Communication Technology(ICACT).Piscataway:IEEE,206:730-735.
[6]ZouWDYaoFXZhangBHetalerificationandpredictingtemperatureandhumidityinasolargrenhousebasedonnvex bidirectional extreme learning machine algorithm[J].Neurocomputing,2017,249:72-85.
[7]YuHHChenYYHassanSG,etalPredictionofthetemperatureinaChinese solargreenhousebasedonLSSoptimizedby improved PSO[J].Computers and Electronics in Agriculture,2016,122:94-102.
[8]JungDHKimHSJhinCetalTmserialanalysisofdeepuraletwrkmelsforprdictiofclimaticdtinsie a greenhouse[J].Computers and Electronics in Agriculture,2020,173:105402.
[9]Jung DH,KimHJParkSHetal.Recurrentneuralnetwrk modelsforpredictinoftheinsidetemperatureandhumidityin greenhouse[C]/ProceedingsoftheKoreanSocietyforAgriculturalMachineryConference.SouthKorea:Korean Society for AgriculturalMachinery,2017:135-135.
[10]Song YEMoonA,ANSYetalredictionofsart grenhouse temperature-humiditybasedonmulti-dimensionalLSTM[]. Journal of the Korean Society for Precision Engineering, 2019, 36(3): 239-246.
[11]Wang HK,LiLWuYetalRecurrentneuralnetwrkmodelfor predictionofmicrclimateinsolargreehuseEB]018- 09-12)[2021-01-01].https://www.sciencedirect.com/science/article/pi/S2405896318312151.
[12]Song XJHuangJJSong DWAirquality predictionbasedonLSTM-Kalmanmodel[C]//019IEEE8thJointInternational Information Technology and Artificial Intelligence Conference(ITAIC).Piscataway:IEEE,2019:695-699.
[13]YaJuangLZealmputwksforhedncepictofN[cntifis 10(1):8055.
[14]Hu PTong J,Wang JC,etal.AhybridmodelbasedonCNNand Bi-LSTMforurban water demand prediction[C]/9IEE Congress on Evolutionary Computation(CEC).Piscataway:IEEE,2019:1088-1094.
[15]KalmanREAnewaproachtolinearflteringandpredictionproblems[JoualofBasicEngineering,196:-45.
[16]ChenTQGuestrinC,etal.XGBoost[C]//roceedingsof the22ndACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining.New York: ACM,2016: 785-794.
(編輯侯湘)