于珍珍 鄒華芬 于德水 李海亮 孫海天 汪 春,
(1.黑龍江八一農(nóng)墾大學(xué)工程學(xué)院, 大慶 163319; 2.中國熱帶農(nóng)業(yè)科學(xué)院南亞熱帶作物研究所, 湛江 524091;3.華中科技大學(xué)管理學(xué)院, 武漢 430074)
甘蔗是喜高溫、強(qiáng)光照和充足水分的經(jīng)濟(jì)作物[1-3],其產(chǎn)量對保障中國制糖工業(yè)安全具有重要意義。甘蔗產(chǎn)量預(yù)測是制糖工業(yè)的一項(xiàng)重要技術(shù)管理工作,對于優(yōu)化甘蔗田間管理措施及統(tǒng)籌分配具有指導(dǎo)作用[4-6]。甘蔗產(chǎn)量呈現(xiàn)出強(qiáng)烈的空間變異性,與田間環(huán)境、大氣溫度、濕度、光照強(qiáng)度、降雨量等因素密切相關(guān)[7-11]。
目前,國內(nèi)外關(guān)于農(nóng)作物產(chǎn)量預(yù)測的方法及研究成果較多,主要以線性、多元回歸模型及神經(jīng)網(wǎng)絡(luò)模型應(yīng)用較為廣泛[12]。其中,BP(Back propagation)神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用場景最多,較為廣泛的人工神經(jīng)網(wǎng)絡(luò)之一[13-14]。國內(nèi)學(xué)者以相關(guān)環(huán)境參數(shù)及生物參數(shù)為輸入量,基于BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對小麥、馬鈴薯、番茄等作物產(chǎn)量的預(yù)測效果分析[15-16]。文獻(xiàn)[17]首次運(yùn)用BP神經(jīng)網(wǎng)絡(luò),以氣象因子為變量,對廣西忻城糖廠蔗區(qū)甘蔗產(chǎn)量進(jìn)行預(yù)測;后期,相關(guān)研究人員逐步開展以氣象為變量進(jìn)行甘蔗產(chǎn)量預(yù)測[18-21];隨著無人機(jī)及遙感技術(shù)的發(fā)展,通過微型傳感器和大數(shù)據(jù)處理技術(shù)獲取作物農(nóng)藝信息,如葉面積指數(shù)、生物量和氣候數(shù)據(jù)等進(jìn)行產(chǎn)量預(yù)測[22-24]。上述研究對于甘蔗產(chǎn)量的預(yù)測分析都起到了重要的推動(dòng)作用,但是仍存在一些問題:①目前,國內(nèi)外在甘蔗產(chǎn)量預(yù)測方面多以氣象環(huán)境為影響因子進(jìn)行大面積(全國、全省或全縣)的宏觀預(yù)測,很少將氣象數(shù)據(jù)與農(nóng)作物田間的環(huán)境數(shù)據(jù)相結(jié)合來微觀預(yù)測某一區(qū)域的甘蔗產(chǎn)量[19],甘蔗產(chǎn)量預(yù)測考慮影響因素過于單一。②雖然神經(jīng)網(wǎng)絡(luò)可以解決一些復(fù)雜、非線性映射問題,但是它也存在一些缺點(diǎn),如過擬合、容易陷入局部最優(yōu)解及收斂速度慢等問題,因此,利用遺傳算法、粒子群和蟻群算法等用于優(yōu)化初始權(quán)重和閾值,更有利于提高模型學(xué)習(xí)效率并進(jìn)行全局優(yōu)化,改善原有網(wǎng)絡(luò)結(jié)構(gòu)。
本文綜合考慮甘蔗產(chǎn)量與氣象因子及田間水熱因子的相關(guān)性,以湛江觀測實(shí)驗(yàn)站2011—2020年間田間物聯(lián)網(wǎng)獲取的氣象因子(大氣相對濕度、大氣溫度、降雨量)、田間水熱因子(土壤含水率、土壤溫度)及甘蔗產(chǎn)量,通過Pearson及Spearman相關(guān)系數(shù)明確甘蔗產(chǎn)量影響因子的主次順序,基于遺傳算法優(yōu)化建立GA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,分析對比模型訓(xùn)練前后的精度及預(yù)測誤差,以期為甘蔗生產(chǎn)的整體管理措施調(diào)整及決策提供技術(shù)支撐。
研究區(qū)域位于廣東省湛江市(109°40′~110°58′E,20°13′~21°57′N),年平均日照時(shí)間為2 160 h,無霜期為350 d,年平均氣溫為23.2℃,是典型的亞熱帶季風(fēng)氣候,環(huán)境數(shù)據(jù)與氣象數(shù)據(jù)來源于湛江觀測實(shí)驗(yàn)站循環(huán)農(nóng)業(yè)研究中心,蔗區(qū)種植基地共計(jì)5個(gè),如圖1所示。

圖1 研究區(qū)位置示意圖Fig.1 Schematic diagram of location of the study area
甘蔗的生長與氣溫、濕度、降雨量及土壤水熱環(huán)境等因子密切相關(guān)[2]。氣候條件是制約區(qū)域某種農(nóng)作物是否正常完成其生長周期的主要因素。我國甘蔗90%以上種植在無灌溉條件的旱地、坡地和山地,生長周期長,適宜生長地域?qū)挘軜O端天氣氣候影響大。吳炫柯等[10-11]對2006—2007年柳州市甘蔗莖伸長期旬伸長量與氣象因子進(jìn)行相關(guān)和回歸分析,發(fā)現(xiàn)相對濕度對甘蔗莖伸長量的影響最大,其余依次為降雨量和大氣溫度。氣候環(huán)境中降雨量及大氣溫度對土壤環(huán)境中的水熱因子產(chǎn)生間接正效應(yīng)。相關(guān)研究表明,水分收入量是影響甘蔗莖伸長最重要的因子,對甘蔗莖伸長的影響具有滯后性和累積性。
因此,選取大氣溫度、大氣相對濕度、降雨量、土壤含水率及土壤溫度作為影響因子。以月土壤最高溫度(X1)、月土壤最低溫度(X2)、月土壤平均溫度(X3)、月土壤平均含水率(X4)、月大氣最高溫度(X5)、月大氣最低溫度(X6)、月大氣平均溫度(X7)、月降雨量(X8)、月大氣平均相對濕度(X9)(月平均值取每年3—12月甘蔗生長時(shí)期的均值)這9個(gè)指標(biāo)作為輸入,以甘蔗產(chǎn)量作為輸出構(gòu)建網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和預(yù)測。以2011—2020年度4個(gè)試驗(yàn)地點(diǎn)甘蔗產(chǎn)量為訓(xùn)練樣本,以1個(gè)試驗(yàn)地點(diǎn)2011—2020年數(shù)據(jù)作為驗(yàn)證。分別采用BP神經(jīng)網(wǎng)絡(luò)模型和遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)(GA-BP)模型進(jìn)行預(yù)測,GA-BP模型采用V型交叉驗(yàn)證對考慮滯后的GA-BP預(yù)測模型進(jìn)行評估,全文采用Matlab進(jìn)行編程與模型建立。
1.2.1BP神經(jīng)網(wǎng)絡(luò)
圖2顯示了4層BP網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),圖中x1、x2、…、xm為模型輸入影響因素,y1、y2、…、yt為模型輸出,BP網(wǎng)絡(luò)訓(xùn)練過程分為3個(gè)步驟。首先,將氣象因子和田間數(shù)據(jù)作為輸入層;其次,通過將輸出數(shù)據(jù)與實(shí)測數(shù)據(jù)進(jìn)行對比分析,使用損失函數(shù)(又稱為成本函數(shù))來計(jì)算誤差;最后,將誤差反向傳播,對網(wǎng)絡(luò)中每個(gè)權(quán)重系數(shù)進(jìn)行更新,在多次重復(fù)以上3個(gè)步驟并學(xué)習(xí)權(quán)重后,將模型應(yīng)用于新數(shù)據(jù)以同時(shí)預(yù)測多個(gè)目標(biāo)值。

圖2 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 BP neural network structure diagram
1.2.2GA優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)
GA是目前應(yīng)用最為廣泛的一種求解優(yōu)化問題的自適應(yīng)啟發(fā)式的搜索算法,它模仿了自然界的“物競天擇,優(yōu)勝劣汰”的生物進(jìn)化機(jī)制,算法步驟如圖3所示。
(1)確定神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu):在BP神經(jīng)網(wǎng)絡(luò)模型中,輸入層為每組數(shù)據(jù)的9種影響因子,輸出層為甘蔗產(chǎn)量,構(gòu)成9個(gè)節(jié)點(diǎn)輸入層和1個(gè)節(jié)點(diǎn)輸出層。
(2)獲得初始種群:通過對輸入層進(jìn)行數(shù)據(jù)預(yù)處理,設(shè)置種群數(shù)量,主要包括網(wǎng)絡(luò)模型的權(quán)值及閾值。
(3)適應(yīng)度函數(shù)F的設(shè)置。
(4)選擇運(yùn)算:選擇操作是指通過一定概率從原始種群中選出優(yōu)秀樣本,通過繁殖產(chǎn)生下一代樣本數(shù)據(jù)。
(5)交叉運(yùn)算:交叉運(yùn)算是指從種群中隨機(jī)選擇2個(gè)樣本,通過交換和組合,產(chǎn)生適應(yīng)性強(qiáng)的新個(gè)體。
(6)變異運(yùn)算:通過種群變異可以保持種群的多樣性,從種群中隨機(jī)選取一個(gè)個(gè)體,選取個(gè)體的一部分進(jìn)行變異操作,從而產(chǎn)生更好的個(gè)體。個(gè)體ai在j處發(fā)生變異,形成一個(gè)新的個(gè)體aij。
(7)計(jì)算新生成種群中個(gè)體的適應(yīng)度函數(shù)。 如果適應(yīng)度函數(shù)滿足要求或進(jìn)化次數(shù)達(dá)到最大值,則進(jìn)化完成,否則返回步驟(4)。
(8)通過GA優(yōu)化,給BP網(wǎng)絡(luò)初始權(quán)重和閾值,滿足終止條件后得到預(yù)測結(jié)果。

圖3 基于遺傳算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)預(yù)測模型流程圖Fig.3 Step diagram of neural network prediction model based on genetic algorithm optimization
1.2.3誤差分析
為了定量評估GA優(yōu)化的神經(jīng)網(wǎng)絡(luò)預(yù)測模型的有效性和準(zhǔn)確性,分別采用均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)和平均誤差(MAPE)加以評價(jià)。
由9個(gè)影響因素X與甘蔗產(chǎn)量Y的Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)可知,甘蔗產(chǎn)量Y與X1、X2、X3、X5、X7、X9為極顯著相關(guān),相關(guān)系數(shù)高于0.7;甘蔗產(chǎn)量Y與X4、X8顯著相關(guān),與X6相關(guān)性較弱(圖4)。
考慮到環(huán)境相對濕度和降雨量對土壤水分的影響具有一定的滯后性,土壤含水率和月降雨量的增加導(dǎo)致土壤水分增加,水分進(jìn)入土壤需要一定的時(shí)間,因此考慮了滯后性進(jìn)行預(yù)測。考慮其滯后性后,Spearman和Pearson相關(guān)系數(shù)有了顯著提高,相關(guān)系數(shù)提高到0.5以上,如表1所示。

圖4 甘蔗產(chǎn)量與影響因子相關(guān)性分析Fig.4 Correlation analysis of sugarcane yield and influencing factors

表1 X4與X8的滯后對比Tab.1 Lag comparison of X4 and X8

圖5 BP神經(jīng)網(wǎng)絡(luò)下甘蔗產(chǎn)量預(yù)測值與實(shí)測值對比分析Fig.5 Contrast analysis of sugarcane yield prediction value and actual measurement value under BP neural network
通過前期試驗(yàn),采用試湊法設(shè)置本次試驗(yàn)BP神經(jīng)網(wǎng)絡(luò)中相應(yīng)參數(shù):收斂誤差為0.000 65,學(xué)習(xí)速度為0.05,最大訓(xùn)練次數(shù)為50 000。當(dāng)收斂誤差滿足最初設(shè)置值時(shí),完成訓(xùn)練,相關(guān)模型檢驗(yàn)結(jié)果如圖5所示。BP神經(jīng)網(wǎng)絡(luò)模型可以應(yīng)用在甘蔗產(chǎn)量預(yù)測,輸出結(jié)果與預(yù)測結(jié)果擬合程度較差(圖5a),預(yù)測誤差變化波動(dòng)劇烈,平均相對誤差達(dá)到3.30%,絕對誤差達(dá)到3.32 t/hm2;以黃色豎線為分布誤差0的分界線,向兩端擴(kuò)散增大,在單一BP網(wǎng)絡(luò)誤差直方圖中(圖5c),誤差較大,最大誤差在-9.144左右。
針對BP神經(jīng)網(wǎng)絡(luò)下,初始權(quán)值閾值隨機(jī)設(shè)置存在的問題,通過遺傳算法來優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值與閾值。GA-BP神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置與BP神經(jīng)網(wǎng)絡(luò)一致。個(gè)體編碼方式采用實(shí)數(shù)法,由于輸入層節(jié)點(diǎn)數(shù)和輸出層節(jié)點(diǎn)數(shù)分別為9和1,隱含層節(jié)點(diǎn)數(shù)為10,則共有65個(gè)權(quán)值和11個(gè)閾值,遺傳算法需要優(yōu)化的參數(shù)為76個(gè)。
經(jīng)過遺傳算法優(yōu)化后的GA-BP神經(jīng)網(wǎng)絡(luò)模型在預(yù)測精度方面得到了很大提高,產(chǎn)量預(yù)測模型驗(yàn)證集的平均相對誤差僅為-0.37%,平均絕對誤差為-1.01 t/hm2,輸出結(jié)果與測試與實(shí)際值吻合程度較高(圖6a),變化趨勢相同,輸出指標(biāo)的預(yù)測誤差變化波動(dòng)較小(圖6b);通過與圖5c對比可以清晰地看到,GA-BP誤差接近0的個(gè)數(shù)更多且誤差更小,范圍在-1.835到1.870之間(圖6c),模型預(yù)測較為穩(wěn)定。
將甘蔗產(chǎn)量分別采用BP網(wǎng)絡(luò)和GA-BP組合模型進(jìn)行預(yù)測,并對得到的結(jié)果進(jìn)行相應(yīng)擬合系數(shù)圖的分析,GA-BP網(wǎng)絡(luò)模型與期望值的擬合程度優(yōu)于BP神經(jīng)網(wǎng)路,回歸擬合性較好(圖7a),GA-BP神經(jīng)網(wǎng)絡(luò)模型相關(guān)系數(shù)從0.494 4增加到0.922 4,決定系數(shù)R2從0.496 4增加到0.842 8(圖7c)。

圖6 GA-BP神經(jīng)網(wǎng)絡(luò)下甘蔗產(chǎn)量預(yù)測值與實(shí)測值對比分析Fig.6 Comparison analysis of sugarcane yield predicted value and measured value under GA-BP neural network

圖7 2種模型預(yù)測值與實(shí)測值間的相關(guān)性分析Fig.7 Correlation analysis between predicted values of two models and measured values
訓(xùn)練結(jié)束后,原始數(shù)據(jù)預(yù)測結(jié)果及考慮滯后效應(yīng)下模型的MSE、RMSE、MAE和MAPE的預(yù)測結(jié)果如表2所示。MSE從22.83 t2/hm4降低到1.21 t2/hm4,RMSE從4.77 t/hm2降低到1.10 t/hm2,MAE從4.11 t/hm2降低到0.90 t/hm2,MAPE由4.07%降低到0.90%,說明遺傳算法優(yōu)化后的GA-BP神經(jīng)網(wǎng)絡(luò)模型對于甘蔗產(chǎn)量的預(yù)測能力優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型。將原始數(shù)據(jù)與預(yù)測模型進(jìn)行比較考慮到滯后,GA-BP預(yù)測模型的MSE和MAPE分別為0.07 t2/hm4和0.32%。BP神經(jīng)網(wǎng)絡(luò)預(yù)測誤差最大,甘蔗產(chǎn)量預(yù)測誤差較大,考慮滯后的GA-BP預(yù)測模型具有較好的預(yù)測效果。

表2 BP神經(jīng)網(wǎng)絡(luò)和GA-BP神經(jīng)網(wǎng)絡(luò)誤差分析Tab.2 Error analysis of BP neural network and GA-BP neural network
遺傳算法優(yōu)化后的神經(jīng)網(wǎng)絡(luò)可以通過遺傳算法獲得最優(yōu)的權(quán)值和閾值。通過遺傳算法的不斷選擇、交叉和變異運(yùn)算,選出最佳個(gè)體。遺傳算法的優(yōu)化主要涉及最大進(jìn)化代數(shù)、初始種群規(guī)模、交叉概率和變異概率。本文將遺傳算法中的參數(shù)設(shè)置為:最大進(jìn)化代數(shù)為100,初始種群規(guī)模40,交叉概率0.8,變異概率0.05。
本文采用交叉驗(yàn)證法對甘蔗產(chǎn)量預(yù)測模型進(jìn)行評價(jià)。ALLEN[25]引入了交叉驗(yàn)證作為評估預(yù)測模型的方法,用來提高模型預(yù)測精度。交叉驗(yàn)證是一種樣本訓(xùn)練過程中消除隨機(jī)抽樣引起的偏差的方法,根據(jù)神經(jīng)網(wǎng)絡(luò)的預(yù)測設(shè)置將原始數(shù)據(jù)劃分為預(yù)測樣本和測試樣本。用測試樣本訓(xùn)練好的模型進(jìn)行驗(yàn)證,用測試樣本來評估模型的預(yù)測精度。交叉驗(yàn)證方法具有計(jì)算效率高、操作簡單的特點(diǎn)。通過交叉驗(yàn)證對考慮滯后的GA-BP預(yù)測模型進(jìn)行評估,如圖8所示。

圖8 預(yù)測模型V型交叉驗(yàn)證與評估Fig.8 V-cross-validation and evaluation of predictive model
通過V型交叉驗(yàn)證后,RMSE和MAPE作為本文兩種模型的評價(jià)標(biāo)準(zhǔn)。從表3可以看出,BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型的RMSE和MAPE平均值分別為5.261 t/hm2和3.961%,而GA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型的RMSE和MAPE平均值分別為0.705 t/hm2和0.933%。交叉驗(yàn)證后,BP神經(jīng)網(wǎng)絡(luò)的預(yù)測波動(dòng)較大,而GA-BP神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果相對穩(wěn)定,檢驗(yàn)表明GA-BP神經(jīng)網(wǎng)絡(luò)精度優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。

表3 V型交叉驗(yàn)證評價(jià)指標(biāo)參數(shù)統(tǒng)計(jì)Tab.3 V- cross-validation evaluation index parameter statistics
(1)通過對所選影響因素與甘蔗產(chǎn)量相關(guān)系數(shù)分析可知,甘蔗產(chǎn)量與月土壤最高溫度、月土壤最低溫度、月土壤平均溫度、月大氣最高溫度、月大氣平均溫度、月大氣平均相對濕度為極顯著相關(guān),相關(guān)系數(shù)高于0.7;與月土壤平均含水率、月降雨量呈顯著相關(guān);與月大氣最低溫度相關(guān)性較弱。由于甘蔗產(chǎn)量受到氣象因子的影響具有滯后性,尤其是水分進(jìn)入土壤這個(gè)過程,所以對X4、X8滯后性進(jìn)行預(yù)測,相關(guān)系數(shù)有了顯著提高,Spearman和Pearson相關(guān)系數(shù)提高到0.5以上。
(2)運(yùn)用BP神經(jīng)網(wǎng)絡(luò)對甘蔗產(chǎn)量預(yù)測效果較差,模型預(yù)測不穩(wěn)定,個(gè)別預(yù)測結(jié)果誤差較大,預(yù)測值與實(shí)測值的R2為0.496 4。通過構(gòu)建GA優(yōu)化后的BP神經(jīng)網(wǎng)絡(luò)模型,得出最優(yōu)權(quán)重組合,經(jīng)過不斷迭代訓(xùn)練,GA-BP網(wǎng)絡(luò)模型預(yù)測精度R2達(dá)到0.842 8,MAPE僅為0.90%,RMSE為1.10 t/hm2。這一預(yù)測精度滿足甘蔗生產(chǎn)的實(shí)際需要,對于制定甘蔗生長期間的精準(zhǔn)管理決策及農(nóng)藝管理措施、提高甘蔗的生產(chǎn)效率具有指導(dǎo)作用與參考依據(jù)。
(3)通過交叉驗(yàn)證對考慮滯后的2種預(yù)測模型進(jìn)行評估,BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型的RMSE和MAPE平均值分別為5.261 t/hm2和3.961%,而GA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型RMSE和MAPE平均值分別為0.705 t/hm2和0.933%,BP神經(jīng)網(wǎng)絡(luò)的預(yù)測波動(dòng)較大,而GA-BP神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果相對穩(wěn)定,檢驗(yàn)表明GA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型精度優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。