劉振洋,趙家松,胡仁傑,劉笠溶
(云南農業大學大數據學院,云南 昆明 650201)
【研究意義】甘蔗產業是云南省特色產業之一,更是扶貧產業之一,云南甘蔗種植面積、產量和產糖量均居全國第二位,僅次于廣西,云南省16 個地州中有10 個地州產糖,主要集中在臨滄、德宏、保山、普洱、文山、西雙版納、玉溪、紅河8 個地州、市、縣,全省129 個縣(市)中有52 個縣(市、區)種植甘蔗,多為沿邊少數民族地區。對云南省甘蔗產量的研究既有助于云南省特色產業的發展,也可對邊區經濟發展起到推動作用[1]。產量預測模型是當前產量研究的重要方法之一,通過預測農作物的產量,有助于農作物的種植規劃和市場調控。目前主要的產量預測模型有BP 神經網絡、支持向量機、Cart 回歸樹、線性回歸等,這些模型在產量預測方面的應用均較為成熟。
【前人研究進展】BP 神經網絡模型在產量預測方向的使用最為廣泛。彭秋連等[2]、許鑫等[3]將BP 神經網絡模型應用于農作物產量預測上,其相對誤差始終維持較低水平;李修華等[4]使用遺傳算法對BP 神經網絡進行了改進,創新性地采用基于遺傳算法的BP 神經網絡模型對甘蔗產量進行預測,其相對誤差和決定系數相對于BP神經網絡模型,都有了較大改進。此外,胡程磊等[5]、張浩等[6]提出基于BP 神經網絡的IPSO-BP 神經網絡模型和AIGA-BP 神經網絡模型,在糧食產量預測方向上的預測精度維持在一個較高水平,對比BP 神經網絡模型也有極大的提升。
支持向量機作為當前機器學習的主流算法,也被大量應用于產量預測研究,段東瑤等[7]將SVM 模型使用于綠茶加工含水量變化預測,模型預測精度較高,擬合度較好,具有很強的參考價值;趙桂芝等[8]、施瑤等[9]提出基于PSO 算法優化的SVM 模型和基于SAFA 算法優化的LSSVM模型,為糧食產量預測提供了新的途徑。Cart 回歸樹作為數據挖掘的經典算法,也可以被用于產量預測方向,陳湘芳等[10]使用Cart 回歸樹對黃瓜產量進行預測,預測模型的誤差較小且具有良好的準確性?;疑P鸵脖怀S糜诋a量預測,余永松等[11]、張永強等[12]使用灰色模型對蔬菜和花生產量進行預測,其模型收斂速度較快且相對誤差較小;喬松珊等[13]還將馬爾科夫鏈用于提高灰色模型的精度,對肉類產量進行了很好的預測。
基于其簡潔和穩定的特點,線性回歸也是產量預測方面使用較為廣泛的算法之一。研究表明,將多元線性回歸算法用于國內外多種農作物的產量預測,利用多元線性回歸算法構建的模型在經濟作物和糧食作物的產量預測上,都保持較低的誤差和較高的擬合度,證明了線性回歸算法在產量預測領域的可行性和實用性[14-20]。關聯規則算法作為數據挖掘的重要算法之一,在農業數據分析上同樣取得很好的成果。徐霖[21]將關聯規則算法應用于土壤肥力評價系統中,計算分析得到土壤肥力與農作物產量之間的關聯關系。Santosh 等[22]使用關聯規則中的Apriori 算法,開發出一套基于消費者數據和生產者的農業推薦系統,為農業生產者購買生產資料提供推薦,降低生產風險;Hira 等[23]使用關聯規則算法建立多維模型,對農業種植中的各農業參數之間的關系進行分析,最終得到多條關聯性較強的規則,為農業種植提供指導作用;Niketa 等[24]發現多種關聯規則算法在農業中的應用,主要用于闡明不同氣候與作物生產之間的隱藏模式和關聯、農業害蟲控制等;Inam 等[25]使用關聯規則發現多條水稻產量最高水平的強過濾關聯規則,對神經網絡算法進行優化,建立神經網絡模型對水稻產量進行預測??梢?,對于農業數據的分析,關聯規則法具有很強的可行性和優越性。
【本研究切入點】從以上研究可以發現,線性回歸算法被廣泛應用于產量預測模型構建,模型將產量作為樣本輸出,通過輸入多個樣本特征對產量進行預測。而關聯規則算法對農業數據分析的應用可以被用于選擇樣本特征,選擇關聯性較強的因素作為樣本特征,可以提高產量預測模型的準確性。【擬解決的關鍵問題】構建基于關聯規則和多元線性回歸的甘蔗產量預測模型,為云南甘蔗糖業的發展提供科學依據。
本研究所用數據來自于云南統計年鑒中5 個甘蔗主產區(普洱、臨滄、文山、紅河、德宏)2008—2020 年的甘蔗產量、種植條件以及氣象條件數據,其中種植條件包括水庫數、氮肥用量、磷肥用量、鉀肥用量、復合肥用量、地膜使用量、甘蔗種植面積,氣象條件包括年均氣溫和年降水量。以2008—2018年的數據作為訓練集,用于模型的訓練;以2019—2020 年的數據作為測試集,用于測試模型精度,以紅河為例,具體原始數據見表1。

表1 云南紅河2008—2020 年甘蔗產量、種植條件及氣象數據Table 1 Sugarcane production,planting conditions and meteorological data in Honghe from 2008 to 2020
收集數據的過程中往往會出現數據缺失或臟數據的情況,如果不加以處理,將會影響最終預測模型的精度。云南統計年鑒缺少2008—2011 年各地州平均氣溫和年降水量的數據,出現數據缺失的情況。針對這種情況,本研究采用均值填充缺失值的預處理方法,即用2012—2018 年各地州平均氣溫和年降水量的數據取平均值對缺失數據進行補全,并對不同年份相同因素所使用的統計單位進行統一化,保證訓練集數據的精確度。
1.3.1 模型算法 數據挖掘的意義在于從大量數據中通過算法搜索其中隱藏的信息,將有價值的信息總結為知識。數據挖掘的主要方法包括關聯規則、決策樹、線性回歸、神經網絡等,本研究主要采用關聯規則和線性回歸構建預測模型,具體算法則采用Apriori 和多元線性回歸算法。
Apriori 算法基于其簡便性和可靠性,已經成為關聯規則中使用范圍最廣的算法,被廣泛應用于規則的挖掘和知識的發現。選用Apriori 算法可以對不同因素與甘蔗產量的關聯性進行分析,從中找出甘蔗產量的強關聯因素,由于在模型的實際構建中,弱關聯因素和無關聯因素會導致模型的精度下降和關聯性降低,因此保留強關聯因素作為構建預測模型的樣本特征,同時舍棄弱關聯和無關聯因素。
多元線性回歸算法是當前使用最為廣泛的線性回歸算法之一,該算法在產量預測中應用十分廣泛。多元線性回歸算法可以表示多個樣本特征與樣本輸出之間的線性關系,其一般形式表示為:

式中,y為樣本輸出,x1,x2,……xn為n個樣本特征,β0為常數,β1,β2,……βn為回歸系數。
多元線性回歸算法可以通過輸入多個樣本特征得到相應的樣本輸出,從而達到預測目的,因此采用多元線性回歸算法構建產量預測模型。在得到甘蔗產量的強關聯因素后,以甘蔗產量的強關聯因素作為多元線性回歸的樣本特征,構建多元線性回歸模型。
1.3.2 甘蔗產量影響因素分析 由于Apriori 算法需要的數據格式是二元的,所以首先需要對數據進行二元化處理,轉化為Apriori 算法需要的數據格式。數據處理方法為分別將每個地區2008—2017 年的數 據轉化 為10×10 階的矩 陣S1,2009—2018 年的數據以同樣的方式轉化為10×10階的矩陣S2,將S2與S1進行比較,對應位置的數據同比上升的記錄為1,同比未上升的記錄為0,轉化結果為新的10×10 階矩陣S3。以臨滄市的甘蔗種植條件、氣象條件數據及甘蔗產量數據為例,具體轉化過程如圖1 所示。

圖1 矩陣轉化過程Fig.1 Matrix transformation process
在得到每個地區的S3后,將所有5 個地區的S3合并為一個50×10 階矩陣,記作S4,使用Apriori 算法對S4進行分析,計算每個影響因素對甘蔗產量的支持度、置信度、提升度,結果如表2 所示。
1.3.3 多元線性回歸預測模型構建 關聯規則是形如A=>B 的蘊含式,其中A 稱為規則前件,B稱為規則后件。通常用支持度和置信度作為關聯規則的價值度量,其中支持度反映A 與B 同時出現的概率,揭示規則的有用性;置信度反映A 出現時B 也出現的可能性大小,揭示規則的可靠性。同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規則稱為強關聯規則,本研究設置min_sup=0.4、min_conf=0.5。由表2 可知,包括種植因素和氣候因素在內,甘蔗產量的影響因素共有9 個,其中年均氣溫與年降水量兩個因素對甘蔗產量的支持度和置信度分別小于0.4 和0.5,因此年均氣溫與年降水量兩個因素對于甘蔗產量而言是弱關聯因素。

表2 各影響因素關聯規則計算結果Table 2 Association rule calculation results of various influencing factors
此外,考慮到置信度忽略了規則后件中項集的支持度,引入規則的提升度有助于解決這個問題。規則的提升度可以有效判斷規則是否有實際價值,如果A=>B 的提升度大于1,則說明A 和B 正相關。表1 中水庫數、復合肥用量兩個因素對甘蔗產量的提升度小于1,這兩個因素也作為弱關聯因素。
根據上述數據分析,基于關聯規則方法,將甘蔗產量的影響因素由9 個縮減為5 個,使用氮肥用量、磷肥用量、鉀肥用量、地膜使用量、甘蔗種植面積5 個與甘蔗產量正相關的強關聯因素作為多元線性回歸模型的樣本特征,構建多元線性回歸模型,具體模型如下式所示:

式中,y為甘蔗產量,x1,x2,……x5分別為氮肥用量、磷肥用量、鉀肥用量、地膜使用量、甘蔗種植面積,β0為常數項,β1,β2,……β5分別為對應樣本特征的回歸系數。將5 個樣本特征的訓練集數據代入模型進行訓練,可以得到不同地區預測模型的回歸系數和β0,以回歸系數和β0構建多元線性回歸模型,作為最終的甘蔗產量預測模型。
將Apriori 算法分析出的5 個強關聯因素作為樣本特征,并設置甘蔗產量為目標變量(樣本輸出),可以得到云南省各地州的多元線性回歸預測模型。通過代入回歸系數及β0,各地州甘蔗產量預測模型如表3 所示。

表3 甘蔗產量預測模型Table 3 Prediction model of sugarcane yield
R2是評判多元線性回歸模型的重要標準之一,在多元線性回歸模型中,R2代表著多元線性回歸模型的擬合程度,R2越接近1,模型的擬合程度越好。此外,平均誤差也是評判模型精準度的重要指標,將測試集數據代入各地州甘蔗產量預測模型后,可以計算出預測模型的平均誤差。由表4 可知,各地州甘蔗產量預測模型的平均誤差處于2.1%~8.6%之間,R2處于0.857~0.997 之間,表明各地州甘蔗產量預測模型的平均誤差較小、擬合程度較好,該模型具有較好的參考性和研究價值。

表4 甘蔗產量預測模型平均誤差及R2Table 4 Average error and R2 of prediction model of sugarcane yield
BP 神經網絡模型作為產量預測領域使用最為廣泛的模型,在產量預測方面有許多應用,通過與其對比可以說明基于關聯規則的多元線性回歸模型在預測精度上的優劣勢,分別構建BP 神經網絡模型和多元線性回歸模型,代入測試集數據對甘蔗產量進行預測用于計算平均誤差,并將兩種預測模型的平均誤差與基于關聯規則的多元線性回歸模型的平均誤差進行對比分析。取9 個樣本特征,代入訓練集數據構建兩種預測模型,并分別對兩種預測模型依次代入測試集數據進行驗證。
在使用相同樣本特征的情況下,基于關聯規則的多元線性回歸模型的平均誤差在2.1%~8.6%之間,而多元線性回歸模型的平均誤差在10.7%~32.2%之間,BP 神經網絡模型的平均誤差則在8.4%~29.6%之間,具體對比結果如表5 所示。

表5 各模型平均誤差對比Table 5 Comparison of average errors of various models
為驗證模型的可靠性與實用性,將2019 年云南省5 個甘蔗主產區(普洱、臨滄、文山、紅河、德宏)的甘蔗種植條件數據以及氣象條件數據代入模型,獲得模型的預測產量,并與實際的甘蔗產量數據進行對比,計算相對誤差,結果(表6)表明,模型預測產量和實際的甘蔗產量較為接近,相對誤差較小,具有較強的可靠性和實用性。

表6 各地區2019 年模型預測產量與實際產量及相對誤差Table 6 Relative error between predicted output of model and actual output of each region in 2019
得益于數據挖掘和人工智能技術的蓬勃發展,農業生產中產生的大量數據得到充分的挖掘和利用,以產量預測為例,其中獲得的知識被反作用于農業生產,讓農業生產逐步邁入數據時代。前人研究表明,在目前國內外產量預測領域,線性回歸、BP 神經網絡、支持向量機、Cart 回歸樹等算法具有大量的應用成果。但隨著樣本特征的增加和種植環境的復雜化,產量預測模型的擬合度會出現下降趨勢,Niazian 等[26]使用多元線性回歸算法構建預測模型,對阿朱萬種子產量進行預測,其模型訓練集R2為0.81、測試集R2為0.79。Abdipoura 等[27]使用多元線性回歸算法對紅花種子產量進行預測,其模型訓練集R2=0.71、測試集R2=0.686。針對這種情況,許多學者采用優化算法對基礎模型進行優化從而提高模型的準確率,如遺傳算法、IPSO 算法對BP 神經網絡的優化,PSO 算法和SAFA 算法對SVM 的優化,均大大提高了模型的準確率和擬合度。本研究基于前人優化模型理念,利用關聯規則算法對樣本特征和樣本輸出之間的關聯性進行分析,篩選出強關聯的樣本特征,對多元線性回歸算法進行優化,降低復雜環境和多個樣本特征對多元線性回歸算法的影響,在相同條件下提高了多元線性回歸算法的準確率和擬合度。
與其他類型的產量預測模型類似,本研究所提出的甘蔗產量預測模型在地域和時效上存在一定的局限性。對云南省甘蔗主產區以外的地區,模型的準確率和擬合度不能得到保證,而且隨著時間的推移和種植數據的不斷增加,模型的準確率也會發生變化。為獲取更精準的預測效果,需要考慮將未來產生的甘蔗產量數據、種植條件數據以及氣象條件數據加入訓練集,對模型進行更新訓練,保證模型的可靠性與時效性。
本研究構建基于關聯規則算法的多元線性回歸模型,根據測試集的測試結果可以看出,該模型精度在91%~97%之間,R2在0.857~0.997,表明基于關聯規則的多元線性回歸模型具有較高的預測精度和擬合度,預測結果較為準確,為甘蔗產量預測模型提供了新的方法。由于使用的數據集皆為云南統計年鑒的真實數據,因此該模型具有一定的應用價值,可以被用于云南省的甘蔗產量研究。同時,該模型表明關聯規則算法對多元線性回歸算法的改進作用,可為后續的產量預測模型提供新的改進思路。