王爾東
隨著社會經濟的發展和人民生活水平的提高,牛奶及其相關產品已經成為人們日常生活重要的一環。從一個角度來說,社會需求量的上升導致了奶價上升,缺乏科學客觀的牛奶產量預測會對人民生活產生影響;從另一個角度來說,牛奶產量是奶業的基石,對牛奶產量的科學預測對生產者具有十分重要的現實意義。通過對牛奶產量的預測,不僅可以探索其發展變化的規律,而且能為奶業的生產制造者提供有意義的指導,從而進行合理的牛奶生產,避免浪費,提高經濟效益的同時進一步為社會提供正確的消費導向,促進奶業與消費者之間的良性循環。
關于月度牛奶產量這樣的時間序列數據,在文獻調研中并沒有發現相關研究。但是,對于年度、季度牛奶產量的數據卻有所涉及。文獻[1]應用灰色模型(gray model,GM)GM(1,1)對新疆牛奶產量發展進行預測,結果表明該模型有較高的可靠性和實用性,能夠對新疆的奶業發展能夠起到一定的導向作用。文獻[2]應用ARIMA(Autoregressive Integrated Moving Average Model,ARIMA)模型對河北省的牛奶產量進行預測,結果表明該模型具有良好的預測效果和應用價值,可以對河北省牛奶產品進行合理并準確的分析。文獻[3]應用多元線性回歸模型(multivariable linear regression model,MR)對短時交通流量進行預測,結果表明該模型預測精度良好。文獻[4]應用貝葉斯網絡對牛奶產量進行預測,結果表明該模型在理論上具有嚴格性與統一性,能有效直觀地進行預測。文獻[5]應用MR對成品油價格進行了預測,結果表明多元線性回歸模型達到了較好的效果。
多元線性回歸在與預測相關的研究中有廣泛的應用。多元線性回歸模型根據歷史的樣本數據,建立多元線性回歸的預測模型,從而預測未來時刻多元線性回歸模型中的回歸參數。通過一些的模型精度評估指標.對多元線性回歸模型參數的預測進行評測,選擇最優的預測模型,從而表明這個模型可以用于分析和預測因變量對自變量的回歸關系問題。
多元線性回歸利用以下的原理進行計算:假設自變量與因變量之間存在著線性關系,用一定的線性回歸模型來擬合自變量與因變量之間的關系,并通過確定模型參數來得到回歸方程。然后,可以通過此回歸方程來分析變量之間的相關關系,進而能夠檢驗、分析各個自變量對因變量的線性影響。多元線性回歸模型在時間序列預測中的應用可以表示為公式(1),這里Yt是因變量的預測值,是通常應用最小二乘法確定的回歸系數,是回歸方程的常數項,是自變量,e代表誤差。

公式(1)表明它表明被解釋變量Yt的變化由兩部分進行解釋。第一,由t個解釋變量Y的變化引起的Yt的線性變化部分;第二,由其他隨機因素引起的Y的變化部分,e為隨機誤差;a0是回歸方程的常數項;是回歸系數;t=1,2,…,n,以上隨機因素引起的變化。
本文的整體研究框架大致分為以下幾個步驟:首先進入https://datamarket.com/data網站搜集某地1962年1月至1975年12月的牛奶產量數據并整理成“.csv”格式的數據文件,再將數據進行預處理(時間序列化)。接下來將數據文件導入R語言環境,并進行模型參數設置,將數據分為訓練集和測試集后,使用rminer程序包中的MR模型進行預測,計算預測精度,最后調整參數,選擇最高預測精度的模型,驗證模型的準確性。
整個預測過程的實現程序如算法1所示。首先導入“rmin-er”的程序包,然后將月度牛奶產量數據通過“read.csv("數據文件路徑名稱",header=TRUE)”函數讀取進來,并保存到“tab”這個變量中;之后將tab中的“每月產量”這一列數據通過代碼da=tab$production將其提取出來,并對其進行時間序列化。然后設置模型參數,通過代碼“window=12”調整窗口長度為12,通過代碼“H=12”調整測試集大小為12;接著通過代碼“L=length(a)”計算數據長度;最后再設置測試集;下一步通過代碼“d=CasesSeries(a,c(1:window)”將所有數據轉化為矩陣d,再通過代碼“LD=nrow(d)”計算其行數,最后通過代碼“dtr=1:(LD-H)”設置訓練集的行數,參數調整完成。接著使用fit()函數建立多元線性回歸模型,同時運用lforecast函數建立預測模型并保存至變量pred中,再建立變量r表示預測值與測試集在RMSE運算后的誤差并做出圖像,最后顯示出預測值與測試集分別在RMSE和MAE度量標準下的誤差值。
本實驗的步驟與代碼設計如表1所示:

表1 實驗步驟與代碼設計
本實驗采用的是美國某地1962年1月至1975年12月的月度牛奶產量,共158個數據點,由Time Serious Data Library提供。本實驗的數據整體呈波動上升趨勢。
本實驗的程序編寫語言與操作環境是R,R用于統計分析、繪圖的語言和操作環境,是一個自由、免費、源代碼開放的軟件。本實驗使用了rminer程序包,提供用戶可視化的角色挖掘和角色狀態更新平臺。
本實驗運用了RMSE與MAE兩種度量標準,

其中yt為預測值,ft為真實值,T為測試點個數。
本實驗根據參數中的窗口長度window作為變量,通過等距調整window的值記錄,因變量預測精度,得到的實驗設計結果。由實驗得出的圖表可以得出以下結論與分析:
(1)總體來說,多元回歸模型對于月度牛奶產量的預測是十分優秀的,能夠成功得出對未來牛奶產量的科學預測。
(2)預測精度在參數window的變化下逐漸趨于穩定。預測的誤差在window值取2至10是快速下降,并且預測精度急劇升高,預測性能越來越好。
(3)在window值取8時,預測精度最高;隨著window值的升高,圖像始終在實際數據上下波動,且波動幅度較小。

表2 MR模型對該地1975年1月至12月月度牛奶產量預測的實驗結果
本文運用多元線性回歸模型,從1962年1月至1974年12月月度牛奶產量的數據出發,通過數據時間序列化和建模預測,成功對1975年1月至12月月度牛奶產量進行了科學的預測。并且通過均方根誤差(RMSE)與平均絕對值誤差(MAE),計算了不同窗口長度下多元線性回歸模型的預測精度。其中,窗口長度為8的模型誤差值更小,預測精度更高。