王書鵬 迮恒鵬 王 濤 黃素珍 劉桂蘭
(1.鹽城工學院經管學院;2.鹽城工學院電氣學院;3.鹽城工學院數理學院)
針對汽車銷量預測研究問題,目前大多數建立的是傳統的時間序列分析模型[1-7]。它們存在兩點不足:(1)僅利用汽車歷史銷售數據解決汽車銷量預測問題,事實上存在眾多銷量影響汽車銷量預測的因素,比如原材料因素、消費者因素、網絡傳播因素、宏觀經濟因素等;(2)需要事先假定歷史銷量和銷量之間呈線性關系,事實上銷量和歷史銷量以及其他影響因素之間存在高度非線性的關系。本文將利用機器學習技術[8],建立多因素非線性自回歸汽車銷量預測模型。
選取本月汽車銷量作為因變量,解釋變量包括歷史汽車銷量、鋼材產量、橡膠輪胎產量、貨幣供應量、百度搜索指數、居民消費價格指數等,為了方便表述,文中采用表1中的符號建立銷量預測模型。

為前k月因素矩陣。

表1 符號說明
如果僅僅考慮歷史銷量數據對銷量的影響,則得到無因素非線性自回歸模型為

假設銷量不僅與歷史銷量有關,還與鋼材產量、橡膠輪胎產量、貨幣供應量、百度搜索指數、居民消費價格指數等有關,則得到多因素非線性自回歸模型為

利用機器學習技術,以大眾品牌汽車為例建立銷量預測的多因素非線性自回歸模型。
采用2011年1月至2018年12月共96個月的數據。
大眾品牌汽車月銷量數據,來源于車主之家網站https://www.16888.com。
鋼材產量、橡膠輪胎產量、貨幣供應量、居民消費價格指數的月度數據,來源于國家統計局網站http://www.stats.gov.cn/。
百度搜索指數月度數據,來源于百度指數網站http://index.baidu.com。
為了消除數據量綱的影響,將上述數據作歸一化處理:


非線性自回歸的神經網絡主要有輸入層、隱含層和輸出層、輸入輸出延時層構成。選取隱含層為25,延遲數d為12,其基本結構如圖1。

圖1 非線性自回歸神經網絡的基本結構
將96個樣本數據劃分如下:訓練數據占70%,驗證數據占15%,測試數據占15%。
選擇訓練算法Levenberg-Marquardt,該算法要求樣本容量足夠大,但是記憶速度快,當驗證數據均方誤差不再增長,訓練自動停止。
本文建立的大眾品牌銷量預測模型的結果如表2。

表2 大眾品牌銷量預測模型的結果
表2中MSE為預測銷量和實際銷量之間的均方誤差,MSE越小預測效果越好,當MSE=0時,預測銷量=實際銷量。R為預測銷量和實際銷量的相關系數,當R=1時,則預測銷量和實際銷量完全相關,當R=0時,則預測銷量和實際銷量完全不相關。該模型測試數據MSE=0.0694,小于0.1,但R=0.2182,小于0.5,預測效果一般。這是因為樣本數據量偏少,只有增加樣本容量,才能提高機器學習預測的精度。