魏衍增
基于百度指數(shù)的汽車銷量預(yù)測(cè)模型
魏衍增
(同濟(jì)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,上海 201804)
隨著互聯(lián)網(wǎng)的發(fā)展,人們?cè)谫?gòu)買商品前一般都會(huì)在網(wǎng)上搜索商品的相關(guān)信息,從而作為購(gòu)買決策的重要參考依據(jù)。汽車作為一種高價(jià)值商品,幾乎所有消費(fèi)者在購(gòu)買前都會(huì)使用搜索引擎查詢心儀車型的價(jià)格、口碑等,因此搜索指數(shù)可在一定程度上反映出某款車型銷量變化的趨勢(shì)。以百度指數(shù)和汽車銷量為輸入變量構(gòu)建汽車銷量預(yù)測(cè)模型,以便獲得更加精確的預(yù)測(cè)結(jié)果。為了驗(yàn)證百度指數(shù)對(duì)預(yù)測(cè)的作用,將移動(dòng)平均自回歸(ARMA)模型設(shè)為基準(zhǔn)模型,輸入變量為歷史銷量數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,加入百度指數(shù)的LSTM銷量預(yù)測(cè)模型的預(yù)測(cè)精度比基準(zhǔn)模型有了較大提升。因此,汽車企業(yè)可選擇基于LSTM的銷量預(yù)測(cè)模型來提升銷量預(yù)測(cè)精度,用于指導(dǎo)企業(yè)制訂生產(chǎn)和營(yíng)銷計(jì)劃。
百度指數(shù);銷量預(yù)測(cè);LSTM模型;ARMA模型
對(duì)于車企來說,汽車銷量預(yù)測(cè)關(guān)系著采購(gòu)、生產(chǎn)、營(yíng)銷等全產(chǎn)業(yè)鏈的計(jì)劃制訂,因此備受企業(yè)重視。已有的汽車銷量預(yù)測(cè)研究主要聚焦于汽車市場(chǎng)的銷量預(yù)測(cè),只能給企業(yè)以宏觀層面的指導(dǎo),無法為企業(yè)微觀層面的運(yùn)作提供有力的依據(jù)。此外,傳統(tǒng)的銷量預(yù)測(cè)以統(tǒng)計(jì)學(xué)方法為主,比如線性回歸、ARMA、灰色系統(tǒng)理論等,這些模型依賴于具有較大時(shí)間延遲性的歷史銷量數(shù)據(jù),導(dǎo)致預(yù)測(cè)效果也不是特別理想。互聯(lián)網(wǎng)時(shí)代,大數(shù)據(jù)和人工智能的出現(xiàn)為銷量預(yù)測(cè)提供了更 多新方法和大量數(shù)據(jù),如搜索引擎數(shù)據(jù)和在線評(píng)論等。
搜索引擎作為網(wǎng)民搜索信息的入口,可記錄其在網(wǎng)絡(luò)上的搜索行為及隱藏意愿,通過挖掘這些數(shù)據(jù)與銷量數(shù)據(jù)間的關(guān)系,可提升銷量預(yù)測(cè)的精度。
研究表明,搜索引擎數(shù)據(jù)有助于改善零售業(yè)、汽車、房屋、旅游等行業(yè)的銷量預(yù)測(cè)精度,但已有研究大多利用搜索指數(shù)來預(yù)測(cè)全國(guó)汽車市場(chǎng)銷量或某汽車品牌的銷量,還沒有應(yīng)用于某款汽車的銷量預(yù)測(cè)。為此,分別采用GBR、LSTM模型,將某一款汽車的百度指數(shù)作為輸入變量,測(cè)量其對(duì)該款汽車銷量預(yù)測(cè)精度的影響。
與基于單一銷量數(shù)據(jù)的ARMA模型相比,加入百度指數(shù)的LSTM模型具有更好的預(yù)測(cè)能力。
搜索引擎作為互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用,是網(wǎng)民獲取海量信息的重要工具,用戶規(guī)模達(dá)6.81億人,占整體網(wǎng)民的82.2%。搜索指數(shù)是以網(wǎng)民在搜索引擎的搜索量為數(shù)據(jù)基礎(chǔ),以關(guān)鍵詞為統(tǒng)計(jì)對(duì)象,科學(xué)分析并計(jì)算出各個(gè)關(guān)鍵詞在網(wǎng)頁搜索中搜索頻次的加權(quán)和。百度作為中國(guó)第一大搜索引擎,其市場(chǎng)份額高達(dá)72.74%,因此,本文將選擇百度指數(shù)作為搜索引擎數(shù)據(jù)。
情緒指數(shù)最早被應(yīng)用于測(cè)量投資者的情緒變化[1]。隨著搜索引擎的普及,學(xué)者們開始從搜索中獲取投資者的情感指數(shù)或信心指數(shù),研究其對(duì)股票市場(chǎng)走勢(shì)、房地產(chǎn)走勢(shì)、電影票房的預(yù)測(cè)能力。例如,CHOI等[2]將Google搜索指數(shù)最新因素加入到自回歸預(yù)測(cè)模型中,發(fā)現(xiàn)零售業(yè)、汽車、房屋、旅游四個(gè)行業(yè)的銷量預(yù)測(cè)精度均得到明顯改善。袁慶玉 等[3]、鮑家興[4]、李憶等[5]的研究表明搜索引擎指數(shù)與中國(guó)市場(chǎng)的汽車銷量存在一定相關(guān)性,可改善中國(guó)汽車銷量的預(yù)測(cè)精度。王守中等[6]、FANTAZZINI等利用搜索數(shù)據(jù)對(duì)某些汽車品牌的銷量進(jìn)行了預(yù)測(cè)研究,并且取得了不錯(cuò)的效果。
汽車工業(yè)作為國(guó)民經(jīng)濟(jì)的支柱產(chǎn)業(yè),一直都是專家學(xué)者關(guān)注的重點(diǎn),其中汽車銷量預(yù)測(cè)是研究熱點(diǎn)之一。回顧當(dāng)前的研究成果,可將汽車銷量預(yù)測(cè)模型分為以下幾種:①基于統(tǒng)計(jì)方法的預(yù)測(cè)模型,包括線性回歸法、時(shí)間序列法、自回歸移動(dòng)平均法(ARMA)、灰色系統(tǒng)理論、馬爾科夫模型以及組合預(yù)測(cè)方法等;②基于機(jī)器學(xué)習(xí)的預(yù)測(cè)模型,包括SVM、GBR、人工神經(jīng)網(wǎng)絡(luò)(ANN)、BP神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等。
在AI時(shí)代,深度學(xué)習(xí)算法也開始被用于產(chǎn)品銷量的預(yù)測(cè)研究中。SHIH和LIN在電子商務(wù)背景下提出一種基于LSTM網(wǎng)絡(luò)的短期需求商品銷售預(yù)測(cè)方法,YU等將LSTM方法應(yīng)用到零售商品的銷量預(yù)測(cè),并且都取得了不錯(cuò)的預(yù)測(cè)效果。
本文將分別使用ARMA、GBR、LSTM模型來預(yù)測(cè)汽車銷量,并對(duì)比其預(yù)測(cè)效果。
本實(shí)驗(yàn)選取的研究對(duì)象為大眾旗下的朗逸,以下所有數(shù)據(jù)均為朗逸的相關(guān)數(shù)據(jù)。選取時(shí)間范圍為2013-01— 2017-12,以月為單位,共計(jì)60個(gè)月,將前54個(gè)月作為訓(xùn)練樣本。
3.1.1 數(shù)據(jù)來源
銷量數(shù)據(jù)從車主之家(www.16888.com)網(wǎng)站獲取;百度搜索指數(shù)從百度指數(shù)(index.Baidu.com)網(wǎng)頁獲取,查詢關(guān)鍵詞為“朗逸”。
3.1.2 數(shù)據(jù)處理
首先對(duì)銷量數(shù)據(jù)、百度指數(shù)進(jìn)行取對(duì)數(shù)ln處理,使兩者處于相近量級(jí),并分別使用Sales_vol、Baidu_index作為變量名稱。
為了探究百度指數(shù)與銷量的關(guān)系,選擇ARMA作為基本模型Ⅰ:

式(1)中:t為時(shí)期的汽車銷量;t-q為誤差項(xiàng)。
通過AIC準(zhǔn)則和SC準(zhǔn)則,選擇ARMA(2,1)模型。
由文獻(xiàn)回顧可知,機(jī)器學(xué)習(xí)常常被用于銷量預(yù)測(cè),因此本實(shí)驗(yàn)選取了以下4種機(jī)器學(xué)習(xí)算法進(jìn)行銷量預(yù)測(cè),預(yù)測(cè)效果如表1所示。4種機(jī)器學(xué)習(xí)算法分別為貝葉斯嶺回歸(BayesianRidge)、彈性網(wǎng)絡(luò)(ElasticNet)、支持向量回歸(SVR)和梯度提升回歸(GBR)。評(píng)價(jià)指標(biāo)包括平均絕對(duì)誤差(Mean Absolute Error,MAE)、均方誤差(Mean Squared Error,MSE)和決定系數(shù)(2)。
表1 輸入變量為Bai_index、Sales_vol時(shí)各模型預(yù)測(cè)效果對(duì)比
MAEMSER2 BayesianRidge0.192 3660.056 9730.000 047 ElasticNet0.192 3590.056 9750.000 000 SVR0.193 1190.056 5940.006 689 GBR0.058 2030.004 4590.921 742
對(duì)比四種算法的預(yù)測(cè)效果指標(biāo)發(fā)現(xiàn),GBR的四個(gè)指標(biāo)均明顯優(yōu)于另外三種算法,這也體現(xiàn)了GBR集成學(xué)習(xí)算法的優(yōu)勢(shì),因此決定使用GBR模型作為模型Ⅱ。
考慮到實(shí)驗(yàn)數(shù)據(jù)具有時(shí)間序列特征以及LSTM可保留歷史信息的特點(diǎn),所以選擇LSTM網(wǎng)絡(luò)模型作為模型Ⅲ,其中參數(shù)配置為:batch_size=32,dropout=0.5,epoch=100,滯后階數(shù)為1階。
本實(shí)驗(yàn)采用兩個(gè)評(píng)估指標(biāo)來衡量模型的預(yù)測(cè)效果,分別為均方根誤差(RMSE)和平均絕對(duì)百分比誤差(MAPE),計(jì)算公式如下:



預(yù)測(cè)結(jié)果如表2所示。
表2 不同模型預(yù)測(cè)結(jié)果對(duì)比
基準(zhǔn)組Baidu_index組 模型Ⅰ模型Ⅱ模型Ⅲ RMSE0.3350.4800.356 MAPE0.0300.0410.016
對(duì)比上述模型的RMSE和MAPE可知,模型Ⅲ的MAPE減小至模型Ⅰ的50%,RMSE僅增加6.3%,增幅較小,說明加入百度指數(shù)后可以改善模型預(yù)測(cè)效果。此外,LSTM模型(模型Ⅲ)的RMSE、MAPE均低于GBR模型(模型Ⅱ),即預(yù)測(cè)效果明顯好于GRB模型,這也側(cè)面反映了LSTM適合處理時(shí)間序列數(shù)據(jù)的特性。
本文通過實(shí)證研究證明了搜索引擎指數(shù)與汽車銷量存在一定相關(guān)性,并可用于某款汽車的銷量預(yù)測(cè),這對(duì)車企制定生產(chǎn)銷售計(jì)劃具有很大幫助。在大數(shù)據(jù)時(shí)代,如何更加有效地利用大數(shù)據(jù)來幫助企業(yè)決策將會(huì)是未來研究的熱點(diǎn)。因此,今后可進(jìn)一步挖掘互聯(lián)網(wǎng)上的數(shù)據(jù),如汽車網(wǎng)站的評(píng)論、微博話題等,從而使銷量預(yù)測(cè)更加準(zhǔn)確。
[1]王宜峰,王燕鳴.投資者情緒在資產(chǎn)定價(jià)中的作用研究[J].管理評(píng)論,2014,26(6):42-55.
[2]CHOI H,VARIAN H.Predicting the present with google trends[J].Economic Record,2012,88(Suppl 1):2-9.
[3]袁慶玉,彭賡,劉穎,等.基于網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)的汽車銷量預(yù)測(cè)研究[J].管理學(xué)家(學(xué)術(shù)版),2011(1):12-24.
[4]鮑家興.基于百度搜索數(shù)據(jù)的汽車銷售量預(yù)測(cè)研究[D].北京:中國(guó)科學(xué)院大學(xué),2014.
[5]李憶,文瑞,楊立成.網(wǎng)絡(luò)搜索指數(shù)與汽車銷量關(guān)系研究——基于文本挖掘的關(guān)鍵詞獲取[J].現(xiàn)代情報(bào),2016,36(8):131-136,177.
[6]王守中,崔東佳,彭賡.基于Web搜索數(shù)據(jù)的寶馬汽車銷量預(yù)測(cè)研究[J].經(jīng)濟(jì)師,2013(12):22-24,26.
F713.54
A
10.15913/j.cnki.kjycx.2019.19.025
2095-6835(2019)19-0064-02
魏衍增(1992—),男,山東菏澤人,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘與商業(yè)智能應(yīng)用。
〔編輯:張思楠〕