基于百度指數(shù)的汽車銷量預(yù)測(cè)模型

2019-10-22 05:16:14魏衍增

科技與創(chuàng)新 2019年19期

魏衍增

魏衍增

（同濟(jì)大學(xué) 經(jīng)濟(jì)與管理學(xué)院，上海 201804）

隨著互聯(lián)網(wǎng)的發(fā)展，人們?cè)谫?gòu)買商品前一般都會(huì)在網(wǎng)上搜索商品的相關(guān)信息，從而作為購(gòu)買決策的重要參考依據(jù)。汽車作為一種高價(jià)值商品，幾乎所有消費(fèi)者在購(gòu)買前都會(huì)使用搜索引擎查詢心儀車型的價(jià)格、口碑等，因此搜索指數(shù)可在一定程度上反映出某款車型銷量變化的趨勢(shì)。以百度指數(shù)和汽車銷量為輸入變量構(gòu)建汽車銷量預(yù)測(cè)模型，以便獲得更加精確的預(yù)測(cè)結(jié)果。為了驗(yàn)證百度指數(shù)對(duì)預(yù)測(cè)的作用，將移動(dòng)平均自回歸（ARMA）模型設(shè)為基準(zhǔn)模型，輸入變量為歷史銷量數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明，加入百度指數(shù)的LSTM銷量預(yù)測(cè)模型的預(yù)測(cè)精度比基準(zhǔn)模型有了較大提升。因此，汽車企業(yè)可選擇基于LSTM的銷量預(yù)測(cè)模型來提升銷量預(yù)測(cè)精度，用于指導(dǎo)企業(yè)制訂生產(chǎn)和營(yíng)銷計(jì)劃。

百度指數(shù)；銷量預(yù)測(cè)；LSTM模型；ARMA模型

1 引言

對(duì)于車企來說，汽車銷量預(yù)測(cè)關(guān)系著采購(gòu)、生產(chǎn)、營(yíng)銷等全產(chǎn)業(yè)鏈的計(jì)劃制訂，因此備受企業(yè)重視。已有的汽車銷量預(yù)測(cè)研究主要聚焦于汽車市場(chǎng)的銷量預(yù)測(cè)，只能給企業(yè)以宏觀層面的指導(dǎo)，無法為企業(yè)微觀層面的運(yùn)作提供有力的依據(jù)。此外，傳統(tǒng)的銷量預(yù)測(cè)以統(tǒng)計(jì)學(xué)方法為主，比如線性回歸、ARMA、灰色系統(tǒng)理論等，這些模型依賴于具有較大時(shí)間延遲性的歷史銷量數(shù)據(jù)，導(dǎo)致預(yù)測(cè)效果也不是特別理想。互聯(lián)網(wǎng)時(shí)代，大數(shù)據(jù)和人工智能的出現(xiàn)為銷量預(yù)測(cè)提供了更多新方法和大量數(shù)據(jù)，如搜索引擎數(shù)據(jù)和在線評(píng)論等。

搜索引擎作為網(wǎng)民搜索信息的入口，可記錄其在網(wǎng)絡(luò)上的搜索行為及隱藏意愿，通過挖掘這些數(shù)據(jù)與銷量數(shù)據(jù)間的關(guān)系，可提升銷量預(yù)測(cè)的精度。

研究表明，搜索引擎數(shù)據(jù)有助于改善零售業(yè)、汽車、房屋、旅游等行業(yè)的銷量預(yù)測(cè)精度，但已有研究大多利用搜索指數(shù)來預(yù)測(cè)全國(guó)汽車市場(chǎng)銷量或某汽車品牌的銷量，還沒有應(yīng)用于某款汽車的銷量預(yù)測(cè)。為此，分別采用GBR、LSTM模型，將某一款汽車的百度指數(shù)作為輸入變量，測(cè)量其對(duì)該款汽車銷量預(yù)測(cè)精度的影響。

與基于單一銷量數(shù)據(jù)的ARMA模型相比，加入百度指數(shù)的LSTM模型具有更好的預(yù)測(cè)能力。

2 文獻(xiàn)回顧和相關(guān)理論

搜索引擎作為互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用，是網(wǎng)民獲取海量信息的重要工具，用戶規(guī)模達(dá)6.81億人，占整體網(wǎng)民的82.2%。搜索指數(shù)是以網(wǎng)民在搜索引擎的搜索量為數(shù)據(jù)基礎(chǔ)，以關(guān)鍵詞為統(tǒng)計(jì)對(duì)象，科學(xué)分析并計(jì)算出各個(gè)關(guān)鍵詞在網(wǎng)頁搜索中搜索頻次的加權(quán)和。百度作為中國(guó)第一大搜索引擎，其市場(chǎng)份額高達(dá)72.74%，因此，本文將選擇百度指數(shù)作為搜索引擎數(shù)據(jù)。

情緒指數(shù)最早被應(yīng)用于測(cè)量投資者的情緒變化[1]。隨著搜索引擎的普及，學(xué)者們開始從搜索中獲取投資者的情感指數(shù)或信心指數(shù)，研究其對(duì)股票市場(chǎng)走勢(shì)、房地產(chǎn)走勢(shì)、電影票房的預(yù)測(cè)能力。例如，CHOI等[2]將Google搜索指數(shù)最新因素加入到自回歸預(yù)測(cè)模型中，發(fā)現(xiàn)零售業(yè)、汽車、房屋、旅游四個(gè)行業(yè)的銷量預(yù)測(cè)精度均得到明顯改善。袁慶玉等[3]、鮑家興[4]、李憶等[5]的研究表明搜索引擎指數(shù)與中國(guó)市場(chǎng)的汽車銷量存在一定相關(guān)性，可改善中國(guó)汽車銷量的預(yù)測(cè)精度。王守中等[6]、FANTAZZINI等利用搜索數(shù)據(jù)對(duì)某些汽車品牌的銷量進(jìn)行了預(yù)測(cè)研究，并且取得了不錯(cuò)的效果。

汽車工業(yè)作為國(guó)民經(jīng)濟(jì)的支柱產(chǎn)業(yè)，一直都是專家學(xué)者關(guān)注的重點(diǎn)，其中汽車銷量預(yù)測(cè)是研究熱點(diǎn)之一。回顧當(dāng)前的研究成果，可將汽車銷量預(yù)測(cè)模型分為以下幾種：①基于統(tǒng)計(jì)方法的預(yù)測(cè)模型，包括線性回歸法、時(shí)間序列法、自回歸移動(dòng)平均法（ARMA）、灰色系統(tǒng)理論、馬爾科夫模型以及組合預(yù)測(cè)方法等；②基于機(jī)器學(xué)習(xí)的預(yù)測(cè)模型，包括SVM、GBR、人工神經(jīng)網(wǎng)絡(luò)（ANN）、BP神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）等。

在AI時(shí)代，深度學(xué)習(xí)算法也開始被用于產(chǎn)品銷量的預(yù)測(cè)研究中。SHIH和LIN在電子商務(wù)背景下提出一種基于LSTM網(wǎng)絡(luò)的短期需求商品銷售預(yù)測(cè)方法，YU等將LSTM方法應(yīng)用到零售商品的銷量預(yù)測(cè)，并且都取得了不錯(cuò)的預(yù)測(cè)效果。

本文將分別使用ARMA、GBR、LSTM模型來預(yù)測(cè)汽車銷量，并對(duì)比其預(yù)測(cè)效果。

3 百度指數(shù)對(duì)汽車銷量預(yù)測(cè)的影響

3.1 數(shù)據(jù)收集與處理

本實(shí)驗(yàn)選取的研究對(duì)象為大眾旗下的朗逸，以下所有數(shù)據(jù)均為朗逸的相關(guān)數(shù)據(jù)。選取時(shí)間范圍為2013-01— 2017-12，以月為單位，共計(jì)60個(gè)月，將前54個(gè)月作為訓(xùn)練樣本。

3.1.1 數(shù)據(jù)來源

銷量數(shù)據(jù)從車主之家（www.16888.com）網(wǎng)站獲取；百度搜索指數(shù)從百度指數(shù)（index.Baidu.com）網(wǎng)頁獲取，查詢關(guān)鍵詞為“朗逸”。

3.1.2 數(shù)據(jù)處理

首先對(duì)銷量數(shù)據(jù)、百度指數(shù)進(jìn)行取對(duì)數(shù)ln處理，使兩者處于相近量級(jí)，并分別使用Sales_vol、Baidu_index作為變量名稱。

3.2 銷量預(yù)測(cè)模型

為了探究百度指數(shù)與銷量的關(guān)系，選擇ARMA作為基本模型Ⅰ：

式（1）中：t為時(shí)期的汽車銷量；t-q為誤差項(xiàng)。

通過AIC準(zhǔn)則和SC準(zhǔn)則，選擇ARMA（2，1）模型。

由文獻(xiàn)回顧可知，機(jī)器學(xué)習(xí)常常被用于銷量預(yù)測(cè)，因此本實(shí)驗(yàn)選取了以下4種機(jī)器學(xué)習(xí)算法進(jìn)行銷量預(yù)測(cè)，預(yù)測(cè)效果如表1所示。4種機(jī)器學(xué)習(xí)算法分別為貝葉斯嶺回歸（BayesianRidge）、彈性網(wǎng)絡(luò)（ElasticNet）、支持向量回歸（SVR）和梯度提升回歸（GBR）。評(píng)價(jià)指標(biāo)包括平均絕對(duì)誤差（Mean Absolute Error，MAE）、均方誤差（Mean Squared Error，MSE）和決定系數(shù)（2）。

表1 輸入變量為Bai_index、Sales_vol時(shí)各模型預(yù)測(cè)效果對(duì)比

MAEMSER2 BayesianRidge0.192 3660.056 9730.000 047 ElasticNet0.192 3590.056 9750.000 000 SVR0.193 1190.056 5940.006 689 GBR0.058 2030.004 4590.921 742

對(duì)比四種算法的預(yù)測(cè)效果指標(biāo)發(fā)現(xiàn)，GBR的四個(gè)指標(biāo)均明顯優(yōu)于另外三種算法，這也體現(xiàn)了GBR集成學(xué)習(xí)算法的優(yōu)勢(shì)，因此決定使用GBR模型作為模型Ⅱ。

考慮到實(shí)驗(yàn)數(shù)據(jù)具有時(shí)間序列特征以及LSTM可保留歷史信息的特點(diǎn)，所以選擇LSTM網(wǎng)絡(luò)模型作為模型Ⅲ，其中參數(shù)配置為：batch_size=32，dropout=0.5，epoch=100，滯后階數(shù)為1階。

3.3 模型評(píng)估

本實(shí)驗(yàn)采用兩個(gè)評(píng)估指標(biāo)來衡量模型的預(yù)測(cè)效果，分別為均方根誤差（RMSE）和平均絕對(duì)百分比誤差（MAPE），計(jì)算公式如下：

預(yù)測(cè)結(jié)果如表2所示。

表2 不同模型預(yù)測(cè)結(jié)果對(duì)比

基準(zhǔn)組Baidu_index組模型Ⅰ模型Ⅱ模型Ⅲ RMSE0.3350.4800.356 MAPE0.0300.0410.016

對(duì)比上述模型的RMSE和MAPE可知，模型Ⅲ的MAPE減小至模型Ⅰ的50%，RMSE僅增加6.3%，增幅較小，說明加入百度指數(shù)后可以改善模型預(yù)測(cè)效果。此外，LSTM模型（模型Ⅲ）的RMSE、MAPE均低于GBR模型（模型Ⅱ），即預(yù)測(cè)效果明顯好于GRB模型，這也側(cè)面反映了LSTM適合處理時(shí)間序列數(shù)據(jù)的特性。

4 結(jié)論與展望

本文通過實(shí)證研究證明了搜索引擎指數(shù)與汽車銷量存在一定相關(guān)性，并可用于某款汽車的銷量預(yù)測(cè)，這對(duì)車企制定生產(chǎn)銷售計(jì)劃具有很大幫助。在大數(shù)據(jù)時(shí)代，如何更加有效地利用大數(shù)據(jù)來幫助企業(yè)決策將會(huì)是未來研究的熱點(diǎn)。因此，今后可進(jìn)一步挖掘互聯(lián)網(wǎng)上的數(shù)據(jù)，如汽車網(wǎng)站的評(píng)論、微博話題等，從而使銷量預(yù)測(cè)更加準(zhǔn)確。

［1］王宜峰，王燕鳴.投資者情緒在資產(chǎn)定價(jià)中的作用研究［J］.管理評(píng)論，2014，26（6）：42-55.

［2］CHOI H，VARIAN H.Predicting the present with google trends［J］.Economic Record，2012，88（Suppl 1）：2-9.

［3］袁慶玉，彭賡，劉穎，等.基于網(wǎng)絡(luò)關(guān)鍵詞搜索數(shù)據(jù)的汽車銷量預(yù)測(cè)研究［J］.管理學(xué)家（學(xué)術(shù)版），2011（1）：12-24.

［4］鮑家興.基于百度搜索數(shù)據(jù)的汽車銷售量預(yù)測(cè)研究［D］.北京：中國(guó)科學(xué)院大學(xué)，2014.

［5］李憶，文瑞，楊立成.網(wǎng)絡(luò)搜索指數(shù)與汽車銷量關(guān)系研究——基于文本挖掘的關(guān)鍵詞獲取［J］.現(xiàn)代情報(bào)，2016，36（8）：131-136，177.

［6］王守中，崔東佳，彭賡.基于Web搜索數(shù)據(jù)的寶馬汽車銷量預(yù)測(cè)研究［J］.經(jīng)濟(jì)師，2013（12）：22-24，26.

F713.54

10.15913/j.cnki.kjycx.2019.19.025

2095－6835（2019）19－0064－02

魏衍增（1992—），男，山東菏澤人，碩士研究生，研究方向?yàn)閿?shù)據(jù)挖掘與商業(yè)智能應(yīng)用。

〔編輯：張思楠〕