生鮮產(chǎn)品的多變量SVR需求預(yù)測(cè)
——基于在線(xiàn)評(píng)論的顧客感知因素提取

2022-07-25 06:39:50張炎亮代沛沛

中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào) 2022年7期

張炎亮代沛沛

(鄭州大學(xué) 管理工程學(xué)院，鄭州 450001)

電子商務(wù)背景下，網(wǎng)絡(luò)零售迅速發(fā)展，越來(lái)越多的電商巨頭進(jìn)入生鮮領(lǐng)域，拓展了生鮮產(chǎn)品線(xiàn)上銷(xiāo)售渠道，推動(dòng)了生鮮行業(yè)的加速發(fā)展。2020年我國(guó)生鮮產(chǎn)品電商行業(yè)規(guī)模達(dá)4 584.9億元，預(yù)計(jì)到2023年，生鮮產(chǎn)品電商行業(yè)規(guī)模將超萬(wàn)億。在廣闊的市場(chǎng)需求下，生鮮產(chǎn)品電商行業(yè)卻仍面臨著貨損率高、盈利少等諸多問(wèn)題，究其原因，部分生鮮產(chǎn)品電商企業(yè)通過(guò)資金投入、擴(kuò)大宣傳盲目拓展市場(chǎng)，但若缺乏準(zhǔn)確的市場(chǎng)需求信息，生鮮產(chǎn)品極易造成積壓，導(dǎo)致貨損率增大，企業(yè)成本增加?；诖?，生鮮產(chǎn)品電商企業(yè)須對(duì)產(chǎn)品需求做出迅速響應(yīng)，此外相比線(xiàn)下銷(xiāo)售，線(xiàn)上銷(xiāo)售能為顧客提供表達(dá)購(gòu)買(mǎi)體驗(yàn)、情感態(tài)度的在線(xiàn)評(píng)論平臺(tái)，顧客在平臺(tái)上可主動(dòng)分享自身對(duì)產(chǎn)品的全方位評(píng)價(jià)，從而讓潛在顧客更多了解產(chǎn)品信息，幫助其執(zhí)行購(gòu)買(mǎi)決策，因此在線(xiàn)評(píng)論在一定程度上影響了產(chǎn)品需求量。

在線(xiàn)評(píng)論是開(kāi)放式表達(dá)渠道，評(píng)論內(nèi)容是顧客對(duì)產(chǎn)品及服務(wù)的感知性評(píng)價(jià)，此評(píng)價(jià)無(wú)意中會(huì)形成一種口碑效應(yīng)，影響后續(xù)產(chǎn)品銷(xiāo)售。目前國(guó)內(nèi)對(duì)在線(xiàn)評(píng)論數(shù)據(jù)與產(chǎn)品銷(xiāo)量之間的關(guān)系進(jìn)行了較多探討：紀(jì)雪等量化從評(píng)論文本數(shù)據(jù)中提取出的產(chǎn)品屬性，計(jì)算產(chǎn)品屬性的用戶(hù)滿(mǎn)意度來(lái)確定下一代產(chǎn)品的開(kāi)發(fā)需求。張夢(mèng)瑩等基于有用性排序的方法，探究出評(píng)論總數(shù)、評(píng)論時(shí)效性、情感傾向?qū)Ξa(chǎn)品銷(xiāo)量都存在著不同程度的顯著性影響。沈超等提取出產(chǎn)品的關(guān)鍵屬性和非關(guān)鍵屬性，利用決策樹(shù)模型分析出了客戶(hù)偏好趨勢(shì)。王英等考慮品牌效應(yīng)因素，基于采納信息模型，驗(yàn)證了品牌強(qiáng)度、評(píng)論效價(jià)及評(píng)論時(shí)效度對(duì)產(chǎn)品銷(xiāo)量會(huì)存在顯著相關(guān)關(guān)系。胡雅淇等以農(nóng)產(chǎn)品為研究對(duì)象，運(yùn)用逐步回歸的方法分析出在線(xiàn)評(píng)論數(shù)量、可視化評(píng)論、差評(píng)數(shù)量及評(píng)論長(zhǎng)度均會(huì)正向或負(fù)向的影響產(chǎn)品銷(xiāo)量。

國(guó)外對(duì)在線(xiàn)評(píng)論數(shù)據(jù)與產(chǎn)品銷(xiāo)量關(guān)系的研究較多： Lau等基于情感分析方法，挖掘出評(píng)論數(shù)據(jù)中消費(fèi)者情緒，并以此進(jìn)行銷(xiāo)售預(yù)測(cè)，提高了銷(xiāo)售預(yù)測(cè)的準(zhǔn)確度。Chen等基于實(shí)驗(yàn)研究認(rèn)為正面或負(fù)面的補(bǔ)充評(píng)論的順序會(huì)影響消費(fèi)者的購(gòu)買(mǎi)意愿，而產(chǎn)品的涉入程度會(huì)調(diào)整它們之間的關(guān)系。Hu以京東商城在線(xiàn)評(píng)論數(shù)據(jù)為例，以問(wèn)卷調(diào)查和訪(fǎng)談的方式，探討出經(jīng)濟(jì)相關(guān)評(píng)論和服務(wù)相關(guān)評(píng)論對(duì)網(wǎng)購(gòu)行為有顯著影響。Gopinath等運(yùn)用動(dòng)態(tài)分層線(xiàn)性模型，發(fā)現(xiàn)口碑?dāng)?shù)量能夠影響口碑極性進(jìn)而影響品牌績(jī)效。Ruiz-Mafe等發(fā)現(xiàn)評(píng)論順序?qū)︿N(xiāo)量有著不同影響，當(dāng)在線(xiàn)評(píng)論以正面評(píng)論開(kāi)始時(shí)對(duì)企業(yè)銷(xiāo)量的提升更有益處。

目前針對(duì)在線(xiàn)評(píng)論數(shù)據(jù)與銷(xiāo)量關(guān)系的研究仍在繼續(xù)發(fā)展，現(xiàn)有文獻(xiàn)主要針對(duì)評(píng)論數(shù)據(jù)中的信息與產(chǎn)品銷(xiāo)量之間的關(guān)系進(jìn)行探討，但從時(shí)間維度上看，評(píng)論信息反映了隨著時(shí)間的變化顧客對(duì)產(chǎn)品需求的變化，如何利用挖掘出的評(píng)論信息把握產(chǎn)品未來(lái)需求變化、預(yù)測(cè)產(chǎn)品未來(lái)需求量，鮮少有研究對(duì)其進(jìn)行更加深入的討論，所以利用在線(xiàn)評(píng)論中顧客感知信息預(yù)測(cè)產(chǎn)品需求量的研究仍然較為缺乏。在此過(guò)程中，評(píng)論數(shù)據(jù)中顧客感知因素的提取是對(duì)產(chǎn)品需求量進(jìn)行準(zhǔn)確預(yù)測(cè)的前提。由于在線(xiàn)評(píng)論中數(shù)據(jù)量巨大且評(píng)論內(nèi)容多是由不同詞語(yǔ)組成，傳統(tǒng)方法很難準(zhǔn)確提取出顧客感知因素，因此，出現(xiàn)了許多用于處理大量非結(jié)構(gòu)化文本數(shù)據(jù)的方法，如隱狄利克雷分布(LDA)、Word2vec模型、K-means聚類(lèi)等。在眾多評(píng)論文本提取方法中，相對(duì)于其他數(shù)據(jù)處理方法，Word2vec模型能夠基于深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò)，結(jié)合詞語(yǔ)上下文關(guān)系，理解文本中的語(yǔ)義和語(yǔ)法信息，在大量語(yǔ)料庫(kù)中進(jìn)行無(wú)監(jiān)督學(xué)習(xí)，通過(guò)計(jì)算詞向量確定兩個(gè)詞語(yǔ)之間關(guān)系遠(yuǎn)近，因此更加貼合評(píng)論文本特征，能夠更全面獲取產(chǎn)品的特征詞語(yǔ)。此外在需求預(yù)測(cè)方面，由于提取出的產(chǎn)品特征數(shù)據(jù)具有多元化、非線(xiàn)性的特點(diǎn)，而SVR作為SVM的一種，在處理非線(xiàn)性數(shù)據(jù)上具有很強(qiáng)的處理能力，其能根據(jù)預(yù)測(cè)對(duì)象與其他影響因素的關(guān)系解決冗余屬性問(wèn)題，并且在小樣本需求預(yù)測(cè)上具有較高的準(zhǔn)確度，在處理復(fù)雜的產(chǎn)品特征數(shù)據(jù)上具有較大優(yōu)勢(shì)，因此本研究選取多變量SVR預(yù)測(cè)生鮮產(chǎn)品需求量。

本研究旨在以生鮮產(chǎn)品為研究對(duì)象，基于Word2vec模型挖掘評(píng)論文本中顧客感知的產(chǎn)品特征因素，并對(duì)特征因素量化處理，建立包含多個(gè)特征因素的多變量SVR需求預(yù)測(cè)模型，以期對(duì)產(chǎn)品需求量進(jìn)行準(zhǔn)確預(yù)測(cè)，從而使企業(yè)準(zhǔn)確了解顧客需求，及時(shí)調(diào)整產(chǎn)品決策。

1 研究方法與模型

為利用在線(xiàn)評(píng)論中顧客感知因素對(duì)生鮮產(chǎn)品需求量進(jìn)行準(zhǔn)確預(yù)測(cè)，本研究構(gòu)建了2個(gè)模型，分別是Word2vec模型和多變量SVR需求預(yù)測(cè)模型。

1.1 Word2vec核心思想

Word2vec是用于高效訓(xùn)練詞向量的工具，其基本思想是一篇文章中上下文相似的2個(gè)詞語(yǔ)，它們的詞向量也應(yīng)該相似。該模型主要包含2種訓(xùn)練方式：CBOW(Continuous Bag-of-Word)模型以及Skip-Gram模型(圖1)，兩者均是通過(guò)單層神經(jīng)網(wǎng)絡(luò)為每個(gè)詞語(yǔ)分配一個(gè)恒定的向量，該向量并不代表詞語(yǔ)特征，而只是顯示一個(gè)數(shù)字，構(gòu)建句子或文本中每個(gè)詞對(duì)應(yīng)的數(shù)值向量后，將單個(gè)詞的向量進(jìn)行組合，可顯示整個(gè)句子的數(shù)值向量。其中CBOW模型是根據(jù)句子中目標(biāo)詞語(yǔ)的相鄰詞(-1，-2，+1，+2)信息對(duì)目標(biāo)詞語(yǔ)進(jìn)行預(yù)測(cè)，訓(xùn)練詞向量速度較快；Skip-Gram模型是根據(jù)目標(biāo)詞語(yǔ)所在的語(yǔ)境推測(cè)出上下文中與它相似的詞語(yǔ)，訓(xùn)練速度相對(duì)較慢，但其訓(xùn)練效果比CBOW模型訓(xùn)練效果好。鑒于本研究需要提取產(chǎn)品主題，對(duì)結(jié)果準(zhǔn)確要求較高，因此采用Skip-Gram模型，將所爬取的網(wǎng)站評(píng)論數(shù)據(jù)作為該模型的訓(xùn)練集。

Wt為目標(biāo)詞語(yǔ)；Wt-1，Wt-2，Wt+1，Wt+2分別為目標(biāo)詞語(yǔ)的相鄰詞。Wt is the target word； Wt-1， Wt-2， Wt+1 and Wt+2 are the adjacent words of the target word, respectively.圖1 CBOW模型和Skip-Gram模型Fig.1 CBOW model and Skip-Gram model

1.2 影響因素特征集構(gòu)建

從在線(xiàn)評(píng)論數(shù)據(jù)中提取出顧客感知的產(chǎn)品特征因素，可使企業(yè)了解消費(fèi)者所關(guān)注的產(chǎn)品特性，是對(duì)需求進(jìn)行預(yù)測(cè)的前提。在線(xiàn)評(píng)論數(shù)據(jù)中顧客對(duì)產(chǎn)品特征的描述多是以詞語(yǔ)形式呈現(xiàn)，因此本研究通過(guò)Word2vec模型詞向量聚類(lèi)的方法從大量評(píng)論數(shù)據(jù)中提取用戶(hù)所關(guān)注的多個(gè)產(chǎn)品特征集，作為需求預(yù)測(cè)模型的輸入變量。提取步驟如下：

1)中心特征詞提取。提取過(guò)程中，一方面通過(guò)查閱相關(guān)文獻(xiàn)，分析影響顧客感知、顧客滿(mǎn)意度的相關(guān)要素，進(jìn)而初步預(yù)判影響需求的主要特征；另一方面對(duì)在線(xiàn)評(píng)論的文本數(shù)據(jù)進(jìn)行詞頻以及詞性統(tǒng)計(jì)，結(jié)合所分析的顧客感知要素選取高頻詞語(yǔ)作為影響因素特征集的中心特征詞。

2)Word2vec模型訓(xùn)練。運(yùn)用python中的“jieba”分詞工具對(duì)評(píng)論文本進(jìn)行分詞和停用詞處理，并設(shè)置模型中的上下文窗口參數(shù)和詞向量空間維度對(duì)模型進(jìn)行訓(xùn)練，在設(shè)置不同參數(shù)對(duì)模型進(jìn)行多次訓(xùn)練后，本研究將上下文窗口參數(shù)和詞向量空間維度分別設(shè)為5和100。

3)特征集構(gòu)建。依據(jù)中心特征詞，通過(guò)Word2vec模型對(duì)詞語(yǔ)進(jìn)行多次聚類(lèi)，選取相似度較高的詞語(yǔ)作為特征詞庫(kù)，形成需求預(yù)測(cè)影響因素的特征集，將其作為預(yù)測(cè)變量輸入到SVR模型中。

1.3 SVR預(yù)測(cè)模型構(gòu)建

數(shù)據(jù)預(yù)處理Word2vec模型訓(xùn)練出來(lái)的結(jié)果是由一個(gè)個(gè)詞語(yǔ)所組成的特征詞庫(kù)，為更好的將其輸入到預(yù)測(cè)模型中，需將文本因素轉(zhuǎn)化為數(shù)值因素。因每條評(píng)論中都包含著顧客所感知的產(chǎn)品特征，因此本研究運(yùn)用經(jīng)Word2vec模型聚類(lèi)出來(lái)的各個(gè)特征詞來(lái)表達(dá)顧客觀點(diǎn)，實(shí)現(xiàn)文本因素的數(shù)值化轉(zhuǎn)換。假設(shè)在線(xiàn)評(píng)論數(shù)據(jù)經(jīng)過(guò)聚類(lèi)之后形成的影響因素共(

=1,2,…,

)類(lèi)，當(dāng)某條評(píng)論文本中包含與因素相似的詞語(yǔ)時(shí)可將該條評(píng)論文本歸為類(lèi)，從而得到各個(gè)因素所包含的評(píng)論文本數(shù)量，實(shí)現(xiàn)文本因素的量化，在(

=1,2,…,

)時(shí)刻第

類(lèi)因素可表示為(

)，為消除量綱對(duì)預(yù)測(cè)結(jié)果的影響，需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理，利用Z-score標(biāo)準(zhǔn)化的方法將數(shù)據(jù)限制在一定范圍之內(nèi)，計(jì)算公式如下：

(1)

式中：為原始數(shù)據(jù)的均值；

為原始數(shù)據(jù)的方差。

支持向量回歸模型原理SVR作為SVM的一種，引入了不敏感損失函數(shù)

，在解決非線(xiàn)性回歸問(wèn)題方面具有很強(qiáng)的處理能力，它的優(yōu)化目標(biāo)函數(shù)可表示為：

(2)

式中：

表示懲罰因子，

值越大對(duì)誤差分類(lèi)的懲罰越大，越小對(duì)誤差分類(lèi)的懲罰越?。?p>x

為模型需要輸入的變量值；

為相應(yīng)的預(yù)測(cè)值；

為函數(shù)

(

)中自變量

的系數(shù)；

表示損失函數(shù)，即允許超平面外存在樣本點(diǎn)，但需要使損失函數(shù)盡可能?。?

(

)表示超平面中的樣本點(diǎn)；

為松弛變量，當(dāng)樣本點(diǎn)位于超平面以?xún)?nèi)或其邊緣上時(shí)

=0，當(dāng)樣本點(diǎn)位于超平面上方時(shí)

>0，當(dāng)樣本點(diǎn)位于超平面下方時(shí)

<0。為求解式(2)，一般采用拉格朗日對(duì)偶變換，公式為：

(3)

式中：

和為拉格朗日系數(shù)。對(duì)于單變量SVR預(yù)測(cè)模型，通常僅將時(shí)間序列的

個(gè)數(shù)據(jù)作為預(yù)測(cè)模型的輸入變量，對(duì)未來(lái)某個(gè)時(shí)刻的值進(jìn)行預(yù)測(cè)，此情況下，

與其前幾個(gè)時(shí)刻的值之間存在著如下函數(shù)關(guān)系：

(

+1)=

(

+1),…,

(

))

(4)

在本研究中除了將時(shí)間序列歷史數(shù)據(jù)作為預(yù)測(cè)模型的輸入變量外，還提取了其他相關(guān)影響因素，因此需將單變量SVR轉(zhuǎn)換為多變量SVR，即上述函數(shù)關(guān)系轉(zhuǎn)換為需求量

與多個(gè)輸入變量之間的關(guān)系，函數(shù)關(guān)系表示為：

(

),…,

(

))

(5)

引入核函數(shù)將非線(xiàn)性回歸問(wèn)題轉(zhuǎn)換為一個(gè)近似線(xiàn)性回歸問(wèn)題，仍然采用拉格朗日對(duì)偶變換法進(jìn)行求解，具體公式表示為：

(6)

在核函數(shù)選擇過(guò)程中，可供選擇的核函數(shù)主要有徑向基函數(shù)(Radial basis kernel function, RBF)、高斯核函數(shù)、多項(xiàng)式核函數(shù)、Sigmoid核函數(shù)等，其中RBF函數(shù)能夠?qū)⑻卣骺臻g映射到無(wú)窮維，與其他核函數(shù)相比參數(shù)較少，方便計(jì)算，因此本研究引入RBF函數(shù)作為SVR模型的核函數(shù)。最后將所提取的影響因素特征集輸入到此回歸函數(shù)中可對(duì)產(chǎn)品的需求量進(jìn)行預(yù)測(cè)。

PSO算法優(yōu)化SVR模型參數(shù)在SVR模型中懲罰因子

以及不敏感損失函數(shù)

是影響模型預(yù)測(cè)準(zhǔn)確度的重要參數(shù)，其中

值過(guò)大曲線(xiàn)容易過(guò)擬合，反之容易欠擬合；

反映了數(shù)據(jù)映射到新的特征空間后的分布，

值越大支持向量個(gè)數(shù)越少，反之支持向量個(gè)數(shù)越多。為較快速確定參數(shù)

和

的值，采用粒子群算法對(duì)參數(shù)進(jìn)行優(yōu)化，操作步驟如下：

1)種群初始化。設(shè)置迭代次數(shù)、種群大小、學(xué)習(xí)因子、慣性權(quán)重等基本參數(shù)。

2)計(jì)算該算法的適應(yīng)度函數(shù)值，并將

作為算法的適應(yīng)度函數(shù)。

3)根據(jù)適應(yīng)度函數(shù)計(jì)算粒子個(gè)體及全局最優(yōu)解，并與歷史值進(jìn)行比較更新群體中粒子的速度和位置。

4)判斷是否滿(mǎn)足終止條件，如滿(mǎn)足則停止迭代，若不滿(mǎn)足則不斷更新粒子速度和位置直至滿(mǎn)足終止條件。

2 研究數(shù)據(jù)與結(jié)果分析

2.1 數(shù)據(jù)獲取及預(yù)處理

為驗(yàn)證評(píng)論數(shù)據(jù)中的產(chǎn)品特征因素對(duì)生鮮產(chǎn)品需求量預(yù)測(cè)準(zhǔn)確度的影響，本研究采用京東生鮮網(wǎng)站中產(chǎn)品評(píng)論數(shù)據(jù)進(jìn)行實(shí)證分析。利用谷歌插件web scraper分別獲取了蘋(píng)果、火龍果和小龍蝦3種生鮮產(chǎn)品2021-06-25—2021-08-17共54天的評(píng)論數(shù)據(jù)，得到的3種生鮮產(chǎn)品評(píng)論數(shù)據(jù)量分別為10 312條、9 685條和9 064條。根據(jù)網(wǎng)站的評(píng)論規(guī)則，每個(gè)顧客在確認(rèn)收貨后均會(huì)形成一條文本評(píng)論數(shù)據(jù)，基于此本研究將每天的評(píng)論數(shù)量作為生鮮產(chǎn)品的日需求量，從而建立以天為周期的歷史需求量數(shù)據(jù)集。從網(wǎng)站爬取出來(lái)的評(píng)論數(shù)據(jù)是顧客對(duì)產(chǎn)品使用體驗(yàn)的隨意性表達(dá)，其中會(huì)存在著圖片、符號(hào)等非文本信息，因此需要?jiǎng)h除評(píng)論文本中的表情符號(hào)、數(shù)字等無(wú)用評(píng)論信息，確保評(píng)論文本的純文字性；其次對(duì)于一些不包含任何主題信息的超短評(píng)論，也需將其刪除；最后將處理后的評(píng)論數(shù)據(jù)輸入到python軟件中，運(yùn)用“jieba”分詞工具對(duì)評(píng)論數(shù)據(jù)進(jìn)行分詞、去停用詞處理，形成最終的文本語(yǔ)料庫(kù)。

2.2 在線(xiàn)評(píng)論產(chǎn)品特征因素提取

挖掘評(píng)論數(shù)據(jù)中顧客感知的產(chǎn)品及服務(wù)信息是提取生鮮產(chǎn)品需求影響因素的關(guān)鍵步驟。對(duì)經(jīng)過(guò)預(yù)處理后的評(píng)論文本進(jìn)行詞頻統(tǒng)計(jì)分析，選取詞頻排名前100的詞語(yǔ)作為產(chǎn)品特征詞庫(kù)，在該詞庫(kù)中由于會(huì)存在著同義詞，需要對(duì)其進(jìn)行人工篩選，將同義詞合并為一類(lèi)，從而形成生鮮產(chǎn)品的中心特征詞，作為Word2vec模型的輸入語(yǔ)料。

經(jīng)過(guò)詞頻統(tǒng)計(jì)分析及人工篩選合并同義詞，最終確定生鮮產(chǎn)品的5類(lèi)中心特征詞，分別為“口感”、“包裝”、“物流”、“性?xún)r(jià)比”和“服務(wù)”。將此中心特征詞分別輸入到Word2vec模型中，借助模型中的相似度函數(shù)，計(jì)算得到與各個(gè)中心特征詞的相似詞語(yǔ)，以火龍果評(píng)論數(shù)據(jù)中的特征詞“口感”為例，得到的相似度排名前30的詞語(yǔ)集合見(jiàn)表1。按此步驟最終可形成生鮮產(chǎn)品需求預(yù)測(cè)影響因素特征詞集。

表1 “口感”語(yǔ)義相關(guān)特征詞集及其與中心特征詞的相似度
Table 1 Semantic related feature word set of “Taste” and its similarity to the central feature word

詞語(yǔ)Word相似度Similarity詞語(yǔ)Word相似度Similarity詞語(yǔ)Word相似度Similarity詞語(yǔ)Word相似度Similarity味道 Smell0.955 7好吃 Good to eat0.812 3挺大 Quite big0.797 2個(gè)兒 Size0.778 3很甜 Very sweet0.873 8個(gè)個(gè) All0.812 0糖分 Sugar0.795 2超值 Value0.777 0甜美 Sweet0.856 7口味 Taste0.811 9壞果 Bad fruit0.793 9爽口 Tasty0.777 0新鮮 Fresh0.850 8均勻 Evenly0.811 8適中 Moderate0.791 5磕碰 Bump0.776 2不小 Not small0.849 4很大 Very big0.808 3偏小 Too small0.786 5一頓 A meal0.775 4皮薄 Thin skin0.848 0個(gè)頭 Size0.807 7蠻大 Quite big0.785 0很正 Very positive0.774 6品相 Appearance0.828 0個(gè)子 Size0.801 8蠻甜 Quite sweet0.784 9中等 Medium0.771 6挺甜 Quite sweet0.822 1濃郁 Rich0.800 8成功 Success0.784 6打算 Intend0.771 5大果 Big fruit0.813 6正好 Just right0.798 0甘甜 Sweet0.781 4保存 Save0.769 7不算 Not count0.812 7太甜 Too sweet0.797 5超甜 Super sweet0.779 2清爽 Refreshing0.765 6

2.3 多變量SVR預(yù)測(cè)結(jié)果分析

經(jīng)Word2vec模型詞語(yǔ)聚類(lèi)后得到5類(lèi)影響生鮮產(chǎn)品需求的影響因素，分別為口感()、包裝()、物流()、性?xún)r(jià)比()和服務(wù)()，在此基礎(chǔ)上利用各個(gè)特征詞的相似詞語(yǔ)對(duì)評(píng)論文本數(shù)據(jù)進(jìn)行歸類(lèi)，得到各影響因素的數(shù)據(jù)集合，并運(yùn)用式(1)對(duì)各個(gè)數(shù)據(jù)集進(jìn)行Z-score標(biāo)準(zhǔn)化處理。以火龍果產(chǎn)品為例，將2021-6-25—2021-8-11共48天的產(chǎn)品特征因素及對(duì)應(yīng)的歷史需求量數(shù)據(jù)組成訓(xùn)練樣本，用于訓(xùn)練模型，求解模型中的最優(yōu)參數(shù)，建立本研究的需求預(yù)測(cè)模型；將2021-8-12—2021-8-17共6 d的數(shù)據(jù)組成測(cè)試樣本，用于檢驗(yàn)?zāi)Ｐ?，預(yù)測(cè)產(chǎn)品需求量。在訓(xùn)練樣本數(shù)據(jù)中得到的單變量SVR預(yù)測(cè)值與多變量SVR預(yù)測(cè)值對(duì)比見(jiàn)圖2：?jiǎn)巫兞縎VR模型得出的需求量預(yù)測(cè)數(shù)據(jù)波動(dòng)較大，在某些時(shí)間段甚至偏離了真實(shí)值，而加入在線(xiàn)評(píng)論影響因素的多變量SVR模型具有更好的預(yù)測(cè)效果，預(yù)測(cè)值與真實(shí)值相比波動(dòng)小，更接近真實(shí)市場(chǎng)需求量數(shù)據(jù)。

圖2 訓(xùn)練樣本數(shù)據(jù)中火龍果需求量真實(shí)值與單變量SVR和多變量SVR的預(yù)測(cè)值Fig.2 The true value and the predicted value of the univariate SVR and multivariate SVR of pitaya demand in the training sample data

利用建立好的多變量SVR模型對(duì)測(cè)試樣本的火龍果需求量數(shù)據(jù)進(jìn)行預(yù)測(cè)，結(jié)果見(jiàn)圖3。

圖3 測(cè)試樣本數(shù)據(jù)中火龍果需求量真實(shí)值與多變量SVR預(yù)測(cè)值Fig.3 The true value and the forecast value of multivariable SVR of pitaya demand in the test sample data

為更準(zhǔn)確驗(yàn)證2種模型需求量預(yù)測(cè)的準(zhǔn)確度，針對(duì)3種產(chǎn)品分別計(jì)算2種模型需求量預(yù)測(cè)值的均方誤差MSE、平均絕對(duì)誤差MAE和判定系數(shù)

，其中MSE和MAE數(shù)值越小、

數(shù)值越大說(shuō)明預(yù)測(cè)結(jié)果越好，所得到的計(jì)算結(jié)果見(jiàn)表2。可見(jiàn)多變量SVR模型的需求量預(yù)測(cè)誤差均優(yōu)于單變量SVR模型，預(yù)測(cè)精度更高。因此，在實(shí)際生產(chǎn)運(yùn)作中，加入在線(xiàn)評(píng)論顧客感知產(chǎn)品特征因素的多變量SVR需求預(yù)測(cè)模型能更準(zhǔn)確預(yù)測(cè)產(chǎn)品需求量。

表2 單變量SVR與多變量SVR火龍果需求量預(yù)測(cè)誤差比較
Table 2 Comparison of pitaya demand forecast errors between univariate SVR and multivariate SVR

產(chǎn)品Product模型Model均方誤差Mean square error平均絕對(duì)誤差Mean absolute error判定系數(shù)R2Coefficient of determination火龍果Pitaya單變量 SVR0.132 90.245 10.877 1多變量 SVR0.052 50.176 10.943 4蘋(píng)果Apple單變量 SVR0.122 90.196 90.877 1多變量 SVR0.037 00.101 80.963 9

表2(續(xù))

產(chǎn)品Product模型Model均方誤差Mean square error平均絕對(duì)誤差Mean absolute error判定系數(shù)R2Coefficient of determination小龍蝦Crayfish單變量 SVR0.151 30.219 60.848 7多變量 SVR0.013 20.084 20.986 8

3 結(jié)束語(yǔ)

本研究針對(duì)社交媒體中在線(xiàn)評(píng)論數(shù)據(jù)信息，以生鮮農(nóng)產(chǎn)品為研究對(duì)象，將文本挖掘技術(shù)和需求預(yù)測(cè)模型相結(jié)合，預(yù)測(cè)了生鮮產(chǎn)品下一階段的市場(chǎng)需求量。利用谷歌插件web scraper爬取大量在線(xiàn)評(píng)論數(shù)據(jù)，構(gòu)建Word2vec模型提取評(píng)論數(shù)據(jù)中顧客感知的產(chǎn)品特征因素，最大程度挖掘在線(xiàn)評(píng)論中產(chǎn)品特征信息，從而考慮多個(gè)因素對(duì)需求量預(yù)測(cè)準(zhǔn)確度的影響。在此基礎(chǔ)上，將提取出的產(chǎn)品特征因素量化，引入多變量支持向量回歸的需求預(yù)測(cè)方法，實(shí)現(xiàn)生鮮產(chǎn)品多變量需求預(yù)測(cè)。在python軟件上進(jìn)行算例仿真分析，結(jié)果表明：在線(xiàn)評(píng)論中顧客感知的產(chǎn)品特征因素能有效用于生鮮產(chǎn)品需求量預(yù)測(cè)中，并且與只根據(jù)歷史數(shù)據(jù)進(jìn)行需求預(yù)測(cè)的單變量SVR相比，本研究提出的預(yù)測(cè)模型能提高產(chǎn)品需求量預(yù)測(cè)的準(zhǔn)確度。

生鮮產(chǎn)品的多變量SVR需求預(yù)測(cè)——基于在線(xiàn)評(píng)論的顧客感知因素提取