田大偉 陳其強(qiáng)

摘要:近年來,隨著機(jī)器學(xué)習(xí)及大數(shù)據(jù)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)商品的價格預(yù)測分析也逐漸成為研究的熱點(diǎn)。本文主要針對網(wǎng)絡(luò)商品的價格預(yù)測問題,提出利用高斯過程對商品價格進(jìn)行建模,根據(jù)商品的歷史銷售數(shù)據(jù),提取影響價格的特征向量,結(jié)合高斯過程回歸方法預(yù)測未來商品價格。將該方法用于實(shí)際的母嬰產(chǎn)品銷售數(shù)據(jù)并進(jìn)行回歸分析,實(shí)驗(yàn)結(jié)果表明,基于高斯過程的價格預(yù)測方法對于實(shí)際商品的價格預(yù)測具有一定的指導(dǎo)意義。
關(guān)鍵詞:大數(shù)據(jù);高斯過程;回歸分析;價格預(yù)測
中圖分類號:TP391 ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)19-0024-03
Abstract: Recently, with the rapid development of machine learning and big data technology, the price prediction for the electronic business has been a focus gradually. With respect to the price prediction problem, we model the product price using Gaussian process, construct the features about the price according to the historical sale data, and estimate the future price by Gaussian process regression. Applying the proposed method to the real maternal and child products, the results show that, the price prediction method based on the Gaussian process makes sense for the real product price prediction to some extent.
Key words: big data; Gaussian process; regression analysis; price prediction
1研究背景
1.1價格預(yù)測研究背景
隨著云計算等新興技術(shù)的高速發(fā)展,大數(shù)據(jù)時代也正式到來,預(yù)測分析作為其核心在商業(yè)和社會中得到了廣泛的應(yīng)用[1]。在科技與全球化飛速發(fā)展背景下,傳統(tǒng)的營銷方式已發(fā)生變革,由消費(fèi)者購買行為堆砌成的大量數(shù)據(jù)被作為原始數(shù)據(jù),在計算機(jī)科學(xué)與統(tǒng)計學(xué)的基礎(chǔ),原始數(shù)據(jù)被整理、挖掘并得出一定規(guī)律,企業(yè)根據(jù)其規(guī)律做出未來的價格預(yù)測,并在此基礎(chǔ)上做出準(zhǔn)確的營銷決策,這就是價格預(yù)測的本質(zhì)[2]。因此,在這沒有“秘密”的消費(fèi)時代,現(xiàn)代企業(yè)要想讓營銷策略更精確,日常經(jīng)營更有效,競爭優(yōu)勢更強(qiáng)勁,就必須首先進(jìn)行價格預(yù)測,這是必不可少的一步,價格預(yù)測為企業(yè)未來發(fā)展奠定了最堅實(shí)的基石[3]。
1.2價格預(yù)測方法介紹
隨著人們對價格數(shù)據(jù)復(fù)雜性的認(rèn)識不斷深入,數(shù)據(jù)處理技術(shù)不斷發(fā)展,價格預(yù)測方法也隨之得以迅速發(fā)展。經(jīng)研究發(fā)現(xiàn),依據(jù)研究對象的不同,預(yù)測方法系統(tǒng)可以分為兩大類別,第一類是單一預(yù)測方法;第二類是組合預(yù)測方法體系。
1)單一預(yù)測方法
該類方法主要運(yùn)用在石油、農(nóng)產(chǎn)品等敏感商品價格研究,主要包括:(1)傳統(tǒng)計量經(jīng)濟(jì)與統(tǒng)計分析方法,如多元回歸分析、時間序列分析等。這些方法最大的優(yōu)點(diǎn)是方法簡便且更新發(fā)展很快。但該方法使用時由于難以對數(shù)據(jù)進(jìn)行全面分析,直接使用時容易產(chǎn)生誤差,影響預(yù)測的精度。(2)后期發(fā)展的現(xiàn)代預(yù)測方法,如灰色理論模型、馬爾科夫鏈、小波分析以及人工神經(jīng)網(wǎng)絡(luò)模型等[4]。這些模型對數(shù)據(jù)復(fù)雜性特征的刻畫能力較強(qiáng),通常不需要對數(shù)據(jù)進(jìn)行預(yù)處理即可直接用于價格預(yù)測。同時,它們也存在一定的問題,就是方法更為復(fù)雜。
2)組合預(yù)測方法
組合預(yù)測方式是在單一預(yù)測方法的基礎(chǔ)上發(fā)展起來的,充分利用單一方法的優(yōu)點(diǎn),追求更高的預(yù)測精度。然而也有證據(jù)表明部分組合方法的預(yù)測精度要比一些單一預(yù)測方法要低,這就顯示出恰當(dāng)選擇對組合方法體系構(gòu)建具有突出重要性,但恰當(dāng)選擇的難度性較大,實(shí)際操作更為復(fù)雜。
本文以母嬰商品為例,運(yùn)用高斯過程對商品價格進(jìn)行建模,結(jié)合高斯過程回歸方法對未來價格進(jìn)行預(yù)測。將該方法用于淘寶商品的價格預(yù)測,通過抓取母嬰商品6個月的數(shù)據(jù)進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明,本文所提出的方法在母嬰商品的價格預(yù)測上有一定的指導(dǎo)意義。
2高斯分布
高斯分布(Gaussian distribution)又稱正態(tài)分布(Normal distribution),是一個在各數(shù)理領(lǐng)域中最廣泛運(yùn)用的一種分布,對統(tǒng)計學(xué)有著重要的影響作用。
在高斯分布中,考慮隨機(jī)變量的均值隨著變量數(shù)量的增加,當(dāng)增加到足夠大時,變量均值就越接近于高斯分布,因此二項(xiàng)分布在[N]趨近于無窮大時也就會變成高斯分布,從幾何學(xué)角度來看,高斯分布中二次多項(xiàng)式的形式:
[Δ2=(x-μ)TΣ-1(x-μ)]
[Δ]為[μ]從到[x]的馬哈拉諾比斯距離(Mahalanobis distance),當(dāng)[Σ]是單位陣的時候可以規(guī)約為歐幾里得距離(Euclidean distance)。若高斯分布中任意元素的均值為[0],那么只考慮協(xié)方差矩陣。
3方法研究
3.1? 問題建模
1) 對價格進(jìn)行追蹤,對其歷史數(shù)據(jù)進(jìn)行抓取,在此基礎(chǔ)上對影響其價格的數(shù)據(jù)進(jìn)行分析,構(gòu)建影響價格的特征向量為[x]:[x]包括市場平均價格、價格方差、最低價格、最高價格等。其向量表示為:[Φ(x)=[?1(x),?2(x),…,?n(x)]],這里假設(shè)[y]是商品價格,目標(biāo)是構(gòu)建[x]和[y]之間的映射函數(shù),對未知數(shù)[x]估計其[y]值。
2) 在該問題中,為了對未來商品進(jìn)行估計,前提是對影響價格的相關(guān)因素進(jìn)行量化,假設(shè)在[t]時刻,價格因素向量為[xt],則目標(biāo)是根據(jù)[xt]估計下一個時刻[t+1]的價格[yt+1]。因此,在該問題中,根據(jù) [xt]去估計[yt+1],為了描述方便,將[t+1]時刻的價格標(biāo)記為[yt]。
3) 該問題的難點(diǎn)是對價格特征的合理提取及量化,即[Φ(x)=[?1(x),?2(x),…,?n(x)]]。
3.2基于高斯過程的價格預(yù)測方法
1) 設(shè)數(shù)據(jù)集[S=x1,y1,x2,y2,......xn,yn],其中[xn]為多維的輸入矢量[5],[Φ(x)=[?1(x),?2(x),…,?n(x)]] 為多維的輸入矩陣,[yn]則為相應(yīng)的輸出變量,該模型主要任務(wù)就是用輸入[x]與輸出[y]之間的映射關(guān)系,預(yù)測出與新測試點(diǎn)[x*]對應(yīng)的最有可能的輸出值[y*]。
2)設(shè)高斯過程中任意元素的均值為[0],協(xié)方差為[k(x,x*)],且選取高斯核函數(shù):[σ*Exp-x-x*2/2],其中[σ]是最大協(xié)方差[6]。
3)根據(jù)以上假設(shè),則[y=N0,k],其中
[k=kx1x2…kxnx1???kx1x…kxnxn]
4)令所估計的對象為[y],其所對應(yīng)的協(xié)方差向量為:
[K*=kx*x1,kx*x2,kx*x3……kx*xn][K**=Kkx*x(n)]
5)將[y]與[y*]寫成聯(lián)合分布的形式[7],則[y*y=Νk*k-1y,k**-k*k-1kT],其中[k*k-1y]為[y*]的估計均值,[k**-k*k-1kT]為[y*]方差。
4實(shí)驗(yàn)分析
為了驗(yàn)證算法的有效性,將本文所提出的方法用于淘寶母嬰商品的價格預(yù)測。數(shù)據(jù)集來自于淘寶母嬰商品的真實(shí)數(shù)據(jù),實(shí)驗(yàn)中的商品的銷售數(shù)據(jù)是從2015年1月1日到2015年的6月30日,并隨機(jī)選取兩類商品——意大利代購進(jìn)口BONOMELLI蜂蜜橙子茶以及嬰兒多功能收納包。
實(shí)驗(yàn)過程中利用某一日期前七天的歷史數(shù)據(jù)進(jìn)行價格特征因素的提取,主要包括當(dāng)前天的價格[cp]、當(dāng)前天的銷量[cs]、前七天的平均價格[avgp]、前七天的平均銷量[avgs]、前七天的最高價格[maxp]以及前七天的最高銷量[maxs]。假設(shè)當(dāng)前為第[t]天,則歷史信息的特征向量為[xt=[cp,cs,avgp,avgs,maxp,maxs]T]。擬利用前七天的歷史數(shù)據(jù)所提取的特征向量對第二天商品的價格進(jìn)行預(yù)測,則與[xt]所對應(yīng)的實(shí)際輸出為第二天的價格[yt+1]。
圖1和圖2分別是對兩件商品的價格預(yù)測結(jié)果,其中橫坐標(biāo)是天數(shù)(因?yàn)樾枰x擇前7天的數(shù)據(jù)進(jìn)行特征提取,因此圖中橫坐標(biāo)0表示是2015年1月7日,之后以此類推),縱坐標(biāo)表示商品價格。圖中離散的十字星——“+”表示的訓(xùn)練樣本,實(shí)線表示的測試樣本(其中前156個樣本與訓(xùn)練樣本一致,后20個樣本為新測試樣本),陰影面積表示95%的價格置信區(qū)間。從圖1可以看出,方法對于蜂蜜橙子茶的價格預(yù)測還是比較理想的,無論是訓(xùn)練集還是測試集,商品的實(shí)際價格都是處于95%的置信區(qū)間的價格區(qū)間中,并且方法對于后20個新測試樣本也具有較好的預(yù)測性能。而對于嬰兒多功能收納包的價格預(yù)測,從預(yù)測曲線上看,預(yù)測準(zhǔn)確度要弱于對于蜂蜜橙子茶的價格預(yù)測,這主要是由于在嬰兒多功能收納包的銷售數(shù)據(jù)中存在一定的具有較大價格變化的噪點(diǎn)數(shù)據(jù)(可能是由于商家的促銷而導(dǎo)致價格及銷量的變化),而方法對于其中價格波動較小的數(shù)據(jù)還是具有較好的預(yù)測性能。因此,基于兩個商品價格的預(yù)測分析,本文所使用的基于高斯過程的商品價格預(yù)測方法對于實(shí)際商品價格的預(yù)測還是具有一定的指導(dǎo)意義。
5結(jié)論
本文主要針對商品數(shù)據(jù)的價格預(yù)測問題,提出利用高斯過程對商品的價格進(jìn)行建模,并利用高斯過程回歸對商品價格進(jìn)行回歸分析,對未來商品價格進(jìn)行預(yù)測。在問題求解過程中,將過去七天的銷售數(shù)據(jù)作為對未來價格預(yù)測的歷史信息,并給予該歷史信息進(jìn)行特征提取,主要包括當(dāng)前天的價格、當(dāng)前天的銷量、前七天的平均價格、前七天的平均銷量、前七天的最高價格以及前七天的最高銷量。
將基于高斯過程的價格預(yù)測方法用于實(shí)際的淘寶商品銷售數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明,該方法對于實(shí)際商品的價格預(yù)測具有一定的指導(dǎo)意義。但是,本文所提出的特征提取方法相對比較簡單,沒有考慮相關(guān)類似商品的價格變化對于所預(yù)測商品價格的影響,且所利用的歷史數(shù)據(jù)量較少,因此,下一步的工作考慮如何有效地對歷史信息特征數(shù)據(jù)進(jìn)行提取,提高價格預(yù)測的準(zhǔn)確性。
參考文獻(xiàn):
[1] 誒里克·西格爾. 大數(shù)據(jù)預(yù)測[M]. 北京: 中信出版社,2014.
[2] Costonis M. Big Data[J]. Best's Review, 2012, 113(1): 36-115.
[3]? 李國杰. 大數(shù)據(jù)研究的科學(xué)價值[J]. 中國計算機(jī)學(xué)會通訊, 2012, 8(9): 8-15.
[4] 范曉. 我國價格預(yù)測方法文獻(xiàn)研究[J]. 財政與金融, 2014, 5: 105-109
[5] 何志昆, 劉光斌, 趙曦晶,等. 高斯過程回歸方法綜述[J]. 控制與決策, 2013, 8: 1121-1129.
[6] 朱齊丹, 李科, 張智,等.改進(jìn)混合高斯自適應(yīng)背景模型[J]. 哈爾濱工程大學(xué)學(xué)報, 2010, 31(10): 1348-1353.
[7] 傅啟明, 劉全, 伏玉琛,等. 一種高斯過程的帶參近似策略迭代算法[J]. 軟件學(xué)報, 2013, 32(1): 66?72.
【通聯(lián)編輯:梁書】