999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Lasso回歸和SVR模型的消費者信心指數(shù)的預(yù)測

2021-11-12 02:29:34顧艷文劉媛華
智能計算機與應(yīng)用 2021年9期
關(guān)鍵詞:百度消費者模型

顧艷文,劉媛華

(上海理工大學 管理學院,上海 200093)

0 引 言

中國的消費結(jié)構(gòu)不斷升級,消費亮點紛紛涌現(xiàn),使得消費逐漸成為中國經(jīng)濟增長的主引擎。為了應(yīng)對國內(nèi)外動蕩的經(jīng)濟形勢,構(gòu)建以國內(nèi)大循環(huán)為主體的新發(fā)展格局,需要進一步加強消費對經(jīng)濟的拉動作用[1]。消費與消費者信心息息相關(guān),增強消費的重要舉措就是增強消費者信心。消費者信心指數(shù)是用來衡量消費者信心的指標,其反映了消費者對當前經(jīng)濟發(fā)展狀況和未來經(jīng)濟發(fā)展預(yù)期的內(nèi)心想法,科學有效的把握消費者信心指數(shù)的發(fā)展趨勢,有助于了解消費者內(nèi)心的真實感受,對有關(guān)部門制定宏觀政策,促進經(jīng)濟健康發(fā)展具有重要意義。

消費者信心指數(shù)的獲取通常是通過調(diào)查問卷的形式,但傳統(tǒng)調(diào)查問卷的方法存在工作量大,時效性差,覆蓋不全面等問題,所以國內(nèi)外學者紛紛針對消費者信心指數(shù)進行預(yù)測研究。一些學者采用傳統(tǒng)計量經(jīng)濟學模型,如楊娜、王靜雅利用ARIMA模型預(yù)測消費者信心指數(shù)[2];董現(xiàn)壘、Bollen Johan、胡蓓蓓利用谷歌趨勢建立計量經(jīng)濟學模型,對消費者信心指數(shù)進行預(yù)測[3];劉偉江、李映橋以網(wǎng)絡(luò)搜索數(shù)據(jù)為基礎(chǔ),利用主成分分析法合成搜索指數(shù),建立回歸模型,預(yù)測臺灣地區(qū)的消費者信心指數(shù)[4]。由于傳統(tǒng)計量經(jīng)濟學模型通常適用于線性關(guān)系的情況,而消費者信心指數(shù)與變量之間的關(guān)系復雜多樣,因此一些學者提出采用機器學習模型或者深度學習模型對其進行預(yù)測,如鄒鴻飛、王建州建立了CEEMD-DEGWO-BPNN模型預(yù)測消費者信心指數(shù)[5];唐曉彬、董曼茹、張瑞引入百度指數(shù)數(shù)據(jù),建立長短時間記憶神經(jīng)網(wǎng)絡(luò)模型進行消費者信心指數(shù)的預(yù)測[6]。

Hanjo Odendaal、Monique Reid、Johann F.Kirsten認為在線情感指數(shù)對消費者信心指數(shù)具有預(yù)測作用,可為消費者信心指數(shù)的預(yù)測提供思路[7]。在以往的研究中,預(yù)測消費者信心指數(shù)所使用的影響因素也常為非結(jié)構(gòu)化數(shù)據(jù),然而非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量較大,不能全部放入預(yù)測模型中建模,需要對變量進行篩選。本文采用對數(shù)據(jù)類型沒有太多限制,且可以彌補最小二乘法和逐步回歸法局部最優(yōu)估計不足的Lasso回歸對變量進行處理,同時采用既可以解決線性關(guān)系問題又可以解決非線性關(guān)系問題的機器學習模型——支持向量機回歸,對消費者信心指數(shù)進行預(yù)測。

1 模型理論概述

1.1 Lasso回歸

當數(shù)據(jù)特征較多時,為了防止模型的過擬合,常常需要對數(shù)據(jù)進行篩選降維。1996年國外學者Robert Tibshirani提出了Lasso回歸。Lasso回歸是一種縮減性估計,在回歸過程中,可以將一些不重要的回歸系數(shù)直接縮減為0,以此實現(xiàn)變量篩選的功能。Lasso回歸可以降低模型訓練時的計算量,因此在高維數(shù)據(jù)中得到廣泛應(yīng)用。Lasso回歸的目標函數(shù)為式(1):

(1)

其中,λ是懲罰項系數(shù),控制著模型的復雜程度,λ越大對特征較多的模型懲罰力度越大,通過調(diào)整λ,最終可以獲得特征較少的模型,以達到降維的目的。

1.2 SVR模型

SVR模型又稱支持向量回歸模型,其采用支持向量的思想,可將低維數(shù)據(jù)非線性映射到高維空間,從而在高維空間中對數(shù)據(jù)進行回歸分析。支持向量回歸模型的優(yōu)點在于模型對數(shù)據(jù)的分布沒有限制,可以有效解決小樣本、非線性、高維度問題。SVR模型的目標函數(shù)為式(2):

(2)

支持向量回歸允許預(yù)測值和實際值之間存在一個合理的誤差,即|yi-f(xi)|≤ε。根據(jù)拉格朗日函數(shù)的對偶性和極小值求解的方法,可以得到f(xi)中參數(shù)w與b的值,式(3):

(3)

為了使模型能夠解決非線性回歸問題,引入核函數(shù)K(xi,xj)替換高維空間的內(nèi)積,此時函數(shù)f(xi)可以表示為式(4):

(4)

SVR模型對核函數(shù)的選擇比較敏感,不同的核函數(shù)會使模型產(chǎn)生不同的結(jié)果。常用的核函數(shù)有多項式核函數(shù)(ploy核函數(shù))、高斯核函數(shù)(rbf核函數(shù))、Sigmoid核函數(shù)等,通過網(wǎng)格搜索的方法可以確定核函數(shù)的參數(shù),從而使模型達到最好的效果。

1.3 消費者信心指數(shù)預(yù)測模型

由于Lasso回歸的降維能力和SVR模型的優(yōu)點,本文結(jié)合兩個模型對消費者信心指數(shù)進行預(yù)測。首先,對數(shù)據(jù)進行預(yù)處理,提高數(shù)據(jù)質(zhì)量;其次,對變量進行領(lǐng)先期數(shù)的確定,使選取的變量具有預(yù)測能力;然后利用相關(guān)系數(shù)選取與消費者信心指數(shù)相關(guān)的變量,再將新得到的數(shù)據(jù)集輸入Lasso回歸模型中降維,從而得到最終的預(yù)測變量;最后,把變量放入SVR模型中進行消費者信心指數(shù)的預(yù)測,并比較使用不同核函數(shù)模型的預(yù)測效果,從而確定最終的預(yù)測模型。消費者信心指數(shù)預(yù)測模型的構(gòu)建思路如圖1所示。

圖1 消費者信心指數(shù)預(yù)測模型構(gòu)建思路

2 消費者信心指數(shù)預(yù)測分析

2.1 數(shù)據(jù)來源

近年來,互聯(lián)網(wǎng)快速發(fā)展,出現(xiàn)大量的非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)往往與經(jīng)濟現(xiàn)象之間存在某種聯(lián)系,或多或少反映著真實的經(jīng)濟生活。因此,本文采用非結(jié)構(gòu)化數(shù)據(jù)中的百度指數(shù)數(shù)據(jù)作為預(yù)測消費者信心指數(shù)的數(shù)據(jù)支撐,并通過文獻參考和需求圖譜的關(guān)鍵詞推薦,選取了133個百度關(guān)鍵詞,部分關(guān)鍵詞見表1。百度指數(shù)數(shù)據(jù)分為移動端和PC端,而移動端的百度指數(shù)數(shù)據(jù)從2011年開始收錄,故本文的數(shù)據(jù)從2011年開始收集,通過爬蟲技術(shù)獲取2011~2019年的PC端和移動端的百度指數(shù)。本文的研究對象為消費者信心指數(shù),為保持數(shù)據(jù)的一致,選取了2011~2019年的月度數(shù)據(jù)作為本文的樣本,其數(shù)據(jù)來源于中經(jīng)網(wǎng)統(tǒng)計數(shù)據(jù)庫。

表1 部分關(guān)鍵詞

2.2 數(shù)據(jù)預(yù)處理

百度指數(shù)數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),可能會受到各種各樣的干擾,存在噪聲較大的問題,需要對其進行預(yù)處理。

第一步:異常值處理。百度指數(shù)數(shù)據(jù)會受到特殊事件的影響,導致出現(xiàn)異常值,而異常值會影響模型的預(yù)測效果,故需要對異常值進行處理。本文采用箱線圖法對異常值進行判斷,將篩選出的異常值用前后兩期的均值進行替換。

第二步:去除長期趨勢。隨著近些年來互聯(lián)網(wǎng)的高速發(fā)展,搜索引擎的使用頻率也會隨著時間的增加而增加,為了消除由于互聯(lián)網(wǎng)發(fā)展導致搜索量的增加,需要尋找與本文研究對象相關(guān)性不大,且能代表互聯(lián)網(wǎng)發(fā)展趨勢的關(guān)鍵詞[8]。因此計算選取的133個關(guān)鍵詞與其百度指數(shù)的比值,以消除互聯(lián)網(wǎng)長期發(fā)展趨勢。通過參考相關(guān)文獻,本文選取的關(guān)鍵詞為百度。

第三步:合并數(shù)據(jù)。由于消費者信心指數(shù)為月度數(shù)據(jù),故將百度指數(shù)的日度數(shù)據(jù)轉(zhuǎn)為月度數(shù)據(jù)。

2.3 預(yù)測模型的建立

2.3.1 基于Lasso回歸模型的變量的降維

本文選取的133個百度關(guān)鍵詞并非都適合放入模型中作為變量進行預(yù)測,需要對其進行篩選。首先,通過K-L信息量法確定每個關(guān)鍵詞的最佳階數(shù),將關(guān)鍵詞領(lǐng)先階數(shù)設(shè)為1~12階,計算每個關(guān)鍵詞領(lǐng)先1~12階的K-L信息量,并從中選取K-L信息量最小值所對應(yīng)的階數(shù)作為該關(guān)鍵詞的最佳階數(shù),根據(jù)最佳階數(shù)將原始數(shù)據(jù)錯位補齊;其次,計算錯位補齊后的每個關(guān)鍵詞和消費者信心指數(shù)之間的斯皮爾曼相關(guān)系數(shù),并將閾值設(shè)為0.5,以此獲得43個與消費者信心指數(shù)相關(guān)的關(guān)鍵詞;最后,為了進一步減少模型的輸入變量,提高模型的預(yù)測效果,建立Lasso回歸模型對43個百度關(guān)鍵詞進行篩選。

Lasso回歸模型中的λ值是未知的,可以通過可視化方法大致確定λ的取值范圍,然后通過交叉驗證法確定最終的λ值。

λ和回歸系數(shù)之間的關(guān)系如圖2所示,每條折線圖代表了每個變量。從圖2可知,當λ的值大概在0.02~0.76之間時,絕大多數(shù)變量的回歸系數(shù)趨于穩(wěn)定。為確定準確的λ值,利用sklearn模塊中的LassoCV類進行交叉驗證,對每一個λ值,進行10重交叉驗證,從而確定λ的值為0.141。以最佳λ值重新建立Lasso回歸模型,最終篩選出6個百度關(guān)鍵詞,分別為股票、趕集網(wǎng)、58同城、民宿、大眾點評和個人所得稅。表2是最終百度關(guān)鍵詞的滯后階數(shù)及斯皮爾曼相關(guān)系數(shù)。

表2 最終百度關(guān)鍵詞

圖2 λ與回歸系數(shù)的關(guān)系

2.3.2 SVR預(yù)測模型

經(jīng)過上述處理和變量篩選后,還剩余96期數(shù)據(jù)。將數(shù)據(jù)集按照7:3的比例劃分訓練集和測試集,并對其進行歸一化處理,以消除不同數(shù)量級造成的影響。由于SVR模型的預(yù)測效果受核函數(shù)的影響較大,所以本文選取常用的多項式核函數(shù)高斯核函數(shù),Sigmoid核函數(shù)進行建模,并采用網(wǎng)格搜索的方法對核函數(shù)參數(shù)、懲罰系數(shù)、損失函數(shù)參數(shù)進行尋優(yōu)。SVR模型使用不同核函數(shù)的最終參數(shù)值見表3。

表3 模型參數(shù)值

根據(jù)網(wǎng)格搜索法得到的參數(shù)值,分別建立SVR模型,并對測試集進行預(yù)測,不同核函數(shù)預(yù)測結(jié)果如圖3所示。

由圖3可知,無論使用多項式核函數(shù),高斯核函數(shù)還是Sigmoid核函數(shù)都可以對消費者信心指數(shù)進行大致的刻畫,說明SVR模型對消費者信心指數(shù)具有一定的預(yù)測能力。但不同的核函數(shù)之間還存在一定的差異,為了選擇更好的模型,對3種核函數(shù)的預(yù)測結(jié)果進行定量分析,采用均方根誤差和平均絕對誤差對其進行評價,評價結(jié)果見表4。

(a)多項式核函數(shù)

表4 不同核函數(shù)預(yù)測結(jié)果

由表4可知,多項式核函數(shù)和Sigmoid核函數(shù)的預(yù)測效果不如高斯核函數(shù),當模型使用高斯核函數(shù)時,模型的均方根誤差和平均絕對誤差最小,分別為3.441和2.756;其次是多項式核函數(shù),均方根誤差為3.460,平均絕對誤差為2.776;預(yù)測結(jié)果最差的是sigmoid核函數(shù),均方根誤差為3.573,平均絕對誤差為2.88。

3 結(jié)束語

本文以非結(jié)構(gòu)化數(shù)據(jù)中的百度關(guān)鍵詞作為消費者信心指數(shù)的影響因素,將Lasso回歸和SVR模型相結(jié)合,對消費者信心指數(shù)進行預(yù)測。同時,通過對比不同的核函數(shù),認為在使用高斯核函數(shù)時,可以使消費者信心指數(shù)的預(yù)測效果達到最好。該方法有效預(yù)測了消費者信心指數(shù),可以將其應(yīng)用到其它經(jīng)濟指標的預(yù)測,從而更好的掌握經(jīng)濟指標的變化趨勢。

猜你喜歡
百度消費者模型
一半模型
消費者網(wǎng)上購物六注意
重要模型『一線三等角』
Robust adaptive UKF based on SVR for inertial based integrated navigation
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
百度年度熱搜榜
青年與社會(2018年2期)2018-01-25 15:37:06
知識付費消費者
3D打印中的模型分割與打包
悄悄偷走消費者的創(chuàng)意
悄悄偷走消費者的創(chuàng)意
主站蜘蛛池模板: 色悠久久久| 亚洲精品无码日韩国产不卡| 999精品在线视频| 午夜视频www| 亚洲av色吊丝无码| 欧美日本在线观看| 99热这里只有精品国产99| 国产精品天干天干在线观看| 国产丝袜无码一区二区视频| 国产色偷丝袜婷婷无码麻豆制服| 动漫精品中文字幕无码| 无码AV高清毛片中国一级毛片| 国产色爱av资源综合区| 国产精品永久免费嫩草研究院| Aⅴ无码专区在线观看| 在线无码av一区二区三区| 国产sm重味一区二区三区| 国产高清国内精品福利| 国禁国产you女视频网站| 在线无码九区| 五月天久久综合| 国产区免费精品视频| 午夜激情婷婷| 乱系列中文字幕在线视频| 久久精品丝袜| 国产黑人在线| 中文字幕佐山爱一区二区免费| 亚洲美女一区二区三区| 六月婷婷精品视频在线观看| 国产精品大尺度尺度视频 | 成年看免费观看视频拍拍| 国产麻豆另类AV| 就去色综合| 精品久久蜜桃| 日韩在线观看网站| 99视频在线精品免费观看6| 国产激情国语对白普通话| 青青草原国产免费av观看| 国产在线精品美女观看| 永久在线精品免费视频观看| 国产第一页屁屁影院| 亚洲无码免费黄色网址| 国产午夜不卡| 国产区人妖精品人妖精品视频| 国产欧美专区在线观看| 国内精品小视频在线| 99尹人香蕉国产免费天天拍| 91成人在线免费视频| 欧美成人看片一区二区三区| 日韩高清欧美| 久久天天躁夜夜躁狠狠| 国产在线91在线电影| 国产成人综合欧美精品久久| 91国内视频在线观看| 久久精品这里只有国产中文精品| 亚洲欧美另类日本| 蝴蝶伊人久久中文娱乐网| 成年女人18毛片毛片免费| 免费在线视频a| 国产一级做美女做受视频| 精品国产99久久| jizz亚洲高清在线观看| 亚瑟天堂久久一区二区影院| 成人国产精品网站在线看| 91精品国产91久无码网站| 国产美女精品一区二区| 国产精品毛片在线直播完整版| 日韩人妻无码制服丝袜视频| 伊人91视频| 在线观看的黄网| 久久久噜噜噜| 久久精品中文字幕免费| 亚洲电影天堂在线国语对白| 亚洲欧美成人影院| 欧美国产视频| 久久semm亚洲国产| 草草影院国产第一页| 亚洲无码高清免费视频亚洲| 青青草原国产精品啪啪视频| 二级特黄绝大片免费视频大片| 在线看片中文字幕| 欧美成在线视频|