付麗麗


【摘 要】本文是研究網絡搜索數據與北京CPI的關系及預測能力的先導步驟,利用與CPI相關的關鍵詞在百度指數網站獲取的搜索數據,探究采用因子分析法進行網絡搜索指數的合成,最后給出了北京CPI網絡搜索指數的合成公式。
【關鍵詞】網絡搜索指數;指數合成;CPI
中圖分類號: F224;F49文獻標識碼: A文章編號: 2095-2457(2019)19-0078-002
DOI:10.19694/j.cnki.issn2095-2457.2019.19.036
1 問題提出
居民消費價格指數(Consumer Price Index,CPI)是反映宏觀經濟形勢特別是通貨膨脹程度的一個重要指標,它體現了居民的生活成本高低。北京市統計局通過人工方式在全市固定地點通過手持數據采集器定時調查商品價格,每個月發布一次CPI數據。隨著大數據日益受到重視,一些學者已經開始運用網絡搜索數據來研究失業率(Ettredge et al.,2005)[1]、CPI(孟婷婷、2017)[2]等從宏觀經濟現象,對互聯網用戶利用關鍵詞在網絡進行搜索而產生的沉淀在搜索引擎等網站上的大數據對經濟現象進行預測。
網絡搜索數據能否成功預測經濟現象,關鍵在于關鍵詞的選擇以及隨后的搜索指數合成方法。關鍵詞的產生有兩種方式:一種是互聯網用戶根據自己的學識、需求、認知而主動思考出來的,一種是網站根據用戶的搜索行為主動推薦的。與CPI相關的關鍵詞的選擇就是選取與實際CPI指數走勢相關且趨向一致的那些關鍵詞的搜索數據。關鍵詞選擇好后不能直接利用關鍵詞在網站上的搜索數據來建立預測模型,這是因為,相關的關鍵詞的數量較多,關鍵詞之間有共線性,如果僅僅用各個關鍵詞的搜索數據直接構建模型,模型會比較復雜,各變量間的共線性問題會使模型達不到理想的效果,因此需要進行關鍵詞搜索數據(網絡搜索指數)的合成。本文正是基于這一目的,以百度的關鍵詞搜索指數為樣本來探索用因子分析的方法進行關鍵詞搜索指數的合成,為后續構建預測模型打下基礎。
2 文獻綜述
從查閱的文獻來看,網絡搜索指數的文獻多散見于各種研究網絡搜索指數與經濟及社會現象的文獻里,作為模型構建前數據處理的一種方式,只有極個別的文獻研究了網絡搜索指數的方法。彭賡等(2013)采用谷歌趨勢推薦關鍵詞的功能進行了四層推薦選取關鍵詞,之后采用逐步回歸法進行搜索指數的合成[3]。崔東佳(2014)通過百度搜索引擎搜索與奇瑞、大眾及寶馬三個品牌汽車相關的關鍵詞,通過采用綜合賦權、錯位逐步合成方法對三個品牌相關的關鍵詞得到的搜索量計算相應的網絡搜索指數[4]。孫毅等(2014)認為現有的網絡搜索指數的方法主要有直接合成法、相關性合成法、時差相關合成法[5]。殷三杰(2018)運用文本挖掘方法及時差相關分析法篩選關鍵詞,接著使用逐步回歸分析、Adaptive-Lasso算法、主成分分析三種降維方法進行比較,用于選擇變量[6]。
從以往的文獻可以看出,網絡搜索的指數有不同的合成方法。因子分析是針對變量間有相關性且變量數量比較多的情況下的一種降維方法,它能夠從眾多的原有變量中綜合出少數具有代表性的因子,因此本文嘗試用這種方法進行網絡搜索指數的合成。
3 數據的采集和預處理
本文的樣本數據來自于百度指數平臺上的數據,選取“CPI”為初始關鍵詞,利用百度CPI需求圖譜推薦的20個關鍵詞,篩選出重復的、不相關的、無意義的關鍵詞,保留了四個關鍵詞,進行第二層選取,依此類推到第四層,共得到151個關鍵詞。之后,采集這些關鍵詞的搜索指數,時間范圍是2013年1月至2018年12月共72個月的月度數據,采集區域的選項是北京,采集設備的選項是PC端。北京CPI數據來自于國家統計局的同比月度數據。
用以上151個關鍵詞在百度指數平臺上獲取的搜索數據,與實際的CPI值進行皮爾遜(Pearson)相關系數的計算,選取了相關系數大于0.4的關鍵詞共計18個。
4 因子分析
4.1 前提條件檢驗
因子分析要求原有的變量之間應該具有較強的相關關系,利用KMO檢驗和巴特利特球體檢驗來判斷原始變量是否適合做因子分析。
運行軟件所得檢驗結果如表1所示。
根據檢驗結果,數據的KMO檢驗值為0.678>0.6,Bartlett球體檢驗相應的概率值接近0.000,小于顯著性水平0.05,表明數據適合作因子分析。
4.2 因子提取
本文選取特征值大于1的因子,并且根據公共因子在變量總方差中所占的累計百分數來選取因子。根據因子提取和因子旋轉結果,前四個因子的特征值分別為6.839、4.280、2.205、1.032,各因子的貢獻率分別為37.995%、23.777%、12.251%、5.732%,能夠解釋原有18個變量總方差的79.755%。據此,本文將提取4個公共因子。
按照方差極大法對因子載荷矩陣旋轉后得到結果如表2所示。
從表2可以看出,第1個因子在物價上漲、CPI是什么、物價、CPI、外匯牌價表、中國投資、存款這七個變量上有較高的載荷。加息、央行、央行加息、存款利率、通脹、通貨膨脹這六個變量在第2個因子的載荷較高。準備金、物價指數、美元匯率在第三個因子上的載荷較高。中國股市、基金在第四個因子的載荷較高。
通過因子得分的協方差矩陣,可以看出,4個因子完全是正交的、沒有線性相關性。這說明提取的四個因子能夠解釋原有18個變量所包含的信息。
4.3 網絡搜索指數合成計算
按照這四個因子分別占四個因子累計方差貢獻率的比值來計算四個因子的系數即權重。由此得出北京CPI的網絡搜索綜合指數的計算公式為:
F=0.48F1+0.3F2+0.15F3+0.07F4
5 結論
本文基于CPI相關的關鍵詞的百度網絡搜索數據,利用因子分析法探索了網絡搜索指數合成的方法,并給出了樣本數據的北京CPI網絡搜索綜合指數的計算公式。這其中的難點就在于如何篩選出能夠反映所要預測某一現象的關鍵詞,這是采用任何網絡搜索指數合成方法的前提。
【參考文獻】
[1]MICHAEL E, JOHN G,GILBERT K. Using web-based search data to predict macroeconomic statistics[J]. Communications of the ACM,2005,48(11):87-92.
[2]孟婷婷.我國CPI波動及外部影響因素研究[D].首都經濟貿易大學,2017.
[3]彭賡,蘇亞軍,李娜.失業率預測研究——基于網絡搜索數據及改進的逐步回歸模型[J].現代管理科學,2013(12):40-43.
[4]崔東佳.大數據時代背景下的品牌汽車銷量預測的實證研究[D].河南大學碩士學位論文,2014.
[5]孫毅,戴維,董紀昌,呂本富.基于主成分分析的網絡搜索數據合成方法研究[J].數學的實踐與認識,2014,44(21).
[6]殷三杰.加入網絡搜索數據的居民消費價格指數預測[D].西北師范大學,2018.