閆 妍, 張志欣, 張洪瑤
(沈陽工業大學 管理學院, 沈陽 110870)
中國互聯網中心發布的第45次互聯網統計公報顯示,截至2021年6月,中國互聯網用戶已達10.11億人,比2020年12月新增2 092萬人;手機互聯網用戶達10.02億人;互聯網普及率達99.6%[1-3]。在中國網民數量增加的過程中,網絡平臺從最初的信息發布平臺逐漸演變為集信息發布、搜索、交流于一體的社交網絡,成為網絡信息產生、傳播和發酵的平臺。這一開放、自由的信息平臺,會對網民的情緒、態度和行為等產生影響[4]。
隨著網絡搜索引擎的出現,越來越多的網民利用搜索引擎對社會熱點問題進行搜索和關注,網絡上大面積傳播和爆發熱點問題,相關話題量激增,從而引發網絡輿情。這種網絡輿情具有爆發快、傳播快和消退快的特點,也有可能因為發生新的社會事件而再次爆發,因此網絡輿情和社會環境存在密切的相關關系[5]。這種相關關系已得到國內外學者的驗證,并取得了較為豐富的研究成果,其最初應用在流行病檢測上。JOHNSON等發現,醫學類網站被訪問的次數和流感類文章被搜索的次數增加時,總是伴隨著流感發病率的上升[6]。近年來,這種相關性也被應用于經濟領域,主要研究可分為微觀層面、行業(中觀)層面和宏觀層面[7-8]。
在微觀層面上:梁留科等從網絡輿情角度調研了霧霾對旅游者偏好的影響,發現以旅游逃離霧霾的觀念在旅游者中迅速傳播,境內游和境外游的流向均出現了變化[9]。齊麗云等研究發現,企業社會責任的負面事件網絡輿情可分為誘發、擴散和消退三個階段,企業和利益相關者的相互作用是推動輿情發展的原因,在緩解網絡輿情時應采取政府調控在先、企業應對在后的方式[10]。
在行業(中觀)層面上:FRIJNS等選取多國股票收益數據,發現投資者情緒可以解釋投資收益中非基本因素的方差、協方差,表明投資者情緒驅動股票收益率[11]。歐陽資生等研究了嵌入網絡輿情指數的金融機構風險傳導效應,指出證券類和銀行類機構對外部風險十分敏感,容易受到其他金融機構影響;金融機構風險指標和網絡輿情協同變化趨勢明顯[12]。
在宏觀層面上:張崇等發現網絡搜索數據和CPI之間存在協整關系,預測模型可比官方數據提前一個月,并且具備預測轉折點的能力[13]。BARREIRA等使用自回歸模型來提高即時預報能力,預測了4個國家的失業率和汽車銷售數據,發現在失業率方面GOOGLE趨勢數據可以改變3個國家的即時預報能力,網絡搜索數量有助于解釋汽車銷售量差異[14]。
以往研究中,對經濟指標的預測屬于宏觀研究層面,通常是利用歷史數據對宏觀經濟指標進行預測。但宏觀經濟指標公布的數據量少且存在滯后,這種原始數據的制約,對預測結果準確性存在一定影響[15-17]。基于以上考慮,筆者利用投資類大數據對CPI指數進行預測,在原有宏觀、微觀經濟類搜索指標中增設投資相關指標,以分析網絡搜索數據對CPI指數的綜合影響。
在以往的CPI預測文獻中,多采用指數平滑法、ARMA模型、ARCH模型,或以神經網絡、灰色理論為基礎的預測模型[18-21]。上述方法或是利用官方發布數據(具有滯后性)進行預測,或是只能適用于單一通貨膨脹或通貨緊縮的經濟狀況。為了更好地對CPI進行預測,筆者采用了百度指數分析方法,通過收集影響CPI的各大類關鍵詞搜索指數,擬合CPI預測模型。
利用百度搜索指數進行預測具有獨特的優勢:一是百度搜索引擎作為當下最龐大的中文搜索引擎,數據量巨大且有代表性。二是利用網絡搜索數據進行預測,能夠迅速反映網民關心的話題和熱點,很好地避免了官方數據的滯后問題。三是能完整反映出網絡搜索數據對宏觀經濟指標的影響,可供政府作為理論依據引導網絡輿情。
目前,關鍵指標選取主要有兩種方法——主觀選詞法和程序選詞法[22]:主觀選詞法利用已有研究和自身經驗,選擇網絡中出現的與物價相關的詞匯,具體包括宏觀、微觀、金融等方面的關鍵詞;程序選詞法利用網絡爬蟲技術,對海量網頁中與物價相關的關鍵詞進行收集,從中篩選出部分有代表性的詞匯。目前,這兩種選取方法均有學者使用,也各有優缺點[23]:采用主觀選詞法的學者較多,其工作量小,簡單易行,在眾多研究中已取得很好的效果;程序選詞法應用較少,在用程序收集網頁信息時,無法判斷關鍵詞在網頁內容中的態度定位,丟失了網頁的語義功能。權衡上述兩種方法,筆者先用主觀選詞法對關鍵詞進行初選,再用程序選詞法進行信息爬取。
將與物價相關的關鍵詞分為宏觀和微觀兩大類。使用百度指數得到的CPI關鍵詞如圖1所示,并可在此基礎上進行主觀增加。

圖1 百度指數中CPI關鍵詞
為避免官方數據的滯后性問題,在關鍵詞中增加了投資類指標。自新冠疫情出現以來,全國經濟形勢下滑,投資受到抑制,因而投資類指標有助于準確反映后疫情時代中國的經濟形勢及CPI未來趨勢。具體的36個關鍵指標如表1所示。

表1 各類關鍵指標
初選完成后,對這些指標在網絡上的搜索情況進行爬取,渠道主要有百度指數、360趨勢、搜狗指數、谷歌指數、艾瑞指數、騰訊瀏覽器指數等流量統計平臺。由于百度指數的市場份額達60%以上,百度搜索也是目前最大的中文搜索引擎,因此選擇百度指數統計平臺。百度指數的數據分為PC數據、移動數據、PC+移動數據,其中PC數據從2006年開始統計,移動數據和PC+移動數據從2011年開始統計。在爬取數據時,宏觀和微觀類指標的選取時段為2018年1月至2021年9月,投資類指標為2020年10月至2021年9月,選擇的數據為日度數據。
因36個與CPI相關的指標之間存在重疊,因此要進行降維處理。采用主成分分析法(PCA)進行降維,確定互不相關的綜合指標代替這36個具體指標。這些綜合類指標是原始指標的線性組合,可以降低研究空間的維數,從而對CPI進行更準確的預測。對投資類初選指標的百度指數進行主成分分析,結果如表2所示。

表2 初選指標百度指數主成分分析
從表2可以看出:第一主成分的特征根為7.659,方差百分比為63.827;第二主成分的特征根為3.377,方差百分比為28.141;這兩個主成分的累計貢獻率達到91.968%。由于通常提取特征值大于1的成分作為主成分,而第三主成分的特征值小于1,因此提取前兩個主成分,成分矩陣如表3所示。

表3 成分矩陣
用成分矩陣數據除以各自特征值的平方根,可得到各初選指標的權重;將權重與初選指標原始值相乘,可得到各主成分的綜合得分;以方差貢獻率對主成分綜合得分進行加權,便可得到投資類綜合指數為
IPOCI=0.638IPOI1+0.281IPOI2
(1)
式中,IPOI1和IPOI2分別表示投資類指標的兩個主成分。
相關月份投資類綜合指數值如表4所示。

表4 投資類綜合指數值
同理,宏觀類指標提取出5個主成分MaI1,MaI2,MaI3,MaI4,MaI5,宏觀類綜合指數可表示為
MaCI=0.273MaI1+0.241MaI2+0.196MaI3+
0.187MaI4+0.174MaI5
(2)
微觀類指標提取出6個主成分MiI1,MiI2,MiI3,MiI4,MiI5,MiI6,微觀類綜合指數可表示為
MiCI=0.468MiI1+0.339MiI2+0.211MiI3+
0.104MiI4+0.052MiI5+0.317MiI6
(3)
式(1)~(3)是由36個初選指標提取出的綜合指數,這3個指數包含初選指標中的絕大部分信息,大大降低了擬合模型所需的變量數,起到了降維作用。
由于本文提取的宏觀類、微觀類、投資類指標及CPI歷史值均為時間序列,為防止出現虛假回歸現象,必須對序列進行平穩性檢驗。通常用單位根檢驗方法進行平穩性檢驗,主要有ADF檢驗、PP檢驗、KPSS檢驗、ERS檢驗等。本文選擇Eviews軟件進行ADF檢驗,原假設H0為存在單位根,計算結果如表5所示。

表5 綜合指數單位根ADF檢驗結果
從表5可以看出:CPI和宏觀類綜合指數P值為0.029 6和0.048 2,均小于0.05,拒絕原假設,說明這兩類指數為平穩序列;而微觀類和網絡類綜合指數為0.069 6和0.073 9,均大于0.05,說明這兩個序列不平穩,需要通過一階差分將其轉化為平穩序列。進行一階差分后的微觀類和網絡類綜合指數,分別用d(MiCI)和d(IPOCI)表示。
上述四類綜合指數的歷史值均會對未來CPI造成影響,但該影響并非立竿見影,而是存在一定滯后期,因此在模型擬合之前需要確定各類指數的最優滯后階數。通過AIC準則測算,得到宏觀類指數最優滯后階數是5階,一階差分后的微觀類、投資類指數分別是6階和2階。可以看出,宏觀類、微觀類指數對CPI的影響較為滯后,而投資類指數對CPI的影響顯現較快。由于CPI是月度數據,可能與上年同期數據存在相關關系,因此可以引入CPI滯后12階數據,以更好地提高模型擬合優度。
最小二乘法是進行曲線擬合最常用的方法。根據前文計算得出的宏觀類指數、一階差分后的微觀類指數和投資類指數,加上CPI歷史數據進行擬合,最終得到擬合模型
CPIt=169.536 7-0.038 67MaCIt-5-
0.021 4d(MiCI)t-6-0.008 7d(IPOCI)t-2-
0.003 6CPIt-12
(4)
使用該模型對CPI進行預測,預測時段為2020年10月至2021年9月,結果如圖2所示。可以看出,預測CPI走勢基本符合實際CPI走勢,說明該模型能較為準確地對CPI值進行預測,并能比官方數據提前一個月得到預測值。

圖2 預測CPI與實際CPI走勢
使用大數據對宏觀經濟指標預測是一種常見的經濟學預測方法。本文利用百度指數大數據梳理出36個宏觀、微觀、投資類關鍵詞,并運用主成分分析法進行降維,提取出宏觀、微觀和投資三大類綜合指數,計算出其權重。通過三類指數擬合模型對CPI進行預測,證明該模型能很好地預測出CPI走勢,在政府公布數據一個月前得到預測值,且成功預測出CPI拐點。從圖2可以看出,2021年上半年CPI經歷了一次較大規模的增長,此后有所回落,其原因可能是新冠疫情導致的經濟增長緩慢、投資額降低和物價上漲。后疫情時代,這種異常因為國家的疫情防控工作的有效進行而逐漸恢復到正常狀態。實證結果顯示,運用該方法得到的預測結果較以往更加準確,且預測偏差較小。
選取合適的關鍵詞是準確預測的關鍵。研究的不足之處在于尚未建立一種科學的選詞方法,只是利用主觀法進行初選。未來研究可以借助網絡爬蟲程序對海量數據進行關鍵詞搜索和分析,開展更為深入系統的研究。