當今社會科技發達,信息流通,大數據作為這個高科技時代的產物已經滲透入各行各業,成為重要的生產因素。如任守航基于瓦斯濃度數據,提出了適用于煤礦企業的瓦斯濃度預測預警方法,為煤礦企業在實際生產中防控瓦斯災害事故提供了良好的技術手段。張昊然匯總了醫療行業的海量數據,通過對各項醫療指標的監控與分析,對醫療機構進行多維度畫像,從而為管理者制訂提升醫療服務水平的具體策略提供參考。眾多案例均表明人們利用大數據可以很好地將多源信息進行融合,從而對某些領域展開預測。而能夠間接反映多源信息的一個重要指標便是搜索指數。搜索指數是以用戶的搜索量為數據基礎、以關鍵詞優化為統計對象,科學分析并計算出各個關鍵詞在網頁中搜索頻次的加權和。隨著互聯網普及率的顯著提高,互聯網技術日趨成熟,搜索引擎服務也逐漸完善,人們愈發傾向于借助互聯網來獲取自己所需的信息。鑒于此,近年來學者們常基于在我國有較高影響力的百度搜索平臺,利用其百度指數對某些行業的發展趨勢進行研究。鄧于佳針對股票價格復雜無規律的漲跌預測問題,將有效關鍵詞的百度指數作為股票投資者關注度的衡量標準,在不考慮宏觀因素的情況下,結合神經網絡模型,較為準確地預測出了股票的價格趨勢,能夠為投資者提供一定的決策依據。黃錦波從互聯網的角度出發,考慮消費者的網絡互動行為,選擇BP神經網絡作為模型,同百度指數結合對人身險保費進行預測,證明了引入百度指數的模型有助于提高人身險保費收入的預測精準度。馬隆對用戶的搜索行為與P2P行業成交量之間的關系進行分析,并通過用戶的搜索行為對P2P行業成交量的發展趨勢進行預測。同時還將傳統預測模型的預測結果與加入搜索指數的預測模型的預測結果進行對比,發現后者的預測精度明顯高于前者。周恬恬提出了基于百度指數和隨機森林模型的上證綜指走勢預測方法,建立了上證綜指收盤值的回歸預測模型和上證綜指收盤值漲跌分類預測模型,并且通過與無百度指數的隨機森林回歸預測模型實驗對比,發現該模型具有更高的精確度和更好的擬合效果,證明了百度指數對于該模型預測的高度有效性。綜上,本文將對碳價格進行預測:首先選取多個與碳價格相關關鍵詞,爬取其百度指數,并利用MDS算法降維;然后基于歷史數據與百度指數建立LSTM預測模型,對碳價格進行預測;最終對不同輸入層的預測結果進行有效性檢驗及對比分析。
本文首先查閱大量文獻,選擇了9個能夠反映民眾對碳交易關注熱度的關鍵詞,再利用MDS算法將其縮減至3維矩陣,然后將3維碳熱度矩陣和歷史碳價格作為LSTM模型和LSSVM模型的輸入層,進而得到預測結果,最后,利用RMSE對預測結果進行誤差分析和有效性評價,具體思路如圖1。

圖1 基于多源信息融合的碳價格預測模型的基本思路
1.2.1 基于多關鍵詞的MDS降維模型 選取并收集與碳價格相關的關鍵詞百度指數,鑒于關鍵詞較多,且各關鍵詞之間有較高的相似性,故建立MDS模型對所得數據進行降維處理,并且在盡可能保持各關鍵詞相似性的前提下,將其在低維空間中進行表示。首先將選取的9個關鍵詞實例及其百度指數進行向量化表示,可以得到9維空間中的距離矩陣D,D是一個(9×9)的矩陣,其中第i行j列的元素表示第i個關鍵詞實例和第j個關鍵詞實例之間的距離,現將其降維值3維空間Z中,Z表 示第i個關鍵詞實例。因任意兩個關鍵詞實例在Z中的距離與原始空間的距離相同,故有


對(1)左右兩邊求和:

再對(3)兩邊求和:

定義內積矩陣Z=ZZ,將(2)(3)(4)代入(1)中,得

由于B是對稱矩陣,因此對B特征分解可得

Λ為特征值矩陣,V為特征向量矩陣,欲將數據降維至3維空間,故選擇前3個最大得特征值以及特征向量,降維之后得數據點表示為

1.2.2 基于歷史信息的LSTM預測模型 碳價格的波動不僅會受到近期的影響,而且過去任意時期都有可能對未來的變化造成沖擊,只是隨著時間推移,過去的時間節點對現在的影響可能呈現遞減趨勢。因此本文選擇借助LSTM神經網絡的門控機制,過濾冗余信息并篩選出有效歷史信息對碳價格進行預測。每一個LSTM的神經單元是由細胞狀態以及輸入門、遺忘門和輸出門三個門組成。首先由遺忘門根據下式來決定當前狀態需要丟棄哪些歷史信息:

此時引發細胞狀態的第一次改變,即

然后向輸入門中輸入前一期的細胞狀態C,前一期的輸出值S,以及該期的數據X,由輸入門對所有輸入信息進行處理,并根據:

引發細胞狀態的第二次改變:

最終由輸出門得到輸出結果O(t)與輸出值S:

1.2.3 基于歷史信息的LSTM預測模型LSSVM在SVM的基礎上進行改進,采用最小二乘線性方程作為損失函數,將SVM的不等式約束轉化為了等式約束,從而將復雜的二次規劃問題轉化為相對較簡單的求解線性方程組問題,有助于基于歷史信息對具有非線性特性的碳價格進行有效擬合。設給定一組訓練樣本集:

其中x為第i個輸入向量,y為第i個輸出向量,n為輸入向量的維數,N為訓練樣本的大小。LSSVM的核心是將訓練樣本非線性映射到高維特征空間,在高維空間中進行線性回歸。回歸函數為

其中ω為權重向量,φ(x)為LSSVM的核函數,反映低維特征空間到高維特征空間的映射關系,b為偏差。依據結構風險最小化原則,LSSVM優化問題可轉化為:

其中e為擬合誤差,y為懲罰因子,用于控制誤差的懲罰程度。引入拉格朗日乘子λ求解該優化問題:

然后根據KKT條件對上式求解推導:

求解消除方程中的棕和e,得到最終預測模型函數:

其中K(x,x)為核函數,反映輸入空間到高維特征空間的非線性映射。本文采用具有徑向對稱且泛化能力強的徑向基核函數作為該預測模型的核函數

其中滓為核函數的寬度因子。
本文選取從2019/10/29至2022/03/07共314個數據,其中前284天為訓練集,后30天為測試集。查閱文獻后,本文選取了低碳經濟、碳交易、碳達峰、碳中和、碳足跡、碳排放、碳關稅、減排、碳稅九個關鍵詞,以這些關鍵詞的百度指數作為人們對碳價格的關注熱度。利用MDS算法降維后的結果如圖2。

圖2 搜索熱度降維結果
將降維后的搜索熱度和歷史碳交易價格分別作為LSTM模型和LSSVM模型的輸入層,建立LSTM碳價格預測模型和LSSVM碳價格預測模型,具體輸入如表1。

表1 三種模型的輸入輸出參數
此時,我們可以得到基于多源信息融合的碳價格預測模型的結果,如圖3。

圖3 碳價格預測結果
本文選取誤差平方和(SSE)、平均絕對百分比誤差(MAPE)、均方根差(RMSE)和平均絕對誤差(MAE),用于評估以上三種碳價格預測模型的優劣。計算公式如下:


根據公式(22)-(25)計算各碳價格預測模型的評價結果如表2。

表2 各模型預測效果對比
通過表2可以看出,無論是SSE、MAPE、RMSE、MAE,模型3的預測效果都顯著優于模型1,這表明LSSVM模型比LSTM更適合預測碳價格的波動。考慮民眾關注熱度的模型3預測效果明顯優于模型2,表明民眾關注對碳價格的波動有一定影響。實踐證明,引入多源信息的預測模型能顯著提高預測精度,考慮多方面影響因素在實際預測中是有必要的。
針對本文所研究的問題,通過對比同等條件下LSTM和LSSVM的預測性能,最終基于LSSVM構造兩類預測模型,一類僅考慮歷史價格對碳價格的影響,另一類則同時考慮歷史價格和關鍵詞百度指數,研究其對碳價格的共同影響。實驗結果顯示,加入關鍵詞百度指數后的模型,其預測性能有了顯著提升。由此可見網絡搜索指數對于某些問題的預測研究有著較為重要的正面影響,因此在未來的研究中會繼續將搜索指數置于較為重要的位置,以提高模型的精確性與合理性。