doi:10.3969/j.issn.1673-0194.2025.15.028
[中圖分類號]F832 [文獻標識碼]A [文章編號]1673-0194(2025)15-0089-04
0 引言
隨著全球氣候的惡化以及傳統化石能源的逐漸枯竭,可再生能源近年來受到廣泛關注,并深受政府部門和投資者的青睞。可再生能源股市為相關企業提供了便捷的融資渠道,因此,研究可再生能源股價預測問題,有助于吸引更多投資者關注,激發產業活力,進而推動綠色金融產業和社會經濟的可持續性發展。股價預測技術有著重要的經濟和社會價值,能夠幫助投資者優化決策、降低風險,并在防范金融市場風險、合理配置社會資金以及促進經濟平穩發展等方面發揮關鍵作用。
行為金融學理論指出,投資者心理和情緒易受外界信息干擾,這些信息在投資者間迅速傳播,最終影響股票價格。隨著互聯網的發展,越來越多的投資者通過網絡、社交媒體獲取信息并發表觀點,財經新聞、股吧評論等非結構化數據逐漸成為投資者情緒研究的重要來源[1]。Liu和Hamori[2]研究了新聞標題情緒與清潔能源股票波動性的聯系,證實了新聞情緒在預測股票收益率和波動性方面的有效性。Herrena等[3]發現Twitter投資者情緒的加入有效提高了對可再生能源股票收益率和波動性的預測能力。與傳統股票市場相比,國內外關于可再生能源股票投資者情緒的研究仍處于起步階段。近年來,深度預訓練語言模型的出現將自然語言處理技術推向新高度。Liu等4利用FinBERT模型分析Stocktwits平臺上的投資者情緒,并結合支持向量機預測指數基金走勢。崔婷和黃斐然[5則利用ALBERT提取媒體新聞情感特征,并應用GRU進行股價預測。盡管BERT模型在自然語言處理領域表現優異,但其主要應用場景仍集中在英語語境,針對中文社交媒體及金融領域的研究相對有限。
隨著我國“雙碳”戰略的推進和綠色金融的快速發展,可再生能源企業在綠色金融體系中的地位日益凸顯,然而,現有股票市場研究多聚焦于大型公司和主流指數,對可再生能源股票關注不足。因此,本文以可再生能源股票為研究對象,應用自然語言處理技術BERT模型構建投資者情緒指數,并利用LSTM深度學習模型對股票收益率進行預測,為可再生能源股票投資者決策提供參考,助力綠色金融市場輿情監管體系的完善,維護市場穩定。
1 研究設計
1.1數據獲取及預處理
本文選擇以可再生能源(如太陽能、風能和水能等)開發利用為主營業務的上市企業股票作為研究對象,剔除上市時間較短、規模較小、討論度較低的公司,以確保有足夠的金融和社交媒體等數據。最終選擇國內A股四家可再生能源上市企業,分別是隆基綠能(股票代碼:601012),長江電力(股票代碼:600900),華能水電(股票代碼:600025),龍源電力(股票代碼:001289)。通過Python雅虎財經接口獲取每家公司的股票交易數據,數據包含股票代碼、交易日期、收盤價、開盤價、最高價、最低價、成交量、收益率。
選擇在國內社交媒體領域影響較大的新浪微博作為投資者情緒文本數據來源平臺,使用與可再生能源股票數據相同的時間框架,通過爬蟲技術對含有上述可再生能源公司股票名稱的微博內容進行抓取,獲得原始微博文本數據集并進行數據清洗,剔除轉發及評論內容、定位信息及客戶端信息等無關數據,最終形成了包含博主姓名、發布日期、微博內容及點贊量四個關鍵要素的微博投資者情緒文本數據集。
1.2投資者情緒指數的構建
本文通過對新浪微博內容進行文本情感分類(積極、消極、中性)構造投資者情緒指標(SentimentIndex,SI)。主要分為三個步驟: ① 數據獲取與預處理,利用爬蟲技術對新浪微博相關文本進行抓取并進行數據清洗,清除無效和重復的微博文本數據; ② 自然語言處理,應用微調后的中文金融BERT模型對微博文本進行情感分類; ③ 投資者情緒指數構建,基于情感分類結果,計算構建投資者情緒指數 sIc。
參考Antweiler等[提出的“看漲指數”,本文構造投資者情緒SI指數如下:

其中,SI反映積極情緒的微博數量在總微博數據集中的比例;∑Pos、∑Neg和?Neu分別代表每日投資者情緒積極、消極、中性三種分類的微博數量。
1.3LSTM預測模型的構建
本文采用長短期記憶神經網絡(LSTM)模型進行股票收益率的預測。LSTM是循環神經網絡(RNN)的一種改進,它在RNN的基礎上引入門控自循環機制,確保序列信息能長期傳遞。因此,LSTM能更好地提取學習時間序列的長期依賴性特征,被廣泛應用于時間序列預測問題中。
首先,我們對模型的輸人數據進行歸一化及分組處理。模型的輸人為股票基本數據、技術指標數據和投資者情緒指數SI;輸出為股票收益率 Rit ,代表第i只股票第 t 天的收益率。首先將數據轉換成數組形式,并進行歸一化處理。由于實際股票市場中,投資者情緒可能具有持續性的影響,考慮投資者情緒的滯后效應,將數據分組處理,時間窗口步長分別設為3、5和10,即以前3日、前5日和前10日的股票交易數據及投資者情緒預測下一日股票收益率。
接下來,構建LSTM網絡并進行訓練和測試。將處理好的數據按照 7:3 的比例劃分為訓練集和測試集。模型由兩個LSTM層和兩個全連接層構成,其中每層LSTM包含128個神經元,模型優化器使用Adam自適應優化算法,損失函數使用均方誤差(MSE),并使用Dropout緩解由于數據訓練樣本過少而參數過多所導致的過擬合問題。訓練過程中,批量大小(Batchsize)為64,訓練周期(Epoch)為50。
2 實證結果分析
本文以可再生能源股票為研究對象,首先應用自然語言處理技術BERT模型對新浪微博內容進行情感分類,構建可再生能源股票投資者情緒指數,利用LSTM構建深度學習模型,對可再生能源股票收益率進行預測,并比較加入情緒數據之后股票預測準確率是否有所提高。
本文選取隆基綠能公司2023年1月至2023年12月的每日微博博文作為實證數據,經過清洗后得到26672條微博文本數據以及234條股票交易價格數據。圖1展示了股票收盤價和收益率的變化趨勢。
由于我們的目標是評估將來自社交媒體的投資者情緒納入預測模型是否會顯著提高預測模型的準確性,因此,首先在不考慮投資者情緒的情況下只使用股票交易數據構建模型,隨后將構建的投資者情緒指數SI加入模型中,通過比較加入前后模型的性能指標來評估加入情緒變量后是否提高了預測精度。本文使用均方誤差(MSE)、均方根誤差(RMSE)和平均絕對誤差(MAE)作為模型性能的評估指標。三個指標均為模型預測誤差,數值越低則意味著預測精度越高,模型的性能表現越好。
圖1隆基綠能股票收盤價與收益率折線圖

表1展示了LSTM模型加入投資者情緒指數前后的評估指標結果(MSE、RMSE和MAE)。結果表明,在三種不同大小的時間窗口情況下,模型加入情緒變量后所有預測誤差均有所減小,且模型在窗口大小為5時表現最好。實驗結果說明本文基于BERT自然語言處理技術構建的新浪微博投資者情緒指數成功提高了LSTM預測模型的性能,考慮投資者情緒能夠更好地預測可再生能源股票的收益率。
3 結束語
隨著人們對可再生能源的興趣不斷提升,市場對可再生能源公司的投資不斷增加。本文以可再生能源股票為研究對象,利用BERT模型對新浪微博內容進行情感分類并構建投資者情緒指數(SI),結合LSTM模型預測可再生能源股票收益率。實證結果表明,引入投資者情緒變量有效降低了預測誤差,驗證了本文構建的新浪微博投資者情緒指數對LSTM預測模型性能的提升作用。相較于傳統方法,本文利用BERT模型刻畫投資者情緒,強調了社交媒體中投資者情緒所蘊含的信息和能量。本文豐富了以可再生能源股票為代表的綠色金融領域投資者情緒的研究內容,研究結果不僅為投資者提供了決策參考,促進可再生能源領域的投資,還為政策制定者加強綠色金融市場輿情監管,維護市場穩定提供了理論依據,具有一定的理論與實踐意義。
主要參考文獻
[1]樊鵬英,楊音,張正平,等.個股投資者情緒與股票收益率 的關系:基于股評信息視角的研究[J].數學的實踐與認識, 2021,51(16):305-320.
[2]LIU T,HAMORI S.Does investor sentiment affect clean energystock?EvidencefromTVP-VAR-based connectedness approach[J].Energies,2021,14(12):3442.
[3]HERRERAGP,CONSTANTINOM,SUJ,etal.Renewable energy stocks forecast using Twitter investor sentiment and deep learning[J].EnergyEconomics,2022,114:106285.
[4]LIUJX,LEUJS,HOLSTS.Stock price movement prediction based on Stocktwits investor sentiment using FinBERT and ensemble SVM[J].PeerJ Computer Science,2O23,9:1403.
[5]崔婷,黃斐然.基于情感分析大模型的股票預測:結合GRU 和ALBERT的預測模型[J].數據與計算機,2024(2):113- 123.
[6]ANTWEILERW,FRANKMZ.Is all that talk just noise?The informationcontentofinternet stockmessageboards[J].The JournalofFinance,2004,59(3):1259-1294.
[7]楊青,王晨蔚.基于深度學習LSTM神經網絡的全球股票指 數預測研究[J].統計研究,2019,36(3):65-77.
表1模型預測性能評估指標
