中圖分類號TP18;F832.5文獻(xiàn)標(biāo)志碼 A
0 引言
隨著金融市場的不斷發(fā)展和全球經(jīng)濟(jì)不確定性的增加,黃金期貨作為金融市場一種重要的衍生品,其獨特的價值屬性和在全球經(jīng)濟(jì)中的重要地位使其價格走勢的預(yù)測備受矚目,精準(zhǔn)地預(yù)測黃金期貨價格對于國家經(jīng)濟(jì)的發(fā)展和金融資產(chǎn)的安全具有重要的意義.在大數(shù)據(jù)背景下,如何將大量結(jié)構(gòu)化特征和非結(jié)構(gòu)化文本信息融人預(yù)測模型來提升預(yù)測性能,已成為當(dāng)前研究的熱點.在以往的研究中,學(xué)者們通過納入不同技術(shù)指標(biāo)來預(yù)測黃金期貨價格,但該類方法未能綜合考慮黃金期貨價格的影響因素,例如投資者情緒對于期貨價格的影響.此外,在融合多源數(shù)據(jù)后,會造成預(yù)測模型輸入變量增加,大量冗余的變量導(dǎo)致模型泛化能力降低.因此,基于多源數(shù)據(jù)構(gòu)建準(zhǔn)確率高、泛化能力強(qiáng)的黃金期貨價格預(yù)測模型具有現(xiàn)實意義.
黃金期貨價格序列具有非線性、非平穩(wěn)性和高噪聲等特點,因此傳統(tǒng)的計量模型(如自回歸移動平均模型(ARIMA)[1]、廣義自回歸條件異方差模型(GARCH)[2]、向量自回歸模型(VAR)[3]等)預(yù)測效果不佳.隨著人工智能技術(shù)的不斷發(fā)展,對于黃金期貨價格等時間序列預(yù)測的模型主要基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,例如支持向量回歸(SVR)[4]、多層感知器(MLP)[5]、反向傳播神經(jīng)網(wǎng)絡(luò)(BP)[6和極限學(xué)習(xí)機(jī)(ELM)[7]等.但上述模型在捕捉時間序列數(shù)據(jù)中的高度復(fù)雜性與長短期依賴關(guān)系等方面存在一定的不足.長短期記憶神經(jīng)網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)憑借其記憶、遺忘機(jī)制,能有效解決上述問題,被廣泛應(yīng)用于時間序列預(yù)測.例如:Yurtsever[8]研究發(fā)現(xiàn)LSTM模型的計算復(fù)雜度低,并能有效提升黃金價格的預(yù)測效果;楊青等基于深層LSTM模型對全球30只股票指數(shù)進(jìn)行預(yù)測;郭佳麗等[10]以時間序列流量為例,利用LSTM模型對其進(jìn)行預(yù)測,具有較高的預(yù)測精度.但上述研究中,通常將預(yù)測對象的滯后期作為輸入變量,預(yù)測精度提升有限.因此,有學(xué)者在研究中嘗試納入技術(shù)指標(biāo)、宏觀經(jīng)濟(jì)指標(biāo)等影響因素,并使用不同方法進(jìn)行特征提取,進(jìn)一步優(yōu)化預(yù)測模型,提升預(yù)測效果.例如:尹力博等[1]研究了技術(shù)指標(biāo)對我國大宗商品期貨價格的預(yù)測能力;Madziwa等[12]以黃金需求和國庫券利率作為黃金價格預(yù)測的輸入變量,研究發(fā)現(xiàn)黃金需求和國庫券利率均能提升黃金價格預(yù)測效果;韓金磊等[13]基于LSTM模型提出一種結(jié)合方差膨脹因子的組合模型,可以有效篩選特征,實現(xiàn)對股票價格的預(yù)測;范彩云等[14]從技術(shù)行情指標(biāo)、行業(yè)影響因素及宏觀經(jīng)濟(jì)指標(biāo)3個維度選取39個變量,以機(jī)器學(xué)習(xí)方法融合素材,利用動態(tài)模型平均方法得到預(yù)測模型,可以提高黃金期貨價格的預(yù)測精度.
在金融市場價格預(yù)測中,除了將技術(shù)指標(biāo)和宏觀經(jīng)濟(jì)信息作為預(yù)測因子,投資者情緒已被證實是能夠提升模型精度的有效預(yù)測因子.投資者情緒主要分為以搜索指數(shù)為代表的投資者情緒的代理變量,和從新聞標(biāo)題、股吧評論等非結(jié)構(gòu)化文本數(shù)據(jù)中提取出的情感指數(shù).例如:Dimpfl等[15基于谷歌搜索指數(shù)構(gòu)建了關(guān)于股票和期貨市場的投資者情緒指標(biāo),并驗證了其有效性;梁超等[基于廣義自回歸條件異方差混頻數(shù)據(jù)抽樣(GARCH-MIDAS)模型,發(fā)現(xiàn)百度搜索指數(shù)和谷歌搜索指數(shù)均能顯著提升波動率的預(yù)測精度;Chen等[17]構(gòu)建了一個綜合的投資者關(guān)注度指數(shù),發(fā)現(xiàn)投資者關(guān)注度對市場收益的樣本內(nèi)和樣本外預(yù)測精度有顯著提升.上述研究表明,加入搜索指數(shù)可以有效提升預(yù)測效果,但結(jié)構(gòu)化數(shù)據(jù)容易受到序列隨機(jī)性的干擾.近年來,在融合投資者情緒進(jìn)行預(yù)測研究時,不少學(xué)者發(fā)現(xiàn)網(wǎng)絡(luò)媒體所包含的大量非結(jié)構(gòu)化信息對預(yù)測具有重要價值.例如:段江嬌等[18]研究發(fā)現(xiàn),股票當(dāng)日收益率與當(dāng)日論壇情緒顯著正相關(guān);尹海員等[爬取股吧實時評論,構(gòu)建了投資者高頻情緒指標(biāo),發(fā)現(xiàn)中國股票市場的日內(nèi)投資者情緒能正向預(yù)測股票市場;盧銳等[20]基于股吧評論數(shù)據(jù)研究發(fā)現(xiàn),股吧中的投資者互動交流會擴(kuò)大公司傳聞對股票價格的沖擊影響.
基于股吧評論文本構(gòu)建投資者情緒指標(biāo),可以從不同角度驗證其對股票市場預(yù)測的有效性.但股吧評論數(shù)據(jù)噪聲大,數(shù)據(jù)處理難度高,而新聞標(biāo)題包含較少噪聲和無關(guān)信息,能夠減少復(fù)雜的文本數(shù)據(jù)預(yù)處理工作,進(jìn)一步提高預(yù)測精度.范小云等[21]對不同來源的文本信息含量進(jìn)行分析,實證研究表明,新聞文本情緒能夠顯著正向預(yù)測股票收益率;張夢吉等[22]在股票預(yù)測中發(fā)現(xiàn)融入新聞標(biāo)題信息后,模型的預(yù)測準(zhǔn)確率進(jìn)一步提升;Li等[23]引入技術(shù)指標(biāo)和相關(guān)的新聞標(biāo)題,使用詞典法構(gòu)建情感指標(biāo),結(jié)果表明,同時使用技術(shù)指標(biāo)和情感指標(biāo)的模型優(yōu)于單一模型;Herrera等[24]從Twitter中提取投資者情緒,證明了投資者情緒能提高可再生能源股票收益率和波動率的預(yù)測效果; Xu 等[25]基于社交媒體、傳統(tǒng)報紙和網(wǎng)絡(luò)新聞構(gòu)建了3種情緒指數(shù),發(fā)現(xiàn)社交媒體情緒指數(shù)和網(wǎng)絡(luò)新聞情緒指數(shù)對預(yù)測的提升能力最佳;張大斌等[26通過分析玉米期貨交易數(shù)據(jù)和相對應(yīng)的新聞標(biāo)題,發(fā)現(xiàn)融合新聞標(biāo)題信息后模型預(yù)測準(zhǔn)確性顯著提升.最近, Wu 等[27]利用百度云、阿里云、騰訊云平臺對原油相關(guān)文本數(shù)據(jù)分別進(jìn)行情感計算,并基于投票機(jī)制得到最終情感分析結(jié)果,實證結(jié)果表明,加入情緒指數(shù)能夠更有效提升預(yù)測效果,驗證了使用智能云平臺分析金融文本數(shù)據(jù)的有效性和可行性.
綜上所述,已有文獻(xiàn)從不同研究角度表明,技術(shù)指標(biāo)、宏觀交易指標(biāo)、投資者情緒等在金融市場預(yù)測中發(fā)揮著重要作用.融合多源數(shù)據(jù)預(yù)測期貨價格也是當(dāng)前研究熱點.但現(xiàn)有研究仍存在一些局限,譬如:特征選擇方法的參數(shù)較多,模型訓(xùn)練復(fù)雜、解釋性差;選擇預(yù)測指標(biāo)時,未充分考慮相關(guān)影響因素等.基于此,本文提出一種結(jié)合LightGBM(LightGradientBoostingMachine)特征選擇方法和LSTM模型的黃金期貨預(yù)測模型,通過融合多源數(shù)據(jù)信息進(jìn)行預(yù)測,提升黃金期貨收盤價預(yù)測的準(zhǔn)確性.首先,將獲取的宏觀經(jīng)濟(jì)指標(biāo)、技術(shù)指標(biāo)、新聞標(biāo)題數(shù)據(jù)、百度搜索指數(shù)進(jìn)行預(yù)處理.其次,對宏觀經(jīng)濟(jì)指標(biāo)和技術(shù)指標(biāo)分別利用LightGBM模型進(jìn)行特征重要性排序,提取關(guān)鍵特征.最后,將篩選后的特征與構(gòu)建的加權(quán)情感指數(shù)、百度綜合搜索指數(shù)共同作為預(yù)測因子納入LSTM模型進(jìn)行預(yù)測.
本文創(chuàng)新點如下:
1)選擇與黃金期貨相關(guān)的新聞標(biāo)題作為文本數(shù)據(jù)的來源.為避免主觀判斷產(chǎn)生的干擾,使用基于詞典的情感分析方法和利用百度、阿里巴巴、騰訊、華為等公司的智能云平臺中的情感分析接口進(jìn)行情感特征提取,并對5種方法所獲得的情感標(biāo)簽進(jìn)行加權(quán)處理,構(gòu)建情緒指數(shù)
2)使用LightGBM算法對技術(shù)指標(biāo)、宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行特征選擇,提取重要特征.LightGBM是一種基于決策樹的梯度提升算法,具有訓(xùn)練速度快、內(nèi)存占用低、適用于高維數(shù)據(jù)等優(yōu)點.同時,LightGBM算法的特征重要性評估機(jī)制能有效地衡量預(yù)測指標(biāo)對模型預(yù)測能力的貢獻(xiàn)程度.
3)融合交易指標(biāo)、技術(shù)指標(biāo)、宏觀經(jīng)濟(jì)指標(biāo)、情感指數(shù)和百度搜索指數(shù),構(gòu)建多源數(shù)據(jù)融合的LSTM模型對黃金期貨價格進(jìn)行預(yù)測.
1模型介紹
1.1 LSTM模型
LSTM模型能夠?qū)W習(xí)長期依賴關(guān)系,是遞歸神經(jīng)網(wǎng)絡(luò)的一種變體,被廣泛應(yīng)用于處理時間序列問題.
LSTM模型包括細(xì)胞狀態(tài)、遺忘門、輸入門以及輸出門.遺忘門決定了細(xì)胞狀態(tài)需要遺忘多少信息,根據(jù)當(dāng)前輸入 xt 和前一時刻的隱藏狀態(tài) ht-1 ,遺忘門生成一個介于0和1之間的值矩陣,表示每個信息要保留或遺忘的程度;輸入門控制新信息如何添加到細(xì)胞狀態(tài)中,包含兩個部分,一個是輸入門層,決定哪些值將會更新,另一個是創(chuàng)建新的候選值的tanh層;輸出門決定了細(xì)胞狀態(tài)的哪一部分將輸出以及如何影響隱藏狀態(tài) ht .模型內(nèi)部結(jié)構(gòu)如圖1所示.
圖1LSTM結(jié)構(gòu) Fig.1LSTM structure

LSTM單元格的公式如下:

記 d 和 h 分別代表輸入變量個數(shù)及隱藏層節(jié)點數(shù).矩陣
和 U∈Rh×h 分別表示輸入連接和遞歸連接的權(quán)重,這些權(quán)重包括常數(shù)項,各權(quán)重的下標(biāo)字母標(biāo)記了輸入門 i 輸出門
、忘記門 f 和存儲細(xì)胞
表示時間或步數(shù); σ 為激活函數(shù); ? 表示元素對元素乘積.
1.2 LightGBM算法
1.2.1 LightGBM算法原理
LightGBM算法[28]是微軟公司開發(fā)的一種對梯度提升機(jī)(GradientBoostingMachine,GBM)進(jìn)一步改進(jìn)的算法,具有優(yōu)化內(nèi)存使用和提高計算效率的特點,廣泛應(yīng)用于分類和回歸任務(wù).
LightGBM通過有序地增加決策樹來提升模型整體的性能.每一棵新樹的構(gòu)建都是為了糾正前一棵樹的錯誤,這一過程具體公式如下:
Fm(x)=Fm-1(x)+γmhm(x).
其中: Fm(x) 是經(jīng)過第 ?m 次迭代后的模型; hm(x) 是第 m 棵樹; γm 是該樹的學(xué)習(xí)率.
梯度提升是LightGBM算法實現(xiàn)過程中的核心,它依賴于損失函數(shù)的負(fù)梯度來定位新樹 h?m(x) 的優(yōu)化方向.即每一步都會嘗試找到一個新的樹模型 h?m 來擬合前 m-1 棵樹預(yù)測結(jié)果的殘差.公式如下:

其中: L 表示損失函數(shù); n 是訓(xùn)練樣本的數(shù)量; yi 和 xi 分別是樣本的標(biāo)簽和特征.
1.2.2 LightGBM算法優(yōu)化策略
為了提高效率和處理大規(guī)模數(shù)據(jù)集,LightGBM算法引入基于梯度的單邊采樣方法.該方法保留那些具有較大梯度的樣本,即認(rèn)為在模型學(xué)習(xí)中更為重要的樣本,為了維持?jǐn)?shù)據(jù)的代表性和減少計算量,它會隨機(jī)地丟棄一部分梯度較小的樣本,但會對剩余的小梯度樣本賦予更高的權(quán)重.同時,LightGBM算法引入互斥特征捆綁技術(shù)將互斥的特征捆綁在一起,來減少實際需要處理的特征數(shù)量,降低了計算和存儲的負(fù)擔(dān).此外,LightGBM算法使用直方圖優(yōu)化技術(shù)構(gòu)建決策樹.它將連續(xù)的特征值離散化成有限的區(qū)間,然后使用這些區(qū)間的統(tǒng)計數(shù)據(jù)來估算最佳分割點.這種方法顯著降低了內(nèi)存的使用,提高了計算速度.
LightGBM算法采用帶深度限制的葉節(jié)點生長策略從所有葉節(jié)點中選擇增益最大的一個葉節(jié)點進(jìn)行分裂,并通過計算特征的重要性來進(jìn)行特征選擇.特征重要性衡量方式是特征在決策樹構(gòu)建過程中對分裂增益的貢獻(xiàn).當(dāng)決策樹進(jìn)行節(jié)點分裂時,每個特征參與計算分裂增益,分裂增益貢獻(xiàn)越大的特征,重要性越高.

其中: G 表示分裂增益; Gleft 和 Gright 分別為左節(jié)點和右節(jié)點的梯度和; Hleft 和 Hright 分別為左節(jié)點和右節(jié)點的二階梯度和.
1.3 Diebold-Mariano(DM)檢驗
DM檢驗是一種常用的統(tǒng)計方法,用于檢驗兩個預(yù)測模型的預(yù)測效果是否存在顯著差異.原假設(shè) H0 為兩個模型的預(yù)測效果沒有顯著差異,備擇假設(shè) H1 表示兩個模型的預(yù)測效果存在顯著差異.
假設(shè)基準(zhǔn)模型A和提出模型B在時間跨度為 n 的時間序列上做預(yù)測,模型A和模型B的預(yù)測誤差分別為 ai 和 bi ,差值為 di=ai-bi
對 d 求均值和標(biāo)準(zhǔn)差:


則DM檢驗統(tǒng)計量為

當(dāng) ∣SDM∣gt;Zα 時( α 為顯著性水平),則拒絕H0 ,認(rèn)為提出模型的預(yù)測效果比基準(zhǔn)模型好;如果∣SDM∣?Zα ,則保留 H0 ,認(rèn)為提出模型與基準(zhǔn)模型預(yù)測效果一致.
1. 4 評價指標(biāo)
本文選取平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)、平均絕對誤差(MAE)對模型的預(yù)測性能進(jìn)行評價.具體為



其中: n 為樣本數(shù)量; yi 為測試集真實值;
為測試集的預(yù)測值.
1.5 研究框架
本文的研究框架如圖2所示.
該框架主要由數(shù)據(jù)獲取模塊、情感指數(shù)構(gòu)建模塊、技術(shù)指標(biāo)和宏觀經(jīng)濟(jì)指標(biāo)特征選擇模塊、百度綜合搜索指數(shù)構(gòu)建模塊和LSTM預(yù)測模塊組成.其中:數(shù)據(jù)獲取模塊介紹了本文所有數(shù)據(jù)的來源;情感指數(shù)構(gòu)建模塊利用5種文本情感分析方法對新聞文本進(jìn)行情感傾向分析,并通過加權(quán)法構(gòu)建情感指數(shù);技術(shù)指標(biāo)和宏觀經(jīng)濟(jì)指標(biāo)特征選擇模塊對本文獲取的技術(shù)指標(biāo)、宏觀經(jīng)濟(jì)指標(biāo)分別使用LightGBM進(jìn)行特征選擇,選取重要特征作為預(yù)測時的輸入;百度綜合搜索指數(shù)構(gòu)建模塊對多個關(guān)鍵詞的百度搜索指數(shù)進(jìn)行綜合.最后,將上述多源數(shù)據(jù)作為預(yù)測因子納入LSTM模型,獲得黃金期貨收盤價的預(yù)測值,并從統(tǒng)計學(xué)角度進(jìn)行DM檢驗,驗證本文所構(gòu)建的指標(biāo)和提出模型的有效性.
2 數(shù)據(jù)處理
2.1 歷史交易數(shù)據(jù)
本文選取上海期貨交易所的黃金期貨主力連續(xù)合約的日收盤價作為研究對象,數(shù)據(jù)變化趨勢如圖3所示.
黃金期貨主力連續(xù)合約的歷史交易數(shù)據(jù)來源于Wind數(shù)據(jù)庫(https://www.wind.com.cn),包括收盤價、開盤價、最高價、最低價、交易量、成交額,時間跨度為2020年1月1日—2023年12月31日,共970個交易日,歷史交易數(shù)據(jù)的描述性統(tǒng)計如表1所示.
圖2總體研究框架
Fig.2Overall research framework

圖3收盤價變化趨勢 Fig.3Change trend of closing prices

2.2 新聞文本數(shù)據(jù)
2.2.1 新聞文本數(shù)據(jù)來源
與黃金期貨相關(guān)的新聞標(biāo)題來源于慧科新聞數(shù)據(jù)庫(https://www.wisers.com.cn).本文在該數(shù)據(jù)庫獲取了時間跨度為2020年1月1日到2023年12月31日的所有黃金期貨相關(guān)新聞標(biāo)題,共22924條數(shù)據(jù),部分新聞標(biāo)題數(shù)據(jù)如表2所示.
2.2.2 新聞文本數(shù)據(jù)預(yù)處理
對新聞文本數(shù)據(jù)的具體分析流程如圖4所示.
當(dāng)對爬取到的新聞標(biāo)題進(jìn)行數(shù)據(jù)預(yù)處理時,首先刪除與研究目的無關(guān)的標(biāo)題,以確保后續(xù)分析的準(zhǔn)確性和有效性.為了進(jìn)一步處理文本數(shù)據(jù),采用Python中的jieba分詞器進(jìn)行分詞,以方便后續(xù)的文本情感分析.本文采用多種停用詞表去除停用詞,包括中文停用詞表、哈爾濱工業(yè)大學(xué)停用詞表、百度停用詞表以及四川大學(xué)機(jī)器智能實驗室停用詞庫,將它們整合形成最終的停用詞表.通過去除停用詞,可以有效剔除新聞標(biāo)題中的數(shù)字、字母、標(biāo)點符號以及無意義詞,從而提取出關(guān)鍵信息,提高數(shù)據(jù)質(zhì)量,增強(qiáng)數(shù)據(jù)的可解釋性.
表2部分新聞標(biāo)題Table2Some news headlines

圖4文本分析流程Fig.4Text analysis flow chart

2.2.3新聞文本數(shù)據(jù)情感分析
在金融文本情感分析領(lǐng)域中,缺少大規(guī)模標(biāo)注數(shù)據(jù)集,針對金融文本情感分析的模型較少.為避免主觀判斷產(chǎn)生的干擾,本文使用基于詞典的情感分析法、基于智能云(百度云、騰訊云、阿里云和華為云)的情感分析法分別對新聞標(biāo)題進(jìn)行情感傾向得分計算,進(jìn)而為每條新聞文本標(biāo)注positive(積極)或negative(消極)標(biāo)簽.
1)基于詞典的情感分析
為提高情感分析的準(zhǔn)確度,克服采用單個詞典的局限性,本文引入清華大學(xué)李軍中文褒貶義詞典、知網(wǎng)Hownet情感詞典、臺灣大學(xué)NTUSD情感詞典,經(jīng)過去重后構(gòu)建基礎(chǔ)詞典.除此之外,針對金融領(lǐng)域文本獨特的語言特征,在基礎(chǔ)詞典中引入姜富偉等[29]構(gòu)建的中文金融情感詞典和姚加權(quán)等[30]構(gòu)建的金融領(lǐng)域中文情緒詞典,形成針對本文研究的最終詞典.
2)基于智能云平臺的情感分析
表1歷史交易數(shù)據(jù)描述性統(tǒng)計
Table1 Descriptive statistics of historical transaction data

本文使用百度(https://cloud.baidu.com)、騰訊(https://cloud.tencent.com)、阿里巴巴(https://www.aliyun.com)和華為(https://activity.huawe-icloud.com)公司提供的人工智能服務(wù),增加情感分析的準(zhǔn)確性和可靠性.這些云平臺情感分析功能使用復(fù)雜的神經(jīng)網(wǎng)絡(luò),它們通過大量數(shù)據(jù)集進(jìn)行訓(xùn)練,使用云平臺進(jìn)行情感分析可以享受其強(qiáng)大的技術(shù)支持、靈活的部署、更快的效率,并獲得準(zhǔn)確度更高的情感分析結(jié)果.表3展示了百度云對新聞標(biāo)題的情感分析原始響應(yīng)結(jié)果.
Table3 Original response results of Baidu cloud sentiment analysis

阿里云、騰訊云、華為云分析結(jié)果與百度云結(jié)構(gòu)相同.本文將情感分析原始響應(yīng)結(jié)果中的消極概率和積極概率提取出來進(jìn)行計算,若某條新聞文本的積極概率大于消極概率,歸類為positive(積極),記為1,反之則歸類為negative(消極),記為-1.通過提取和計算這兩個概率,可以更準(zhǔn)確地判斷文本的情感傾向,從而為后續(xù)的數(shù)據(jù)分析提供更可靠的依據(jù).
3)匯總情感分析結(jié)果
為消除不同方法對情感分析結(jié)果的差異性,提升對金融文本情感分析的準(zhǔn)確度,本文對每條新聞的最終標(biāo)簽進(jìn)行加權(quán)處理.詞典法權(quán)重記為0.2,4種云平臺權(quán)重基于交易日期間云平臺名稱對應(yīng)詞條的百度搜索指數(shù)日均值比例計算得到,表4展現(xiàn)了5種方法的相應(yīng)權(quán)重.
表3百度云情感分析原始響應(yīng)結(jié)果
表4情感分析結(jié)果權(quán)重Table4Sentimentanalysisresultweights

基于加權(quán)法,對每條新聞文本生成一個介于-1到1的值,將大于0的值記為positive,歸類為積極評價,記為1;相反,記為negative,歸類為消極評價,記為-1.
2.2.4構(gòu)造情感指數(shù)
根據(jù)情感分析結(jié)果匯總的每日積極和消極評論數(shù)量計算每日情緒指數(shù) St

其中: ntpos 表示一天內(nèi)積極評論數(shù)量; ntneg 表示一天內(nèi)消極評論數(shù)量. Sι 值大于0,表示投資者情緒高漲,對黃金期貨市場看漲;反之,
值小于等于0,則表示投資者對黃金期貨市場看跌.
歸一化后的收盤價與情感指數(shù)趨勢如圖5所示.情感指數(shù)的波動會對市場產(chǎn)生重要影響,進(jìn)而引起收盤價出現(xiàn)上漲或者下跌的趨勢.這一現(xiàn)象表明,本文所構(gòu)建的情感指數(shù)具備市場信息,將情感指數(shù)納入預(yù)測模型中,有望提升模型的預(yù)測精度.
2.3技術(shù)指標(biāo)數(shù)據(jù)
2.3.1技術(shù)指標(biāo)數(shù)據(jù)來源
技術(shù)指標(biāo)通過對歷史交易指標(biāo)進(jìn)行數(shù)學(xué)計算和變換而構(gòu)建,是金融市場分析中常用的工具,用于預(yù)測價格的走勢和趨勢變化.通過結(jié)合不同的技術(shù)指標(biāo),投資者可以了解當(dāng)前趨勢的方向和強(qiáng)度,預(yù)測未來價格的走勢,識別潛在的交易機(jī)會,建立相應(yīng)的交易策略,從而更好地控制交易風(fēng)險并提高盈利概率.
基于技術(shù)指標(biāo)使用頻率和不同計算周期,使用Python中TA-Lib庫(TechnicalAnalysisLibrary)綜合性地構(gòu)建了14類技術(shù)指標(biāo).其中,各移動平均線計算周期分別為5、10、14和30d,其他技術(shù)指標(biāo)計算周期為默認(rèn)值,技術(shù)指標(biāo)類別如表5所示.
2.3.2技術(shù)指標(biāo)數(shù)據(jù)特征選擇
為了避免維數(shù)災(zāi)難,提高模型泛化能力,本文使用LightGBM算法從14類技術(shù)指標(biāo)中提取最具信息量的特征子集.在特征選擇過程中,本文選擇了根據(jù)Gain重要性排名最高的6個特征,分別為10日三次指數(shù)移動平均線TEMA10、14日雙指數(shù)移動平均線DEMA14、拋物線指標(biāo)SAR、30日移動平均線MA30、5日指數(shù)平均線EMA5、量價指標(biāo)AD.其重要性特征排序如圖6所示.
Fig.5Closing prices and sentiment index trends

表5技術(shù)指標(biāo)類別
Table5Technical indicatorcategories

TEMA10、DEMA14、MA30、EMA5指標(biāo)屬于移動平均線相關(guān)指標(biāo),它們通過對不同時間段內(nèi)的價格數(shù)據(jù)進(jìn)行計算,平滑價格波動,顯示價格走勢,幫助投資者辨別市場的短期和長期趨勢,更好地把握市場的波動和變化.AD為量價分析指標(biāo),代表市場的累積派發(fā)量,它結(jié)合價格和成交量數(shù)據(jù),衡量了市場的資金流向和壓力,反映市場的供需關(guān)系和趨勢強(qiáng)度.SAR為趨勢分析指標(biāo),用于確認(rèn)價格趨勢的轉(zhuǎn)折點,從而預(yù)測價格走勢的改變方向.
通過選擇這6個具有代表性的技術(shù)指標(biāo),在控制維度的同時,可以充分捕捉市場的關(guān)鍵信息、價格走勢和數(shù)據(jù)特征,提高后續(xù)預(yù)測的準(zhǔn)確性和可靠性.
2.4宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)
2.4.1宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)來源黃金作為一種避險資產(chǎn),黃金期貨價格受宏觀經(jīng)濟(jì)環(huán)境的影響較大,比如黃金現(xiàn)貨的供給、相關(guān)期貨價格和金融市場相關(guān)指數(shù)等.基于已有文獻(xiàn)的研究經(jīng)驗,選取18種宏觀經(jīng)濟(jì)指標(biāo):代表黃金供給關(guān)系的黃金現(xiàn)貨價格、COMEX白銀庫存、COMEX黃金庫存;相關(guān)期貨價格如白銀、鋼、鉛、銅、鋁、鋅、鎳、原油主力連續(xù)合約收盤價;金融市場相關(guān)指數(shù)如匯率、道瓊斯工業(yè)指數(shù)、標(biāo)準(zhǔn)普爾500指數(shù)、納斯達(dá)克指數(shù)、上證50指數(shù)主力連續(xù)合約收盤價、上證指數(shù)收盤價、滬深300主力連續(xù)合約收盤價.數(shù)據(jù)來源于CSMAR數(shù)據(jù)庫(https://data.csmar.com)與Wind數(shù)據(jù)庫(https://www.wind.com.cn),時間范圍與歷史交易數(shù)據(jù)一致.
圖5收盤價與情感指數(shù)趨勢
圖6篩選后的技術(shù)指標(biāo)重要性排序 Fig.6Importancerankingoffiltered technical indicators

由于國內(nèi)外股票市場交易日不同,在獲取部分宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)時,出現(xiàn)一些缺失值,本文采用線性插值的方式計算缺失值.線性插值是一種常用的填充時間序列數(shù)據(jù)缺失值的方法,通過線性插值,可以在鄰近的已知數(shù)值數(shù)據(jù)點之間,利用線性關(guān)系來估算缺失值,以便更完整地進(jìn)行預(yù)測建模.
2.4.2宏觀經(jīng)濟(jì)指標(biāo)數(shù)據(jù)特征選擇
本文使用LightGBM算法,從宏觀經(jīng)濟(jì)指標(biāo)中篩選出對黃金期貨收盤價最具有影響力的5個指標(biāo)進(jìn)行后續(xù)建模分析,分別為黃金現(xiàn)貨價格、COMEX白銀庫存、白銀主力連續(xù)合約收盤價、匯率、標(biāo)普500指數(shù),重要性排序如圖7所示.
黃金期貨價格受到黃金現(xiàn)貨價格的直接影響,如果現(xiàn)貨市場的供求關(guān)系發(fā)生變化,將會導(dǎo)致期貨價格的波動.COMEX白銀庫存出現(xiàn)大幅變動,會影響市場對白銀供應(yīng)量的預(yù)期,從而對黃金期貨價格產(chǎn)生影響.白銀主力連續(xù)合約收盤價代表了白銀期貨市場的價格走勢,白銀期貨價格的變化會引起黃金期貨收盤價的變化.在匯率發(fā)生變化時,投資者會調(diào)整對黃金的需求,從而影響黃金期貨價格.標(biāo)普500指數(shù)是衡量美國股票市場整體表現(xiàn)的指標(biāo)之一,標(biāo)普500指數(shù)上漲,意味著投資者持有風(fēng)險資產(chǎn)的信心增強(qiáng).在這種情況下,投資者可能會減少對避險資產(chǎn)如黃金的需求,導(dǎo)致黃金期貨價格下跌.
本文篩選出的上述5個宏觀指標(biāo),充分代表與黃金期貨相關(guān)的國內(nèi)外宏觀市場情況,可以有效提升預(yù)測精度.
2.5 百度搜索指數(shù)數(shù)據(jù)
2.5.1百度搜索指數(shù)數(shù)據(jù)來源
百度搜索指數(shù)是指用戶在百度搜索引擎上對特定關(guān)鍵詞的搜索量,被視為衡量公眾對特定關(guān)鍵詞關(guān)注程度的指標(biāo).黃金期貨相關(guān)的首度搜索指數(shù)動態(tài)反映了投資者對于黃金期貨的關(guān)注變動,這在一定程度上反映了黃金期貨市場的投資者情緒.根據(jù)百度指數(shù)網(wǎng)站提供的與黃金期貨價格相關(guān)的需求圖譜確定關(guān)鍵詞,本文選取“黃金期貨價格”、“黃金價格”、“白銀價格”“白銀期貨”“銅期貨”“金價”、“國際金價”、“黃金走勢”“comex黃金”、“comex白銀”共10個網(wǎng)絡(luò)搜索關(guān)鍵詞.數(shù)據(jù)來源于百度指數(shù)官網(wǎng)(https:/in-dex.baidu.com),時間范圍與歷史交易數(shù)據(jù)一致.
2.5.2構(gòu)建百度綜合搜索指數(shù)
為簡化模型,提高計算效率,提高預(yù)測模型的準(zhǔn)確度,本文將獲取到的百度搜索指數(shù)數(shù)據(jù)按天相加,取對數(shù)平滑構(gòu)建百度綜合搜索指數(shù):

其中: Xit 代表在第 χt 天第 i 個百度搜索指數(shù)的搜索量.
圖7篩選后的宏觀經(jīng)濟(jì)指標(biāo)重要性排序
Fig.7Importance rankingof filtered macroeconomic indicators

3 實證預(yù)測
3.1 參數(shù)設(shè)置
為了消除不同指標(biāo)量綱差異對預(yù)測效果的影響,提高模型的預(yù)測能力,本文采用最大最小值標(biāo)準(zhǔn)化方法對所有數(shù)據(jù)進(jìn)行預(yù)處理,標(biāo)準(zhǔn)化后,數(shù)據(jù)取值在0到1之間.

其中: X 為原始數(shù)據(jù); Xnor 為標(biāo)準(zhǔn)化后的數(shù)據(jù); Xmax 和Xmin 分別為每個輸入數(shù)據(jù)序列中的最大值和最小值.
將數(shù)據(jù)按照8:2劃分為訓(xùn)練集和測試集,輸入指標(biāo)滯后1期,使用LSTM模型對黃金期貨收盤價進(jìn)行預(yù)測.根據(jù)以往文獻(xiàn)經(jīng)驗,采用試錯法對LSTM模型超參數(shù)的常見取值進(jìn)行篩選,取batch_size的初始值為16、32、64、128,epochs為20、50、100進(jìn)行交叉實驗,得到最優(yōu)參數(shù),timesteps分別取5、10、20.具體參數(shù)如表6所示.
表6參數(shù)設(shè)置Table6Parametersettings

3.2 訓(xùn)練結(jié)果對比
3.2.1 不同模型訓(xùn)練結(jié)果對比
引人支持向量回歸(SupportVectorRegression,SVR)模型、隨機(jī)森林(RandomForest,RF)模型、門控循環(huán)單元(GatedRecurrentUnit,GRU)模型、時間卷積網(wǎng)絡(luò)(TemporalConvolutionalNetwork,TCN)模型等為對比預(yù)測模型,驗證LSTM模型的預(yù)測效果,預(yù)測因子均為基礎(chǔ)交易數(shù)據(jù),模型訓(xùn)練結(jié)果如表7所示.
表7不同模型預(yù)測結(jié)果對比
Table7 Comparison of prediction results across different model:

由表7可知,在不同模型預(yù)測結(jié)果的對比中,LSTM模型在均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)等指標(biāo)上,誤差值最小,預(yù)測能力和預(yù)測精度方面優(yōu)于其他對比模型,充分表明本文構(gòu)建的LSTM模型具有良好的預(yù)測效果,能夠有效地處理時間序列數(shù)據(jù)中的長期依賴問題,為預(yù)測結(jié)果提供更為可靠和準(zhǔn)確的支持.因此,本文選擇LSTM模型進(jìn)行后續(xù)預(yù)測分析.
3.2.2不同時間窗口模型訓(xùn)練結(jié)果對比
根據(jù)表6中的參數(shù)設(shè)置,選用僅使用基礎(chǔ)交易指標(biāo)數(shù)據(jù)作為預(yù)測因子的模型為基準(zhǔn)模型,記為模型1;基礎(chǔ)交易指標(biāo)加技術(shù)指標(biāo)作為預(yù)測因子的模型記為模型2;基礎(chǔ)交易指標(biāo)加宏觀經(jīng)濟(jì)指標(biāo)作為預(yù)測因子的模型記為模型3;基礎(chǔ)交易指標(biāo)加情感指數(shù)作為預(yù)測因子的模型記為模型4;基礎(chǔ)交易指標(biāo)加百度綜合搜索指數(shù)作為預(yù)測因子的模型記為模型5;使用所有指標(biāo)作為預(yù)測因子的模型記為模型6.
為減小偶然性,增加模型可解釋性,本文經(jīng)過5次訓(xùn)練取平均值,得到最終各模型預(yù)測值,不同時間窗口下模型評價指標(biāo)結(jié)果如表8所示.
表8不同時間窗口下模型評價指標(biāo)結(jié)果對比
Table8 Comparisonofmodel evaluationindex resultsunderdifferenttimewindows

根據(jù)表8中的模型評價指標(biāo)結(jié)果,可以進(jìn)一步分析模型的預(yù)測性能.與基準(zhǔn)模型相比較,分別引入技術(shù)指標(biāo)、宏觀經(jīng)濟(jì)指標(biāo)、情感指數(shù)、百度綜合搜索指數(shù)后改進(jìn)模型的RMSE、MAE、MAPE均呈下降趨勢.時間窗口為5d時,引入技術(shù)指標(biāo)的模型2預(yù)測效果最好,其次是納人宏觀經(jīng)濟(jì)指標(biāo)后的模型3,這表明技術(shù)指標(biāo)和市場方面的宏觀經(jīng)濟(jì)因素對于黃金期貨收盤價的影響比較顯著.時間窗口為10d時,引入宏觀經(jīng)濟(jì)指標(biāo)的預(yù)測模型,預(yù)測效果最好,其次為情感指數(shù),進(jìn)一步驗證市場方面的宏觀經(jīng)濟(jì)因素能夠提升模型預(yù)測性能.時間窗口為20d時,引入情感指數(shù)的模型性能顯著提升,這表明較長的時間跨度使得投資者情緒的積累和發(fā)酵對價格的影響更加明顯.
從整體來看,技術(shù)指標(biāo)、百度綜合搜索指數(shù)對于黃金期貨收盤價的作用主要集中在短期,投資者情緒作用于長期,宏觀經(jīng)濟(jì)指標(biāo)作用于任意時間時期.這是因為技術(shù)指標(biāo)反映了市場短期內(nèi)的交易活動和價格趨勢,它們對價格的影響較為迅速和直接.百度綜合搜索指數(shù)反映了市場參與者對黃金期貨的關(guān)注度和搜索熱度,它對價格的影響也主要集中在短期.投資者情緒反映了市場參與者對未來經(jīng)濟(jì)前景和市場走勢的預(yù)期,它對價格的影響較為緩慢和持久.在全球經(jīng)濟(jì)形勢日益復(fù)雜多變的背景下,黃金作為交易貨幣和避險資產(chǎn)的屬性相互交織,使其受到宏觀經(jīng)濟(jì)指標(biāo)的影響較大.因此,在不同時間窗口下,納入宏觀經(jīng)濟(jì)指標(biāo),模型預(yù)測效果均顯著提升.
在不同時間窗口下,將這些指標(biāo)全部納入預(yù)測模型時,全指標(biāo)模型的RMSE、MAE、MAPE在所有模型中是最小的,這表明納入全指標(biāo)后模型的預(yù)測效果最優(yōu).這些指標(biāo)的引入使得模型能夠更好地捕捉市場的復(fù)雜性和波動性,從而提高了黃金期貨收盤價預(yù)測模型的準(zhǔn)確性和穩(wěn)健性,
3.3 統(tǒng)計檢驗
為進(jìn)一步驗證本文所構(gòu)建指標(biāo)的有效性,時間窗口為5d時,使用DM檢驗從統(tǒng)計學(xué)角度比較引入不同指標(biāo)的模型和基準(zhǔn)模型的優(yōu)劣.在進(jìn)行DM檢驗時,選擇使用均方誤差(MSE)作為損失函數(shù),原假設(shè)是兩個模型的預(yù)測能力相同,備擇假設(shè)則是引入不同指標(biāo)的模型預(yù)測能力優(yōu)于模型1.通過對兩個模型的預(yù)測值和真實值進(jìn)行統(tǒng)計分析,判斷模型之間的預(yù)測能力差異是否顯著,從而評估提出方法的有效性.DM檢驗結(jié)果如表9所示.
由表9可知,所有模型的DM檢驗結(jié)果均拒絕原假設(shè),引入本文構(gòu)建的指標(biāo)后,模型在預(yù)測能力上顯著優(yōu)于模型1.
表9DM檢驗結(jié)果1Table 9 DM test results 1

注:*, ** , *** 分別代表 10% ? 5% 和 1% 顯著性水平.
對本文提出的融合多源數(shù)據(jù)的模型6與引人單個指標(biāo)的模型做DM檢驗,原假設(shè)為兩個模型預(yù)測能力一致,備擇假設(shè)為模型6預(yù)測能力優(yōu)于其他模型,檢驗結(jié)果如表10所示.
表10DM檢驗結(jié)果2Table 10 DM test results 2

注:*, ** , *** 分別代表 10% ? 5% 和 1% 顯著性水平.
由表10可知,所有模型的DM檢驗結(jié)果均拒絕原假設(shè),驗證了本文提出方法的有效性和優(yōu)越性,確保了模型在處理黃金期貨收盤價預(yù)測時具備更高的精確度和可靠性.
4結(jié)論
本文融合多源數(shù)據(jù)并基于LightGBM-LSTM模型,對黃金期貨收盤價進(jìn)行預(yù)測研究.通過構(gòu)建技術(shù)指標(biāo)、宏觀經(jīng)濟(jì)指標(biāo)、情感指數(shù)和百度綜合搜索指數(shù)作為預(yù)測指標(biāo)輸入模型,并采用特征選擇方法對技術(shù)指標(biāo)和宏觀經(jīng)濟(jì)指標(biāo)進(jìn)行了優(yōu)化.此外,本文對黃金期貨相關(guān)新聞文本使用5種方法計算情感傾向,并通過加權(quán)法構(gòu)建了情感指數(shù),對多個關(guān)鍵詞的百度搜索指數(shù)進(jìn)行綜合構(gòu)建百度綜合搜索指數(shù).
通過對黃金期貨收盤價的實證分析,得出以下結(jié)論:
1)多源數(shù)據(jù)融合的方法能夠有效提升黃金期貨收盤價預(yù)測的準(zhǔn)確性.將技術(shù)指標(biāo)、宏觀經(jīng)濟(jì)指標(biāo)、情感指數(shù)和百度綜合搜索指數(shù)作為預(yù)測指標(biāo)輸入模型,有助于捕捉不同類型的信息對價格變動的影響,提高了預(yù)測模型的綜合性能
2)情感指數(shù)作為反映市場情緒的重要因子,進(jìn)一步增強(qiáng)了模型的預(yù)測能力,提高了預(yù)測因子的多源化.通過5種方法計算情感傾向,并通過加權(quán)法構(gòu)建情感指數(shù),能夠降低單一方法對文本情感的判斷誤差,更好地反映投資者對于黃金期貨收盤價趨勢變化的看法并捕捉市場情緒對價格變動的影響.
3)特征選擇對提高預(yù)測模型的效果至關(guān)重要.通過應(yīng)用LightGBM進(jìn)行特征選擇,能夠篩選出最相關(guān)的技術(shù)指標(biāo)和宏觀經(jīng)濟(jì)指標(biāo),從而降低冗余信息的干擾,提高模型的準(zhǔn)確性和穩(wěn)定性,
4)LightGBM模型與LSTM模型的結(jié)合,充分利用了前者的高效特征選擇能力和后者的時間序列處理能力,使得模型在應(yīng)對復(fù)雜的市場變化時依然保持較高的準(zhǔn)確性和穩(wěn)定性.
未來值得探索和改進(jìn)的方向:1)可以考慮引入更多類型的數(shù)據(jù),如全球宏觀經(jīng)濟(jì)事件、地緣政治風(fēng)險等,以進(jìn)一步提高模型的全面性和準(zhǔn)確性;2)對于新聞文本的處理方式有待改進(jìn),可以考慮結(jié)合大模型等新興技術(shù)對新聞文本提取更多特征,進(jìn)行深層次的研究;3)進(jìn)一步優(yōu)化LSTM網(wǎng)絡(luò)結(jié)構(gòu)或嘗試更復(fù)雜的深度學(xué)習(xí)模型,以提升模型的預(yù)測性能;4)擴(kuò)展研究范圍至其他金融市場,如股票市場、外匯市場等,驗證模型在不同市場中的適用性和表現(xiàn),探索跨市場預(yù)測的可能性.
參考文獻(xiàn)References
[1]許立平,羅明志.基于ARIMA模型的黃金價格短期分 析預(yù)測[J].財經(jīng)科學(xué),2011(1):26-34 XULiping,LUO Mingzhi. Short-term analysis and predictionofgold pricebasedonARIMAmodel[J].Financeamp; Economics,2011(1) :26-34
[2] 周茂華,劉駿民,許平祥.基于GARCH族模型的黃金 市場的風(fēng)險度量與預(yù)測研究[J].國際金融研究,2011 (5) :87-96 ZHOU Maohua,LIU Junmin,XU Pingxiang. Risk measurementand prediction of world gold markets based on GARCHfamily models[J].Studies of International Finance,2011(5) :87-96
[3] 魏宇,黃登仕,王建瓊,等.我國黃金現(xiàn)貨市場的動態(tài) VaR預(yù)測模型研究[J].管理評論,2010,22(8):30-38 WEIYu,HUANGDengshi,WANGJianqiong,etal.Dy namic VaR predictingmodels for Chinese spot gold market[J].ManagementReview,2010,22(8) :30-38
[4] 李瑩,高巖,范麗亞,等.基于支持向量回歸機(jī)的黃金 價格短期預(yù)測[J].數(shù)學(xué)的實踐與認(rèn)識,2011,41 (24):1-6 LI Ying,GAO Yan,F(xiàn)AN Liya,et al. Short-term prediction of gold price based on SVR[J].Mathematics in Practice and Theory,2011,41(24) :1-6
[5]Alameer Z,Elaziz M A,Ewees A A,et al. Forecasting gold price fluctuations using improved multilayer perceptron neural network and whale optimization algorithm [J].Resources Policy,2019,61:250-260
[6] 張均東,劉澄,孫彬.基于人工神經(jīng)網(wǎng)絡(luò)算法的黃金價 格預(yù)測問題研究[J].經(jīng)濟(jì)問題,2010(1):110-114 ZHANG Jundong,LIU Cheng,SUN Bin. The study on the application of ANFIS in stock index prediction[J].On Economic Problems,2010(1):110-114
[7]Weng FT,Chen Y H,Wang Z,et al. Gold price forecasting research based on an improved online extreme learning machine algorithm[J].Journal of Ambient Intelligence and Humanized Computing,2020,11(10): 4101-4111
[8]Yurtsever M. Gold price forecasting using LSTM,BiLSTMand GRU[J].European Journal of Science and Technology,2021,31:341-347
[9] 楊青,王晨蔚.基于深度學(xué)習(xí)LSTM神經(jīng)網(wǎng)絡(luò)的全球 股票指數(shù)預(yù)測研究[J].統(tǒng)計研究,2019,36(3):65-77 YANG Qing,WANG Chenwei. A study on forecast of global stock indices based on deep LSTM neural network [J].StatisticalResearch,2019,36(3):65-77
[10] 郭佳麗,邢雙云,欒昊,等.基于改進(jìn)的LSTM算法的 時間序列流量預(yù)測[J].南京信息工程大學(xué)學(xué)報(自 然科學(xué)版),2021,13(5):571-575 GUO Jialii,XING Shuangyun,LUAN Hao,et al.Prediction of time series traffic based on improved LSTM algorithm[J]. Joumal of Nanjing University of Information Scienceamp; Technology(Natural Science Edition),2021, 13(5) :571-575
[11]尹力博,楊清元,韓立巖.技術(shù)指標(biāo)能夠預(yù)測商品期貨 價格嗎?來自中國的證據(jù)[J].管理科學(xué)學(xué)報,2018, 21(6) :99-109 YIN Libo, YANG Qingyuan, HAN Liyan. Can technical indicators forecast commodity prices?Evidence from China[J].Journal of Management Sciences in China,2018, 21(6) :99-109
[12]MadziwaL,Pillalamarry M,Chatterjee S.Gold price forecasting using multivariate stochastic model[J].Resources Policy,2022,76:102544
[13]韓金磊,熊萍萍,孫繼紅.基于LSTM和灰色模型的股 價時間序列預(yù)測研究[J].南京信息工程大學(xué)學(xué)報 (自然科學(xué)版),2023,15(6):631-642 HAN Jinlei, XIONG Pingping,SUN Jihong. Stock price time series prediction based on LSTM and grey model [J].Journal of Nanjing University of Information Science amp; Technology(Natural Science Edition),2023,15(6): 631-642
[14]范彩云,童君逸,程俊彥,等.基于ML-DMA的黃金期 貨價格預(yù)測研究[J].數(shù)理統(tǒng)計與管理,2024,43(3): 541-558 FAN Caiyun,TONG Junyi, CHENG Junyan,et al. Gold futures price forecasting based on ML-DMA[J]. Journal of Applied Statistics and Management,2024,43(3) :541- 558
[15]Dimpfl T,Kleiman V.Investor pessimism and the German stock market:exploring Google search queries[J].GermanEconomic Review,2019,20(1):1-28
[16]梁超,魏宇,馬鋒,等.投資者關(guān)注對中國黃金價格波 動率的影響研究[J].系統(tǒng)工程理論與實踐,2022,42 (2):320-332 LIANG Chao,WEI Yu,MA Feng,etal.Astudyon the impact of investor attention on Chinese gold volatility [J].Systems Engineering-Theoryamp;Practice,2022,42 (2) :320-332
[17]ChenJ,Tang G H,Yao JQ,et al. Investor atention and stock returns[J].Journal of Financial and Quantitative Analysis,2022,57(2) :455-484
[18] 段江嬌,劉紅忠,曾劍平.中國股票網(wǎng)絡(luò)論壇的信息含 量分析[J].金融研究,2017(10):178-192 DUAN Jiangjiao,LIU Hongzhong,ZENG Jianping.Analysis on the information content of China’s internet stock message boards[J]. Journal of Financial Research,2017 (10) :178-192
[19]尹海員,吳興穎.投資者高頻情緒對股票日內(nèi)收益率 的預(yù)測作用[J].中國工業(yè)經(jīng)濟(jì),2019(8):80-98 YINHaiyuan,WU Xingying.Predictive effect of high-frequency investor sentiment on the intraday stocks return [J].China Industrial Economics,2019(8) :80-98
[20] 盧銳,張亞楠,蔡貴龍.社交媒體、公司傳聞與股價沖 擊:來自東方財富股吧論壇的經(jīng)驗證據(jù)[J].會計研 究,2023(4):59-73 LURui,ZHANG Yanan,CAI Guilong. Social media,rumors and stock price fluctuations:evidence from Guba stockforum[J].AccountingResearch,2023(4) :59-73
[21]范小云,王業(yè)東,王道平,等.不同來源金融文本信息 含量的異質(zhì)性分析:基于混合式文本情緒測度方法 [J].管理世界,2022,38(10):78-101 FAN Xiaoyun,WANG Yedong,WANG Daoping,et al. Heterogeneity analysis of information content for financial textfrom different sources:a hybrid text sentimentmeasurement method[J].Journal of Management World, 2022,38(10):78-101
[22]張夢吉,杜婉鈺,鄭楠.引入新聞短文本的個股走勢預(yù) 測模型[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(5):11-18 ZHANG Mengji,DU Wanyu,ZHENG Nan. Predicting stock trendsbased onnews events[J].Data Analysis and Knowledge Discovery,2019,3(5) :11-18
[23]Li X D,Wu P J,Wang W P. Incorporating stock prices and news sentiments for stock market prediction:a case of Hong Kong[J]. Information Processing amp; Management,2020,57(5):102212
[24] HerreraGP,ConstantinoM,SuJJ,etal.Renewableenergy stocks forecast using Twitter investor sentiment and deep learning[J].Energy Economics,2022,114:106285
[25]Xu Y A,Wang JQ,Chen Z L,et al. Sentiment indices and stock returns:evidence from China[J].International Journal ofFinance amp;Economics,2023,28(1): 1063-1080
[26] 張大斌,曾芷媚,凌立文,等.基于多特征融合深度神 經(jīng)網(wǎng)絡(luò)的玉米期貨價格預(yù)測[J/OL].中國管理科學(xué), 1-11[2024-11-01]. htps: //doi.org/10.16381/j. cnki. issn1003-207x.2022.1040 ZHANG Dabin,ZENG Zhimei,LING Liwen,et al.Prediction of corn futures price based on multi-feature deep neural network model[J/OL].Chinese Journal ofManagement Science,1-11[2024-11-01].htps://doi.org/ 10.16381/j.cnki. issn1003-207x.2022.1040
[27]Wu W,Xu M Q,Su R Q,et al. Modeling crude oil volatility using economic sentiment analysis and opinion mining of investors via deep learning and machine learning models[J].Energy,2024,289:130017
[28] KeGL,MengQ,F(xiàn)inleyT,et al.LightGBM[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.December 4-9,2017, LongBeach,CA,USA.ACM,2017:3149-3157
[29] 姜富偉,孟令超,唐國豪.媒體文本情緒與股票回報預(yù) 測[J].經(jīng)濟(jì)學(xué)(季刊),2021,21(4):1323-1344 JIANG Fuwei,MENG Lingchao,TANG Guohao. Media textual sentiment and Chinese stock return predictability [J].China Economic Quarterly,2021,21(4):1323-1344
[30] 姚加權(quán),馮緒,王贊鈞,等.語調(diào)、情緒及市場影響:基 于金融情緒詞典[J].管理科學(xué)學(xué)報,2021,24(5): 26-46 YAO Jiaquan,F(xiàn)ENG Xu,WANG Zanjun,et al. Tone, sentiment and market impacts : the construction of Chinese sentiment dictionary in finance[J]. Journal of Management Sciences in China,2021,24(5) :26-46
Gold futures price forecasting based on text sentiment analysis and LightGBM-LSTM model
SUN Jingyun 1,2 WEI Chen1 1School ofStatisticsandData Science,Lanzhou UniversityofFinanceand Economics,Lanzhou 73oo2o,China 2Center for Quantitative Analysis of Gansu Economic Development, Lanzhou University of Financeand Economics,Lanzhou 73oo2O,China
AbstractInfinancial markets,gold futures prices are influenced bya varietyoffactors,and accurate prediction of themholds significant importance.To addressthis isse,anew model for predicting gold futures prices is proposed that integratesmultiple datasources through a LightGBM(Light Gradient Bosting Machine)feature selection method with an LSTM (Long Short-Term Memory)model.First,the paper preprocesses the acquired macroeconomic and technical indicators,then annotates the sentiment tendencies of unstructured newsheadlines using various methods to construct a weighted sentiment index.Additionally,itaggregatesBaidu search indices of multiple keywords into a composite Baidu search index.Second,the LightGBM method is used to rank feature importance for both macroeconomicand technical indicators to extract key features.Finaly,theselected features,along with the weighted sentiment index and the composite Baidu search index,serve as input variables for the LSTM forecasting model.Empirical results show thatthe LightGBM-LSTM model with multi-source data exhibits excellent prediction performance with the smallest prediction errors.Compared with the benchmark model,it achieves more accurate forecastsof the closing prices of gold futures.
Key wordsgold futures;multi-source data fusion; news headlines;feature selection;long short-term memory (LSTM)