999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模型樹的滬深300 指數預測

2020-03-24 03:49:26林天華祁旭陽張倩倩
智能計算機與應用 2020年11期
關鍵詞:效果模型

林天華,祁旭陽,張倩倩,趙 霞

(1 河北經貿大學 信息技術學院,石家莊 050061;2 河北經貿大學 經管實驗中心,石家莊 050061)

0 引言

股票是市場經濟的重要體現,在一定程度上反映著我國的經濟發展狀況,在經濟發展走勢分析中發揮著重要作用。滬深300 指數是股票市場的重要指數之一,它能夠反映滬深兩市市場整體表現和價格變動。預測滬深300 指數在指導滬深兩市個股投資和分析滬深市場變化等方面具有重要意義。預測滬深300 指數的研究方法主要分為三種,分別是基本面分析法、技術分析法和量化分析法。其中量化分析法是利用計算機技術進行統計、數值模擬,進而研究證券數據的一種方法[1]。該方法分析的數據量大、形成的模型嚴格,因此能夠取得較好的分析效果。

將機器學習、神經網絡等現代預測方法應用于股指的分析和預測是當前的一個研究熱點。熊濤[2]等提出基于自組織神經網絡(Self Organizing Neural Network,SOM)和支持向量機(Support Vector Machine,SVM)的多步預測方法,即先用SOM 對滬深300 指數序列進行聚類,隨后基于劃分后的數據集分別構建SVM,得到多步預測模型,結果表明該模型的預測效果要好于單一的SVM。唐艷琴[3]等為解決基于SVM 的預測模型復雜、耗時長的問題,提出了一種基于多輸出的學習方法,該模型在預測滬深300 指數時比SVM 預測的均值方差提高了約10 倍,運行時長也減少了近3/4。文獻[4]提出了使用多支持向量機對股指進行混合頻率抽樣預測方法。文獻[5]提出將夏普比率引入到SVM 股指預測中,提升投資回報。周榮謙[6]提出的基于Morlet小波核函數SVM 的滬深300 指數預測方法,得到了較低的RMSE,預測效果較好。文獻[7]結合小波變異的混合函數連接人工神經網絡和粒子群優化算法,對滬深300 指數進行了預測。文獻[8]和文獻[9]分別使用ModAugNet 框架和多隱層人工神經網絡混合模型對標準普爾500 指數進行預測,預測誤差均較低。戴德寶等[10]使用文本挖掘和情感分析方法,生成投資者情緒時間序列,并使用SVM 和神經網絡對上證投資者情緒綜合指數進行預測。馮宇旭[11]等提出的基于長短期記憶神經網絡的滬深300 指數預測方法,比同一測試集上的Adaboost 算法得到的RMSE 要低。文獻[12]提出特征值歸一化加權多線性主成分分析對恒生指數進行特征提取,并使用SVM 預測。文獻[13]將logistic 回歸(LR)模型級聯到梯度增強決策樹(Gradient Boosting Decision Tree,GBDT)模型上,由此構成股指預測模型,并對上證指數、納斯達克指數和標準普爾500 指數進行預測,預測準確率較高。

綜上所述,現有文獻中使用機器學習算法對滬深300 指數預測較少,且僅有的研究得到的預測效果也欠佳。模型樹是機器學習中的一種算法,從理論上看,相較于其它機器學習算法,它具有葉子節點是分段線性函數的特性,能夠更好得擬合連續型數據,得到較好的預測效果,從而更適用于預測領域。在應用方面,模型樹算法在眾多數值型變量的預測問題中,證實了其有理想的預測性能。張建明[14]等將模型樹算法用于汽輪機汽耗性預測、GOYAL M K[15]等將模型樹算法應用于閘下沖刷預測、李建更[16]提出用模型樹預測PM2.5濃度,均取得了較好的預測效果,證實了它在連續值預測方面的可行性。因此,本文將基于模型樹算法構建預測模型,改進模型樹的分裂算法,使其適用于滬深300 指數預測,提高預測的準確度,這在理論分析和實際應用中都具有重要意義。

1 模型樹算法

本文使用目前常見的基于最小損失函數的模型樹算法進行證券數據分裂,并針對證券數據的特征進行改進,提出了基于最大離差分裂算法的模型樹。

1.1 基于最小損失函數的模型樹算法

基于最小損失函數的模型樹是分類回歸樹(Classification And Regression Trees,CART)的變體,既可以用于分類也可以用于回歸。其對樣本數據集進行二分遞歸分裂,最終形成一棵以葉節點為分段線性函數的二叉樹,并對生成的模型樹進行后剪枝,得到最優模型樹。模型樹作為回歸模型時,給定數據集D={(x1,y1),...,(xi,yi),...,(xn,yn)},則生成初始模型樹MT0的步驟如下:

Step 1求解式(1),得到最優的特征A 和特征分裂點s,

其中,c1為數據集D1的均值,c2為數據集D2的均值。

Step 2用選定的(A,s)將當前數據集劃分成D1和D2兩個數據集。

Step 3分別對D1和D2兩個數據集進行線性回歸,得到分段線性函數f1和f2,作為當前父節點的兩個子節點。

Step 4對每個子節點執行上述步驟,直至滿足停止條件。

Step 5輸出生成的模型樹MT0。

直接采用生成的MT0做預測,往往會產生過擬合現象,需要對其進行剪枝操作,但又要防止剪掉一些節點后導致預測的誤差增加。因此,采用代價復雜度剪枝算法進行后剪枝。具體算法如下:

輸入生成的模型樹MT0

輸出最優模型樹MT

Step 1設k=0,MT=MT0,γ=+∞。

Step 2自下而上遍歷每個內部節點t,并計算C(Tt)、和整體損失函數的減少程度g(t)。計算公式見式(2)和(3)。

其中,Tt是以t為根節點的子樹,C(Tt)是對訓練數據的預測誤差;是Tt的葉節點個數。

Step 3自上而下訪問內部節點。若g(t)=γ,則剪去該分支,得到樹MTt。

Step 4設k=k +1,γk=γ,MTk=MTt。

Step 5如果MTt不是由根節點單獨構成的樹,則回到Step 3。

Step 6使用交叉驗證法在子樹序列MT1,MT2,…,MTn中選取最優子樹MT。

1.2 基于最大離差分裂算法的模型樹

由于基于最小損失函數的模型樹計算得出的分裂點不理想(如圖2),導致預測效果不好,故對其分裂算法進行改進,提出最大離差分裂算法,使得其能夠適用于證券數據的分裂,提高預測的準確度。

基于最大離差分裂算法的模型樹的主要算法流程如下:

輸入滬深300 指數數據集Y

Step 1對全體滬深300 指數數據Y進行線性回歸,得到初始的線性回歸直線Lparent及對應的線性回歸函數yline。Lparent與實際值的首次和最后一次交點,分別為start和end。

Step 2搜索分裂屬性。對已構建的線性回歸函數搜索分裂屬性,并將分裂屬性取并集,即回歸屬性集合。

Step 3生成分裂點和線性回歸函數。若第i個交易日在start和end之間,即i∈[start,end],則從滬深300 指數數據中選擇與Lparent上的點距離最遠的點,作為分裂點splitPos,其計算方法如式(4)、(5)。

以此將數據分為左右兩段,并對兩段數據分別進行線性回歸,得到Lleft和Lright。線性回歸函數為yleft和yright,二者分別作為父節點的左右子樹。將得到的Lright作為Lparent,yright作為yline。

Step 4遍歷遞歸,生成模型樹。遞歸執行Step2 和Step3,至達到閾值條件,即end -start <10,R >0.9。其中R為最大相關系數,最后生成的右子樹為Llatest。

Step 5構建好模型樹MT,使用滬深300 測試集數據進行預測。以Llatest作線性回歸預測,計算并輸出預測衡量指標,則算法結束。

最大離差分裂算法流程如圖1 所示。

圖1 中,yline為原始滬深300 數據進行線性回歸得到的回歸方程;i表示第i個交易日;yi表示第i個交易日的真實值;ylinei表示第i個交易日的線性回歸值;splitPos表示分裂點;R為最大相關系數。

2 實證分析

2.1 預測評價指標

本文使用均方誤差MSE,均方根誤差RMSE 和平均絕對百分比誤差MAPE 作為預測評價指標,用于描述預測值偏離真實值的程度。三者的計算方法如公式(6)~公式(8)。

其中,y(i)為第i個交易日滬深300 指數收盤價的真實值;y^(i)為第i個交易日滬深300 指數收盤價的預測值;n為樣本總數。

圖1 最大離差分裂算法流程圖Fig.1 Maximum deviation splitting algorithm flow chart

由上述公式可知,三者的值越小則說明模型預測的結果誤差越小,即與真實值越接近,預測效果也越好。

2.2 實驗數據及預處理

2.2.1 MTDM 算法分組對比樣本數據的選取

本文選取兩組時間段的滬深300 指數日收盤價,作為訓練樣本數據和測試樣本數據。2007 年8月15 日至2008 年11 月6 日的300 個交易日的收盤價作為第一組的訓練樣本數據,2008 年11 月7日至2014 年7 月16 日的1 381個交易日的收盤價作為第一組的測試樣本數據。2013 年4 月20 日至2014 年7 月16 日的300 個交易日的收盤價作為第二組的訓練樣本數據,2014 年7 月17 日至2019 年1 月4 日的1 092個交易日的收盤價作為第二組的測試樣本數據。

在兩組數據的測試樣本數據中,均包含了完整的上漲牛市數據、下跌的熊市數據以及震蕩數據,使得實驗能充分包含前述幾種情況,更好地驗證模型預測的有效性。

2.2.2 MTDM 算法與其他算法對比樣本數據的選取

在與其他預測算法進行對比時,保持與原實驗一致的時間段數據作為數據樣本,即將文獻[11]提出的LSTM/Adaboost、SVR/LSTM/Adaboost 回歸集成算法應用于2012 年5 月3 日~2017 年9 月4 日的滬深300 指數的預測;文獻[6]提出的PSO 算法優化,應用于2015 年12 月11 日~2016 年11 月12日的滬深300 指數的預測。將基于最大離差分裂算法的模型樹的滬深300 指數模型分別用于上述兩個時間段,其中訓練樣本數據在此基礎上分別增加300 個交易日收盤價數據,即2011 年2 月1 日~2012 年5 月2 日、2014 年9 月17 日~2016 年11 月11 日分別作為二者的訓練樣本數據,從而保持對比實驗的一致性。

2.2.3 數據預處理

在預測時,由于原始數據差距較大,直接輸入模型樹預測模型,預測誤差較大。為保證模型測預效果,采用歸一化方法處理這些數據,經過線性變換,可以映射到[0,1]范圍內,歸一化表達式如公式(9):

其中,x'為歸一化后的數據,xmin、xmax分別為樣本數據的最小值和最大值。

2.3 分裂和預測效果

為保證展示效果,在此與LSTM 算法預測方法對比的數據,以2011 年2 月1 日至2017 年9 月4日,共1603 個交易日的滬深300 收盤價數據為例,說明分裂過程;以該對比實驗第一年的測試數據,即2012 年5 月3 日至2013 年11 月5 日共365 個樣本數據說明預測效果。

(1)基于最小損失函數的模型樹分裂效果

基于最小損失函數的模型樹分裂效果如圖2所示。

圖2 基于MTLLF 算法的分裂效果圖Fig.2 Splitting effect based on MTLLF algorithm

其中,折線表示真實值;圓點表示回歸分裂點;虛線表示相鄰分裂點的連接線。由圖2 可見,分裂點連接線的走勢沒有反映滬深300 指數的走勢特征,導致分裂效果不好,不能夠很好地應用于證券數據分析當中。

(2)基于最大離差分裂算法的模型樹分裂效果

基于最大離差分裂算法的模型樹分裂效果如圖3 所示。

圖3 基于MTDM 算法的分裂效果圖Fig.3 Split effect diagram based on MTDM algorithm

由圖3 可以看出,每個圓點都落在代表真實值折線的拐點處,分裂點連接線的走勢與滬深300 指數的走勢基本契合,分裂效果理想,適應證券數據的特征,為后續的預測奠定了基礎。

(3)基于最大離差分裂算法模型樹的預測效果

使用基于最大離差分裂算法的模型樹,對滬深300 數據進行預測,得到的預測結果如圖4 所示。

圖4 基于MTDM 算法的預測效果圖Fig.4 Forecast effect diagram based on MTDM algorithm

由圖4 可見,基于MTDM 算法的預測結果接近真實值,與真實值的擬合程度較高,預測效果較好。

2.4 預測性能對比分析

(1)MTDM 算法分組實驗預測性能對比

使用MTDM 算法模型對前述兩組實驗數據進行預測,得到的MSE、RMSE 和MAPE 見表1。

表1 分組實驗性能對比表Tab.1 Performance comparison table of grouping experiment

由表1 可知,MTDM 預測方法在不同長度的時間段內的預測誤差變化較小。對于牛市、熊市以及震蕩市場數據的預測均具有較好的適用性,預測穩定性和預測精度都有較好的表現。

(2)MTDM 與其他算法預測性能對比

MTDM 算法與基于LSTM 的預測方法以及PSO優化預測方法進行對比,得到的MSE、RMSE 和MAPE 分別見表2、表3。

表2 與基于LSTM 預測方法的性能對比表Tab.2 Performance comparison table with the prediction method based on LSTM

表3 與PSO 算法優化預測方法的性能對比表Tab.3 Performance comparison table with PSO algorithm optimization prediction method

由表2、3 可知,MTDM 預測方法的預測誤差顯著低于其他算法,具有更好的預測效果。

3 結束語

本文使用最大離差分裂算法改進了模型樹,使得模型能夠適應證券數據的特征,經不同時間段的滬深300 指數預測實驗驗證,以及與其他預測方法的對比,表明本模型具有良好的預測準確度和穩定性。

基于最大離差分裂算法的模型樹預測模型在找到分裂點并分裂數據后,僅用模型樹的最右子樹進行預測,丟失了兄弟節點、父節點之間的關系。下一步擬使用多叉模型樹,利用節點間的關系、最右子樹等所有分裂信息構建預測模型,進一步減小預測誤差,提高預測準確率。

猜你喜歡
效果模型
一半模型
按摩效果確有理論依據
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
3D打印中的模型分割與打包
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
3D—DSA與3D—CTA成像在顱內動脈瘤早期診斷中的應用效果比較
主站蜘蛛池模板: 欧美亚洲国产一区| 99热这里只有精品在线观看| 国产精品自在在线午夜区app| 欧美一区二区精品久久久| 99久久精品美女高潮喷水| 精品撒尿视频一区二区三区| 亚洲色欲色欲www网| 欧美成人免费一区在线播放| 美女视频黄频a免费高清不卡| 亚洲国产在一区二区三区| 色窝窝免费一区二区三区| 91网红精品在线观看| 久久久久88色偷偷| 亚洲第一色网站| 亚洲天堂视频在线播放| 亚洲欧美日韩动漫| 好久久免费视频高清| 国产在线精品99一区不卡| 蜜臀AVWWW国产天堂| 亚洲性日韩精品一区二区| 免费A级毛片无码无遮挡| 午夜a级毛片| 一本大道无码日韩精品影视| 亚洲不卡无码av中文字幕| 亚洲欧美不卡| 免费看a级毛片| 性激烈欧美三级在线播放| 免费Aⅴ片在线观看蜜芽Tⅴ | 欧美伊人色综合久久天天| 国产jizz| 国产青榴视频| 久久天天躁狠狠躁夜夜躁| 精品国产一二三区| 亚洲天堂自拍| 内射人妻无套中出无码| 亚洲国产精品无码久久一线| 999精品在线视频| 最新亚洲av女人的天堂| 五月天福利视频| 五月婷婷亚洲综合| 九九热精品在线视频| 欧美成在线视频| 亚洲国产综合精品一区| 亚洲人妖在线| 午夜日本永久乱码免费播放片| 欧美亚洲网| 欧美一区二区福利视频| 19国产精品麻豆免费观看| 亚洲精品自在线拍| 手机成人午夜在线视频| 国产一二三区在线| 亚洲精品第1页| 91成人在线观看| 亚洲精品成人福利在线电影| 欧美国产日韩另类| 国产精品性| 波多野结衣一区二区三区四区 | 国产又黄又硬又粗| 国产乱人伦精品一区二区| 亚洲欧美极品| 永久免费av网站可以直接看的| 夜精品a一区二区三区| 欧美激情综合| 欧美亚洲国产精品第一页| 无码国产伊人| 久久伊人色| 天堂在线亚洲| 久久久久免费精品国产| 特级精品毛片免费观看| 日韩精品一区二区三区中文无码| 亚洲欧美日韩成人在线| 欧美成人a∨视频免费观看| 亚洲av无码成人专区| 日韩少妇激情一区二区| 日本高清免费不卡视频| www.youjizz.com久久| 99精品伊人久久久大香线蕉| 精品偷拍一区二区| 无码精品一区二区久久久| 欧美一区二区福利视频| 日韩中文无码av超清| 亚洲九九视频|