999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習在股價預測上的應用

2022-07-22 14:09:14錢琦淼王映艨蔡飛君
中國市場 2022年21期
關鍵詞:實驗模型

錢琦淼,張 朵,王映艨,劉 睿,蔡飛君

(無錫太湖學院 會計學院,江蘇 無錫 214064)

1 引言

近年來,機器學習在股票價格預測的應用中越來越廣泛,量化投資的形式也迅速占據著金融市場。徐浩然等人(2020)針對股票預測研究的CNN和LSTM兩種深度學習算法做了優缺點的闡述分析。CNN的特征選擇具有更好的表現,而LSTM則更加關注時間序列的相關性,并且提出將兩種模型融合,各自發揮優勢,得到最優的預測效果。由于股票的復雜以及不確定性,所以到現在為止國內針對單只股票的走勢預測研究較少,大多基于海外市場,而另一部分集中于對算法進行優化。文章學習前人對個股的研究思路,嘗試并選用隨機森林和GBDT兩種機器學習的算法對寧德時代的收益率進行預測,通過不斷的對參數調整,使得模型預測效果達到最優。探索兩種機器學習的算法在預測未來股票的收益情況上的優劣比較和優化,這是文章研究的目的。

2 機器學習及算法理論介紹

2.1 機器學習介紹

機器學習現有的主要研究是在對數據的初步了解和學習目的分析的基礎上,選擇合適的學習算法進行訓練,最后利用訓練后的模型對數據進行分析和預測。文章中運用到的機器學習算法有隨機森林和GBDT。

2.2 隨機森林

何裕(2014)通過決策樹、Logistic回歸模型、神經網絡模型挖掘研究公司財務比率指標的變化和股價變化趨勢的內在聯系,最后組合模型構建,證實了技術對于股價預測的可行性與合理性。隨機森林是對決策樹算法的一種改進,將多個決策樹組合,每棵樹都通過獨立提取的樣本建立,采用自上而下的遞歸方法,對未知數據進行分類,按照決策樹上生成時所采用的分割性逐層往下,直到一個葉子節點,到葉子節點處的熵值為零。在股市的應用中,首先需要找到合適的分類器來闡述各因子與下期收益的關系,要利用歷史數據,訓練分類器。獲得參數后,再代入各股因子數據并分類,從而選取優秀股。

2.3 GBDT

胡謙(2016)結合機器學習、技術分析研究量化選股策略,首次將GBDT和GB Rank用于量化選股領域,自動學習出能對股票未來表現進行排序的模型,證明使用GBDT算法的兩個策略有較強盈利性。GBDT(Gradient Boosting + Dicision Tree)算法是Boosting迭代融合算法,在傳統機器學習算法中GBDT是最適合真實分布擬合的幾種算法之一。使用當前模型中損失函數負梯度方向的值作為殘差的近似值,擬合CART回歸樹。GBDT將累積所有回歸樹的結果,并不斷減小訓練過程中產生的殘差,以實現將數據分類或回歸的算法。

3 數據預處理

3.1 實驗平臺

文章在建模分析部分采用 Python語言,本次實驗選取的數據分析環境是Anaconda,采用Web應用程序Jupyter Notebook進行建模。

3.2 數據來源

由于Tushare返回的絕大部分數據格式都是pandas DataFrame類型,非常便于數據分析和可視化,減輕工作量,所以本次實驗選取的數據來源于Tushare。

3.3 數據預處理

寧德時代(300750.SZ)作為新能源板塊中表現比較突出的股票,文章截取了其2016年1月1日到2021年2月4日的交易數據,分別是交易日期、開盤價、最高價、最低價、收盤價、昨收價、漲跌額、漲跌幅、成交量和成交額,一共649期。

圖1 部分數據集描述

文章還對數據寧德時代的收盤價計算了100天的移動平均值,并取每個滑窗的移動平均值。從圖2中,可以看出2019年11月開始,寧德時代股票價格呈現明顯上升趨勢。

圖2 移動平滑價格線

由于非平穩型的趨勢線,實驗決定預測寧德時代的收益情況。由于時間序列存在滯后性,于是在實驗中設計了一些股票的滯后項——return-1,return-2,return-3。

4 實驗研究分析

文章收集數據的周期為2016年1月1日到2021年2月4日,選擇了開盤價、最高價、最低價等11個影響收益率的因子。文章將2016年1月1日到2020年10月1日之前的數據作為訓練集,一共561期數據。2020年10月1日到2021年2月4日之間的數據作為測試集,一共83期數據。

4.1 隨機森林

實驗過程中,文章首先引入決策樹,在隨機狀態為10,最大迭代次數為100,葉子節點最少樣本數為70的條件下建立模型,在擬合數據后進行預測,訓練集的平均絕對誤差是0.00748,測試集則是0.00752。從隨機森林這一模型中,它的隨機性難以對模型進行解釋,因此猜測模型容易在噪聲過多的分類和回歸問題中過擬合。為了驗證猜想,實驗嘗試通過調參來提高模型的泛化能力。

在整個隨機森林調參過程中,要選擇一個適中的最大迭代次數,故得到了實驗中最佳的弱學習器迭代次數為5。在此基礎上,得到決策樹最大深度范圍為5,內部節點再劃分所需最小樣本數為100。由于內部節點再劃分所需最小樣本數還和決策樹其他的參數存在關聯,實驗還需要對內部節點再劃分所需最小樣本數和葉子節點最少樣本數一起調參,得到葉子節點最少樣本數30,內部節點再劃分所需最小樣本數50。

圖3 部分數據集描述

基于上述結果,再對最大特征數做調參,搜索得到最大特征數為5。經過一系列調參,用搜索到的最佳參數,得到最終的模型擬合訓練集的平均絕對誤差值為0.005543,測試集是0.00920,結果發現無顯著變化。

4.2 GBDT

GBDT和傳統的Adaboost有很大的不同,傳統的Adaboost會使用上一次迭代弱學習器的錯誤率來更新訓練集的權重,使迭代繼續進行,而GBDT算法的弱學習器(基模型)是CART,故擬合出一棵CART回歸樹,對實驗過程中構成一個強學習器來說至關重要。在整體的迭代思維上,GBDT的迭代通常使用前向分布算法,損失函數的負梯度在當前模型的值作為回歸提升樹殘差的近似值,在持續擬合的過程中,擬合值和目標值之間的殘差會越來越小,每一棵樹的預測值加起來就是模型最終的預測結果。所以在本次實驗中一共建立了學習器644個,步長為0.1。最大的弱學習器的個數為默認值100。

最終得到訓練集的絕對誤差為0.000153,測試集為0.0137。預測收益率的標準差為0.03217,絕對誤差值過小,模型過擬合。筆者認為應當通過調參來優化模型的泛化能力。為了驗證猜想,筆者開始進行調參。首先調參需要選擇一個較小的步長來網格搜索最好的迭代次數,得到最佳弱學習器的個數為80,樹的最大深度為9,最小樣本劃分樹為5,葉子節點最少樣本數為10,最大特征數目為5,而隨機狀態為10。修改成最優參數后,得到測試集的絕對誤差為0.004412,訓練集為0.001657。

5 結論與展望

從本次實驗來看,能觀察到隨機森林這一模型訓練速度更快,因為特征子集是隨機選取的,就不用做特征選擇。由于待選特征也是隨機選取,所以對特征缺失不敏感,調參后發現結果無顯著變化甚至比原來誤差更大,猜測存在過擬合現象,從而發現了隨機森林的缺點,容易在噪聲過多的分類和回歸問題中過擬合;與單個決策樹相比,它的隨機性讓模型難以進行解釋。

相較于隨機森林模型,GBDT具有以下兩個優點:其一,適用面廣,離散的或是連續的數據都可以處理;其二,GBDT模型的調參過程比較簡單,在相對小的調參過程下,GBDT的預測結果更為準確。GBDT就最終的輸出結果而言,提升樹即是整個迭代過程生成的回歸樹的累加或加權累加,是基于權值的弱分類器集成,通過減少模型偏差提高性能。此外該模型對異常值也比隨機森林更敏感。

因此,從本次實驗中發現GBDT精度略高于隨機森林模型,且在一些調整后,GBDT模型獲得了較好的預測效果。

圖4 訓練集比較

圖5 測試集比較

猜你喜歡
實驗模型
一半模型
記一次有趣的實驗
微型實驗里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 免费一看一级毛片| 国产乱子精品一区二区在线观看| 波多野结衣无码中文字幕在线观看一区二区| 亚洲欧洲日本在线| 久久精品亚洲热综合一区二区| 热这里只有精品国产热门精品| 中文字幕欧美日韩高清| 思思99热精品在线| 国产噜噜噜视频在线观看| 成人精品亚洲| 青青草国产精品久久久久| 色婷婷啪啪| 丝袜无码一区二区三区| 国产精品男人的天堂| 国产高潮流白浆视频| 日韩欧美中文字幕在线精品| 永久在线播放| 色135综合网| 亚洲av无码人妻| 日韩一级二级三级| 国产在线一二三区| 日本www色视频| 中文字幕中文字字幕码一二区| 欧美一级专区免费大片| 久久久久青草线综合超碰| 四虎影视库国产精品一区| 日韩经典精品无码一区二区| 婷婷六月天激情| 五月天丁香婷婷综合久久| www.99在线观看| 亚州AV秘 一区二区三区| 中文字幕欧美日韩| 亚洲中久无码永久在线观看软件| 最新国产网站| 好吊色妇女免费视频免费| 国产美女无遮挡免费视频| 久久精品女人天堂aaa| 国产在线91在线电影| 国产福利一区在线| 亚洲国产欧美国产综合久久| 久久精品国产精品国产一区| 亚洲中文字幕在线精品一区| 青草91视频免费观看| 又黄又爽视频好爽视频| 免费人成又黄又爽的视频网站| 国产高清在线精品一区二区三区 | 国产成人a在线观看视频| 成人在线视频一区| 免费一级α片在线观看| 丁香亚洲综合五月天婷婷| 91久久青青草原精品国产| 国产精品13页| 欧美自慰一级看片免费| 男女精品视频| 99视频在线免费| 久久成人18免费| 日本免费一级视频| 嫩草影院在线观看精品视频| 国产偷倩视频| 国产在线一区视频| 夜夜拍夜夜爽| 亚洲女同一区二区| 国产97色在线| 在线国产毛片| 亚洲美女一级毛片| 四虎影视无码永久免费观看| 欧美国产日韩另类| 国内精品九九久久久精品 | 成人精品区| 国产微拍一区| 亚洲久悠悠色悠在线播放| aaa国产一级毛片| 首页亚洲国产丝袜长腿综合| 国产无码制服丝袜| 亚洲欧美不卡中文字幕| 免费jjzz在在线播放国产| 亚洲区欧美区| 国产麻豆另类AV| 天天色天天综合网| 欧美黄色a| 欧美亚洲日韩中文| 久草青青在线视频|