999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進AdaBoost算法的選股模型

2020-04-29 11:00:38超,飛,洋,
智能計算機與應用 2020年2期
關鍵詞:分類特征

賀 超, 吳 飛, 何 洋, 朱 海

(上海工程技術大學 電子電氣工程學院, 上海 201620)

0 引 言

隨著改革開放的不斷深入,股票市場呈現出強勁崛起態勢,并且在高速發展的當代中國社會扮演著重要角色。股票投資的主要目的就是在控制一定風險的前提下取得投資的最高收益。

傳統的交易模式通常基于人為經驗的對MACD、BOLL和RSI等技術指標進行判斷,從而做出投資決策。由于大數據、云計算以及人工智能等科學技術的進步,傳統的金融交易也深受影響,并且在實際量化投資領域運用中取得了良好效果。一直以來,股票市場吸引了各界的廣泛關注與探討研究,究其原因就在于其具有各種復雜多變的指標和觀測角度,使得投資機遇與風險并存。支持向量機(Support Vector Machine, SVM)是基于統計學習理論推演生成的數據挖掘技術[1],但是由于SVM對于大數量級的數據樣本的訓練有一定的難度,而實際面臨的股市信息數據巨大,所以傳統的SVM方法不足以支撐大規模訓練強度。

針對股票信息受到影響波動拐點較多等特點[2],單獨的分類或預測算法無法做到較為靈活處理的問題,經過研究可知,AdaBoost算法通過權重結合若干個弱分類器進行串行的學習[3],并且通過聯合權重投票機制求得最終結果。同時考慮到股票因子繁雜,受到較多因素影響,如此一來就會在樣本數據集層面上引入較多的不確定性噪聲,而AdaBoost算法對于異常值較為敏感,對于最終結果也會造成較大的影響[4],所以在訓練階段選用了判決式的特征因子選擇方法,能夠在一定程度上剔除相關影響,與傳統決策機制相比[5],除了分類器自身的精度信息外,還充分利用了特征因子權重信息來輔助決策,使得整體效果得到了顯著提升。利用上述分析來研究上市公司的財務指標與個股價格浮動率之間的關系,從而建立選股分類模型[6]。這里對此課題擬展開研究論述如下。

1 AdaBoost算法

自適應增強算法(Adaptive Boosting Algorithm)[7],即AdaBoost算法,其主要思想是對于股票樣本訓練集合D={(x1,y1),(x2,y2),...,(xN,yN)},其中xi表示股票樣本的因子屬性特征,yi表示個股的輸贏率作為標簽變量,N表示樣本個數,以股票一年為時間節點的后復權股價漲跌幅大于HS300指數的漲跌幅取“1”,小于則取“0”,所以有Y∈{+1,-1}。在選定好弱分類器后,初始狀態下,所有樣本權重相等,根據AdaBoost思想,不斷串行迭代訓練,并且在訓練過程中后一個弱分類器將會著重訓練被前一個弱分類器錯分的樣本,最終得到加權后的最終結果[8]。此處,給出主要流程具體如下。

輸入:(x1,y1),(x2,y2),...,(xN,yN),其中xi∈X,且yi∈Y

初始化:W<1>=(w<1>1,w<1>2,...,w<1>N)T,w<1>i=1/N,其中i=1,2,...,N,表示第i個分類器樣本的權重分布。

訓練過程:

formin range(M):

Step1利用具有權重向量wi的訓練數據集對弱分類器進行訓練,其中m表示基分類器的個數,得到基分類器,可表示為公式(1):

hm(X):x->{-1,1},

(1)

Step2通過hm(X)在訓練集上的效果,計算分類誤差率,可表示為公式(2):

(2)

并且,若分類誤差率em≥1/2,則算法提前停止,整體構建失敗。

Step3為基分類器分配相應的構建權重系數,可表示為公式(3):

(3)

Step4更新訓練權重向量W=(w1,w2,...,wN)T,其中wi的數學公式可表示為:

(4)

(5)

2 改進AdaBoost算法

2.1 判決式因子選取

根據隨機子空間(Random Subspace Method, RSM)樹結構采樣方法[3],主要是從整個數據集中隨機采樣得到每個子樹空間的子樣本集,每次在建立子分類器的過程中,并不是采用整個數據集作為輸入,當數據樣本數量足夠大時,通過實驗表明,此種策略最終得到的分類結果精度要高于傳統的AdaBoost算法。但是,上述隨機采樣在多次采樣過程中,會出現某些樣本被多次重復提取,而某些樣本僅有少量的機會、甚至在建模階段未被采用的情況,這就會導致基分類器的多樣性受到制約。

ar=1+log2T,

(6)

研究中,并不是選擇整個數據集的所有特征進行計算,選擇基尼系數小的特征屬性作為分割點,可表示為:

G[g(aj(d))]=gini(d)-gini(aj(d)) ,j∈[1,T],

(7)

其中,gini(d)表示該節點分割前的基尼系數,對應的gini(aj(d))表示在節點d中以最佳特征屬性aj分割后的基尼系數。

由于采取特征屬性隨機采樣的機制,就使得在構建基分類器的過程中會出現某些特征屬性被多次采取的情況,而在樣本個數相同的前提條件下,從特征屬性采樣的角度來分析,就勢必造成了數據的不均衡,因此當所在基分類器建成后,對于被多次選擇的特征屬性aj,可進行如下處理:

(8)

其中,ns(aj)表示選擇特征屬性aj的次數,μ(G[g(aj(d))]) 表示其均值,在子決策樹中選擇所有G[g(aj(d))]和其對應的m個特征屬性(m≤T),可推導計算出整體對應的均值μ(G(g))和標準差σ(G(g)),并且如果μ(G(g))和σ(G(g))之間的差值是正數,則提高特征屬性aj的權重,反之減少其對應的權重。

2.2 改進決策機制

由2.1節內容可知,為了保證子樹之間的多樣性,改進AdaBoost算法對于樣本特征屬性進行隨機采樣,并不是完整使用樣本的所有數據,對子分類器進行訓練,從而提高了各子分類器之間的多樣性,更貼近真實數據多變的情況。

改進AdaBoost算法采用包外估計的方法,選用2/3的訓練數據用于構建子樹,即基分類器,此外1/3的數據用于模型建成后的驗證及相關學習權重的驗證。利用訓練數據集Dk去構建子樹基分類器Ck,將測試數據作為輸入時,由前述切割原理可知,通過計算特征屬性的基尼系數得到最佳切割屬性aj,再將測試數據通過基分類器得到分類結果的平均精度作為子樹基分類器Ck的屬性aj的決策權重wk,j。而在真正的在線使用階段,對于任何一個未知的樣本屬性,改進后的算法將綜合考慮屬性分割點aj的決策權重wk, j和子分類器的自身精度去計算最終的聯合投票權重,最終分類預測結果可表示為:

y∈Y.

(9)

其中,I-AdaBoost(x)表示改進算法的預測結果;y表示真實的分類標簽;Ci(x)表示子樹基分類器的預測結果;acci為子樹Ci的精確度;wij即為切割屬性aj的決策權重。

通過新的決策集成機制,充分保留了對特征屬性隨機采樣而形成的子樹之間的多樣性,并且結合傳統的投票決策方式,在提高預測結果精確度的同時,更好地切合了真實數據不確定性和多變性,從而有效提升了模型的魯棒性。

3 實驗設計與分析

3.1 實驗設計

本文基于同花順平臺提供的iFinD數據庫接口,以HS300為股票池,提取了2008~2018年的年度每只股票財務指標數據。文中例舉了貴州茅臺的財務指標實驗數據見圖1。

圖1 貴州茅臺的財務指標實驗數據

Fig. 1 Experimental data of financial indicators of Moutai, Guizhou

實驗選取2008~2018年HS300為股票池中的股票數據作^為實驗數據,實驗數據為每只個股的財務指標數據,包含營業總收入、營業總成本、營業利潤、利潤總額、凈利潤、每股收益、其他綜合收益、綜合收益總額等信息。目標函數是通過計算每只個股復權股價漲跌幅是否大于HS300指數漲跌幅計算求得。如果個股指數漲跌幅大于HS300指數的漲跌幅則取“1”,小于則取“0”,實驗以2008~2017年數據為訓練數據集,以2018年數據作為測試數據集。

3.1.1 評價標準

對于改進AdaBoost模型,在實際運用中,以分類準確率為其性能好壞的評價標準,其數學定義可寫為:

(10)

3.1.2 設計流程

股票投資中,股票收益率的漲跌幅是一個非常重要的指標。根據模型規則,如果預測下一年的收益率為正,則做出買入的決策,并且投資狀態設置為1;如果預測下一年的收益率為負,則做出賣出的決策,并且投資狀態設置為0。決策流程如圖2所示。

3.2 實驗分析

在量化交易發展初期,SVM算法由于其原理的簡單易用性,在實際運用中取得了很好的效果,但是隨著數據量級的增加,SVM在大數量級的交易數據和研報數據的處理中暴露出不足之處,這也是其算法本身存在的問題。由于AdaBoost算法框架思想的提出,使得可以集中各弱分類器,并在每一步中不斷地進行迭代優化,因為其對異常值較為敏感的因素,在實際生產數據的應用上會產生較大的影響,因此對于傳統的AdaBoost算法,加入新的特征屬性選擇機制,如此即使得最終的決策機制同時結合了子分類器自身的精度和特征屬性權重信息,使得最終的分類精準度得到了極大的提升。本次研究中各選用算法的結果對比曲線如圖3所示。

圖2 決策流程圖

圖3 分類準確率

由圖3分析指出,由于改進后的AdaBoost算法融合了屬性自身精度和基分類器的精度,更加貼合實際決策方式,提高了系統的魯棒性,而相比于傳統的AdaBoost算法,SVM性能上要稍有遜色。改進后的AdaBoost算法的實測效果最佳,分類準確度可達到99.3%。

上述對比主要是基于業務層面的分析,下一步則需討論模型本身的性能分析,而為了更好地分析3種算法模型的性能,選取2014~2018年間的數據作為樣本,分析對比結果如圖4所示。

圖4 AUC評分

由圖4分析可知,從每個時期上看,因為改進后的AdaBoost算法運用新的判決式因子選擇機制,保證了基分類器間的多樣性,提高了算法整體的魯棒性,所以每個時期的AUC評分非常穩定,并且評分較高,最高評分可達0.71,這就表明改進后的AdaBoost算法自身性能上較為穩定且有好的實際效果。其中,SVM算法與傳統的AdaBoost算法相比,性能上仍有欠缺。

4 結束語

隨著中國一帶一路等政策的發展,逐漸走向國際市場,股票市場將不斷完善。金融科技的布局,也將給股票市場帶來新的活力。本文從股票的投資價值角度分析,利用改進AdaBoost算法,通過新的判決式屬性選擇機制保持了基分類器的多樣性,更客觀地貼合實際股票數據的情況,增強了整體的魯棒性,與此同時,在最終的投票機制中融合了特征因子自身的精確度和基分類器的精確度評分,很大程度上提高了最終的決策性能,在實際應用中有著良好的適用性。

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 中文字幕丝袜一区二区| 日韩欧美网址| 欧美天堂在线| 精品国产Ⅴ无码大片在线观看81| 国产精品yjizz视频网一二区| 中国黄色一级视频| 国产人免费人成免费视频| 午夜激情婷婷| 亚洲日韩日本中文在线| 精品国产网站| julia中文字幕久久亚洲| 国产精品久久自在自2021| 狠狠做深爱婷婷综合一区| 福利小视频在线播放| 国产亚洲精久久久久久久91| 亚洲精品777| 亚洲天堂自拍| 天堂亚洲网| 国产主播福利在线观看| 国产精品55夜色66夜色| 成年网址网站在线观看| 亚洲人成色77777在线观看| 国产精品尤物铁牛tv| 免费全部高H视频无码无遮掩| 国产黄色爱视频| 久久 午夜福利 张柏芝| 亚洲自拍另类| 色综合激情网| 毛片网站在线播放| 日韩欧美91| 国产福利一区视频| 91免费国产高清观看| 五月婷婷伊人网| 亚洲欧美色中文字幕| 精品久久高清| 伊人久久影视| 青青青国产视频手机| 1024国产在线| 国产H片无码不卡在线视频| 国产日韩欧美精品区性色| 91福利片| 国产国产人在线成免费视频狼人色| 久久精品女人天堂aaa| 中文字幕无码中文字幕有码在线 | AⅤ色综合久久天堂AV色综合| 美女黄网十八禁免费看| 国产自在线播放| 亚洲国产一区在线观看| 一本色道久久88亚洲综合| 欧美午夜一区| 日本人真淫视频一区二区三区| 亚洲伊人久久精品影院| 在线毛片网站| 国产精品男人的天堂| 国产主播福利在线观看| 国产簧片免费在线播放| 日韩福利视频导航| 日韩在线欧美在线| 91精品最新国内在线播放| 影音先锋丝袜制服| 免费国产高清视频| 亚洲中文在线看视频一区| 久综合日韩| 人妖无码第一页| 大香伊人久久| 亚国产欧美在线人成| 666精品国产精品亚洲| 国产在线视频福利资源站| 欧美福利在线| 网友自拍视频精品区| 日本免费福利视频| 亚洲最大看欧美片网站地址| 精品国产美女福到在线直播| 国产精品亚洲专区一区| 国产亚洲精品无码专| 日韩毛片免费| 亚洲美女高潮久久久久久久| 国内视频精品| 国产成人免费视频精品一区二区 | 国产欧美日韩另类| 蝌蚪国产精品视频第一页| 国产爽爽视频|