999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的上市公司高送轉(zhuǎn)預(yù)測

2021-01-06 02:50:58李思銘林志杰李宇欣
北方經(jīng)貿(mào) 2020年12期
關(guān)鍵詞:方法模型

李思銘,林志杰,陳 文,李宇欣,姜 永

(福建農(nóng)林大學(xué)計算機與信息學(xué)院,福州350002)

近年來,我國證券市場的高速發(fā)展催生了一批題材股,其中的高送轉(zhuǎn)這一題材無疑是中小投資者強烈追捧的對象。因為實施高送轉(zhuǎn)后股價將做除權(quán)處理,投資者可以通過填權(quán)行情從二級市場的股票增值中獲利。如果我們能準確預(yù)測下一年可能實施高送轉(zhuǎn)的上市公司并提前買入,這對我們投資的安全性具有很大的現(xiàn)實意義。

研究擬通過收集有關(guān)數(shù)據(jù),并采用數(shù)據(jù)挖掘方法篩選出對上市公司實施高送轉(zhuǎn)方案有較大影響的因子,然后利用這些因子建立模型來預(yù)測實施高送轉(zhuǎn)的情況。

一、數(shù)據(jù)來源與數(shù)據(jù)處理

(一)數(shù)據(jù)來源

研究的樣本選自我國上市公司3 466只股票,相關(guān)因子數(shù)據(jù)有營運資本、投入資本、基本每股收益等,共360個因子,反映了上市公司近七年間股票盈余與公司經(jīng)營情況,共約2.4萬條樣本。

(二)數(shù)據(jù)預(yù)處理

1.缺失值處理。可分為缺失值刪除和缺失值填充兩部分,當特征屬性列缺失值超過總數(shù)的一半,就會直接刪除該列。余下的特征屬性列則根據(jù)缺失情況可分為間斷缺失和連續(xù)缺失,分別進行均值填充和拉格朗日插值填充。

2.異常值處理。箱線圖結(jié)尾去除異常值,在Python軟件中,使用boxplot()涵數(shù),將數(shù)據(jù)中偏大、偏小的“異常數(shù)據(jù)”過濾掉。

3.數(shù)據(jù)標準化。數(shù)據(jù)的標準化是指在處理數(shù)據(jù)時統(tǒng)一不同指標之間的量綱。常用的數(shù)據(jù)標準化有三種方法:min-max標準化、均值方差標準化、非線性歸一化,分別采用這三種變換方法對原始數(shù)據(jù)進行數(shù)據(jù)變換,并畫出對應(yīng)變換后的特征分布圖進行對比,發(fā)現(xiàn)經(jīng)過log函數(shù)的歸一化變換后特征分布較為服從標準正態(tài)分布,說明該種歸一化方法有助于使用梯度下降法求解最優(yōu)解的速度,提高算法的精度。

二、因子篩選

當數(shù)據(jù)預(yù)處理完成后,需要選擇有意義的因子輸入機器學(xué)習(xí)的算法和模型進行訓(xùn)練。通常來說,根據(jù)不同形式可將因子選擇方法分為三種:Filter(過濾法)、Wrapper(包裝法)、Embedded(嵌入法)。研究采用嵌入法,其基本思路是用機器學(xué)習(xí)的算法和模型進行訓(xùn)練,得到各個因子的權(quán)值系數(shù),根據(jù)權(quán)值系數(shù)從大到小選擇因子,這些權(quán)值系數(shù)往往代表了因子對于模型的某種貢獻或某種重要性。

(一)送轉(zhuǎn)股能力因子

在探究對高送轉(zhuǎn)有重要影響的因素的過程中,為了衡量上市公司是否真正具備高送轉(zhuǎn)能力,引入一個可量化的送轉(zhuǎn)股能力(記為C)因子,其計算公式為:

C={資本公積+max[0,max(0,盈余公積-0.25×總股本)+未分配利潤]}/總股本

(二)因子篩選

采用嵌入法挑選特征,可通過Python中的SelectFromModel算法來實現(xiàn),而SelectFromModel算法又包括L1-based feature selection和Tree-based feature selection兩種類型,研究采用第二種,基于LightGBM分類器利用SelectFromModel方法進行因子篩選,特征選擇的閾值為“3mean”,效果最好。最終篩選出的重要因子有25個,各個因子對分類模型預(yù)測結(jié)果的貢獻度,如圖1所示。

按照其對模型重要程度排名前9的重要因子是:每股送轉(zhuǎn)、成交金額_mean、息稅折舊攤銷前利潤、銷售費用/營業(yè)總收入(%)、實收資本(或股本)、基本每股收益同必增長(%)、基本每股收益、成交量_std、總資產(chǎn)相對年初增長(%)。

圖1重要因子的貢獻程度

對預(yù)測模型貢獻度中等的共有14個,分別是投資支出/折舊和攤銷、總資產(chǎn)凈利率(%)、成交金額_std、ebitda/營業(yè)總收入(%)、上市年限、每股未分配利潤(元/股)、最高價_mean、凈資產(chǎn)相對年初增長(%)、送轉(zhuǎn)股能力、成交量_mean、最低價_mean、開盤價_mean、年份(年末)、每股凈資產(chǎn)(元/股)。

(三)因子評價

為了更直觀了解篩選后因子的含義,以促進對上市公司實施高送轉(zhuǎn)動因的認識,將影響高送轉(zhuǎn)的因子分為三類:基本因子、成長因子、時序因子,[1]具體劃分如表1。

表1因子分類

從分類情況來看,對預(yù)測模型貢獻率占比最大的是基本因子,共包含4個重要因子,其次是成長因子,包含了3個重要因子,最后才是時序因子,只含有2個重要因子。這說明在預(yù)測模型中,這3個方面因子的重要性排序應(yīng)該是:基本因子>成長因子>時序因子。

從經(jīng)濟學(xué)的意義上看,首先影響高送轉(zhuǎn)的基本因子反映了該公司的整體資本、運營收入情況,對于是否實行高送轉(zhuǎn)是具有關(guān)鍵決定因素的因子,而成長因子表現(xiàn)了每股股票的實時潛力與本質(zhì)特征,對高送轉(zhuǎn)是具有重大的影響力,最后的時序因子反映了上市股票的變化趨勢,與當前市場的變化情況息息相關(guān),因此,對“高送轉(zhuǎn)”也有不可忽視的作用,特別是當數(shù)據(jù)中存在缺失值時,可以通過對時序因子的預(yù)測來估計未來的股票走勢。

三、預(yù)測模型建立與應(yīng)用

(一)算法選擇

XGBoost算法是一種大規(guī)模并行提升樹工具,應(yīng)用的算法是GBDT梯度提升決策樹的改進,可用于分類和回歸問題。該算法主要將多個分類回歸樹進行集成,對損失函數(shù)進行優(yōu)化,通過設(shè)置閾值或參數(shù),達到一定條件時停止分裂。LightGBM算法是一個基于樹學(xué)習(xí)的梯度提升框架。其原理是基于直方圖的決策樹算法,基本思想是將連續(xù)的浮點特征值離散成k個整數(shù),并構(gòu)造一個寬度為k的直方圖,在遍歷數(shù)據(jù)時用離散值作為指標,在直方圖中積累統(tǒng)計信息,然后根據(jù)直方圖的離散值進行遍歷,尋找最優(yōu)分割點。CatBoost算法是一種基于對稱樹的GBDT框架,具有參數(shù)少、支持類別變量、精度高等優(yōu)點,其主要目的是合理地處理類別特征的問題。

XGBoost作為一款經(jīng)過優(yōu)化的分布式梯度提升庫,具有高效,靈活和高可移植性的特點。LightGBM是一個快速高效、低內(nèi)存占用、高準確度、支持并行和大規(guī)模數(shù)據(jù)處理的數(shù)據(jù)科學(xué)工具。CatBoost性能卓越,具有較強的魯棒性,并降低了過度擬合的機會,方便處理類別型、數(shù)值型特征。在實際應(yīng)用中,我們使用這三種算法對進行因子篩選后的數(shù)據(jù)進行模型預(yù)測,得到的各個算法的預(yù)測得分,如圖2。

圖2三種算法正確率比較

由此可見,LightGBM得分最好,CatBoost緊隨其后,幾乎與LightGBM不相上下,而XGBoost相較于其他兩個算法表現(xiàn)力會差一些。因此,在后續(xù)的模型構(gòu)建與提升中,選擇LightGBM算法進行模型的搭建。

(二)模型構(gòu)建

模型一:基于LightGBM算法的“高送轉(zhuǎn)”預(yù)測模型一,預(yù)測準確率約為88.63%。其中,將標簽1預(yù)測為0的有361個,可以看出模型對于數(shù)據(jù)的學(xué)習(xí)效果欠佳,模型的復(fù)雜度還不夠,欠擬合。

模型二:融合模型(Stacking),該方法的思想是通過對多個單模型融合以提升整體性能。在Stacking方法中,把個體學(xué)習(xí)器稱為初級學(xué)習(xí)器,用于結(jié)合的學(xué)習(xí)器稱為次級學(xué)習(xí)器,次級學(xué)習(xí)器用于訓(xùn)練的數(shù)據(jù)稱為次級訓(xùn)練集,次級訓(xùn)練集在訓(xùn)練集上用初級學(xué)習(xí)器得到。在融合模型中,選擇LightGBM算法、CatBoost算法為初級學(xué)習(xí)器,Logistic回歸為次級學(xué)習(xí)器,由此構(gòu)成基于Stacking方法的“高送轉(zhuǎn)”預(yù)測模型二,其預(yù)測準確率約為88.69%。

模型三:在模型二的基礎(chǔ)上,考慮到數(shù)據(jù)中樣本不平衡的問題,故采取SMOTE方法對數(shù)據(jù)較少的類別進行過采樣,基于LightGBM算法進行模型預(yù)測,通過代碼結(jié)果可知該方法對預(yù)測模型有一定的提升。故將過采樣-LightGBM算法與模型二相融合,得到模型三,該模型算法流程為。

1.提取特征和預(yù)處理。基于LightGBM分類器利用SelectFromModel方法進行因子篩選,使用箱線圖截尾去除異常值,對數(shù)據(jù)進行歸一化變換,進行缺失值填充比較預(yù)測精度。

2.對LightGBM、CatBoost和過采樣-LightGBM算法分別進行參數(shù)優(yōu)化工作,用于Stacking模型。

3.模型構(gòu)建。一是使用SMOTE進行樣本過采樣,分別輸入LightGBM算法、CatBoost算法中比較,確定最優(yōu)過采樣比例,優(yōu)化LightGBM、CatBoost、過采樣-LightGBM算法的參數(shù),作為初級學(xué)習(xí)器。二是基于三個初級學(xué)習(xí)器對訓(xùn)練集進行訓(xùn)練,然后用于預(yù)測訓(xùn)練集train和測試集test的標簽列,將得到預(yù)測結(jié)果進行合并可得新的訓(xùn)練集train2和測試集test2。三是用次級學(xué)習(xí)器Logistic回歸訓(xùn)練train2和預(yù)測test2,得到最終的標簽列pred。

該模型預(yù)測準確率約為88.69%,詳見圖3的混淆矩陣。

圖3模型三預(yù)測結(jié)果的混淆矩陣

(三)模型應(yīng)用

利用建立的預(yù)測模型三,根據(jù)現(xiàn)有的前七年的數(shù)據(jù)對第八年上市公式實施“高送轉(zhuǎn)”的情況進行預(yù)測,得到第八年實施“高送轉(zhuǎn)”的股票共有253只,依概率排序列在前30位的股票編號是:1346、1835、749、3295、3076、1754、3243、2881、3217、2703、621、3127、1616、3220、2040、570、3026、2359、3238、1607、1122、1524、2601、874、258、10、2438、1095、1765、191。預(yù)測準確率為91.06%。

四、模型檢驗與評價

(一)模型檢驗

1.五折交叉驗證。將全部訓(xùn)練集分成5個不相交的子集,相應(yīng)的子集稱作;每次從分好的子集中里面,拿出一個作為測試集,其它4個作為訓(xùn)練集,根據(jù)訓(xùn)練訓(xùn)練出模型或者假設(shè)函數(shù);把這個模型放到測試集上,得到分類率,并計算5次求得的分類率的平均值,作為該模型真實分類率。這個方法充分利用了所有樣本,應(yīng)用于預(yù)測模型一,得到預(yù)測準確率為:[87.43,87.95,88.42,88.00,87.66],平均分:87.89,這說明模型的表現(xiàn)比較穩(wěn)定。

2.時間序列交叉驗證。考慮到模型是以年份為單位進行預(yù)測,屬于時間序列問題,不同年份的樣本可能對模型的影響不同,為檢驗算法的泛化能力,因此,對年份為二、三、四、五、六年的“高送轉(zhuǎn)”情況都進行預(yù)測。這個方法要求具有平穩(wěn)時間序列,即時間序列應(yīng)滿足:常量的均值、常量的方差、與時間t無關(guān)的自協(xié)方差。將該方法應(yīng)用于預(yù)測模型,得到預(yù)測準確率為:[87.43,85.71,86.72,89.35,88.29],平均分:87.50。

(二)模型評價

1.綜合評價。利用精確率(precision)、召回率(recall)以及F1分數(shù)(F1_Score)對模型三的預(yù)測的結(jié)果進行綜合的評價。

表2綜合評價指標

2.泛化能力評價。模型預(yù)測不僅希望對是否實施“高送轉(zhuǎn)”進行正確預(yù)測,同時還希望預(yù)測模型具有穩(wěn)定的表現(xiàn),所以接下來引入ROC曲線對算法模型的泛化能力進行評估。

圖4預(yù)測算法的ROC曲線

當AUC越趨近于1,即ROC曲線下覆蓋的總面積越大,ROC曲線越接近于y軸,分類器的預(yù)測泛化能力越好。從圖中可以看出預(yù)測模型的泛化能力較好。

(三)不足與建議

研究的預(yù)測模型主要是基于集成的決策樹(CART)算法,該算法應(yīng)用的理論是信息學(xué)理論中熵的概念,通過對預(yù)測結(jié)果的綜合評價,可以看出模型的泛化能力不錯,但是模型的學(xué)習(xí)的復(fù)雜度還不夠深。改進建議:在融合模型中可以通過引入更為復(fù)雜的算法,如神經(jīng)網(wǎng)絡(luò)算法、支持向量機,以提高模型的復(fù)雜度,從而提升模型預(yù)測精度。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
學(xué)習(xí)方法
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 国模极品一区二区三区| 本亚洲精品网站| 欧美中文字幕在线二区| 国产精品自在在线午夜| 国产精品美人久久久久久AV| 国产屁屁影院| 美女一级免费毛片| 欧美一区二区三区不卡免费| 欧美日韩另类国产| 久久不卡国产精品无码| 国模视频一区二区| 日韩毛片免费| 91国内在线观看| 欧美第九页| 99在线视频免费观看| 国产毛片高清一级国语 | 中国国产高清免费AV片| 成人福利视频网| 91热爆在线| 蜜臀AVWWW国产天堂| 中文字幕色在线| 福利一区三区| 色噜噜狠狠色综合网图区| 中文字幕 91| 很黄的网站在线观看| 天堂中文在线资源| 57pao国产成视频免费播放| 国产网站黄| 久久香蕉国产线看精品| 欧美精品亚洲精品日韩专区| 亚洲无码91视频| 亚洲精品麻豆| 亚洲av色吊丝无码| 久久国语对白| 毛片视频网| 无码区日韩专区免费系列| 99视频在线精品免费观看6| 亚洲大尺码专区影院| 亚洲第一网站男人都懂| 午夜福利视频一区| 啪啪国产视频| 国产白浆在线观看| 青青草原国产av福利网站| 97久久免费视频| 国产视频自拍一区| 2020国产在线视精品在| 亚洲第一区欧美国产综合| 国产91久久久久久| 国产激爽大片在线播放| 日韩国产另类| 欧美激情一区二区三区成人| 黄色三级网站免费| a级毛片免费在线观看| 亚洲精品中文字幕无乱码| 综合网久久| 高清精品美女在线播放| 亚洲久悠悠色悠在线播放| 她的性爱视频| 欧美亚洲另类在线观看| 久久久久人妻一区精品色奶水| 99久久精品无码专区免费| 91区国产福利在线观看午夜 | 国产视频 第一页| 亚洲av无码成人专区| 国产小视频免费| 特级欧美视频aaaaaa| AV熟女乱| 色综合成人| 欧美在线免费| 亚洲性一区| 亚洲人成日本在线观看| 精品久久久久久久久久久| 国产精品天干天干在线观看 | a色毛片免费视频| 在线国产你懂的| 亚洲视频免| 国产粉嫩粉嫩的18在线播放91| 色综合久久久久8天国| 在线观看免费AV网| 波多野结衣久久高清免费| 国产乱子伦手机在线| 爱色欧美亚洲综合图区|