999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于組合模型的上市公司高送轉預測

2020-06-03 02:46:20
數學理論與應用 2020年3期
關鍵詞:模型

(貴州大學 數學與統計學院,貴州省博弈決策與控制系統重點實驗室,貴陽,550025)

1 引言

高送轉股票是指上市公司高比例送紅股或者高比例轉贈股票的簡稱,一般市場送轉比例超過0.5(包括0.5)被認為是高送轉.高送轉本質上是股東權益的內部結構調整,無論是送紅股還是轉增股票都是將資金轉化成股票的形式發放給投資者,對公司的盈利能力沒有任何實質性影響,所以也并不會改變公司總市值.一些研究表明,高送轉預案公告前后均存在顯著的超額收益率[1-5].所以對投資者而言,如果能提前預知上市公司是否高送轉,不僅能享受除權前的超額收益,還能從除權后的填權行情中獲利.因此能準確預測可能實施高送轉的公司對投資者來說有著重大意義.

對于高送轉預測問題,許多學者已有了相應的研究.熊義明等(2012)[6]將不同送轉理論納入logistic回歸模型.送轉理論中包含的變量有股價、股本、每股積累、每股收益、凈利潤增速、市值賬面比、是否次新股、上年是否高送轉和低價股9個變量.基于中國市場2006-2010年數據進行樣本外預測,其主要方法是以第t年之前的數據為基礎估計獲得系數,然后結合第t年的自變量數據,計算第t年高送轉的概率,并與實際情況對比,最終得到各年份的預測準確率在50%-90%之間.王鵬等(2016)[7]基于logistic回歸模型分析影響創業板上市公司進行高送轉的因素,研究表明:影響創業板上市公司進行高送轉的因素主要是股價與公司總市值.潘明娟等(2016)[8]以2015-2016年上市公司為研究樣本,通過運用多項logistic模型實現分檔預測以及線性回歸來構建相關因子之間的關系,以此制定具體投資策略獲得盡可能大的超額收益率.石好等(2016)[9-10]采用logistic回歸與主成分分析相結合的方法,構建了年報高送轉股票的預測模型,直接選取每股凈資產、每股資本公積金、每股未分配利潤、每股現金凈流量、上市時間、股價和股本7個解釋變量代入此預測模型,實證結果顯示:預測準確度最高可達80.91%.王凱等(2016)[11]利用上市公司三季度財報數據,采用3種集成學習算法構建預測模型,結果顯示,由K-近鄰算法、決策樹以及加懲罰項的logistic回歸算法組成的“組合”模型預測得到的高送轉股票組合表現最優.胡宸(2019)[12]運用邏輯回歸和支持向量機的集成學習預測上市公司下一年是否高送轉以及對投資策略設計做了一些深入的探討.

上述文獻中大多數學者采用logistic回歸模型,后來有些學者利用組合模型的方法對高送轉進行預測,但是其組合模型是求取各模型算法類別概率的均值,未考慮到各模型的預測正確率的高低.本文數據來源于點寬網絡科技有限公司提供的3465家上市公司7年的年數據交易信息.本文在模型的構建中,考慮到各模型的預測正確率的高低,將各單一模型進行線性組合,利用拉格朗日函數求得組合模型中各單一模型的權重,最后基于此組合模型進行預測,提高了預測準確率.本文的結構安排如下:在第2節中,介紹建模的相關理論以及組合預測模型的方法.在第3節中,構建模型并進行實證分析.第4節是結論,對全文進行總結.

2 相關理論及組合預測模型

2.1 隨機森林

隨機森林(Random Forest,RF)算法是Breiman在2001年提出的一種集成算法,它利用bootstrap自助抽樣方法,采用決策樹和bagging的結合模式,在以多棵決策樹并行的基礎上結合成為一個強學習器.該算法在對有眾多特征變量的數據處理時可以用來篩選出重要變量,進而再進行后面的一系列建模分析.在本文數據集中,正類數據約占15%,負類數據約占85%,對于不平衡的數據集來說,隨機森林算法可以平衡誤差.

2.2 Lasso回歸

Lasso(Least absolute shrinkage and selection operator)方法是以縮小變量集(降階)為思想的壓縮估計方法,它通過構造一個懲罰函數,將變量的系數進行壓縮并使某些回歸系數變為0,進而達到變量選擇的目的.

2.3 Logistic回歸

邏輯(Logistic)回歸模型是一種廣義線性模型,適用于處理結果變量為二值型變量或分類變量的回歸問題,即結果變量Y可以取0或1(其中Y=1表示事件發生,Y=0表示事件不發生),其條件概率分布如下:

其中g(x)=β0+β1x1+β2x2+…+βpxp.

2.4 決策樹

決策樹算法是一種逼近離散函數值的方法.它是一種典型的分類方法,本質上決策樹是通過一系列規則對數據進行分類的過程.決策樹構造可以分兩步進行:(1)決策樹的生成:由訓練樣本集生成決策樹的過程;(2)決策樹的剪枝:決策樹的剪枝是對上一階段生成的決策樹進行檢驗、預測和修正的過程,主要是用測試數據集中的數據校驗決策樹生成過程中產生的初步規則,將那些影響預測準確性的分枝剪除.

2.5 組合預測模型

將多種模型進行組合可以充分發揮各模型的優勢,預測出的結果也更加可靠.假設有M個子模型,則其線性組合的數學表達式如下:

為了提高組合模型預測準確率,引入各分類模型的分類準確率作為權重系數的懲罰項.在本文中,M=2,構造的損失函數[16]如下:

(1)

其中,fi,gi分別為logistic回歸模型和決策樹模型的預測類別概率,λ為拉格朗日乘數,αm為第m個模型對應的權重,wm為各模型分類準確率(m=1,2).

由于函數L(α1,α2)為二次凸函數,故有唯一的極值點,即最優權重,它可利用Python軟件求得.

3 實證分析

3.1 數據預處理

本文中的年數據共計24262個.數據涉及的范圍廣、量大,且有部分數據缺失.若某只股票或某變量缺失信息太多,則將其舍去,如果缺失值較少,就采用向前填充的方法將缺失值填充為前一個值.由于不同量綱的數據之間的差別可能會很大,所以將數據進行標準化處理.

3.2 數據特征提取

3.2.1 基于隨機森林算法的特征提取

通過預處理階段對缺失值的處理后,年數據中有未分配利潤、凈債務、留存收益、資本公積、每股收益、每股現金流量凈額等228個指標變量,其中有許多冗余變量,且數據量龐大、結構復雜.隨機森林算法剛好適用于這種類型的數據.故采用該算法對年數據中228個指標進行分析處理,得到每年的各個變量重要性得分,再篩選出得分較高的變量作為影響股票高送轉的重要因子.

圖1與圖2是從第3年到第6年數據的228個指標中選取的最重要的前30個指標.Mean Decrease Gimi通過基尼(Gini)指數計算每個變量對分類樹每個節點上觀測值的異質性的影響,據此比較變量的重要性.該值越大表示該變量的重要性越大.從圖1中可以看出,第3年和第4年數據的變量重要性中上市年限的值最大,從圖2中看出,第5年和第6年數據的變量重要性中基本每股收益的值最大,說明上市年限與基本每股收益這兩個因子對上市公司是否實行高送轉具有重要影響.在這4年數據的指標中80%的指標是重復的,所以選取這4年的重要變量,最后選出了上市年限、基本每股收益、有形凈資產、營運資本、留存收益等43個變量(因子).

圖1 第3-4年變量重要性

圖2 第5-6年變量重要性

3.2.2 基于Lasso方法的特征提取

運用Lasso方法對基于隨機森林算法選取的43個變量提煉出更加重要的變量放入模型.表1為第3年到第6年數據中系數不為0的變量.

表1 第3-6年系數不為0的變量

綜合第3年到第6年數據中的重要變量,我們得到11個重要因子:每股收益(期末攤薄)、基本每股收益、每股凈資產、每股資本公積、每股公積金、每股未分配利潤、每股留存收益、總資產凈利率、總資產報酬率、上市年限、每股送轉.

3.3 模型預測與評價

本文構建的高送轉預測模型是基于兩個單一模型的組合預測模型.根據數據中的信息,高送轉預案公告日一般都在一年中的3月份或4月份,因此可根據上一年的數據預測下一年是否高送轉.據此,我們確定解釋變量是在3.2中選取的第t-1年的11個重要因子,被解釋變量為第t年的是否高送轉.數據集分為訓練集和測試集,訓練集為第t-1年的數據,測試集為第t年的數據.第一種模型是基于logistic回歸建立的預測模型,第二種模型是基于決策樹的二分類預測模型,然后將這兩種模型依據權重進行線性組合,組合權重由拉格朗日函數求解.

對式(1)中的損失函數關于各變量求偏導并令它們等于零,得:

(2)

利用Python對式(2)進行求解得到各年份每個模型的權重,進而得到如下的各年份的組合模型:

第5年的組合模型:

0.488×fi+0.512×gi,

第6年的組合模型:

0.764×fi+0.236×gi,

第7年的組合模型:

0.555×fi+0.445×gi.

Logistic回歸模型、決策樹模型和組合模型的預測準確率,結果如表2和圖3所示.

表2 各模型預測準確率

圖3 各模型預測準確率

從表2中可以看出,在第6年的預測準確率中,logistic回歸模型的預測準確率為76.59%,決策樹模型的預測準確率為73.795%,組合模型的預測準確率為77.9798%,可見決策樹模型的預測準確率最差,組合模型的預測準確率比決策樹模型的預測準確率提高了4.19%,比logistic回歸的預測準確率提高了1.39%.同理,在第5年的預測準確率中組合模型提高了1.01%(相比較于各單一模型中的最優模型,下同),在第7年的預測準確率中組合模型提高了0.6%.由圖3可以看出,組合模型的預測準確率比各單一模型的預測準確率都要高,可見組合模型可以表現出更加優越的效果.

4 結論

本文基于組合模型對高送轉公司進行預測.為了提高預測準確率,首先根據數據不平衡的特點,利用隨機森林算法從228個指標變量中選取出43個因子,之后為防止解釋變量間相關系數過大而造成過擬合的情況,又利用Lasso方法在選出的43個因子中選出11個重要因子放入模型.從實證分析結果可以看出,基于損失函數確定權重的組合模型的預測準確率比各單一模型的預測準確率都要高,相比單一模型中的預測,組合模型的預測準確率最高提高了1.39%,說明該組合模型是有效的.

證券市場中的股票實施高送轉時在預案公告日公布之前的一段時間股價會持續抬升,帶來顯著的正的超額收益,因此是中小投資者強烈追捧的對象,所以對上市公司是否實施高送轉的預測是一個比較熱門并且很有意義的問題.本文的組合模型是logistic回歸模型與決策樹模型的線性組合,其權重是由拉格朗日函數確定的,考慮到了各算法的好壞,所以組合模型的預測效果要比各單一模型的預測效果要好.因此,采用組合模型預測可以為中小投資者提供可靠的具有理論支撐的決策依據.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 久久夜色精品| 高清无码不卡视频| 思思热在线视频精品| 日本成人精品视频| 精品午夜国产福利观看| 亚洲色图欧美视频| 小说区 亚洲 自拍 另类| 亚洲日韩国产精品无码专区| 亚洲综合中文字幕国产精品欧美| 91在线视频福利| 色吊丝av中文字幕| 国产精品自拍露脸视频| 久久成人18免费| 国产精品人莉莉成在线播放| 国产成人8x视频一区二区| 国产网站免费看| 国产青榴视频在线观看网站| 国产成人夜色91| 最新日韩AV网址在线观看| 国产91无毒不卡在线观看| 国产精品丝袜在线| 亚洲无线国产观看| 国产成人91精品| 国产精品久久精品| 香蕉久久国产超碰青草| 91啦中文字幕| 中文字幕第4页| a在线亚洲男人的天堂试看| 3p叠罗汉国产精品久久| 乱系列中文字幕在线视频| 成人无码区免费视频网站蜜臀| 婷婷在线网站| 91九色国产在线| 国产成人综合网| 无码电影在线观看| 国产AV无码专区亚洲A∨毛片| 久久综合丝袜长腿丝袜| 亚洲成人高清无码| 久久精品国产亚洲麻豆| 亚洲色欲色欲www网| 国产无码精品在线播放 | 色妺妺在线视频喷水| 91成人在线观看| 夜夜拍夜夜爽| 青青操视频免费观看| 成人免费网站久久久| 精品久久香蕉国产线看观看gif| 99激情网| 九月婷婷亚洲综合在线| 日本在线免费网站| 久久综合色天堂av| 伊在人亚洲香蕉精品播放| 国产精品欧美激情| 在线观看无码a∨| 中文一区二区视频| 最新国产成人剧情在线播放| 青青草原国产| 亚洲香蕉久久| 午夜欧美在线| 茄子视频毛片免费观看| 欧美一区二区精品久久久| 人妻少妇久久久久久97人妻| 尤物成AV人片在线观看| 天天激情综合| 自拍欧美亚洲| 亚洲欧美激情小说另类| 中日无码在线观看| 国产一级α片| 国产精品xxx| 亚洲综合精品第一页| 国产精品无码翘臀在线看纯欲| 国产乱人伦偷精品视频AAA| 在线精品自拍| 在线精品视频成人网| 日本不卡视频在线| 99热国产这里只有精品无卡顿"| 国产日韩久久久久无码精品| 久久公开视频| 六月婷婷综合| 2021国产v亚洲v天堂无码| 国产一区亚洲一区| 四虎永久在线精品国产免费 |