麥繼芳,趙海清
(嶺南師范學院 數學與統計學院,廣東 湛江 524048)
近年來,我國證券市場的快速發展催生了一批題材股.其中,“高送轉”題材股深受國內外眾多學者關注.對“高送轉”預測問題的研究,現行的主要研究方法有logistic 回歸分析方法及logistic 模型與其他模型相結合的分析方法.文獻[1]采用logistic 回歸模型對創業板上市公司“高送轉”的影響因素進行分析,研究結果表明:創業板上市公司“高送轉”的主要影響因素是公司總市值及其股價.文獻[2]使用logistic 回歸模型與主成分分析相結合的方法,構建高送轉股票的預測模型,預測準確度最高可達80.91%.文獻[3]運用logistic 回歸模型和支持向量機集成的方法對上市公司是否實施“高送轉”行為進行預測分析.文獻[4]采用 logistic 回歸和決策樹方法構建兩種預測模型,最后基于損失函數確定權重將兩種預測模型按權重進行線性組合建立組合模型,預測準確度最高可達85.19%.筆者在已有的研究基礎上,結合灰色預測模型與支持向量回歸模型的優勢,混合應用灰色預測模型與支持向量回歸模型對上市公司是否“高送轉”進行預測分析.
Lasso 方法[5]是將參數估計與變量選擇同時進行的一種正則化方法.它通過構造一個懲罰函數,使得一些不顯著變量的系數壓縮為零的方式進行特征變量選擇,其參數估計公式為:


其中,X(1)為X(0)進行一次累加得到的序列,序列為X(1)={X(1)(k),k=1,2,…,n},序列X(0)={X(0)(i),i=1,2,…,n}為一非負單調原始數據序列.灰色預測模型的優點是預測精度高,參數估計方法簡單.

數據源自2012 至2019 年的滬深股市A 股,共3 466 個上市公司的樣本數據.結合現有的數據特征,筆者挑選20 個特征變量進行研究分析(見表1).

表1 初步篩選的變量
在進行模型構建前,若沒有對數據進行合理的清洗就直接用于建立模型,會導致模型的擬合結果出現嚴重偏差,因此在建模之前對數據進行清洗就顯得尤為必要.數據預處理過程分3 個步驟完成:(1)缺失數據的處理.由于原始數據量大,缺失數據占比非常少,直接刪除缺失樣本數據對后續問題分析影響不大,因此對缺失樣本數據采取直接刪除的處理方式.(2)異常值處理.利用3σ原則對異常值進行處理,將超過上下限的極端值分別用-3*σ或+3*σ替代[9].(3)為了消除數據的量綱影響,便于不同量級的指標能夠進行加權和比較,對所有的特征數據進行標準化處理.
若自變量間存在高度相關關系,模型估計的準確性將會降低,甚至會出現違背經濟意義的現象.為了識別自變量間是否存在高度相關關系,對自變量進行相關性分析.由表2 可知,x2和x4、x2和x5的、x4和x5、x6和x7、x6和x8之間的Pearson 相關系數分別為0.98、0.64、0.64、0.98、-0.62,表明自變量間存在多重共線性問題.

表2 各自變量間的Pearson 相關系數
由相關性結果分析可知,自變量間存在多重共線性問題,需對自變量進行篩選處理.利用Lasso 算法進行變量篩選,對公式(1)的中的參數進行求解,對于每個給定y值,該算法會尋找一個最優的λ,使得某些系數壓縮為零,從而達到特征變量選擇的目的.使用python 編程計算得出自變量的系數 .由計算結果可知,凈資產收益率(x1)、每股收益(x5)、速動比率(x7)、資產負債率(x8)、流動資產周轉率(x11)、凈利潤同比增長(x15)、每股資本公積(x17)和每股未分配利潤(x18)這8 個自變量的系數表現為非零,其他12 個自變量的系數全部為零(表現不顯著).因此,剔除系數為零的自變量.
進一步分析可知,凈資產收益率(x1)、每股資本公積(x17)和每股未分配利潤(x18)可看作為一個公司盈利的一部分,能確保獲得一定的盈利空間,這可作為送轉股的前提條件. 從公司管理者的視角分析來看,公司是否能分配到利潤、盈余公積和資本可對公司實施“高送轉”方案起到關鍵性作用.
每股收益(x5)與“高送轉”行為之間有著較強的正相關關系.王?。?]在中小板上市公司股票“高送轉”市場反應及影響因素研究中也證實了當中小板上市公司的股價越高,公司實施“高送轉”方案的可能性越大.眾所周知,我國證券市場以中小投資者為主,過高的股價會讓他們產生“恐高情緒”,不利于投資者投資,股價過低又會使變現成本高.所以當股價過高時,企業通過拆分股票等行為讓股價降低,從而激發投資活力.因此,股價越高的公司越容易發生“高送轉”行為.又由于速動比率(x7)=速動資產/流動負債*100%,即速動比率越高,企業的速動資產越多,更傾向于發生“高送轉”行為.
資產負債率(x8)、流動資產周轉率(x11)和凈利潤同比增長(x15)都與企業實施“高送轉”行為成反比,即資產負債率、流動資產周轉率和凈利潤同比增長越低,企業實施“高送轉”的可能性越高.綜上,以上結論與實際情況基本相吻合.
首先,對2012—2018 年的數據(本文稱為歷史數據集)分別建立logistic 回歸模型和支持向量回歸模型(訓練模型);接著,對每個特征因素建立灰色預測模型,得到各個特征因素2019 年的預測值;最后,將建立好的訓練模型與灰色預測模型相結合,對各上市公司2019 年的“高送轉”情況進行預測,并將預測值與真實值進行對比分析.
基于Lasso 方法挑選出來的特征變量,對2012-2018 年的數據分別建立logistic 回歸模型和支持向量回歸模型,所得回歸結果見表3.由logistic 回歸模型回歸結果可知,僅有特征變量x5、x7和x17表現顯著,其殘差離差值為:290.74,AIC 值為308.74;由SVR 回歸結果可知,在3 466 家上市公司中,支持向量數目達3 277 個,訓練誤差率為0.054.

表3 logistic 模型的回歸分析結果
對2012—2018 年每只股票各影響因素特征值的數據建立灰色預測模型,預測出2019 年各影響因素的特征值.以下以第一支股票為例,表4 展示了第一支股票2019 年各影響因素特征值的預測結果,由于篇幅原因,以下僅展示本文第一支股票x7與x18的真實值與預測值的對比效果.該只股票所有變量的預測效果都通過預測精度檢驗.圖1 顯示了自變量與的預測值x7與x18真實值較接近,再次驗證了這兩個特征變量的預測效果良好.

表4 第一支股票2019 年各變量預測值
將以上各個特征的灰色預測模型預測結果分別代入已構建好的logistic 回歸模型和支持向量回歸模型中進行擬合,比較分析以上兩種方法得到的測試結果(見表5).由表5 可知,混合應用灰色預測模型與支持向量回歸模型預測的準確率約為94.52%,而混合應用灰色預測模型與logistic 回歸模型預測的準確率約為71.12%,前者比后者的預測準確率大約提高了23.40%,表明前者所得預測效果更加接近真實情況.圖1 為灰色預測模型與支持向量回歸模型混合應用的預測值與真實值的對比分析結果.結果顯示,除了少部分預測值有所偏離真實值,大部分預測值與真實值近乎重合,再次證明了混合應用灰色預測模型和支持向量回歸模型相結合的研究方法更適用于預測上市公司“高送轉”情況.

表5 模型預測結果比較

圖1 預測值與真實值對比圖
筆者通過混合應用灰色預測模型和支持向量回歸模型對上市公司是否實施“高送轉”進行研究.首先,使用Pearson 相關系數分析方法進行分析,發現自變量間存在嚴重的多重共線性現象.因此,使用Lasso 變量選擇方法進行變量選擇,得到8 個影響的因子.基于Lasso 方法挑選出來的特征變量,對歷史數據分別建立logistic 回歸模型和支持向量回歸模型(訓練模型),緊接著建立灰色預測模型,得到各個影響因素2019 年的預測值.再將灰色預測分析的結果分別代入以上兩個訓練模型中,預測各個上市公司2019年的“高送轉”實施情況.通過比較分析預測值與真實值的結果,證明了灰色預測模型和支持向量回歸模型相結合預測上市公司是否實施“高送轉”更可靠.