孟潔瑩



摘 要:本文基于分行業的橫截面財務數據分析影響市盈率的主要因素,提出了PCA-LASSO模型及其精簡模型方法,并對市盈率進行樣本外預測,同時與傳統的線性回歸模型及LASSO回歸模型的結果進行了比較。研究表明,在行業市盈率的樣本外預測方面,所提出的PCA-LASSO模型及其精簡模型方法明顯優于已有的兩種研究方法。所提模型方法融合了主成分回歸和LASSO回歸的優點,既完全消除了多重共線性又實現了對重要變量的選擇,同時具有更高的預測精度,所提方法具有普遍適用性。
關鍵詞:PCA-LASSO模型;市盈率;影響因素;樣本外預測
中圖分類號:F832 文獻標識碼:A 文章編號:2096-0298(2021)05(a)--03
市盈率(P/E ratio)又稱為本益比,指每股市價除以每股盈利(EPS),是判斷股票價值、評估股價水平是否合理的最簡單直觀、最常用的指標之一。Graham 和 Dodder的經典著作《Security Analysis》[1]在其1934年的第一版中已經清晰地給出了市盈率的概念。Whitbeck和Kisor(1963)[2]從股票定價模型出發,認為市盈率與股利支付率成反比,與盈利增長率、風險成正比,與傳統股價定價模型得出的結論一致。Basu(1977)[3]通過實證研究驗證了市盈率是影響股票收益的重要指標之一。
國內的學者對市盈率的影響因素作了大量的研究。王振鵬(2016)[4]基于上證50樣本股2008到2013年的數據,利用線性回歸模型研究了上市公司市盈率和七個指標因素之間的關系。李楊和曾憲斌(2014)[5]分別考慮了LASSO,Adaptive LASSO,Bridge和SCAD四種懲罰函數模型并進行比較,在面板數據框架下應用懲罰似然方法對機械設計儀表板塊的上市公司市盈率的影響因素進行了選擇。
綜合國內外學者的研究,本文的研究不僅關注影響市盈率的重要因素,更注重對市盈率樣本外預測精度的提升。在研究方法上,本文將提出全新的PCA-LASSO的模型方法,它是一種融合了主成分回歸和LASSO壓縮的方法,從而實現了估計過程中對多重共線性問題的完全解決及對顯著影響因素的快速選擇。在此基礎上,我們還進一步提出了PCA-LASSO的精簡模型方法,一方面優化了模型的預測精度,另一方面更加明確了影響市盈率的重要因素。
1 模型方法
1.1 PCA-LASSO模型
記k個解釋變量的觀測數據矩陣為[Xn×k],因變量的觀測向量為[Yn×1]。 PCA-LASSO模型方法可以分兩步實現:第一步,對解釋變量進行主成分分析,得主成分矩陣及因子載荷矩陣:
其中,[PCn×k]為主成分矩陣,包含k個主成分列向量,[Ak×k]為因子載荷矩陣。這k個主成分之間是正交的,不再具有相關性,但還需要通過進一步回歸分析來確定這些主成分對因變量影響的重要程度。第二步,利用因變量Y對第一步中得到的k個主成分進行LASSO回歸,并基于交互驗證CV(cross-validation)的方法確定最優壓縮程度,從而選擇對因變量有重要影響的主成分,得到如下基于LASSO的主成分回歸模型:
其中,β^k×1pcaLAS中的部分回歸系數被壓縮為零,從而實現對重要主成分的自動選擇。
在上述PCA-LASSO回歸模型的估計過程中,完全消除了多重共線性對回歸結果的影響,而且可以準確度量每一個解釋變量對因變量的影響。由式(1)和(2)可得:
1.2 PCA-LASSO的精簡模型
注意到,上述最終的PCA-LASSO模型式(3)中回歸系數向量中一般不會再有回歸系數完全等于零,即所有的解釋變量都參與了對因變量的解釋和預測。當模型中解釋變量數目較多而樣本量較小時,一個一般的常識是解釋變量過多反而會降低模型的預測精度。因此,我們可以在PCA-LASSO模型的基礎上尋找一個最優的精簡模型,具體做法如下:
(1)把所有的解釋變量按照其在φ^k×1中對應的回歸系數絕對值的大小順序,由大到小排列。
(2)利用因變量Y和最重要的一個解釋變量及其在φ^k×1中對應的回歸系數,構建第一個回歸方程,在訓練數據及內,利用CV的方法計算預測誤差RMSE。
(3)在模型中依次引入一個較重要的變量及其回歸系數,將一共得到k個回歸方程,對每一個方程在訓練數據集內利用CV方法計算其RMSE。
(4)在k個回歸方程中,選擇RMSE最小的模型,作為PCA-LASSO的精簡模型。
2 變量選取及數據來源
綜合相關金融理論和研究文獻,我們對可能影響市盈率的指標進行了初步選擇,對數據做了預處理,為模型分析做準備。
2.1 變量選取
本文選取的指標影響因素分為以下6個方面,即6個一級指標,二級指標共計40個。具體指標如表1所示。
2.2 樣本選擇和數據來源
本文根據證監會行業分類標準,選擇了制造業的電子類,以107家上市公司為研究對象,并分別選取了2020年第二個季度的數據用于模型估計,2020年第三個季度的數據用于樣本外預測和模型評價。在市盈率數據的選擇上,本文選用的是中證發布的靜態市盈率,計算公式為股價除以去年每股收益。市盈率數據選用季度財務報告發布月份的最后一天數據(數據來源于同花順金融數據終端iFinD)。
3 實證分析
3.1 樣本內模型參數估計
(1)基于PCA-LASSO模型的樣本內模型估計:利用模型思路,先進行主成分分析,得到40個主成分向量及因子載荷矩陣,再利用LASSO回歸選擇對因變量有重要影響的主成分。后基于該最優主成分回歸的結果,得到市盈率PE與各主成分的回歸結果,即β^k×1pcaLAS的數值。在β^k×1pcaLAS中,很多回歸系數被壓縮為零,從而完成了對影響市盈率的主成分的選擇,具體結果如表2所示。
由表2可知,有22個對PE有重要影響的主成分被保留下來,其他主成分系數都被壓為0。基于因子載荷矩陣及最優LASSO回歸系數,可得式(3)中的系數向量φ^k×1,它直接度量了40個指標對Y的影響。根據回歸系數絕對值大小對這40個系數進行排序,依據排序結果可知,電子類市盈率的影響較大的前十個財務指標依次是X103,X303,X305,X102,PB,X301,X306,X302,X104,X201。
依據回歸系數,可以寫出市盈率PE與相應的40個指標的回歸方程:
(2)PCA-LASSO精簡模型的估計結果:基于上一節中對PCA-LASSO精簡模型的構建思路,利用訓練數據集,計算每一個測試模型的MSE,經計算,當模型中包含前16個指標時,MSE達到最小,從而得到如下模型:
PE=-1.03X103-0.79X303+0.66X305+0.45X102+0.31PB-0.211X301-0.211X106+0.18X302+0.17X104+0.16X201+0.14X204+0.13X105-0.12X312-0.12X307+0.11X404+0.11X502 (M4)
該PCA-LASSO精簡模型給出了最終影響市盈率的16個指標,以及它們對市盈率影響的方向和程度。
3.2 樣本外模型預測與評價
預測的準確與否是評價模型好壞的一個標準。因此,本部分分別將多元回歸模型、LASSO模型、PCA-LASSO模型及其精簡模型應用于樣本外的測試數據集,根據預測的結果和實際的結果進行比較,以評價模型的有效性。本部分采用均方根誤差(RMSE)來衡量預測模型的精度。
利用基于訓練數據得到的四個回歸方程(M1)-(M4)分別對測試數據集進行預測,預測的均方根誤差分別記為RMSE1到RMSE4,具體結果如表3所示。
由表3可知,PCA-LASSO模型的預測效果明顯優于LASSO模型及一般的線性回歸模型;利用精簡模型不但可以完成對影響PE的重要指標的選擇,還可以取得略優于PCA-LASSO模型的預測效果。
4 結語
本文提出了PCA-LASSO模型及其精簡模型的方法,基于分行業的橫截面數據來研究市盈率的影響因素以及對市盈率進行預測。并對2020年電子類107家上市公司的市盈率基于橫截面指標數據進行了樣本內估計和樣本外預測,得到了影響電子類上市公司市盈率的重要因素,對于投資決策具有較好的參考和借鑒意義。
參考文獻
Graham B, Dodd D L. Security Analysis (1th ed.) [M]. Mcgraw-Hill Companies Inc,1934.
Whitbeck V S, Kisor M. A New Tool in Investment Decision-Making[J]. Financial Analysts Journal,1963,19(03):55-62.
Basu S. Investment Performance of Common Stocks in Relation to Their Price-Earnings Ratios: A Test of the Efficient Market Hypothesis[J]. Journal of Finance, 1977, 32(03):663-682.
王振鵬.中國上市公司市盈率的影響因素研究——基于2008—2013年上證50指樣本股數據[J].金融經濟月刊,2016(01):54-58.
李揚,曾憲斌.面板數據模型的懲罰似然變量選擇方法研究[J].統計研究,2014,31(03):83-89.