侯世君 馮長煥 文雯



摘 要:上市公司財務分析指標數據中有很多缺失數據,其會影響投資者、債權人、管理者及政府部門對上市公司的評價。考慮到傳統的缺失值插補方法對財務數據填補效果不理想,提出了基于格蘭杰因果關系的VAR法對上市公司財務數據填補,對比分析均值插補、EM插補、回歸插補、多重插補,發現VAR法優于前述幾種方法。
關鍵詞:格蘭杰因果關系? VAR插補法? EM插補? 回歸插補? 多重插補
中圖分類號:F275 文獻標識碼:A 文章編號:2096-0298(2020)08(b)--04
對于缺失值填補方法的研究,已有學者提出加權法、均值插補、熱平臺插補、冷平臺插補、回歸插補和模型插補等[1]。Kalton和Kish(1984)提出K近鄰插補法,克服了熱平臺插補法的不足。20世紀70年代EM(Expectation Maximization)算法被Rubin等人提出。
20世紀80年代,Rubin總結并克服了EM算法的缺點,提出了多重插補法[2]。1998年Maren K. Olsen[3]在《Multiple? Imputation? for Multivariate? Missing-data problem》中提出了處理多個變量含有缺失值的多重插補法,并在實際運用中取得了良好的效果。金勇進[4]在《缺失值的插補調整》一文中介紹了演繹估計、均值插補、隨機插補、回歸插補和多重插補等一系列對缺失值的插補方法。袁中萸[5]選取某科學基金會研究學者年薪及評價各指標的數據,結合 SAS軟件,通過估計多元線性回歸模型參數的相對誤差大小,比較了均值插補、EM算法、回歸插補、多重插補4種缺失數據處理方法,在7種不同缺失率下的填補效果。程萬偉[6]用稀疏表示的相關理論研究了時間序列缺失值的插補。潘傳快、祁春節、李思璇[7]借助Bootstrap法,讓模型的參數和殘差來自完全觀測的Bootstrap樣本的最小平法估計提出Bootstrap多重插補法。張曉琴、王敏[8] 提出了主成分回歸方法進行插補。
國內外對缺失值填補方法的研究很多,但鮮有對上市公司缺失財務數據填補進行研究。上市公司的財務數據反映了企業的盈利能力、償債能力、成長能力和營運能力等財務狀況。從歷年上市公司各項財務比率指標來看,發現有很多缺失值。這些缺失的財務指標會影響對上市公司財務狀況的分析。以往對公司財務指標評價的研究大都是通過直接刪除缺失數據對應的公司或刪除相應指標的方法,把刪失后的數據進行綜合財務指標分析。但這種方法往往會導致很多上市公司或指標未納入分析。并且上市公司財務數據各項指標之間都有一定的關聯,屬于面板數據,用以往傳統的插補方法效果不理想。本文針對這種情況,提出一種基于格蘭杰因果關系的向量自回歸法,填補上市公司財務指標缺失數據,以避免分析過程中出現上市公司或指標遺漏的情況。
1 相關理論
1.1 多重插補
利用多重插值的思想來對缺失值進行處理的方法起源于貝葉斯推斷[9],多重插補作為一種基于重復模擬缺失值的方法,面對復雜的缺失值問題時,是最常用的方法。它的插補思想是, 給每個缺失值都構造m個插補值(m>1),從而產生了m個完全數據集,對每個完全數據集采用相同的數據分析方法進行處理,得到m個處理結果,然后綜合這些處理結果,得到最終的目標變量的估計。
多重插補可分為三個階段:(1)對目標變量的估計。(2)創建完全數據集。(3)目標變量的確定。其中最關鍵的階段為目標變量的估計,該階段需要確定估計缺失值的方法,即缺失值是以何種方法或者模型被估計出來,該階段直接影響統計推斷的有效性[10]。
研究多重插補的方法有很多種,如插補值是由回歸模型的預測值加上一個隨機誤差項結合而成的隨機回歸插補法[11]等。
1.2 格蘭杰因果關系
格蘭杰因果關系原理:當兩個變量在時間上有先導—滯后關系時,可以從統計上考察這種關系是單向還是雙向。如果主要是一個變量過去的行為在影響另一個變量的當前行為,存在單向關系;如果雙方的過去行為在相互影響著對方的當前行為,存在雙向關系。格蘭杰因果關系檢驗假設了有兩個變量Y和X的預測的信息全部包含在這些變量的時間序列中,檢驗要求估計以下回歸:
2 財務數據的VAR分析
由于上市公司財務比率數據中各項指標性質不相同,通常具有不同的量綱和數量級,如每股收益(單位:元/股)、每股凈資產(單位:元/股)、存貨周轉天數(單位:天)等存在不同單位;如主營業務利潤率、息稅前利潤率(%)、流動比率、速動比率等不存在量綱影響。如果直接用數據進行分析,會突出數值較高的指標在綜合分析中的作用,相對削弱數值水平較低指標的作用。因此,為了保證結果的可靠性,需要對原始指標數據進行標準化處理。
將上述標準化后的數據進行格蘭杰因果關系檢驗。對于面板數據,若指標序列與指標序列間存在格蘭杰因果關系,標記這些序列為。選取具有格蘭杰因果關系的指標利用軟件進行向量自回歸(常用EVIEWS,默認滯后兩階),可得到序列預測公式:
3 實證分析
3.1 數據來源
實驗數據來自網易財經官網,選擇1992—2018歷年萬科上市公司的年度財務報告數據表1、表2所示,選取的指標包括每股收益(攤薄)、每股凈資產、每股資本公積金、每股銷售收入、每股現金流量、主營業務利潤率、息稅前利潤率(%)、流動比率、速動比率、利息保障數、資產負債率、主營業務增長率、主營利潤增長率、凈利潤增長率、每股收益增長率、應收賬款周轉率、應收賬款周轉天數(天)、存貨周轉率、存貨周轉天數(天)、固定資產周轉率、總資產周轉率、凈資產周轉率等22個指標27年共594個觀測值。
3.2 實驗流程
3.3 數據預處理
3.3.1 標準化處理
為消除不同量綱對實驗的影響,首先對有量綱的數據進行標準化處理,使所有數據處于同一數量級。對于原始數據,若有無量綱,則作為測試數據,若存在量綱(每股收益等),用式(3)對數據標準化處理,最終將所有數據都表示為比率這一數量級。將變換后的數據和無量綱的數據收集到同一個EXCEL表格中作為測試數據。
3.3.2 人為隨機缺失
人為隨機缺失幾個數據作為對照數據,用于對比實驗結果與真實值的相對誤差(帶有*的數據表示本文隨機刪失的數據)。
3.3.3 格蘭杰因果檢驗
對財務數據各項指標進行格蘭杰因果檢驗(為了方便在EVIEWS中操作,我們把各項指標標記為,分別代表每股收益(攤薄)、每股凈資產、每股資本公積金等)。進行格蘭杰因果檢驗之前,首先應對數據平穩性進行檢驗。在EVIEWS中,常用的單位根檢驗是Unit Root Test。若數據平穩,繼續進行格蘭杰因果檢驗。若不平穩,則對數據進行平穩化處理。常見的平穩化處理方法包括對數變換、差分、平滑法等。格蘭杰因果檢驗默認滯后兩階進行檢驗。選取含有缺失數據的指標對格蘭杰因果檢驗結果進行分析,選出含有格蘭杰因果關系的指標。部分結果如表3、表4、表5所示。
3.3.4 VAR模型處理
根據軟件處理結果,對含有缺失數據的指標序列進行向量回歸,直接利用軟件得出數學表達式。
3.3.5 還原數據,比較各種方法效果
將利用模型得出的預測結果帶入式(6),將標準化后數據還原為財務數據,利用式(7)計算出相對誤差,并與隨機刪失的真實值進行對比。
另通過SPSS軟件對各缺失值進行均值插補、EM插補以及回歸插補,作為對照組驗證本文方法的效果,通過表6對各結果進行直觀比較。
4 結語
由以上實驗可以看出,本文所提出的缺失值插補算法在處理面板數據缺失插補時,效果相較于均值插補、EM插補、回歸插補、多重插補等插補方法精度更高。但如果財務指標數據初始年份存在缺失的情況下,用此方法預測的效果不佳,因此本文方法適用于缺失數據未出現在初始位置的情況,適合順向插補。此法不適用于逆向插補,即利用后面的數據對前面缺失數據進行推測(因為時間序列數據前期數據可能會影響后期,但是后期的數據不會影響之前的數據)。因而對于初始位置缺失的面板數據的填補方法仍有待研究。
參考文獻
馮麗紅.調查數據缺失值常用插補方法比較的實證分析[D].石家莊:河北經貿大學,2014.
Gibson, M. G.(1989), Statistical Analysis with Missing Data. Journal of the Royal Statistical Society: Series D (The Statistician), 38. doi:10.2307/2349029
Maren K. Olsen. Multiple Imputation for Multivariate Missing-data problem[OL], http:www.stat.psu.edu/~jls/misoftwa.html,1998-03-09.
金勇進.缺失數據的插補調整[J].數理統計與管理,2001(06).
袁中萸.多元線性回歸模型中缺失數據填補方法的效果比較[D].長沙:中南大學,2008
程萬偉.時間序列缺失值插補方法研究[D].長沙:湖南大學,2018.
潘傳快,祁春節,李思璇.正態線形模型下缺失值的Bootstrap多重插補與比較[J].統計與決策,2017(10).
張曉琴,王敏.基于主成分分析的成分數據缺失值插補法[J].應用概率統計,2016,32(01).
張成萍.殘缺數據的填補[D].長沙:中南大學,2006.
喬麗華,傅德印.缺失數據的多重插補方法[J].統計教育,2006(12).
劉艷玲.調查數據無回答的插補方法及模擬比較[D].天津:天津財經大學,2012.