米萬東
(蘭州財經(jīng)大學 會計學院,蘭州 730030)
隨著新冠肺炎疫情的爆發(fā),交通運輸行業(yè)受到管控,我國制造業(yè)上市公司面臨著原材料的獲取困難、銷售訂單的取消和減少、存貨周轉(zhuǎn)困難和現(xiàn)金流短缺等危機,這可能導(dǎo)致公司現(xiàn)金流斷裂,發(fā)生財務(wù)危機,使得公司走上舞弊甚至破產(chǎn)的道路。對投資者來說,對該公司的投資會帶來較大的風險。對委托審計機構(gòu)來講,準確地預(yù)測公司財務(wù)狀況可以在審計前對被審計單位有更充分的了解,以及也可以更好的控制審計過程中的風險,因此對公司財務(wù)困境的預(yù)測具有一定的研究意義[1]。ST是指我國滬深交易所對出現(xiàn)財務(wù)狀況異常的公司進行的特別處理,被ST標志著該上市公司陷入了財務(wù)困境,公司的財務(wù)健康狀況較差。被ST公司的財務(wù)狀況受到宏觀經(jīng)濟、公共政策、經(jīng)營策略等因素的影響,并且公司財務(wù)狀況逐步惡化最終陷入困境,通過對公司財務(wù)狀況的動態(tài)監(jiān)測可以盡早發(fā)現(xiàn)存在的問題,防微杜漸。
通過梳理國內(nèi)外的研究,公司財務(wù)困境預(yù)測的方法大致分成三種,分別是單指標分析法、多指標分析法和利用神經(jīng)網(wǎng)絡(luò)、SVM等機器學習分析法。在單指標分析法中,Title[2]用凈利潤與股東權(quán)益的比值以及股東權(quán)益與負債總額的比值兩個變量;Beaver[3]用現(xiàn)金流量和負債總額的比值分別來評估并預(yù)測公司陷入財務(wù)困境的可能性。單指標分析法預(yù)測可能存在不同的指標預(yù)測出的財務(wù)狀況不一致,因為隨著經(jīng)濟的發(fā)展公司財務(wù)狀況變得復(fù)雜,財務(wù)指標也隨之增加,單個指標不能充分說明財務(wù)狀況。Altman[4]提出了Z-score多指標模型,運用多個財務(wù)指標的加權(quán)平均構(gòu)建了被評價公司財務(wù)狀況的體系。吳世農(nóng)等[5]提出了多變量線性判定方法來預(yù)測公司陷入財務(wù)困境的模型。多指標模型相對單指標模型,在多個指標構(gòu)建的綜合判斷上提高了預(yù)測的準確性和可靠性。20世紀80年代,隨著大數(shù)據(jù)、人工智能的發(fā)展,越來越多的學者開始嘗試將機器學習應(yīng)用在財務(wù)預(yù)測方面。趙辰等[6]利用MEA-BP神經(jīng)網(wǎng)絡(luò)構(gòu)建了對財務(wù)困境預(yù)測的模型,并得出了較好的預(yù)測成果,但此研究對財務(wù)困境的預(yù)測只有“是”和“否”兩種結(jié)果,但在實際的場景中情況更為復(fù)雜,輸出[0,1]的連續(xù)值來表示財務(wù)健康狀況將更具有研究價值。
單指標預(yù)測模型和多指標預(yù)測模型存在一定的局限性,首先由于公司的財務(wù)困境是多種因素造成的,單指標分析模型和多指標分析模型很難包含較為全面的影響因素,應(yīng)對可能的影響因素做較為全面的組態(tài)分析;其次之前的研究大多僅采用財務(wù)指標分析,現(xiàn)在越來越多的學者開始研究非財務(wù)指標(例如管理層結(jié)構(gòu)、管理層專業(yè)背景、公司股權(quán)結(jié)構(gòu)、員工數(shù)目、男女比例和薪資水平)對公司運營的影響;再者具體指標的財務(wù)預(yù)測模型可能會使管理層出現(xiàn)逆向選擇,使管理層的經(jīng)營目標是對某些指標的“粉飾”而非公司價值最大化。在“大智移云”時代下,各種指標和數(shù)據(jù)爆炸式增長,機器學習便展現(xiàn)出較大的優(yōu)勢,在處理大量數(shù)據(jù)和一些非線性復(fù)雜問題方面被廣泛應(yīng)用且效果良好。
選取2018年至2021年共303家A股上市公司(不包含金融公司)的85項指標進行分析(數(shù)據(jù)來自于CSMAR數(shù)據(jù)庫)。303家A股上市公司中有114家首次被ST,189家非ST,符合ST與非ST按1∶2選取的大致原則。ST公司的數(shù)據(jù)為首次被ST年度(不含當年)的前三年數(shù)據(jù),非ST公司則統(tǒng)一選取2018年度至2021年度的數(shù)據(jù),利用平均值法對少部分缺失數(shù)據(jù)進行填充。數(shù)據(jù)噪聲指數(shù)據(jù)出現(xiàn)了不合理的情況,例如員工人數(shù)為負的數(shù)據(jù)需要進一步進行剔除,最終選取的財務(wù)與非財務(wù)指標如表1所示。

表1 財務(wù)與非財務(wù)指標
二元Logistic回歸是一種線性回歸分析。多元線性回歸適合分析被解釋變量為連續(xù)變量的情況,當被解釋變量取值為“是”或“不是”、“買”或“不買”這種分類變量時,適合利用Logistic回歸分析。預(yù)測公司是否會被ST,用Y=(1,0)表示公司會被ST,Y=(0,1)表示公司不會被ST,建立二元Logistic模型:
(1)
(2)
式中:xi表示解釋變量;P表示Y=(1,0)的概率;i=1,2,…,85;α表示常數(shù)項;βi表示xi的回歸系數(shù)。
選取的指標越多,越可能對問題的分析帶來更詳細的信息,但較多的指標會帶來共線性問題,帶來冗余的信息。主成分分析是一種數(shù)學上的降維方式,旨在通過正交變換,將原先較多的變量組合成個數(shù)較少且互不相關(guān)的綜合變量,通過較少的變量盡可能多的反映原始信息,有利于下一步的分析。
基本原理:將原來的m個變量轉(zhuǎn)化為新的n個變量,設(shè)表示第i個主成分:
(3)

2.2.1 歸一化處理


(4)

(5)

(6)
式中:Tij表示第i個指標在第j個公司處的值;min(T)、max(T)分別為指標i的最小值、最大值;[Q1,Q2]是該指標最佳值的隸屬區(qū)間。
2.2.2 建立變量間的相關(guān)系數(shù)矩陣R
R=(rij)m×m
(7)
(8)
式中:rii=1;rij=rji;rij是第i個指標與第j個指標的相關(guān)系數(shù)。
2.2.3 計算相關(guān)系數(shù)矩陣R的特征值和特征向量
計算相關(guān)系數(shù)矩陣R的特征值a1≥a2≥…≥am≥0,及對應(yīng)的特征向量?1,?2,…,?m,其中,?j=(?1j,?2j,…,?nj)T,由特征向量組成m個新的指標變量:
(9)
式中,yi是第i個主成分。

圖1第二列總計值代表變量的特征值,特征值大于1是選取主成分的重要標準之一,根據(jù)圖1和圖2選取前27個特征值大于1的指標作為主成分,保存為新的變量Vi進行下一步分析。
在構(gòu)建回歸方程前,需對各解釋變量進行共線性檢驗以保證回歸方程的準確性和穩(wěn)定性,共線性檢驗證明27個主成分的方差膨脹系數(shù)值小于10,說明在降維后變量之間的共線性較弱,可以構(gòu)建Logistic回歸模型。模型檢驗結(jié)果如表2所示,系數(shù)顯著性檢驗的sig值小于0.05,表明最終進入模型的解釋變量與logit(P)的線性關(guān)系顯著,Hosmer和Lemeshow檢驗的值為0.749,大于0.05,說明模型擬合較好,模型總體預(yù)測準確率為90.8 %,預(yù)測結(jié)果較好。

表2 模型檢驗結(jié)果
BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),它的拓撲結(jié)構(gòu)由輸入層、隱含層和輸出層構(gòu)成,BP神經(jīng)網(wǎng)絡(luò)拓撲結(jié)構(gòu)如圖3所示。在傳導(dǎo)過程中信息xi先輸入到輸入層的神經(jīng)元中,由輸入層經(jīng)過權(quán)重ωij的變化傳輸?shù)诫[含層的神經(jīng)元中,再經(jīng)過權(quán)重ωjk和閾值θj的變換傳輸?shù)捷敵鰧拥纳窠?jīng)元中,最終經(jīng)過輸出層閾值δk的變換輸出信息yk。在層與層的傳導(dǎo)中,每個神經(jīng)元通過激勵函數(shù)和閾值變換構(gòu)建聯(lián)系,對信息進行計算和處理。
BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程如圖4所示,利用BP神經(jīng)網(wǎng)絡(luò)預(yù)測可分為訓(xùn)練和預(yù)測兩步,首先將數(shù)據(jù)集分為訓(xùn)練集和測試集。初始化各節(jié)點和層級的參數(shù)后,利用訓(xùn)練集中的數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,將網(wǎng)絡(luò)運算得到結(jié)果的誤差值與期望誤差值進行比較,若輸出結(jié)果的誤差大于期望誤差值,神經(jīng)網(wǎng)絡(luò)將逐層返回調(diào)整網(wǎng)絡(luò)的權(quán)值,經(jīng)過多次迭代至網(wǎng)絡(luò)運算結(jié)果誤差值小于期望誤差值或達到最大學習次數(shù)為止,找到最佳的參數(shù)后再對測試集中的解釋變量進行運算,將輸出的結(jié)果與(1,0)和(0,1)進行比較,判斷神經(jīng)網(wǎng)絡(luò)預(yù)測此公司是否會被ST,最后將預(yù)測結(jié)果和實際結(jié)果相對比,計算出預(yù)測的準確率。
遺傳算法(Genetic Algorithm,GA)是一種模擬自然界生物進化過程,利用優(yōu)勝劣汰的原則尋找全局最優(yōu)解的方法。將需要解決的問題轉(zhuǎn)化為類似染色體基因交叉、變異等過程來對一些較為復(fù)雜的擬合問題進行優(yōu)化。
對于BP神經(jīng)網(wǎng)絡(luò)的輸入層、隱含層和輸出層節(jié)點的閾值和節(jié)點之間的權(quán)值,程序會在[-0.5,0.5]之間隨機確定一個數(shù)作為初始權(quán)值,初始權(quán)值對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果起到重要作用。利用隨機值訓(xùn)練會使神經(jīng)網(wǎng)絡(luò)出現(xiàn)訓(xùn)練時間過長,容易陷入局部最優(yōu)的困境,而遺傳算法可以找到最優(yōu)的初始閾值和權(quán)值,來提高神經(jīng)網(wǎng)絡(luò)預(yù)測的準確率。遺傳算法優(yōu)化具體步驟如下:
步驟1:編碼。將種群中的每個個體用二進制數(shù)組進行編碼,以便于計算機識別和儲存。使用的網(wǎng)絡(luò)結(jié)構(gòu)是85-25-2,權(quán)值和閾值的編碼個數(shù)如表3所示。

表3 權(quán)值和閾值的編碼個數(shù)
步驟2:選擇適應(yīng)度函數(shù)。適應(yīng)度函數(shù)是描述種群中某個個體適應(yīng)環(huán)境能力大小的關(guān)系。選擇種群中適應(yīng)度高的“優(yōu)秀個體”,是找到最優(yōu)解的必要條件。利用神經(jīng)網(wǎng)絡(luò)做預(yù)測,優(yōu)化的目的是使預(yù)測的準確率盡可能提高,因此假設(shè)預(yù)測值與期望值誤差的倒數(shù)為適應(yīng)度函數(shù),計算公式如下:
(10)

步驟3:選擇操作。在選擇時,根據(jù)優(yōu)勝劣汰的原則將適應(yīng)度高的個體選出作為下一代的個體。選擇算子選用輪盤賭選擇法,其原理是依據(jù)輪盤被選中區(qū)域代表被選中的個體,輪盤上面積越大代表個體適應(yīng)能力越大,被選中的機率也越大。pk為個體xk被選中的概率,d表示個體個數(shù),計算公式如下:
(11)
步驟4:交叉操作。交叉操作是指相互配對的一對染色體交換部分基因,從而形成新個體的過程。選用單點交叉算子,交叉方式如下:
Akj=Akj(1-b)+Aijb
(12)
Aij=Aij(1-b)+Akjb
(13)
式中:Akj和Aij是第k個基因和第i個基因在j處交叉生成的新基因?qū)Γ籦是[0,1]中的隨機數(shù)。
步驟5:變異操作。變異操作是指基因座上的某處基因被等位基因替換,從而生成新的個體。變異方式如下:
(14)
(15)
式中,基因Amn的上下界為Amax和Amin;r是0到1之間的隨機數(shù);r′是隨機數(shù);g是當前迭代次數(shù);Gmax是最大進化代數(shù)。
步驟6:將優(yōu)化后的值賦給BP神經(jīng)網(wǎng)絡(luò)的閾值和初始權(quán)值。種群初始化規(guī)模取40,進化代數(shù)取50,交叉概率為0.7,變異概率為0.01。
將303家公司分為訓(xùn)練集和測試集,訓(xùn)練集中包括80家ST公司和132家非ST公司,測試集中包括34家ST公司和57家非ST公司,將歸一化后的數(shù)據(jù)放入matlab中處理,BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果如圖5所示。圖5是僅用BP神經(jīng)網(wǎng)絡(luò)預(yù)測,即使用隨機的權(quán)值和閾值的結(jié)果,將預(yù)測錯誤的用圈圈出。
均方誤差(Mean Squared Error,MSE)是參數(shù)估計值與參數(shù)真值之差平方的期望值。遺傳算法優(yōu)化,BP神經(jīng)網(wǎng)絡(luò)在第六次迭代時達到收斂,均方誤差最小為0.001 157 1,此時網(wǎng)絡(luò)達到最優(yōu)狀態(tài),迭代次數(shù)如圖6所示。通過遺傳算法的優(yōu)化,使誤差從4.8降到了3.8附近,進化過程如圖7所示。
遺傳算法優(yōu)化下的BP神經(jīng)網(wǎng)絡(luò)預(yù)測,GABP預(yù)測結(jié)果如圖8所示。在測試集91組數(shù)據(jù)中,前34組數(shù)據(jù)是ST公司(1,0),后57組數(shù)據(jù)是非ST公司(0,1),將預(yù)測出錯的項用圈圈出。僅用BP神經(jīng)網(wǎng)絡(luò)預(yù)測正確70組,GABP方法下預(yù)測正確86組。BP與GABP結(jié)果對比如表4所示。

表4 BP與GABP結(jié)果對比
實證分析證明通過遺傳算法優(yōu)化初始權(quán)值和閾值后的BP神經(jīng)網(wǎng)絡(luò)解決了陷入局部最優(yōu)的問題,預(yù)測效果明顯好于單純使用BP神經(jīng)網(wǎng)絡(luò)。
聚類分析是一種根據(jù)數(shù)據(jù)特征,將相似的數(shù)據(jù)歸為一類的分析工具,通過對GABP預(yù)測出的結(jié)果聚類分析,可以得出當前市場財務(wù)健康狀況的分類情況。將單個公司的預(yù)測結(jié)果與分類結(jié)果相對比,可以得知該公司財務(wù)狀況在市場上的相對情況。K-means是一種常用的聚類方法,其基本原理是:在數(shù)據(jù)集中隨機選取k個點,然后計算數(shù)據(jù)集中每個點到這k個點的距離,將每個點都劃分到離它最近的點形成的簇中,這樣就首次分成了k類,接著找這k個簇的質(zhì)心,再次計算數(shù)據(jù)集中每個點到這k個質(zhì)心的距離,然后形成新的k個分類,通過不斷的迭代上述過程,找到最優(yōu)的分類結(jié)果。在預(yù)測正確的86組數(shù)據(jù)中,利用K-means聚類方法對數(shù)據(jù)進行聚類分析,最終分為5類,K-means聚類如圖9所示。將86家公司財務(wù)狀況相近的聚為一類,最終聚類形成5種類型,從類型1至類型5公司的財務(wù)健康程度越來越差,越容易陷入財務(wù)困境。
K-means聚類結(jié)果如表5所示,中心點坐標表示該種類型所在簇的質(zhì)心坐標,頻數(shù)是該簇中包含的數(shù)據(jù)個數(shù),百分比是該簇中數(shù)據(jù)數(shù)占總數(shù)的百分數(shù)。從結(jié)果中可以看出當前市場中處于類型1的公司占到52.326 %,說明當前市場超過一半的公司財務(wù)健康程度很好,類型1、2、3代表公司財務(wù)健康程度較好,合計達到66.279 %,這部分公司目前沒有較大的財務(wù)問題,需要繼續(xù)保持當前經(jīng)營策略。類型4和類型5是財務(wù)健康程度較差的公司,占到總公司數(shù)的33.721 %,處于這兩種類型的公司即將陷入財務(wù)困境,需要調(diào)節(jié)公司的經(jīng)營策略,改善公司的財務(wù)狀況。

表5 K-means聚類結(jié)果
對財務(wù)困境的預(yù)測是將盡可能多的影響因素納入模型對風險進行量化,對投資者來說可以根據(jù)公司的財務(wù)健康狀況有選擇地進行投資;對經(jīng)營者來說可以動態(tài)監(jiān)測財務(wù)狀況的變化,找到其原因并及時解決;對審計人員來說可以在審計前對公司的經(jīng)營風險進行了解,審計中可以有計劃的制定審計程序,將審計風險控制在可接受的范圍內(nèi)。
GABP在BP神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過遺傳算法進行優(yōu)化,克服了BP神經(jīng)網(wǎng)絡(luò)收斂速度慢、易陷入局部最優(yōu)的問題。通過建立二元Logistic模型和GABP模型對財務(wù)困境做出預(yù)測,這兩種方法不同處有三點:
(1)在數(shù)據(jù)處理能力方面,選取303家公司3年的85個指標后直接進行Logistic回歸會因數(shù)據(jù)量過大而無法得出預(yù)測結(jié)果,只能先進行主成分分析再進行回歸預(yù)測,然而確定的27個主成分只能解釋不到80 %的總信息(一般要求85 %以上),而BP和GABP均能夠?qū)?shù)據(jù)直接進行分析且模型內(nèi)部會處理變量之間的共線問題,不需要事先經(jīng)過主成分分析,可見在處理大量數(shù)據(jù)擬合的問題上,機器學習的方法會比線性回歸更適合。
(2)在模型預(yù)測精度方面,二元Logistic回歸分析總體預(yù)測正確的百分比達到90.8 %,預(yù)測效果良好,BP神經(jīng)網(wǎng)絡(luò)預(yù)測準確率僅為78 %,經(jīng)過遺傳算法優(yōu)化后,準確率達到了94.5 %,預(yù)測的結(jié)果更加可靠。
(3)在信息可用性方面,二元Logistic回歸分析輸出結(jié)果為0或1的離散變量,對現(xiàn)實情況刻畫不足,GABP可得出[0,1]之間的連續(xù)變量,最終將GABP輸出的結(jié)果通過K-means進行聚類分析,使得公司的財務(wù)狀況能夠進行縱向和橫向?qū)Ρ龋v向分析可以看出公司的發(fā)展趨勢,橫向分析可以得出公司財務(wù)狀況在當前市場的地位,為下一步戰(zhàn)略的規(guī)劃和實施提供依據(jù)。
機器學習模型的預(yù)測相對于二元回歸模型準確率較高、適用性較強,但需要大量的數(shù)據(jù)來訓(xùn)練模型,對于公司數(shù)量較少的行業(yè)適用性較差,并且機器學習的訓(xùn)練過程具有黑箱的性質(zhì),只能分析出自變量與因變量間的相關(guān)關(guān)系,對于兩者間的因果關(guān)系,需進行下一步的案例分析深入研究。