【摘 要】 欺詐信息的嵌入導致企業信用風險出現失真現象,如何辨析欺詐信息、還原企業信用違約真實水平是國內外理論與實務界研究的熱點。文章以孤立點挖掘理論為視角,綜合分析了引發企業信用失真的欺詐信息的辨析技術:非線性濾波技術、聚類技術、分類技術、統計技術、信息論技術、近鄰技術與混合技術,并基于研究企業信用失真這一目的,針對欺詐信息辨析技術的創新發展提出了研究方向。
【關鍵詞】 信用失真; 欺詐信息; 孤立點
一、引言
欺詐信息引發的企業信用失真監管問題一直是中國乃至世界的研究關鍵和難點。國際上,從2002年美國安然公司造假與2003年意大利帕瑪拉特的信用降級,到2008年美國發生的次貸危機,無不彰顯出欺詐信息所導致的企業外顯信用失實的巨大危害性。在中國,企業內部通過偽造欺詐信息來維持企業“光輝”形象的例子更是不勝枚舉,從“銀廣夏”的神話破滅到藍田股份的“魚塘里放衛星”,再到2010年的四川長虹“造假門”事件,這些事實無不發人深省,警示著欺詐信息引發的企業信用失真的潛在危險。更為關鍵的是,為應對2008年全球性的金融海嘯,國家啟動了一系列經濟刺激政策,盡管取得了卓有成效的成果,但前期信貸資金的大量投放對信貸機構的風險監控提出了更高要求。后金融危機時代,深入分析企業欺詐信息的類型,創建有效降低企業信用失真程度的校準方法,把握企業的真實信用違約水平并實施針對性的監管尤顯迫切。在此背景下,本文以孤立點挖掘理論為視角,綜合分析了引發企業信用失真的欺詐信息辨析技術,并針對欺詐信息辨析技術的創新發展提出了研究方向。
二、欺詐信息與企業信用失真概述
欺詐信息是指企業從自身利益出發、由企業主觀生成,直接導致企業信用違約水平不能真實呈現的非真實信息。企業信用失真(Credit Distortion)是受通信領域的信號失真、財務領域的會計信息失真等概念的啟發提出的,具體是指由于欺詐信息的嵌入扭曲了企業的真實違約水平,造成了企業信用違約水平失真的現象,欺詐信息的嵌入是導致企業信用失真的主要原因。
國內外鮮見直接對企業信用失真的研究成果,但可供借鑒的參考資料,尤其是關于信息指標造假的文獻相對豐富,代表性的成果主要有:國際上,Ching-Chiang Yeh等(2008)利用逐步回歸方法篩選得到了14個財務變量(負債總額、資產總額、銷貨凈額等)與7個非財務變量(股份盈余偏離差、董監事持股比率等)對欺詐信息指標集進行了歸納;Subrahmanyam A(2010)以50余個指標變量描述了公司收益率,盡管其原意不是以欺詐信息為宗旨展開的研究,但所形成的指標集對該項目的研究提供了有益的幫助。在我國,趙明鳳(2007)通過對28個備選指標變量利用T檢驗的方法提取了收款/流動資產、凈資產比率、資產負債率、營運資本率等八個指標,構建了反映上市公司財務欺詐的指標集;許楠(2010)通過構建會計信息可信度的指標變量、運用Logistic 回歸分析方法建立了會計信息真偽識別模型;黎文靖(2007)從會計穩健性的角度選取衡量會計信息質量的指標,運用股票收益模型和盈余持續性模型考察了深滬證券交易所設立的誠信檔案制度對上市公司會計信息質量的改善程度。盡管這些文獻沒有直接以企業信用失真為出發點研究欺詐信息,但其依然從不同角度對欺詐信息作了詮釋,為該項目的展開提供了基礎。由于這些文獻的指標集處理過程過于復雜,且不能反映企業出于自身利益所采用的信息滯后披露與披露不完整等欺詐行為,為簡約起見,美國穆迪KMV公司從公司資產值的角度,通過利用隨機分析方法構建數學模型對企業信用違約水平加以度量,于是,涌現了許多基于公司資產值或現金流的信用違約問題的研究成果,從理論上實現了信息滯后披露與披露不完整的信息特征,較為突出的成果主要集中在Duffie David Lando(2001)的研究成果上。他們從公司資產價值、現金流的角度構造的信用違約率將有助于研究企業信用失真問題。當然,這些成果在追求簡單的同時也有失偏頗,很難全面地反映真實的企業信用違約水平。
由于企業信用失真是受通信領域的信號失真、財務領域的會計信息失真的啟發得出的,因此,信息失真的很多成果——如對會計信息失真、信號失真等問題的研究所形成的理論與技術對研究企業信用失真有借鑒作用,為此筆者從會計信息失真與信號失真兩方面對相關研究文獻進行梳理:一是針對會計信息失真的研究歷來已久,國際上對會計信息失真的研究成果多集中在定量分析上,在國內,這一方面的研究成果多集中在定性分析失真的原因、手段及方法策略上,也有少量成果集中在定量分析上,如吳紹平等(2004)利用亞力山大·沃爾比重方法對負債失真率等指標進行了簡單的量化與線性加權,提出“會計信息失真率”的概念,盡管此成果所用的理論與方法比較簡單,但為探討企業信用違約真實水平提供了有益的借鑒。二是源于對通信領域的信號失真問題所形成的理論與技術,將對研究企業信用失真提供支撐作用,具有強有力的借鑒作用的研究成果多圍繞信噪比展開,如Agostino Capponi (2009)通過信噪比思想構建信噪比指數開發的用于貨幣危機預警的KLR信號分析方法。
欺詐信息往往通過附著在載體指標上得以呈現,引發企業信用失真是一個非線性過程,總的來說,現有文獻缺少以企業信用失真為反應變量,對欺詐信息的特征與規律進行全面刻畫的研究成果,如何綜合考慮企業信用失真的誘因、提取與篩選欺詐信息的載體指標集并探討其內在規律及演化外顯模式,需做進一步探討。
三、欺詐信息辨析的孤立點挖掘技術
欺詐信息的外顯特征異于常規信息,具備孤立點的基本特征,在數據結構上可劃歸為孤立點(或異常點——Outlier),因此可運用孤立點挖掘理論對欺詐信息加以辨析,特別是近幾年來孤立點挖掘技術在工程故障檢測、信用卡欺騙、計算機圖像處理、醫學檢測等方面的成功運用,為利用孤立點挖掘理論識別企業欺詐信息提供了依據。傳統的孤立點挖掘技術相當豐富,它們為欺詐信息的辨析打下了堅實的基礎。用孤立點挖掘技術對引發企業信用失真的欺詐信息進行辨析的關鍵點主要集中在“輸入數據的結構分析”與“挖掘技術發展與創建”兩個方面,下面分兩部分探討其研究進展。
(一)基于輸入數據結構分析的研究成果
輸入數據信息的結構分析是孤立點挖掘的基礎,描述企業信用失真的每一指標在賦予時序特征的同時,指標集之間的截面關聯結構也不可忽視,因此,下面從時間與截面兩個維度對相關研究成果加以概括:
1.從時間維度來看,作為輸入數據——欺詐信息的時序內在規律是研究重點,主要集中在時序數據的相似度分析、窗口技術、馬爾科夫技術三個方面。
(1)相似度分析:如何計算相似度、根據相似度確定孤立點辨析規則是該技術的核心。代表性方法主要有兩種:采用最長公共子序列標準化長度方法計算序列數據間的相似度與采用譜核方法計算相似度。
(2)窗口技術:窗口技術適用于周期性輸入數據背景下的孤立點挖掘問題,通過提取窗口長度、在一個或多個測試窗口中發現樣本中的異常點,其中異常點判定準則是其關鍵,較為成功的判定準則有t-STIDE技術。
(3)馬爾科夫技術:馬爾科夫技術適應于具有短期記憶特征的時序數據孤立點挖掘問題,代表性成果有:Sotirios P Chatzis等(2011)把t分布引入隱馬爾科夫模型構建了t-隱馬爾科夫模型,利用變分貝葉斯推斷算法對孤立點進行檢測;Dana Ron等(1996)構建了固定長度的馬爾科夫模型等,這些文獻基于不同的領域研究了異常點的識別問題,其中模型構建、模型參數估計方法一直是該部分研究的重點。
2.從截面維度來看,截面數據之間的內在關聯規則的挖掘是孤立點挖掘的關鍵,代表性成果有:John Grznar(2007)通過利用神經網絡的方法分析了系統組織間的非線性內在關聯性并對其孤立點進行了識別;李云等(2008)提出一種基于灰色關聯分析的孤立點檢測算法(OMGRA),通過總評價判斷數挖掘孤立點集,避免人工確定閾值的缺點。
(二)基于孤立點挖掘技術的研究成果
從孤立點挖掘技術來看,國內外對該部分的研究成果相當豐富,針對不同的應用領域應有不同的適用技術,鑒于方法與文獻的豐富性,這里僅梳理對研究企業信用違約真實水平有借鑒作用的國內外研究成果,具體如下:
1.非線性濾波技術:Agostino Capponi(2009)基于公司信息惡意誤報且投資者不能觀測的假定,提出了新的結構化違約模型及“去偽”方法。針對欺詐信息污染后的資產觀測值,運用提出的非線性濾波技術,以帕瑪拉特公司財務欺詐為例進行實證研究,結果表明由帕瑪拉特公司的會計違規行為而導致的虛假數據的“歸真”具有一定的校正作用,但該模型過于簡單,沒有涉及欺詐信息與企業信用失真間的量化關系的深入探討,不過其模型結構及“去偽”方法將對該項目的欺詐信息剝離有很高的參考價值。
2.分類技術:E. W. T. Ngai等(2011)以挖掘分類技術在金融欺詐中的應用為研究進行了綜述,總結了近幾年的的研究成果;M. L. Shyu等(2003)根據主成分分類方法提出一種新的孤立點檢測方案。
3.聚類技術:C Wang(2009)利用核聚類方法并對孤立點加以識別,據此對客戶群關系進行歸類;梁斌梅(2009)基于層次聚類的孤立點檢測方法提出了基于層次聚類的孤立點檢測(ODHC)方法。
4.統計技術:Wayne A. Woodward等(2003)以正態混合概率分布對孤立點加以檢驗;C Caroni 等(2004)借助于似然率與自回歸模型檢測了時序數據的孤立點問題;楊瑞成等(2010)在隨機跳擴散模型的基礎上對重大信息引起的異常點加以檢測,采用MCMC算法對模型參數加以估計,并以人民幣匯率數據進行實證分析。
5.信息論技術:信息論技術主要利用信息熵分析數據所呈現的信息內容,從距離的角度探測孤立點的不規則并加以辨析。
6.近鄰技術:Xiaoqing Weng等(2008)提出一種多變量時間序列異常樣本的識別算法,使用k-近鄰方法查找異常點;岳峰等(2007)提出了基于反向K近鄰(RKNN)的孤立點檢測算法(ODRKNN),運用每個數據點的反向K近鄰個數來衡量該數據點的偏離程度,并有效地檢測出孤立點。
7.混合技術:混合技術是吸收上述幾種理論與方法構建出的組合技術,這是近幾年孤立點挖掘技術的一個新方向,代表性成果主要有:Hui Cao等(2010)在近鄰技術與統計技術的基礎上構建了基于密度—相似度—近鄰原則的孤立點識別算法;呂林濤等(2007)針對國內外金融領域可疑交易的低檢測率問題,通過對RBF神經網絡技術的分析與研究,提出了一種基于APC-III聚類算法和RLS算法的面向反洗錢的RBF神經網絡模型并加以實現。
盡管這些成果不是以企業欺詐信息為識別對象所建立的孤立點檢測技術,但是依然對把握企業的真實信用水平起著基礎性的作用,所不同的是,企業欺詐信息的辨析更為復雜,它是時間維度與截面維度的綜合體,在孤立點挖掘技術設計上既要考慮數據的時間變化規律特征,又要兼顧到截面指標集間的關聯復雜性,需要在現有理論的基礎上進一步發展及創建。
四、展望
欺詐信息的嵌入是企業信用失真的內因,從現有國內外相關研究成果來看,缺少從孤立點挖掘視角對欺詐信息的辨析技術,具體來說,概括得到如下核心問題亟需解決:
(一)誘發企業信用失真的欺詐信息載體指標集的篩選、量化及內在規律提取
欺詐信息通過附著在載體指標集上呈現出來,其外顯模式——載體指標集的篩選與量化是分析企業信用失真的前提,其內在變化規律是欺詐信息的辨析依據。現有文獻缺少以企業信用失真的成因為出發點,對欺詐信息載體指標集的篩選、量化及內在規律提取的研究成果,因此,如何構建欺詐信息載體指標集、刻畫其內在變化規律需進一步探討。
(二)基于欺詐信息辨析的孤立點挖掘技術創建
現有成果缺少基于欺詐信息辨析的孤立點挖掘技術,需在吸收現有孤立點挖掘理論與方法的基礎上,依據載體指標集的內在變化規律與欺詐信息的特點,發展并創建基于欺詐信息辨析的孤立點挖掘技術。
(三)欺詐信息“剝離”技術的探尋與發展
利用孤立點挖掘技術對欺詐信息有效識別之后,如何對載體指標集中所嵌入的欺詐信息進行“剝離”成為把握企業真實信用違約水平的關鍵所在,于是,欺詐信息的剝離技術需進一步探索與發展。
這些共性問題將成為進一步研究的熱點。●
【主要參考文獻】
[1] Ching-Chiang Yeh,Der-Jang Chi,Sin-Jin Lin. A Study for Detecting Enterprise Financial Statement Fraud[J].Asian Journal of Management and Humanity Sciences,2008,3(1-4):15-30.
[2] 趙明鳳.中國上市公司財務欺詐預警系統研究[J].財會研究,2007;11:50-52.
[3] 許楠.基于會計信息可信度的上市公司優劣甄別研究[J].財會通訊,2010(21):61-63.
[4] 黎文靖.會計信息披露政府監管的經濟后果[J].會計研究,2007(8):13-21.
[5] Duffie David Lando. Term Structures of Credit Spreads with Incomplete Accounting Information[J].Econometrica,2001,69(3):633-664.
[6] Agostino Capponi. Credit Risk Modeling with Misreporting and Incomplete Information[J].International Journal of Theoretical and Applied Finance,2009,12(1):83-112.
[7] E W T Ngai,Yong Hu,et al.The application of data mining techniques in financial fraud detectioe[J]. Decision Support Systems,2011,50(3):559-569.
[8] C Caroni,V Karioti. Detecting in innovative outlier in a set of time series[J].Computational Statistics & Data Analysis,2004,46(3):561-570.
[9] 楊瑞成,秦學志,周穎穎. 基于跳辨識-MCMC組合算法的人民幣匯率跳擴散模型參數估計問題[J]. 系統工程理論與實踐,2010,30(12):2165-2171.
[10] X Weng and J Shen. Detecting outlier samples in multivariate time series dataset[J].Knowledge-Based Systems,2008,21(8):807-812.