徐靜
北京聯合大學,管理學院,北京 100101
依法合規運作并真實、準確、完整、及時地披露信息是上市公司的責任。鑒于上市公司質量對推動資本市場健康發展的重要作用,我國資本市場新規頻繁出臺,全面趨嚴的監管環境對上市公司的規范運作提出了越來越高的要求。2020年10月,國務院印發《關于進一步提高上市公司質量的意見》,指出要使上市公司運作規范性明顯提升,信息披露質量不斷改善,為建設規范、透明、開放、有活力、有韌性的資本市場,促進經濟高質量發展提供有力支撐。然而,近年來我國上市公司違規現象時有發生,導致一些上市公司因違法違規頻頻受罰。據證監會官網公開數據統計,2020年證監會共作出行政處罰決定339 件,涉及信息披露違法、內幕交易、操縱市場、限制期內違法買賣、編造傳播虛假信息和超比例持股未披露等,累計罰沒款金額52.96 億元,與2019年罰沒金額41.83 億元相比,同比增長25%。當前,我國證券市場中存在的問題錯綜復雜,上市公司違規行為呈現出以下特點:(1)違規形式復雜多樣,如信息披露虛假、信息披露遺漏、信息披露延誤、違規發行、違規擔保、違規投資證券等,且往往不是孤立的事件;(2)違規手段推陳出新,欺詐發行、信息披露違法、操縱市場、內幕交易等手段不斷增多,且隱蔽性更強,欺騙性更大;(3)違規行為危害巨大,不僅有損上市公司的誠信形象,可能會給投資者帶來潛在的經濟損失,也不利于資本市場的規范有序發展。因此,如何識別上市公司違規行為并有效防治違規事件的發生一直是備受關注的議題。
監管實務中,中國證監會對上市公司及相關各方實行監督管理,通過會同公安部、最高人民法院、財政部、司法部等部門協同執法,近年來對違法違規主體的責任追究力度不斷加大,取得了積極成效。大數據時代背景下,傳統手段已難以快速挖掘出違規案件的線索,這給監管部門的防范調查帶來了困難和挑戰。因此,本文基于上市公司違規行為之間的內在關聯,利用關聯規則發現算法,挖掘違規事件的關聯規則,從中揭示上市公司的違規行為模式。本研究是數據挖掘方法應用于上市公司違規分析領域的新嘗試,具有一定的前沿性,研究結果能夠為監管部門提供更加多樣化的違規案件調查線索和調查方式,有助于推進大數據新型執法。
上市公司為何違規?這仍是學術界研究的一個熱點問題。決定和制約企業行為的因素包括企業利益、目標等內部因素,以及經營環境、市場條件、政策法令和法律制度等制度環境。借用舞弊理論,因利益和目標而帶來的壓力是導致上市違規的根本動因,優化公司治理結構有助于遏制誤報信息等欺詐行為[1]。首先,財務壓力、財務特征是影響上市公司違規的主要因素,當上市公司面臨財務困境或未能實現預期業績目標時,避免報告負面業績、虛增公司增長率的動機便會隨之產生[2]。吳國萍、馬施認為財務壓力會對公司形成行為壓迫,償債壓力、保殼壓力、保盈壓力對公司的信息披露違規行為構成顯著的影響。其次,公司治理也是影響上市公司違規的重要因素,良好的內部控制和公司治理結構對違規行為具有抑制作用[3]。學者們探討了大股東控制權[4]、獨立董事薪酬激勵[5]、高管異質性[6]、CFO 薪酬溢價[7]、董事會背景特征[8-9]等公司治理因素對上市公司違規行為的影響作用。此外,隨著研究的不斷深入,學者們將影響上市公司違規行為的因素擴展到社會信任[10]、市場化改革和政治關聯等外部制度環境[11]。以上研究普遍采用實證研究方法,從中驗證各個影響因素對上市公司違規行為是否具有抑制作用及其效果。
當公司治理結構缺失或外部監管、行業規制不到位時,上市公司很可能出于內外壓力或自身利益而出現違規行為[12]。美國注冊舞弊審查師協會(ACFE)將欺詐界定為腐敗、資產挪用和欺詐性陳述,每種行為都具有特定的性質[13]。違規的類型與表現形式復雜多樣,按照違規涉及內容,包括重大遺漏、虛假記載、虛構利潤、虛列資產、推遲披露、欺詐上市、違規買賣股票、一般會計處理不當、出資違規等。從監管角度來說,這些違規行為可進一步歸類為信息披露違規和公司運營違法違規等。一方面,上市公司信息披露有效性體現為真實性、準確性、完整性、及時性和公平性[14]。相應的,信息披露虛假、信息披露遺漏和信息披露延誤都是信息披露違規的主要表現形式。公司內部人具有進行會計信息操縱的動機和空間,會計信息虛假陳述的形式一般包括虛假記載、誤導性陳述、重大遺漏和不正當披露,它們都是建立在對會計信息重大事件判斷的基礎之上的[15]。信息披露虛假不僅表現為惡意欺詐,還更多地表現為粉飾報表、過度包裝和選擇性披露等隱形的虛假披露行為[16]。根據證券法要求,上市公司信息披露應遵循“重大性”標準,應盡可能全面地覆蓋重要的信息類型,包括公司的經營戰略、資產狀況、財務狀況、經營環境、人事變動、資本分配等,信息披露遺漏更多地體現在對重大事件的認定存在問題[17]。信息披露延誤意味著信息沒有在規定時間內披露,也即信息披露不及時,信息披露及時與否會直接影響會計信息質量,信息披露如果不適當地拖延,就可能失去其時效性和相關性[18]。另一方面,引導資本運作的主體使資本良性運營,獲得合理合法的增值尤其重要[19]。公司運營違法違規是指上市公司違反證券相關法律法規或公司章程規定,在公司治理、重大事件管理、投資者關系管理、履行社會責任等環節運作不合規,主要表現為違規發行、違規擔保、違規投資證券等。此外,上市公司領導人利用職權之便也容易出現違規行為,如領導人違規持股、涉嫌犯罪或失蹤等,都會對股東和公司的利益造成嚴重損害[20]。
監管部門對上市公司的違規行為進行及時識別和適當處罰是十分必要的。然而,對上市公司違規行為進行處罰是一種事后的處理手段,相對于事后處罰,如何有效識別上市公司違規行為并進行預測預警更具現實意義,一些學者對此開展了研究。根據前文對違規動機及其影響因素的分析,基于公司治理和財務特征分析,可用于識別上市公司違規行為。如:鞠雪芹、潘愛玲通過研究發現,規模較小、獨立董事數量較少、資產負債率高、營業利潤率低、非營業利潤額在利潤總額中所占比重較大的上市公司發生違規行為的可能性更大,應當重點監管[21];查道林、雷光勇認為,總資產周轉率越高,總資產收益率越大,獨立董事比例越大,審計報告類型為標準無保留,上市公司受到公開譴責的可能性越低[22]。關于違規行為的識別和預警方法,大數據和人工智能技術催生出新的欺詐調查方式,其關鍵在于利用大數據分析快速發現違規并共享關鍵調查信息[23]。學者們開始嘗試應用數據挖掘方法來構建違規識別和預警模型。Johan Perols 將logistic 回歸、支持向量機、人工神經網絡、bagging、C4.5 和stacking 等常用的統計模型和機器學習模型用于研究財務報表舞弊,并對不同假設下的檢測效果進行了比較[24];劉霞選取新三板市場被處罰公司并與其他未處罰掛牌公司配對作為樣本,結合公司財務、治理、市場交易及動因形成指標體系,運用遺傳神經網絡方法構建了信息披露違規預警模型[25];酈金梁、吳謠、雷曜、黃燕婷把遞延所得稅異動作為檢測和預警公司披露違規行為的指標,通過構建決策樹模型,對違規事件實現精準判別[2];盧靜、吳青群、陳德人將遺傳算法的快速搜索與異常處理判斷模塊結合,設計了證券內幕交易異常數據自動檢索系統,用來監控股票的違規操作[26]。
綜觀國內外研究,針對上市公司違規這一資本市場發展的痼疾問題,學者們開展了持續深入的研究。歸納來說:(1)從研究內容來看,國內外關于上市公司違規行為的研究主要集中在探討公司治理、內部控制、財務特征與違規行為之間的關系,信息披露違規方面的文獻相對較多,經營違法違規方面的學術研究較少,而對上市公司違規行為之間的關聯性問題則鮮有提及。(2)從研究方法來看,現有研究普遍采用實證研究方法,探討公司治理、內部控制、財務特征等因素對上市公司違規行為的影響,在大數據時代背景下,數據挖掘技術如遺傳算法、關聯規則算法、人工智能模型、機器學習模型等逐漸被運用于違規行為研究,代表了該領域的未來研究趨勢和方向。(3)上市公司違規行為關聯分析是一個具有現實意義,但限于數據和方法卻是一個被相對忽視的問題。因此,基于上市公司大數據及關聯規則挖掘算法來研究違規行為間的關聯關系,是不同于傳統研究的新視角,能夠為識別、預測、調查和治理上市公司違規提供支持。
上市公司違法違規并不是孤立的事件,從違規處罰記錄來看,一家公司往往同時存在多項違規行為。可以說,這些違規行為之間存在內在的聯系,一種違規行為可能隱含著另一種違規行為,或者一種違規行為可能誘發另一種違規行為。因此,本文運用Apriori 和Sequence 兩種算法,基于上市公司違規大數據,通過關聯規則挖掘來尋找上市公司違規行為間的有效關聯規則。
選擇因違規行為受到證監會、證券交易所、財政部等機構處罰的上市公司作為樣本,違規數據來自于銳思數據庫(http://www.resset.cn)中的上市公司重大事項違規處罰記錄。該數據集包括上市公司代碼、股票代碼、上市標識等公司標識字段,事件標識、事項主體、信息發布日期、信息來源、事項內容等違規事項字段,以及處理機構、處理對象、處理類型、處理原因、涉及內容、罰款金額等違規處理字段。
為了提供更充分的數據支持,本文選取2000-2020年間上市公司違規處罰記錄共41 771 條,包含所有行業的A 股、B 股和H 股上市公司,剔除掉有缺失值或違規行為分類不明確的樣本,剩余有效樣本17 844 個。
針對上市公司違規行為關聯問題,違規類型將作為關聯規則挖掘中的關鍵變量。沿用前文對違規類型與表現形式的分析,將所有違規類型分為信息披露違規、運營違法違規及其他類型,進而細分二級或三級共15 個小類。變量名稱及代碼如表1 所示。

表1 變量定義Table 1 Variable definition
關聯反映的是事件和事件之間依賴或聯系的知識,關聯規則挖掘是數據挖掘的重要研究領域,旨在從大型數據集中挖掘出隱藏的、相關聯的項集,用于指導決策。
關聯規則挖掘問題的形式化描述是將每條違規處罰記錄對應的違規行為看作一個項記為im,由所有違規行為集合構成項集是項的集合。I的任何非空集合X,若集合X中包含k個項,則稱為k-項集。將每次違規處罰的記錄構成一項事務T,關聯規則事務是項集I的非空子集,即Tk?I。每個事務都有個標識符TID。上市公司違規數據庫實際就是由組成的事務集若X, Y? I且X∩Y= φ,蘊含式或Y?X成為關聯規則。其中項集X ,Y分別為該規則的前項和后項。
在關聯規則中,支持度(support)、置信度(confidence)和提升度(lift)是三個重要的概念。支持度確定規則可以用于給定數據集的頻繁程度,而置信度確定Y在包含X的事務中出現的頻繁程度。一般來說,關聯規則的提升度越大,其價值即有效性也就越大。
上市公司違規行為關聯規則挖掘就是在違規行為中尋找滿足最小支持度的頻繁項集,進而根據置信度閾值構建關聯規則的過程,具體包括以下步驟:
(2) 遍歷違規處罰信息中的違規行為類型,即構造候選1-項集集合C1,k=1;
(3) 計算候選k-項集集合Ck中各個元素在事務集中的支持度(sppu l),并根據(sppu l)∈min_supp 進行篩選,得到頻繁k-項集集合Lk;
(4) 根據k-項集集合構造高階的候選( 1)k+ -項集集合1kC+,其中1kC+中元素的所有k-階子項集都是頻繁k-項集;
(5)向后遍歷,k=k+ 1;
(6)重復步驟(3)、(4)、(5),直至步驟(3)中的頻繁k-項集kL元素個數小于等于1,結束循環,獲得所有頻繁項集的集合L;
(7)根據得到的所有頻繁項集進行規制生成和置信度計算,輸出置信度大于給定閾值的所有規則結果;
(8) 計算規則的提升度,篩選出提升度大于1的關聯規則,并結合違規行為的實際意義對規則進行解釋。
為了有效挖掘上市公司違規數據中潛在知識的關聯,本文選用Apriori 和Sequence 兩種關聯規則挖掘算法,分別從靜態和動態兩個角度,挖掘上市公司違規行為的簡單關聯規則和序列關聯規則。
2.3.1 Apriori 算法
Apriori 算法作為關聯規則挖掘技術最為經典和核心的算法,是在相關聯的候選項集合中找到頻繁多項集的算法,其核心思想在于利用逐層搜索的迭代方法找出數據庫中項集的關系,進而形成簡單關聯規則。簡單關聯規則的一般表示形式是:

X 稱為規則的前項,可以是一個項目或項集,也可以是一個邏輯表達式;Y 稱為規則的后項,一般為一個項目,表示結論或事實。
Apriori 算法包括產生頻繁項集和依據頻繁項集產生關聯規則兩個部分。
(1)產生頻繁項集
對包含項目A 的項集C,將支持度大于等于用戶指定的最小支持度候選集作為頻繁項集。
則C(A)被稱為頻繁項集。包含1 個項目的頻繁項集為一項集,記為L1,包含k個項目的頻繁項集成為頻繁k項集,記為kL。Apriori 尋找頻繁項集的策略是自下而上,即從少量項目的項集開始依次向包含多個項目的項集搜索,經過不斷迭代產生最終的頻繁項集。
(2)依據頻繁項集產生簡單關聯規則
選擇置信度大于用戶指定最小置信度閾值的關聯規則,組成有效規則集合。對于每個頻繁項集L,計算L 所有非空子集 的置信度,若果大于用戶指定最小置信度閾值,則生成關聯規則
2.3.2 Sequence 算法
不同于簡單關聯規則挖掘的靜態分析,序列關聯分析從所收集到的眾多序列中,找到事務發展的前后關聯性,可用于推斷其后續發生的可能性。序列關聯規則的一般形式通常為:

X 稱為規則的前項,可以是一個序列、項目或項集,也可以是一個邏輯表達式;Y 稱為規則的后項,一般為一個項目,表示結論或事實。
Sequence 算法是一種序列關聯規則算法,從發現并描述一個事務序列連續發生所遵循的規律開始,最終生成序列關聯規則。Sequence 算法也包括產生頻繁項集和依據頻繁項集產生關聯規則兩個部分。
(1)產生頻繁序列集
頻繁序列是序列的支持度大于等于用戶指定的最小支持度的序列。Sequence 算法的基本出發點是,應首先尋找最小頻繁子序列,當序列所包含的子序列為頻繁序列時,序列才可能成為頻繁序列。與Apriori 算法類似,Sequence 算法也是在候選集合的基礎上,確定頻繁項集、頻繁子序列和頻繁序列。
(2)依據頻繁項集產生序列關聯規則
Sequence 算法采用的是一種動態數據的處理策略,它將頻繁序列組織成鄰接格的形式。鄰接是指如果序列A 增加一個最小子序列后就能夠得到另一個序列B,則稱序列A 和序列B 是鄰接的。鄰接格能夠有效反映頻繁序列的內在關系,它使序列關聯規則的生成更加準確和快捷。
本文運用SPSS Modelar18.0 數據挖掘工具,按照跨行業數據挖掘過程標準(CRISP-DM)流程,進行上市公司違規行為的簡單關聯規則挖掘和序列關聯規則挖掘。
利用Apriori 節點建模,以上市公司代碼作為標識字段,以違規事項作為分析內容,在最小支持度5.0%和最小置信度30.0%條件下,設定最大前項數為3,過濾掉重復和增益系數低的關聯規則,共獲得有效關聯規則9 條。
3.1.1 一項集關聯規則
一項集關聯規則包括7 條,如表2 所示。

表2 簡單關聯規則(1 項集)Table 2 Simple association rules (1-itemset)
從一項集關聯規則來看,如果上市公司存在運營違法違規行為,包括違規投資證券、領導人涉嫌犯罪或領導人違規持股,那么該上市公司也有很大可能同時存在信息披露違規行為;如果上市公司信息披露虛假,則很可能信息披露延誤;如果上市公司信息披露遺漏,往往也伴隨著公司運營違法違規。
3.1.2 二項集關聯規則
二項集關聯規則包括2 條,如表3 所示。

表3 簡單關聯規則(2 項集)Table 3 Simple association rules (2-itemsets)
從二項集關聯規則來看,如果上市公司信息披露虛假并且延誤,則運營違法違規的可能性也較大;如果上市公司存在運營違法違規并且信息披露延誤,同時也可能信息披露虛假。
利用Sequence 節點建模,以上市公司代碼作為標識字段,以信息發布日期作為時間字段,以違規事項作為分析內容,在最小支持度5.0%和最小置信度30.0%條件下,設定最大前項數為3,過濾掉重復和增益系數低的關聯規則,共獲得有效關聯規則4 條,均為一項集關聯規則,未發現二項集關聯規則。序列關聯規則如表4 所示。

表4 序列關聯規則Table 4 Sequence association rules
從序列關聯規則來看,如果上市公司出現運營違法違規,存在違規投資證券、領導人涉嫌犯罪或領導人違規持股等行為,那么信息披露違規便會隨之而來,后續很可能就會出現信息披露虛假、遺漏或延誤。因此,更多地關注上市公司違規的前項事件,在一定程度上能夠減少或規避后項事件發生的可能性。
根據上市公司違規行為之間的關聯關系鏈接可生成派生節點,代表存在兩個或多個違規行為的樣本。為了描述樣本群的特征,以違規類型作為條件或預測變量,以上市公司的上市標識、交易所標識、股票上市日、當前狀態、所屬行業門類及省份與直轄市等為條件變量,進一步進行關聯規則挖掘,將置信度較高以及條件中包含違規類型變量的規則進行篩選,得出的相關規則依據置信度排序如表5 所示。

表5 樣本群關聯規則Table 5 Association rules of sample groups
其中,規則1、規則2、規則4 表明了上市公司的上市標識、交易所標識、股票上市日期、所屬行業門類及地域特征與違規行為之間的關聯關系;規則3、規則5 的條件中包含上市公司運營違法違規信息,連同其他條件,在高于65%的置信水平上會存在信息披露違規。分析條件變量可以看出,與上市公司信息披露違規密切關聯的因素主要有A 股市場、主板、制造業、廣東省等,說明符合規則條件的上市公司較其他類型公司而言違規的可能性更高。需要說明的是,具有上述特點的上市公司本身數量較多、所占比例較大,數據集中對應的違規事項記錄也相對較多,關聯規則挖掘出的違規條件,大體上反映了違規上市公司樣本的基本特征。
本文運用Apriori 和Sequence 關聯規則挖掘算法,對上市公司違規行為間的關系進行了關聯規則挖掘。主要研究結論如下:(1)上市公司的違規事件往往不是孤立發生的,一種違規行為可能關聯著另一種或多種違規行為。這種關聯關系可以從靜態和動態兩個角度進行解讀,上市公司可能同時存在多種違規行為,一種違規行為可能會誘發其他的違規行為。(2)根據Apriori 和Sequence 關聯分析結果,公司運營違法違規作為前項更容易引發信息披露虛假、遺漏或延誤等違規。從違規動機及其影響因素分析可知,當上市公司運作存在不規范時,最終從其財務報告及相關信息披露上會得以反映,因而這種前項和后項關系符合上市公司違規的基本邏輯。(3)違規樣本群在上市標識、交易所標識、股票上市時間、所屬行業和地域等方面體現出一定的特征,可用于違規行為的識別和預警。補充收集違規上市公司樣本的財務數據及其他信息,進而挖掘上市公司違規行為的更多特征,將是作者后續開展深入研究的方向。
本研究的貢獻在于,基于上市公司大數據及關聯規則挖掘算法研究違規行為間的關聯關系,基于違規動機及其影響因素分析,從理論層面解釋了關聯規則的合理性。研究結果對于上市公司違規行為具有預警作用,能夠為識別和預測上市公司違規行為提供線索,從一種違規行為可以預測與其關聯的其他違規行為,因而有助于監管部門依據違規行為的關聯規則開展案件調查,具有重要的應用價值和現實意義。
利益沖突聲明
所有作者聲明不存在利益沖突關系。