彭昌
企業非法集資具有嚴重社會危害性。一是參與者容易遭受經濟損失。犯罪分子通過高回報利誘等方式聚攬資金后,任意揮霍、轉移或者非法占有,參與者難以收回資金。二是非法集資嚴重擾亂正常經濟金融秩序,容易引發金融風險。三是非法集資容易引起社會不穩定和社會治安問題,甚至引發局部地區的社會動蕩。如何基于大量企業信息構建預測模型,并判斷企業是否存在非法集資風險,對于監管機構、公司合作伙伴和投資者具有一定價值。
根據大量企業信息,利用隨機森林和LightGBMi兩種機器學習算法分別構建企業非法集資風險預測模型,并對其模型性能指標F1-score值進行對比。
(一)數據預處理
本文實驗中用到的企業信息數據集源于某競賽數據集,包含24865家企業數據,其中14865家企業數據帶有是否非法集資標注,可作為訓練集;剩余10000家企業數據不帶是否非法集資標注,可作為測試集。數據由企業基本信息、企業年報、企業納稅情況、企業變更信息、企業新聞輿情信息和企業其他信息等組成,數據包括數值型、字符型、日期型等眾多數據類型,部分字段內容有缺失,其中第一列id為企業唯一標識,label為目標變量。
對獲取的數據進行數據預處理,包括數據分析、變量篩選、填充缺失值、特征編碼、可解釋性特征提取等操作。
1、變量篩選
根據缺失值占比、Ⅳ值(Information Value,即信息價值)和高相關性進行變量篩選,變量缺失值大于0.5被刪除,變量Ⅳ值小于0.02被刪除(Ⅳ值是用來衡量變量預測能力的,Ⅳ值越大,表示該變量的預測能力越強,一般會舍棄lV值小于0.02的變量),兩個變量相關性高于0.7時,Ⅳ值低的變量被刪除。opto、compform、parnum、exenum、opform、ptbusscope、venind、enttypeminu、midpreindcode、protype、reccap、brreccap、forregcap、congro變量因缺失值大于0.5被刪除,adbusign、regtype變量因Ⅳ值小于0.02被刪除,enttype、enttypegb變量因高相關性被刪除。
2、企業經營范圍關鍵詞篩選
對標注為非法集資企業的經營范圍進行詞頻分析,再對出現頻率較高的詞語進行人工篩選。若企業經營范圍包含這些關鍵詞,則判定為特殊特征。最終篩選的關鍵詞為:投資、咨詢服務、融資、金融、擔保、代客理財、企業管理、股權、實業、資產、創業投資、證券期貨、房地產、咨詢服務、經紀、營銷策劃、商務信息、財務咨詢、進出口、房產中介、貸款。
(二)實驗評價標準
本實驗采用分類任務的F1-score指標作為模型性能的評判標準。F1-score值越高,說明模型預測性能越好。F1-score計算公式如下所示:

P表示精確率(precision),R表示召回率(recall),TP(True Positive)表示正確預測非法集資的企業數目,FN(False Negative)吲表示實際上是非法集資但預測不是非法集資的企業數目,FP(False Positive)是實際上不是非法集資但預測為非法集資的企業數目。
(三)實驗設計
在訓練過程中,將數據集按4:1分成訓練集和驗證集,構建隨機森林、LightGBM兩種機器學習算法模型,對訓練集進行訓練,對驗證集進行驗證,對測試集進行預測,得到兩種算法模型的F1-score指標。
隨機森林、LightGBM模型的F1-score指標表現如表1所示,無論是否對企業經營范圍進行特征提取,隨機森林模型的F1-score指標都優于LightGBM模型。

本文根據大量企業信息數據,構建基于隨機森林、LightGBM兩種機器學習算法的企業非法集資風險預測模型。基于隨機森林模型構建的企業非法集資風險預測模型的F1-score指標優于LightGBM模型。根據企業信息,基于隨機森林算法構建的企業非法集資風險預測模型能夠有效預測企業是否存在非法集資風險,有助于防范化解金融風險,維護經濟秩序穩定,營造良好的金融環境。下一步工作將繼續優化缺失值填充算法和模型參數,充分挖掘算法潛力,進一步提高企業非法集資風險預測模型的性能指標。