鮑新中,李佳航,李 瑩,徐 鯤
(北京聯合大學 管理學院,北京 100101)
隨著時代發展,電商小微企業不斷涌現。有關部門、電商平臺、金融機構均為小微企業的發展提供了便利,如國務院及相關部委為鼓勵和規范電子商務行業的發展出臺了一系列文件[1]、電商平臺降低電商小微企業的準入門檻、金融機構為電商小微企業提供融資便利等。電商小微企業憑借其累積的采購、交易、信用與資金狀況等信息數據直接獲得融資,故信用在電商小微企業的融資過程中舉足輕重。但電商小微企業體量小、資產基礎薄弱、動態性強、體制構架不完善,存在天然風險抵抗力缺陷,電商小微企業也察覺了自身問題。因此,在電商小微企業融資過程中,對電商小微企業的信用風險進行預測尤為重要。
企業信用風險預警本質上可視為多屬性、多指標決策問題,現有研究中解決這一問題大多基于不同模型的引入、優化、組合不斷提高識別整體風險的精度[2-8]。從原理上看,對企業信用風險的預警可以視為構造數學映射的過程,輸出的企業信用風險的狀態判斷集合對應輸入的相應指標集合[9-10],在該映射關系中,輸出的企業信用風險代表企業某一時間截點的信用風險狀態,輸入的指標在相應的研究時間區間內同時包含某一時間截點的狀態指標和時序變化的動態時序指標。因此,構造合理的映射關系需要將蘊含不同信息的指標映射至同一截面上,對時序指標的多個截面狀態的動態關系耦合,使構建的映射關系合理、適用、滿足理論和實踐要求。其中,狀態指標可以直接反映企業所面臨的信用風險狀態,動態時序指標則更側重反映變化過程,通過不同種類指標的劃分及差異度量使得信用風險預警蘊含動態信息,為現實企業提供較強的理論指導。
本文以淘寶平臺上生鮮行業電商小微企業為研究對象,對電商小微企業的信用風險進行動態預警,并使用實際店鋪數據將僅采用單期截面數據以及同時考慮狀態指標和時序指標的隨機森林模型進行了對比。本文的主要貢獻如下:①擴展構建動態風險預警模型的思路。從風險預警的映射原理入手,根據不同指標的特性采用差異風險度量方法,對于單期截面數據反映的狀態變量,采用線性函數度量指標蘊含的風險;對于需要用時間序列數據反映的時序變量,則借助現代金融理論的資產風險度量方法,將包含企業風險演化趨勢信息的時間序列數據映射為同一截面值,使所獲的截面值包含動態因子。②在動態風險演化過程中,靈活設置參數反映決策者風險偏好。考慮到不同風險偏好決策者的期望預期存在差異,這種差異豐富了風險度量的主觀特性,包含了決策者的主觀風險傾向,很大程度上挖掘出電商小微企業信用風險預警模型的實際應用價值,使得所建立的模型更貼近實際、更具實踐指導意義,這也使得本文構建的模型更具普適性意義,決策者可以通過自身風險偏好設置參數,獲取更為精準的預警模型。
小微企業在融資領域面臨著溢價高、資源少的尷尬境地,因此,提高小微企業的融資效率,降低融資成本成為目前最重要的研究課題。首先,小微企業資金需求數額小、期限短且頻率高的特點使銀行審批更具復雜性;其次,小微企業的財務信息不公開、信用觀念淡薄,在傳統的銀行借貸中,銀企信息不對稱,缺少披露的財會報表、良好的歷史信用記錄等透明信息,導致傳統金融機構逆向選擇[11];最后,小微企業自身規模較小、經營不穩定、成立時間較短,極易受到行業環境和宏觀環境的影響,無形中提高了其借貸風險[12]。因此,小微企業在傳統的銀行借貸中處于劣勢地位,林毅夫等[13]更是提出傳統大型金融機構天生就不是為小企業提供金融服務的論斷。
隨著以云計算、大數據、人工智能為代表的互聯網時代的到來,互聯網融資應運而生,這種融資模式運用互聯網技術和大數據優勢,拓寬了傳統金融借貸服務的邊界、豐富了傳統金融借貸服務主體和手段、延伸了金融服務的觸角[14],為破解小微企業的融資困境開辟了全新的途徑,在助力小微企業成長與發展、改善小微企業融資狀況方面效果明顯[15-16]。互聯網融資比傳統借貸更符合電商平臺小微企業的融資特點,電商小微企業可以憑借其累積的采購、交易、資金狀況等信息數據直接獲得融資,很大程度上解決了銀企間信息不對稱、授信成本過高的問題,具有辦理周期短、成本低、門檻低、流程便捷等優勢。但是新融資模式的發展必然伴隨著風險的產生,融資過程中的信用風險問題自然而然受到關注。
國內外學者對企業信用風險的成因從多維度展開諸多探討。從外部環境來看,市場經濟環境的波動、政府經濟政策的變動等都會波及企業的信用風險[17];從內部環境來看,企業的自身狀況如財務情況、企業規模等會影響企業信用風險[18];結合內外部環境來看,信息不對稱導致的逆向選擇也是造成企業信用風險增加的原因之一。隨著互聯網技術飛速發展,網絡零售積累的交易數據呈現幾何倍增長,電商小微企業的信用風險逐漸擴展其原有外延。相關研究多結合大數據背景開展探索衡量企業信用風險的指標體系,主要集中在兩個方面:①運用大數據的思想彌補以往傳統信用風險研究中的不足[19];②選擇以云端數據庫為依托的新研究對象展開深入研究[1,20-22]。在電商平臺信用風險評價方面,付永貴[23]充分考慮網絡供應商提供的數據資料、信息系統儲存的數據信息、互聯網環境中獲取的行為信息等涉及網絡供應商信用管理的相關數據渠道,在保證獲取數據全面、完整、準確的基礎上,構建了網絡供應商的信用評估模型。信用風險評價應該充分利用互聯網技術的特點,獲取企業的即時動態信息和數據,了解交易狀況、行業狀況、顧客行為狀況等信息[24]。可以看出,在互聯網、大數據、云計算的催化下,信用風險的相關研究不斷延展,出現了新的研究背景、新的研究對象以及新的量化載體,具有廣闊的探索空間。
現有風險預警領域的研究已經充分認識到動態預警的重要性,一部分研究著眼于運用“厚今薄古”的思想賦予時間序列權重[25-28],該研究通過二次加權、縱橫向拉開檔次等方法賦予靜態數據以時序權重,以動態的視野把握風險特征隨時間的變化;另一部分研究利用面板數據的思想,按期考慮風險特征空間狀態變化,運用平滑模型、借助狀態空間思想對未來風險狀態進行預測[22]。另有學者考慮變量本身的變動情況,借用物理中加速度的概念重新定義“成長因子”修正靜態評價[29],抑或運用FPCA 方法提取指標曲線中的動態特征[30]。
電商平臺種類繁雜且行業五花八門,考慮到不同種類的電商平臺、細分行業會造成研究變量不統一,不利于后續研究,因此,本文選擇最穩定為電商小微企業提供交易平臺的淘寶網作為樣本獲取來源,選擇對信用風險較為敏感的生鮮行業作為研究行業。由于現行市面上缺少電商小微企業行業數據庫,故使用python工具分期采集電商小微企業相關數據。以2021年7月31日為首期,15天為周期,共抓取10期數據。隨后運用z-score方法對數據進行標準化處理,將所有指標數據規范至區間[0,1]上,經過處理后得到10期完整的數據序列,為后續研究奠定基礎。
為緩解樣本集噪聲大、模型過擬合等問題,需進行數據清洗。清洗標準如下:①每期獲取1 000份樣本持續追蹤,發現了包括系統自動生成、重復、信息量極少、無效無關、惡意中傷或褒獎、夾帶廣告等噪聲數據,為避免噪聲數據對后期構建的模型產生影響,對噪聲數據進行了剔除。②由于電商小微企業動態極強,極易出現倒閉、歇業、更換店鋪名稱的情況,為保證研究的準確性、合理性,剔除多期觀測過程中出現異常情況的店鋪,包括店鋪名稱改變、店鋪注銷、店鋪銷售數據清除等。需要說明的是,剔除的這部分店鋪雖有可能是風險較大的店鋪,但對本文的研究而言,這部分店鋪的重要信息嚴重缺失,對本文后續的研究并不具參考價值,同時也極易造成樣本集噪聲過大、模型過擬合問題,故剔除這部分店鋪是合理的。③在前述剔除工作的基礎上,進一步對所用樣本數據進行處理,發現仍有小部分數據缺失。考慮到使用不均衡數據集,RF 模型會過度依賴有限的數據樣本從而產生過擬合問題,同時樣本類別不均衡會導致樣本中的特征較少難以挖掘相應規律,故在處理過程中對于小部分缺失值使用序列均值進行填補。最終獲取到337家電商小微企業的10期數據進行研究,既保證動態分析的效果又保證數據集的完整性。
電商小微企業信用風險預警指標的契合性、完整性、合理性會直接影響預警結果的準確性,而受其自身特性影響,電商小微企業信用風險很難用傳統的財務指標來衡量,故以5C 要素理論為基礎,搭建電商小微企業信用風險評級指標體系的框架。互聯網的普及和消費評價信息的公開為數據的實時獲取提供了廣闊渠道,網絡大數據可以替代傳統5C 要素的各項指標[31],如“行為”和“社交”要素可代替5C要素中的“擔保”和“環境”要素,并通過不斷變化的行為和交易數據動態反映信用狀態[20]。因此,結合Cai等[20]的研究,考慮電商小微企業本身特質,本文將文化資本、經濟資本、社會口碑資本對應覆蓋Cai所提出的5C 新演繹中的各項要素。指標體系理論基礎與框架構建如圖1所示。

圖1 電商小微企業信用風險預警指標框架構建Fig.1 Construction of credit risk early warning indicator framework for e-commerce micro and small enterprises
本文構建的指標體系中,主觀是指消費者在店鋪平臺上做出的在線評論所蘊含的情感傾向,客觀是指電商小微企業在經營、交易過程中積累的各種數據。初步構建的指標體系共涉及25個特征變量,但易出現數據冗余或指標間的多重共線性問題,使得構建模型精度下降,因此,本文按指標的重要程度對特征變量進行排序篩選。首先調用python中的sklearn包實現隨機森林輸出特征重要程度。使用OOB err來度量所需選擇的特征變量個數,將特征變量取值為[1,26],通過改變特征變量的個數來觀察模型運行結果的OOB err,選擇誤差相對較小的變量個數。輸出特征變量個數與OOB err的關系如圖2所示。

圖2 特征變量個數與OOB errFig.2 The number of characteristic variables and OOB err
根據圖2可知,總體來看,OOB err隨特征變量個數的增加首先呈現波動下降的趨勢,當特征變量個數超過一定值時呈現波動上升的趨勢,因此,對特征變量進行篩選時,應該在遵循指標體系構建基本原則的基礎上,確保OOB err盡量小。當特征變量的個數取值為12時,OOB err最低為2.3%,但考慮到變量選取的全面性原則,取12 個指標并不合理,不能全面涵蓋各指標,且不具有覆蓋性、代表性;當特征變量數為21時,OOB err次低為2.8%,符合指標體系構建的全面性原則的同時保證了模型迭代的OOB err最低。因此,本文構建的指標體系選擇重要程度排名前21個特征變量,從初始的25個電商平臺小微企業信用風險評價指標中篩選出排名前21的指標。經過變量篩選后信息披露風險、經營活躍度、交易失敗風險和成長風險4個2級指標被剔除,不再作為電商小微企業信用風險評價指標體系輸入。為進一步保證指標間不存在嚴重的多重共線性問題,本文進行了相關系數檢驗,如表1所示。表1的結果顯示,指標之間的相關系數均不超過0.8,指標間不存在嚴重的多重共線性問題。

表1 指標相關系數Tab.1 Indicator correlation coefficient
最終構建起含21個指標的電商小微企業信用風險預警指標體系,如表2所示。

表2 電商小微企業信用風險預警指標體系Tab.2 Credit risk early warning index system for e-commerce micro and small enterprises
表2展示的指標體系中,指標數據主要通過文本挖掘的方式獲得。需要說明的是,定量指標可通過收集電商小微企業財務數據、經營數據、交易數據以及行為數據直接獲取。定性指標可分為無情感傾向和有情感傾向的定性指標。無情感傾向的定性指標包括交易支付風險和店鋪保障風險,經過文本挖掘獲取后仍需進一步處理才能量化。具體地:對于交易支付風險,收集店鋪的支持付款方式,一種方式累加1分;對于店鋪保障風險,收集賣家承諾服務項數,一項累加1分。有情感傾向的定性指標包括產品品質評價情感、物流包裝評價情感、性價比評價情感和店鋪服務評價情感,需在挖掘到文本后進一步對其進行情感賦分,以量化帶有情感傾向的定性指標。具體步驟為:①首先構建情感詞典、程度副詞詞典和否定詞詞典。②在建好三大詞典的基礎上設計情感值計算規則,對每個店鋪的評論文本進行情感量化。參考張公讓等[32]的研究,通過python3.8設計并得到本文情感得分計算體系。③分主題依次進行處理,以“產品品質”主題為例,第1步輸入整理好的無主題情感詞典與具有“產品品質”特征的主題情感詞典,對前文經無用文本剔除、特殊符號刪減、去停用詞以及分詞處理后得到的語料庫進行積極情感和消極情感的標記;第2步輸入程度副詞詞典,以前步驟標記好的情感詞為中心,圍繞其前后1~2個詞搜索有無修飾作用的程度副詞,若有則運用赫夫曼二叉樹,加權路徑最小,判斷程度詞所屬層級,根據上文設置的權值賦值;第3步輸入否定詞典,以前步驟標記好的情感詞為中心,前后搜尋有無修飾作用的否定詞,原理同程度副詞的搜尋;第4步計算每個文檔(每個店鋪)中整體評論得分,綜合輸出該文檔的情感得分,此得分作為該店鋪在線評論中評論者關于“產品品質”的評論情感量化值,得分為正則代表情感積極,正向得分越高表明積極情感越強烈;得分為負則代表情感消極,負向得分的絕對值越高表明消極情感越強烈。
對上述指標數據進行簡要觀察分析后,依據指標的性質,將指標劃分為狀態指標和時序指標。狀態指標是指在研究期內均不會發生較大變動,且在一定程度上已經反映了企業具有的信用風險狀態的指標。時序指標是指僅通過一期截面數據難以判斷電商小微企業面臨的信用風險,風險評價會受到各期指標均衡水平、波動性、極端尾部分散等一系列特征影響的指標。
傳統上市公司以是否ST 作為判別公司信用風險優劣的標準,但電商平臺小微企業靈活性高、信用風險變化迅速,用“一刀切”的思路判斷電商小微企業是否存在信用風險是不合理的。基于上述考慮,本文將其信用風險的產生視為一個變化的過程,劃分為無風險、輕度風險、中度風險和重度風險4 個階段。
首先,通過主成分分析方法提取風險綜合預警指標為
其次,以正態分布的原理在95%的置信概率下設定風險類別的閾值,作為劃分電商小微企業信用風險的分界線,據此設定界定電商小微企業信用風險類別閾值(ηi),設計四段式電商小微企業信用風險程度判定區間。電商小微企業信用風險綜合預警指標閾值具體計算公式為:
式(2)~(4)分別表示3個閾值η0、η1和η2。若RWIt<η2,則說明該企業處于重度信用風險階段;若RWIt>η2<η1,則定義該企業處于中度信用風險階段;若RWIt>η1<η0,則定義該企業處于輕度信用風險階段;若RWIt>η0,則定義該企業的信用非常好,無信用風險。
依照上述思想,對337家電商小微企業進行信用風險級別劃分,劃分后可知337個樣本中,有6個樣本被認為是重度信用風險,類標簽為3,有62個樣本被認為是中度信用風險,類標簽為2,有263個樣本被認為是輕度信用風險,類標簽為1,其余6個樣本被認為是無風險樣本,設置類標簽為0。不平衡樣本會導致少數類樣本中的特征較少,更難以從中挖掘、提煉相應規律,故采用SMOTE 過采樣方法進行樣本“人工合成”,在原有樣本類別的范圍內向上采樣合成更多樣本,新合成的樣本保留原有樣本類別的數據特征。
首先對指標體系中所包含的21個指標進行分析,判斷狀態指標和時序指標。根據每種指標其自身特性進一步劃分為對信用風險正向、負向兩種影響;同時,考慮到每種指標的變化對信用風險的影響程度、變化趨勢均有不同的作用機理,分析指標體系內各指標的性質、選取相匹配的風險度量方式。其次,考慮到風險預警模型的實際應用價值,將決策者對指標的主觀預期期望值引入模型中,假設決策者以行業均值為預期期望并以此為基礎構建模型。最后,將運用模型處理后得到的包含動態風險信息與決策者主觀期望的數據輸入“兩步法”網格搜索優化隨機森林模型中,構建風險演化動態預警模型,并將該模型與隨機森林靜態預警模型對比分析,一方面,采用準確率(ACC)、精確率(P)、召回率(R)、F值驗證動靜模型的精度;另一方面,判別模型對各風險類別預測能力。
梳理本文所篩選指標的特性,以此為依據對不同指標進行動靜劃分及信用風險度量方法的選擇。創店年限、交易支付風險、店鋪保障風險、店鋪履約風險和定價風險5個指標在研究期內均不會發生較大變動,且這些指標在一定程度上已經反映了企業具有的信用風險狀態,可以作為狀態指標采用單期截面數據構造該指標與電商小微企業信用風險之間的映射關系。
當狀態指標與整體信用風險呈現單純線性關系,即企業整體信用風險隨著指標值的增加不斷減少(增加)時,可以視為狀態指標與整體信用風險呈現線性關系,用直線型函數描述這種關系。創店年限、交易支付風險、店鋪保障風險和店鋪履約風險均可在一定水平上反映企業的信用風險狀態,且各指標與電商小微企業信用風險之間的關系可以視為線性關系,當創店年限越長、交易支付種類越多且越合理、店鋪保障越全面、店鋪繳納越足額保證金,電商小微企業面臨的信用風險越低,故根據指標特性選擇負向直線型函數對這4個指標進行度量。
U 型曲線可用于反映某種特定類型的信用風險預警指標與企業整體信用風險之間的關系。以正向狀態指標為例,最初企業整體信用風險會隨著其升高而不斷提升,而當正向狀態指標的增長超過預期閾值后,企業整體信用風險反而呈現下降趨勢;負向狀態指標恰與之相反,最初企業整體信用風險會隨著指標的升高而不斷降低,超過一定預期閾值后,企業整體信用風險反而呈現上升趨勢。在定價風險指標與電商小微企業信用風險之間的關系中,對于消費者而言,在市場透明度有限時,價格永遠是其最關心的話題,但也會綜合考慮產品質量,商家與其制定高價策略不如直接提供低價同質量產品[33],故對于質量較低的產品,“一分錢一分貨”是簡單存在的。而對于高質量的產品,商家傾向于制定高價,以此與其余產品區分。但其價格若定得非常高也未必滿足追求高性價比消費者的需求[34],反而不利于店鋪信用風險。由此可見,在定價風險與信用風險的關系中,當企業產品定價過低時,消費者“一分錢一分貨”抵觸過低價格產品的心理會導致企業具有較高的定價風險;而當產品定價過高時,消費者又會望而卻步,這同樣導致企業定價風險升高。只有當產品定價處于行業均值水平時,才存在定價風險的最低點。這種特性更為符合U 型曲線的變化傾向,可以選擇U 型曲線衡量其中蘊含的信用風險。上述5個狀態指標的指標類別、對應風險函數類別以及函數各參數的設置如表3所示。

表3 狀態指標類別及其適用風險函數匯總Tab.3 Status indicator categories and summary of applicable risk functions
由于所選取的各項指標主要針對電商小微企業設定、構建,各項指標缺少決策者主觀預期的參考,并非像資產負債率、流動比率等財務指標均有學術界公認的預期值。為保證研究的合理性,以行業均值為基準線來設定期望目標b,進而確定各函數的參數。
其余16個指標的風險水平會受到各期指標均衡水平、波動性、極端尾部分散等一系列特征的影響,故將這些指標劃分為時序指標。VaR 模型是在一定置信水平內保守估計過程變量蘊含最大風險水平的風險度量方法,所度量的是發生在數據分布左尾部極端不利事件所造成的風險,本質上屬于基于分位點的風險度量方法之一,在風險管理中基于分位點的風險度量通常衡量了數據分布左尾部的風險,而這些風險恰是決策者最關心的。因此,該模型在風險管理中更為常見,常被金融分析家用來設計金融機構的風險度量標準[35]。
本文的時序指標涵蓋店鋪資質、店鋪經營風險和店鋪口碑風險3個方面,且均具備不僅要求指標值保持在一定水平上,還要求在不利環境下仍可保障企業存續基礎的特點,考慮到其特性與VaR 模型的構建思路類似,故選取VaR 模型分別衡量各時序指標中蘊含的信用風險并將其映射至截面。售賣規模、信用評級、服務態度、組織管理風險、產品保質風險和產品品質評論情感反映企業基本資質優劣,在電子商務交易大環境下,不僅要求指標值保持在較高水平,還要求指標具有保守增長活力,只有如此才能保持企業基礎資質的信用風險維持在較低水平。以售賣規模為例,對于電商小微企業而言,機動性、活躍度是企業生存必備的條件,在瞬息莫測的電商市場環境下,保證較大的售賣規模是實現企業生存發展的關鍵,售賣規模較小的企業會直接降低消費者消費欲望從而導致店鋪面臨一定的信用風險。這就要求在對電商小微企業進行風險評估時要判斷企業能否維持預期的售賣規模,并謹慎估計保守增長能力。
經營能力風險、持續經營風險、物流質量風險、物流包裝評論情感和性價比評論情感指標集中反映企業經營能力水平的高低,為保障企業正常經營、發展活力,電商小微企業必須有相應的維持企業存續發展的經營能力,如果經營能力過低,企業將面臨倒閉、歇業、退出電商平臺的風險,決策者需謹慎估計企業的經營能力,以此為基礎估計企業面臨的信用風險。顧客認同度、顧客售后參與度、口碑累積、關注度和店鋪服務感知風險反映企業在電商平臺上累積的口碑狀況,在互聯網時代,信息公開透明、互聯互通,該類指標過低會進一步惡化電商小微企業的口碑信用,嚴重影響企業生存,意味著企業的信用狀況將面臨重大風險。這就要求電商小微企業口碑逐步積累并保持在一定水平上。
將上述16個時序指標類別及其適用的風險函數、函數參數設置匯總如表4 所示。在進行VaR模型構建的過程中,為了保證模型的精準性,選取置信水平為95%的分位數1.96作為參數,期望目標值b同狀態指標類似,同樣以行業均值為基準計算確定。

表4 時序指標類別及其適用風險函數匯總Tab.4 Time-series indicator categories and summary of applicable risk functions
選取風險度量方法后,按照表3與表4設定模型參數,將狀態指標與時序指標由指標值轉化為風險值,映射至同一截面上,得到電商小微企業在各個指標下的風險值矩陣。該矩陣中的風險指標值考慮長時間指標波動過程,在一定程度上避免因指標暫時變化而對單期截面預測結果產生干擾。
3.4.1 預警模型精度對比 經上述模型運算將337個樣本的企業指標值轉化為風險值,運用“兩步法”網格搜索優化隨機森林模型對其進行處理。主要步驟如下:①構建標準RF 模型;②大步長粗略確定最優參數范圍;③小步長精細搜索確定參數點;④構建得到“兩步法”網絡搜索算法優化的隨機森林組合預測模型。
“兩步法”網格搜索優化即使用大步長結合小步長的思想優化網格搜索,第1步在較大范圍內劃分大網格,運用粗搜索思想找尋最優參數大致范圍;第2步在最優參數范圍前后以小步長進行精細搜索,劃分出更為密集的網絡,從而獲取最優參數點。這種優化不僅大大降低了訓練所需時間,還能夠保證找尋到隨機森林模型最優參數。
Kaczmarz迭代算法是一種針對過采樣線性等式系統設計的迭代型算法,適用于求解大規模線性等式系統.由于其具有使用簡單、速度快、內存占用率低等優點,已被廣泛應用于數字信號處理、醫學成像等應用領域.在求解線性一致等式系統Ax=b時,Kaczmarz迭代算法循環遍歷矩陣A的所有行,并將當前迭代x投影至由矩陣A中當前選擇行所對應的超平面上,即
隨機森林模型引入了Bagging和隨機子空間兩個隨機變量思想,使得隨機化在建立更多的回歸決策子樹的同時保證子樹之間的相互獨立,子樹之間的節點及每棵樹節點之間特征子集差異化,從而保證子樹之間的獨立性和多樣性。同時,隨機森林算法運用較少的樣本即可實現良好的泛化性能,較好地克服過擬合問題,從而進行高效學習。設訓練樣本集合為D(X,Y),其中,X為樣本所具有的特征屬性,Y為每個樣本對應的類別屬性。對于建好的隨機森林模型,輸入測試集進行預測估計,每一棵樹的預測結果作為一次類別投票,即根據n個預測結果投票,票數最高的類別為該樣本的預測分類標簽。下式表示計算機分類器將樣本(X,Y)正確劃分類別的平均票數與將其錯誤劃分至其他類別中的平均票數的最小差值:
泛化誤差和隨機森林邊緣函數分別為:
結合實際數據,首先對原樣本數據運用SMOTE方法進行過采樣處理獲得新的平衡樣本數據集,然后將新輸出的平衡樣本數據集按照2∶8劃分為測試集與訓練集,構建隨機森林模型對各樣本企業的信用風險進行動態預警。將處理后的新平衡樣本集輸入隨機森林模型中,對比基于時序數據的動態隨機森林模型和基于單期截面數據的靜態隨機森林模型的模型效果。輸出結果如表5所示。

表5 考慮動態風險演化的RF模型與截面靜態風險RF模型Tab.5 RF model considering dynamic risk evolution and crosssectional static risk %
表5結果顯示:動態隨機森林模型輸出測試集樣本的準確率(ACC)為97.78%,即在測試集上有97.78%的電商小微企業信用風險被正確預測到相應的風險類別;精確率(P)為97.68%,即每類預測結果的樣本中真正為該類風險的電商小微企業占97.68%;召回率(R)為97.85%,即測試數據集中每類樣本被準確預測為該類的比例為97.85%;精確率和召回率的調和均值F1為97.76%。靜態隨機森林模型輸出的測試集樣本的ACC、P、R及調和均值F1的值分別為96.52%、96.39%、96.5%和96.45%。
將上述兩模型的評價指標值可視化,繪制柱狀圖如圖3所示。由圖3可以看出,無論是總體樣本精度,抑或其他預測性能,考慮動態風險演化的隨機森林模型各項評價指標明顯高于基于截面靜態風險的隨機森林模型,且前者模型整體精度較之后者提高了1.26個百分點。由此可見,考慮動態因素的隨機森林模型在靜態模型的基礎上提高了性能和精度,具有更精準的預警效果。

圖3 兩模型預警精度對比Fig.3 Comparison of warning accuracy of two models
為進一步驗證兩種預測模型的精度,運用十折交叉驗證輸出不同分組訓練結果,可以更為穩定地驗證考慮動態風險演化的隨機森林模型與考慮截面風險的隨機森林模型之間的差異,得到的十折交叉驗證折線圖如圖4所示。

圖4 十折交叉驗證對比Fig.4 Ten fold cross-validation comparison
由圖4可以看出,考慮動態風險演化的隨機森林模型在交叉驗證過程中輸出的結果折線基本位于考慮截面風險的隨機森林模型之上,僅有個別樣本組集上出現前者精度小于后者精度的情況,可以判斷考慮動態風險演化的隨機森林模型的預警具有較為穩定的優勢,進一步印證了考慮動態風險因子的隨機森林模型在預警過程中呈現更優的預警狀態。
3.4.2 各類風險類別預測性能 根據兩模型的混淆矩陣分別輸出兩模型在不同風險類別樣本上的預警能力,得到表6。

表6 動靜兩模型在不同風險類別樣本上的預警能力Tab.6 Early warning capability of dynamic and static models on different risk category samples %
由表6可以看出:考慮動態風險演化的隨機森林模型對無信用風險的電商小微企業預測準確率達到100%,比僅考慮截面靜態風險的隨機森林模型評估精度提高了2.33%;對輕度信用風險電商小微企業的預測準確率為92%,略低于考慮截面靜態風險的隨機森林模型的預測準確率93.3%;對中度信用風險電商小微企業預測準確率為98.7%,比考慮截面靜態風險的隨機森林模型評估精度提高了6.49%,預警效果提升較大。對于具有重度信用風險的電商小微企業而言,動態模型與靜態模型預測精度持平。
由此可見,考慮動態風險演化過程的模型性能較之靜態模型的改進主要體現在對中度風險企業預警精度的提高,究其原理可追溯至對時序指標的風險度量函數作用機理:通過對指標的壓縮變化,將時序數據值映射至截面上,使其荷載動態風險信息,同時避免了因變量單期極端變化對預測結果產生的干擾,進一步強化了對樣本數據的區分能力。這對于識別電商小微企業的信用風險而言至關重要。以具有中度風險的電商小微企業為例,該類企業在整個行業中所占比例較高,只有對其蘊含的信用風險精準識別、判斷,才有助于電商小微企業清晰意識到自身經營存在的問題,并為貸款機構提供更為精準的貸款決策參考,降低因出現錯判、誤判而導致更高的風險成本。
3.4.3 預警模型結果對比 為進一步驗證動態隨機森林預警模型的優越性,本文還將靜態隨機森林模型預警的店鋪風險閾值與動態隨機森林模型預警的店鋪風險閾值進行對比,以證明時間序列上店鋪的風險水平發生變化時,動態模型相較于靜態模型的準確性更高。為保證預警結果的可比性,靜態和動態隨機森林模型使用的數據均為最后一期的觀測數據,其中,靜態模型的數據是最后一期的截面數據,動態隨機森林模型的數據是將觀測期間兩種類型指標的動態情況映射至同一截面的數據。結果如表7所示。由于店鋪較多,表7中僅列示前10家店鋪的結果。

表7 預警模型結果對比Tab.7 Comparison of early warning model results
表7的結果顯示,使用靜態模型和動態模型后,部分店鋪的信用風險發生了變化。以店鋪7和8為例,店鋪7和8原本屬于輕度風險店鋪,使用靜態隨機森林模型預警后,店鋪7和8依舊屬于輕度風險店鋪。使用動態隨機森林模型風險預警發現,店鋪7屬于無風險店鋪,而店鋪8 屬于中度風險店鋪。進一步觀測兩店鋪在淘寶平臺中的實際情況發現,店鋪7是一家開店10年的老店,開店10年來店鋪的平均好評率超97%,各項服務平均超過同行的49.53%,信用評級、商品評論等各方面均呈現較高水平,動態模型預警后評定為無風險店鋪是可信的。類似地,店鋪8在淘寶平臺中雖為開店11年之久的老店,開店以來的平均好評率也超過了98%,但店鋪整體信用評級較低,且各項服務的平均水平均低于同行,持續關注店鋪的粉絲也較少,翻閱商品評論發現,商品評論中負面評價出現的頻率較高。因此,綜合來看,靜態模型將該店鋪歸為輕度風險店鋪僅能夠代表最后一期數據時點店鋪的信用風險水平,可信度有待商榷,并不能代表店鋪整體真實的信用風險水平。相比較而言,動態模型綜合店鋪信用情況的動態變化后,將其歸類為中風險店鋪更為合理。綜合上述分析,本文構建的動態隨機森林信用風險預警模型的準確性更高。
綜合實驗結果的對比情況,相較于以往的預警模型,本文構建的動態預警模型的主要優勢有:①從風險預警的本質入手,將指標體系中的指標劃分為狀態指標與時序指標,采用差異化度量的方式反映不同指標的風險特征,并將兩種類型指標的動態情況映射至同一截面,使得截面的數據包含動態因子;②以行業均值作為風險偏好的臨界點用于模型參數的調節,將決策者對于指標的主觀預期期望引入模型中;③考慮時序因素,將包含風險信息與決策者主觀決策信息的多期時序數據映射至同一截面,使得最終構建的隨機森林預警模型蘊含動態信息;④考慮動態因素的隨機森林模型在性能、精度方面均有提升,預警效果更精準。
電商小微企業的信用風險對其生存發展至關重要,其發展的不確定性更高、受企業主觀影響更大,在構建風險預警模型的過程中更需考量動態因素以及決策者的預期期望。本文以淘寶生鮮小微企業為研究對象,綜合考慮截面狀態指標、動態時序指標以及決策者對指標的主觀預期期望,構建電商小微企業信用風險預警指標體系,將綜合了風險信息和決策者主觀決策信息的多時期時序數據映射至同一截面并構建隨機森林預警模型,對電商小微企業信用風險進行動態預警,并通過真實樣本數據驗證了預警模型的可行性。得出的結論有:
(1) 構建了具有電商小微企業特色的信用風險預警指標體系。從5C 要素理論出發,將指標體系劃分為店鋪資質風險、店鋪經營風險和店鋪口碑風險3大類,從主、客觀兩維度篩選出了21個信用風險預警指標,并驗證了指標體系的合理性,形成了完整的信用風險預警指標體系。
(2) 考慮了指標屬性,將指標劃分為截面狀態指標和動態時序指標,構建了包含動態時序指標多截面耦合的映射關系,合理、適用并能滿足理論和實踐需求。
(3) 構建了考慮動態風險演化的隨機森林預警模型,并將其應用于樣本的信用風險預警中以驗證其有效性,發現本文構建的考慮時序數據動態變化的隨機森林預警模型具有高精度和高貼合度,能夠全面、科學地反映電商小微企業信用水平高低并給出精準的預警結果,對中度風險的電商小微企業有更好的判別能力。