(河北工業大學 理學院,天津 300401)
近年來,電子商務作為虛擬交易平臺正發揮著越來越重要的作用,它匯集了大量的廠商信息、消費者信息以及交易信息,深深改變著當今社會的企業形態和消費行為。根據2017年9月的詳細數據顯示,中國電子商務零售額比前一個周期增長近38個百分點,達到同期的最高水平。在電子商務取得巨大成績的同時,確定交易主體的信用狀況成為電子商務交易發展中亟待解決的問題。精準辨認和評價電子商務企業的信用風險,加強信用風險分類指導,不僅能夠為企業本身提供風險預警,降低企業的損失,而且對于參與交易的采購者來說,也是一個識別風險的重要參照。
企業信用風險評估長期以來深受國內外學術界和商界的關注。然而以電子商務企業信用風險為主題的研究卻很少。在國內,風險機制方面,如楊曉梅等[1]經過研究中國電子商務網站的信用管理機制給出應對信用風險的對策;許進[2]基于收入鏈提出電子商務信用風險管理策略。在電子商務信用風險評價方面,Wang等[3]在2008年采用馬爾可夫鏈模型對電子商務信用風險進行評估;余樂安[4]在2012年通過建立最小二乘近似支持向量回歸模型對電子商務信用風險進行預警研究,并給出不同的預警策略;鄔建平[5]在2016年利用灰色關聯分析對電子商務信用風險指標進行約簡后使用粒子群優化算法將最小二乘支持向量回歸模型優化,對電子商務信用風險進行評價和預測研究。在國外,一些統計方法已被廣泛應用于構建企業信用風險評估模型,如線性判別分析[6]、Probit分析[7]和Logit分析[8]等。但是,這些統計方法在企業信用風險評估中的應用容易使人們忽視相關指標之間存在的非線性關系,即這些方法在理論上會對有限樣本無效。近年來,許多研究表明,智能方法,如基于案例推理(CBR)[9],決策樹(DT)[10],人工神經網絡(ANN)[11]和支持向量機(SVM)[12]等可以作為企業信用風險評估的替代方法。這些方法從訓練數據中自動提取知識,在非線性模式分類研究中表現很好。其中,SVM是被成功應用于企業信用風險評價中最有效的方法之一。然而,上述工作大都以金融企業為研究對象,以電子商務企業信用風險為核心的研究卻較少。
在上述研究方法的基礎上發現,樸素貝葉斯算法在電子商務信用風險研究中還不成熟,原因是該方法只有在特征條件獨立的情況下表現很好,在處理電子商務信用風險問題時各指標間又很難達到“獨立”這個條件,從而影響最后的實證分析結果。在使用SVM進行信用風險評估中還發現,特征選擇也是建立分類系統的一個重要問題,合理限制分類器輸入特征的數量,可以使分類器具有良好的預測準確率和較少的計算成本。因為用來描述電子商務企業信用風險的指標屬性太多,造成指標數據的維度過高,所以指標數據中必存在冗余信息,需要通過選擇出一個小的特征集來代替原始數據集。針對上述兩個方面的問題,本文試圖引入KPCA方法對GaussianNB算法進行優化后再對電子商務信用風險進行分類研究。首先應用KPCA方法在所有指標數據中提取主要特征。一方面,考慮KPCA方法可以挖掘包含在數據集中的非線性信息,使數據可以保留更加充分的信息,所以可以找到較少幾個信息充分的綜合指標來代替原始數據。另一方面,KPCA方法是在高維特征空間中使用PCA方法,能夠消除指標間的信息冗余性以及削弱指標間的相關性,降低模型檢驗計算成本的同時提高檢驗效率。其次,特征選擇出的小的數據集指標間變得不相關,使得數據集能夠克服樸素貝葉斯算法特征條件相互獨立的假設。又結合指標數據的連續性,選擇建立高斯樸素貝葉斯模型對電子商務企業信用風險進行分類研究。最后,使用真實指標數據進行實證檢驗,查看模型的有效性,并根據分類結果提出應對風險的策略。
核主成分分析(簡稱KPCA)是將核函數方法添加到主成分分析的一種多元統計方法,它是經過某種隱式形式將輸入空間(由訓練樣本集構成)映射到某個高維空間(即特征空間)并在高維空間完成主成分分析,達到對樣本數據降維卻能保留充分的特征信息的目的。因此,KPCA作為PCA方法的一種非線性拓展方法,用其挖掘電子商務信用風險指標體系中包含的非線性信息更有利于后續的分類研究。
假設訓練樣本用x1,x2,...,xN表示,核函數將輸入空間{xi}通過非線性映射Φ映射到特征空間F上,且數據集在F中滿足中心化的條件如下:

那么特征空間F中樣本集的協方差矩陣C可以表示為:

根據式(2)求得C的特征值λ及其相應的特征向量V:

因為所有的特征向量均可表示為Φ(x1),Φ(x2),...,Φ(xN)的線性組合,故存在βi(i=1,2,...,N),使得:

在式(4)中,由于V為特征空間F的映射函數Φ(xi)(i=1,2,...,N)的生成空間,所以有:

接下來,定義N×N維矩陣K,則有:

系數βi的特征值問題由核函數Kij決定并且K為點積核矩陣,因此式(6)可以寫成:

求解式(7)就可以得到特征值和相應的特征向量。那么測試集x在特征向量Vj方向的投影如下:

用核函數代替內積:

如果式(1)不成立,需調整如下:

則核矩陣可用如下形式代替:

本文基于上述KPCA方法的根本思想,首先將樣本集表示成一個(m×n)維的數據矩陣:

其次,選定高斯徑向基(簡稱RBF)核函數:

此核函數將樣本數據集通過非線性映射方式映射到一個高維特征空間。最后,在高維特征空間中通過PCA方法對樣本集降維操作,根據各個成分各自的方差百分比(也稱為貢獻率),選擇出少數幾個不相關的綜合指標代替原始多個指標的數據。
樸素貝葉斯方法是一種以貝葉斯定理為基礎,以各個特征相互獨立為假設的概率分類算法。樸素貝葉斯算法分類效率高、需要關注的參數少、具備良好的泛化能力,并且能夠將最后的分類結果給出合理的概率解釋。
對于給定的訓練數據集,樸素貝葉斯算法將輸入(特征向量)定義為在輸入空間的隨機變量X,輸出(類標記)定義為在輸出空間的隨機變量Y,學習聯合分布P(X,Y)。具體學習如下:
(1)先驗概率分布:

(2)條件概率分布:

因其假設各個特征相互獨立,則條件概率可以表示為:

(3)計算給定輸入變量的后驗概率分布如下:

(4)最后遵循期望風險最小化準則,保留后驗概率最大的類標記。樸素貝葉斯分類模型的輸入變量既可以是離散型變量,又可以是連續型變量。其中,對于連續型變量應用最好的模型是高斯樸素貝葉斯(GaussianNB)模型,其條件概率可以表示為:

需要從訓練樣本集估計μk和的值。μk是在樣本類別為ck下,所有的Xj的均值,是在樣本類別為ck下所有Xj的方差。
高斯樸素貝葉斯模型的主要參數只有一個,即先驗概率P(Y=ck)。通常情況下,默認為P(Y=ck)=mkm,m是訓練樣本集總數,mk是輸出第k類時的訓練樣本數。當然,如果給出先驗概率,則以給出的值為準。本文選擇默認的先驗概率值對電子商務信用風險進行分類。
利用核主成分分析方法優化高斯樸素貝葉斯算法的主要思想:利用KPCA方法將原始數據提取出少數幾個但能夠充分保留原始信息的綜合指標,并且提取出的綜合指標之間變得不相關。既能減少計算成本、挖掘到樣本信息中包含的非線性信息,還能克服分類算法超強的條件之間相互獨立的假設,提高模型的分類效率。
一般情況下,從靜態指標和動態指標兩方面描述電子商務企業信用風險的指標屬性。靜態指標主要包括企業的外部因素和企業本身的素質,動態指標主要包括企業的履約狀況、支付信用能力、其他交易參與者的信用及企業交往印象。本文的電子商務信用風險指標主要來自文獻[13]中篩選出的19個指標作為本次的指標體系,具體指標及計算公式見表1。
本文使用的原始數據來源于文獻[13]中收集的18家電子商務企業的樣本數據以及專家組給出的打分結果(選定兩種分類:0代表無信用風險,其信用評分高于60分;1代表有信用風險,其信用評分低于60分),并將19個指標分別用X1,X2,...,X19表示,整理數據見表2。
利用上述構建的電子商務信用風險指標體系及收集的18家企業樣本數據,就可以運用核主成分分析和高斯樸素貝葉斯組合模型進行電子商務信用風險分類的研究。
為了對比本文提出的組合模型的預測準確率,同時采用高斯樸素貝葉斯模型(GaussianNB)、主成分分析和高斯樸素貝葉斯組合模型(PCA-GaussianNB)對電子商務信用風險進行分類,檢驗模型的有效性。針對本文收集數據的結構,選擇1-13家電子商務企業的數據作為訓練數據,其余14-18家電子商務企業的數據作為測試數據。

表1 電子商務信用風險指標體系選取結果

表2 18家電子商務企業信用風險原始數據
3.2.1 數據處理。應用SPSS軟件,利用主成分分析方法對13家電子商務企業信用風險數據指標進行相關性分析,相關性分析矩陣見表3、表4。

表3 指標之間的相關性分析矩陣(1)

表4 指標之間的相關性分析矩陣(2)
通過觀察指標之間的相關性分析矩陣,發現電子商務企業信用風險數據指標之間具有相關性。因而對訓練數據集進行有效的主成分提取,有利于后續貝葉斯分類的研究。解釋的總方差見表5。
一般主成分分析或者核主成分分析選擇累計貢獻率達85%以上的主成分個數。本文通過輸出解釋的總方差,可以看到各成分各自的方差百分比(貢獻率)以及前6個主成分累計貢獻率已經占據原始數據85%以上的信息。結合碎石圖(如圖1所示)也可以看出,成分數小于等于6的部分特征值大,說明包含數據中的信息比較多;成分數大于6的部分曲線逐漸變得平緩,特征值小,說明包含數據中的信息少。本文為保持一致性和可比性,在進行主成分分析和核主成分分析時均選取前6個主成分進行分析。

表5 主成分統計信息表

圖1 成分數和特征值之間的關系
3.2.2 模型結果和評估。利用GaussianNB、PCAGaussianNB和KPCA-GaussianNB分別對電子商務企業信用風險數據進行分類,具體分類流程如圖2所示。PCA-GaussianNB和KPCA-GaussianNB兩個模型均先通過PCA方法或KPCA方法對訓練數據進行數據預處理;然后使用預處理之后的數據進行高斯樸素貝葉斯模型的建立;最后,使用14-18家電子商務企業的數據作為測試數據進行驗證。

圖2 分類模型流程圖
根據分類模型的步驟進行實證分析,分別記錄GaussianNB、PCA-GaussianNB和KPCA-GaussianNB三組模型的分類結果,見表6。

表6 5家電子商務企業信用風險分類結果
為了檢驗KPCA-GaussianNB組合模型的優越性,需要對模型進行評估。本文采用的分類器評估指標為準確率、召回率、F1度量值。一般二分類問題將真實類別和預測類別劃分成真正例(TP)、假正例(FP)、假負例(FN)、真負例(TN)。相應的評估指標計算方式如下:

根據上述三種評估指標,分別計算得到GaussianNB、PCA-GaussianNB和KPCA-GaussianNB三組模型的評估矩陣結果,見表7-表9。

表7 GaussianNB-評估矩陣

表8 PCA-GaussianNB-評估矩陣

表9 KPCA-GaussianNB-評估矩陣
依據上述評估結果,三個模型的平均準確率依次為0.300、0.867、1.000,可見不管是PCA-Gaussian-NB組合模型還是KPCA-GaussianNB組合模型都優于GaussianNB模型,說明GaussianNB模型對屬性指標間要求相互獨立的假設確實破壞了模型的分類準確率。但是,因為KPCA方法可以保留電子商務企業信用風險樣本數據中的非線性信息,它降維后的數據比PCA方法降維后的數據保留的信息更充分,所以KPCA-GaussianNB組合模型的分類效果更好。除此之外,結合召回率進行分析,一般情況下,準確率高時,召回率低(上述三個結果矩陣也證實了這一點),所以我們將準確率和召回率融合成一個F1度量值(調和均值F1-score)進行比較,可見KPCA-GaussianNB組合模型的F1度量值同樣是優于前兩個模型的。因此,可以說本文提出的KPCA-GaussianNB組合模型是可行且有效的。
本文利用KPCA方法優化高斯樸素貝葉斯模型,對電子商務企業信用風險進行分類探討的結果表明:KPCA方法能夠降低計算成本、高效挖掘數據中的有用信息,還能降低數據之間的相關性、提高GaussianNB方法的分類準確率。KPCA-GaussianNB組合模型與其它常見分類方法比較:首先,所需估計的參數較少,模型結構簡單易理解;再者,繼承樸素貝葉斯算法的增量式訓練,可以達到動態預測電子商務企業信用風險的目的;最后,對小數據集表現很好,也就是說,這對于很難獲取大量數據的電子商務企業信用風險研究來說非常實用。
依據組合模型分類結果,對電子商務企業本身可提供非常有價值的參考。一方面,對不存在信用風險的電子商務企業,企業本身要居安思危,加強信用風險的防范,保持企業持續健康經營。另外,對存在信用風險的電子商務企業,企業要努力改善與信用風險相關的指標,降低風險、減小損失。最后,電子商務企業在進行信用風險預測時,要動態的獲取新數據,保持數據的時效性。