鄔建平
(嶺南師范學院 商學院,廣東 湛江 524048)
基于主成分分析與最小二乘支持向量機的電子商務信用風險綜合評分
鄔建平
(嶺南師范學院商學院,廣東湛江524048)
在國內外文獻研究的基礎上,建立電子商務信用風險綜合評分指標體系,運用主成分分析法(PCA)對電子商務信用風險的核心指標進行提取,從19個指標中提取8個主成分作為電子商務信用風險的綜合評分指標,采用粒子群算法(PSO),選擇合適的最小二乘支持向量機(LSSVM)的懲罰因子C和RBF核函數參數σ,接著利用PCA-PSO-LSSVM組合模型對電子商務信用風險的8個主成分13家電子商務企業的訓練集進行訓練,再用測試集對信用風險指標進行預測,通過對5家電子商務企業的信用風險進行測試和驗證,可得到較為滿意的效果。實驗結果證明:通過對LSSVM、PSO-LSSVM和PCA-PSO-LSSVM預測的精度進行比較,PCA-PSO-LSSVM預測精度高,模型的組合是合理的、有效的。
主成分分析;粒子群算法;最小二乘支持向量機;電子商務;信用風險;綜合評分
Key wors: PCA; PSO; LSSVM; e-commerce; credit risk; comprehensive evaluation
近年來,我國電子商務行業發展迅猛,2015年我國電子商務交易額達7.63萬億元,比2014年增長30.4%。與此同時,電子商務欺詐現象嚴重,人均損失超過5 000元。隨著我國電子商務行業的進一步發展,這種損失仍將上升,這將在一定程度上限制電子商務企業健康持續發展。因此,對電子商務企業的信用風險準確評分成為當前理論和學術界關注的焦點之一。
目前,對于電子商務信用風險評分的相關文獻還沒有,都是借用其它評分說明電子商務信用風險的評分問題。姜明輝[1]等用BP神經網絡對個人信用評分進行分析,經logistic回歸、BP神經網絡、優化CBR進行比較研究,CBR模型對個人信用評分效果最好;王磊等[2]用數據挖掘方法,采用10種模型對小企業主信用評分進行應用比較,收到了良好的效果;董曉林[3]等采用多元線性回歸模型對江蘇縣域小微企業信貨融資進行信用評分,收到了較好的效果;陸愛國等[4]用改進的SVM學習方法,對學習庫中的數據集進行信用評分,與其它模型比較,準確率最高。從電子商務信用風險評分的角度分析,還存在兩個主要的缺陷:第一,電子商務信用風險評分所選用的指標體系維度過高,存在大量信息冗余;第二,現有評分方法多以線性方法為主,易造成多元線性問題,并對電子商務信用風險評分的非線性特征刻畫不夠。
為了解決以上兩個問題,采用組合評分方法,可有效地提高評分的精度,對于缺陷1,用主成分析法(PCA)可去掉奇異點的干擾,從原始數據空間開始,通過構造一組新的潛隱變量以降低原始數據空間的維數,提取主成分,減少電子商務信用風險的數據冗余;對于缺陷2,用最小二乘支持向量機(LSSVM)計算,可對電子商務信用風險的非線性特征進行刻畫,用粒子群算法(PSO),選擇合適的最小二乘支持向量機(LSSVM)的懲罰因子C和RBF核函數參數σ,構建PCA-PSO-LSSVM組合模型,對電子商務信用風險的綜合評分進行研究。
2.1PCA原理
1901年,Pearson率先引入主成分析析法(Principle Component Analysis,PCA),1933年,由Hotelling作了進一步的發展。主成分析析法是利用降維的思想,從多個數值變量(指標)之間的相互關系入手,得到少數幾個不相關的綜合變量(指標)的統計方法。在電子商務信用風險評估中,為了全面客觀地分析問題,常常要記錄多個觀察指標并考慮更多的影響因素,這樣的數據雖然可以提供豐富的信息,但有時也使得數據分析工作更趨復雜化。怎樣利用這類指標的多指標數據對電子商務信用風險進行評分呢?采用所有指標進行評價,然后再綜合各指標的評價結論,這樣可能會出現各指標評價的結論不一致,甚至會相互沖突;用單一指標評價,其結果顯然是片面的,最好的辦法是從給定指標的關系入手,尋找少數綜合指標以概括原始指標信息的多元統計方法[5]。
設電子商務信用風險有m個指標X1,X2,···,Xm,欲尋找可以概括這m個指標主要信息的綜合指標為Z1,Z2,···,Zm。從數學上講,就是尋找一組常數αi1,αi2,···,αim,其中i=1,2,···,m,是這m個指標的線性組合,應用主成分分析法的操作步驟如下:
(1)對原始指標數據進行標準化,先按式(1)計算。

式(1)中,sj代表某個指標的和代表某個指標的平均值,用標準化后的數據計算主成分。為方便起見,仍用X表示標準化后的數據矩陣,則有:

式(2)中,X為標準化后的矩陣,xij為矩陣中的元素。
(2)求出X的相關矩陣R。標準化后,X的相關矩陣即為協方差矩陣Cov(x)。

式(3)中,R為相關矩陣,Cov(x)為協方差矩陣。
(3)求出相關矩陣的特征值所對應的特征向量。由于R為半正定矩陣,則R的特征方程為||R-λI=0,求得m個非負特征值,將這些特征值按從大到小的順序排列為λ1≥λ2≥…≥0,則有:

式(4)中,求解得到每一個特征值λi對應的單位特征向量從而求得各主成分:

式(5)中,Zi為主成分為特征向量。
(4)計算相關系數矩陣

式(6)中,各主成分互不相關,即Zi與Zj的相關系數為0,于是,各主成分間的相關系數矩陣為單位矩陣。
(5)求主成分的貢獻率和累積貢獻率

從式(7)可以看出,各原始指標Xi,X2,···,Xm的方差和與各主成分Z1,Z2,···,Zm的方差和相等。
第i個主成分的貢獻率為:

式(8)中,λi為特征值為主成分的方差和,i=1,2,···,m。
前k個主成分的累積貢獻率為:

(6)主成分個數的選取。選取主成分時,一般不需要全部的主成分,只用其中的前幾個,一般來說保留個數按以下原則來確定。①以累計貢獻率來確定,當前k個主成分的累積貢獻率達到某一特定值時(一般以85%為宜),則保留前k個主成分。②以特征值大小來確定,即若主成分Zi的特征值λi≥1,則保留Zi,否則就去掉該主成分。
(7)求因子載荷。為了解各主成分與各原始指標之間的關系,用第i個主成分Zi的特征值的平方根與第 j個原始指標Xj的系數αij的乘積,可得∶

式(10)中,αij稱為因子載荷,由因子載荷所構成的矩陣為:

式(11)中,Q為因子載荷矩陣,因子載荷qij就是第i主成分Zi與第 j原始指標Xj之間的相關系數,它反映了主成分Zi與原始指標Xj之間聯系的密切程度與作用的方向[6]。
2.2PSO原理
粒子群優化算法(Particle Swarm Optimization,PSO)是一種新的基于群體智能的全局優化算法,它源于對鳥捕食的模擬。該算法在1995年由Eberbart博士和kemedg博士提出。對于PSO來說,每個優化問題的解決都是搜索空間的一只鳥,稱之為“粒子”。PSO算法最終通過迭代找到最優解,起初要初始化為一群隨機粒子,則所有粒子都有一個被優化函數決定的飛行方向與飛行距離的速度和適應度值。在優化過程中,在解空間中進行有效搜索,且每個粒子追隨、記憶當前的最優粒子[7]。粒子群算法的數學描述為:假設在一個m維的搜索空間中,由n個粒子組成的種群x=(x1,x2,···,xn)T,其中第 i個粒子位置為 xi=(xi,1,xi,2,···,xi,n)T,其速度為vi=(vi,1,vi,2,···,vi,n)T。其中,它的個體極值為 pi=(pi,1,pi,2,···,pi,n)T,種群的全局極值為 pg=(pg,1,pg,2,···,pg,n)T,粒子在找到上述值后,就根據下面兩個公式來更新自己的速度與位置:

式(12)、(13)中,c1和c2為學習因子或加速數,通常設表示第k次迭代中第d維的速度和位置,rand()為介于[0,1]的隨機數為粒子i在第d維的全局值的位置為粒子i在第d維的個體極值的位置。
粒子根據三條原則來更新自身狀態,其一是,保持自身的慣性,其二是按自身的最優位置改變自身的狀態,其三是按群體的最優位置改變狀態。
PSO算法的步驟為:
步驟1:每個粒子代表解空間的一個候選解。
步驟2:由適應度函數決定解是優解或劣解。
步驟3:在算法的每次迭代中,粒子總是跟蹤自身當前找到的最優解。
步驟4:粒子群找到當前的全局最優解進行搜索,直到得到最后的最優解[8]。
2.3LSSVM原理
支持向量機的復雜度與輸入空間維數無關,并依賴于樣本數據數量,且當樣本較多時,訓練時間就相當長。針對以上缺陷,Suykens等提出了LSSVM算法,把不等式約束改成等式約束,將支持向量機的損失函數設定成誤差平方和,加快了訓練時間,待優化參數減少,降低問題的計算復雜度。用最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)模型對電子商務信用風險指標進行綜合評分。

式(14)中,非線性函數φ(·)的作用是將輸入的非線性樣本映射到高維特征空間的線性輸出,f(x)為描述函數,內積為描述函數的復雜度,它表示原低維空間到F空間的非線性映射;b表示常數,其中b∈R,ω表示權向量,根據風險最小化原理,可得到LSSVM的最優化回歸模型為:

式(14)、(15)中,εi為松馳變量,γ為懲罰因子,ω∈Rn為權向量,φ(·)為非線收斂空間的映射函數。
為求解優化函數的最小值,當常數λ>0時,構造如下拉格朗日函數為∶

式(16)中,αi為拉格朗日乘子,αi∈R。
根據KKT(Karush-Kuhn-Tucker)最優條件,令L對ω、b、ε、α的偏導數等于0,則有:

式(17)中,對于i=1,2,···,n,消除ω和εi后,得到線性方程組為:

式(18)中,α=[α1,α2,···,αn]T,1v=[1,1,···,1]T,y=[y1,y2,···,yl]T,Ω為l×l為非負正定矩陣,I為1階單位矩陣,滿足Mercer條件:Ωij=K(xi,xj)=φ(xi)Tφ(xj),i,j=1,2,···,l,K(·)為支持向量機的核函數,對于任一個函數,可以確定一個Ω,并由以上線性方程組求解α,b,可得LSSVM的預測函數為:

式(19)中,本文LSSVM的核函數采用徑向基核函數,徑向基核函數定義如下:

式(20)中,σ表示徑向基核寬度。其中,K(xi,xj)為滿足Mercer條件的支持向量機的核函數RBF,它可以解決在未知非線性變換具體條件下實現算法的非線性化,這就是支持向量機算法的一個非常明顯的特點,它能較好地捕捉時間序列的非線性特征[9]。
2.4組合模型
根據電子商務信用風險評分的特點,構建PCAPSO-LSSVM組合模型,對電子商務信用風險進行綜合評分,其組合模型流程圖如圖1所示。

圖1 PCA-PSO-LSSVM組合模型流程圖
組合模型操作步驟:
(1)數據準備和預處理。將電子商務信用風險的各指標數據進行標準化,構建標準化后的矩陣。
(2)數據標準化后,將電子商務信用風險數據進行主元分析,計算協方差的特征值。
(3)特征向量的選取。采用PCA方法,對輸入的特征向量進行線性降維,降維的標準是選取包含85%以上信息的主元特征向量,即累計貢獻率占85%。
(4)選取支持最小二乘法的參數。對于最小二乘近似支持向量回歸模型的核函數設為RBF函數,懲罰因子c和RBF核函數參數σ采用PSO算法的適應度函數來選擇。
(5)利用最佳參數訓練LSSVM(訓練集)。用PSO選取后的懲罰參數C和σ訓練LSSVM訓練集。
(6)驗證測試集。用以上決策函數對測試集進行評分,將電子商務企業的數據一部分用于訓練,一部分用于預測,對前面訓練的結果進行測試,檢驗選擇的懲罰因子c和RBF核函數參數σ是否合理。
(7)誤差檢驗。用LSSVM、PSO-LSSVM和PCAPSO-LSSVM模型比較平均絕對相對誤差(Mean Absolute Percent Error,MAPE)和均方根誤差(Root Mean Squre Error,RMSE),檢查模型的合理性。
本文采用文獻[10]的數據來進行電子商務信用風險綜合評分的實證研究,首先要構建電子商務信用風險綜合評分的指標體系,然后,利用PCA-PSO-LSSVM組合模型進行綜合評分。
3.1指標體系構建
電子商務信用風險綜合評分指標體系的建立,要遵循代表性、全面性和可驗證性原則,指標確定的研究對象為電子商務企業,對企業的資金、人才、技術、品牌、市場的能力要通過相關指標反映出來,構建綜合評分指標體系要符合電子商務企業的實際情況。建立電子商務信用風險綜合評分指標體系,見表1。

表1 電子商務信用風險綜合評分指標體系
3.2模型評分預測
根據表1的指標,通過專家論證、數據獲取的難易,剔除掉不易計算和數據不易獲取的部分指標,確定19個指標為電子商務信用風險的綜合評分指標體系,其指標為:銷售利潤率X1、總資產報酬率X2、凈資產收益率X3、成本費用利潤率X4、總資產周轉率X5、流動資產周轉率X6、存貨周轉率X7、應收賬款周轉率X8、數字證書的等級X9、已獲利息倍數X10、流動比率X11、速動比率X12、平臺服務商信用X13、資本積累率X14、總資產增長率X15、固定資產更新率X16、貨款逾期率X17、毀約率X18、貿易額增長率X19,以上19個指標為電子商務信用風險的綜合評分指標。用以上18家電子商務企業的信用風險綜合評分指標的原始數據進行歸一化處理,求出指標體系的相關系數矩陣,確定主成分累積貢獻率為85%以上具有代表性的指標,見表2。

表2 特征值與累積貢獻率
從表2可以看出,累積貢獻率在85%以上的指標為8個指標,實際貢獻率為87.879%,指標分別為X1、X2、X3、X4、X5、X6、X7、X8,這些指標能代表所有的指標,進行電子商務信用風險的綜合評分。
為了利用PCA-PSO-LSSVM組合模型對電子商務信用風險進行綜合評分,將18家企業的前13家設為訓練樣本,后5家設為測試樣本,驗證PCA-PSO-LSSVM組合模型的可靠性,將8個主成分作為自變量,作為最小二乘近似支持向量回歸模型的輸入,將模型得分作為最小二乘近似支持向量回歸模型的輸出,利用最小二乘向量機回歸的主要目的是尋找綜合評分與13個評分指標之間的非線性關系,從而進行外推評分。一般情況下,最小二乘近似支持向量回歸模型的核函數為RBF函數,懲罰因子子為c,RBF核函數的參數為σ,利用PSO方法來優化確定其參數的大小,再利用Matlab12.0語言進行編程,可以對樣本進行訓練和測試,運用PCAPSO-LSSVM組合模型進行訓練,選用前13家企業的指標數據來做為模型的訓練樣本,其對應的模型評分見表3。

表3 最小二乘支持向量模型評分表(訓練集)
從表3可以看出,模型評分與實際評分進行比較,是匹配的,證明模型具有較好的擬合效果,為了測試模型對上市電子商務企業信用風險評分的預測能力,本文在已有訓練樣本之外,選取了剩余5家電子商務企業測試樣本進行檢測和驗證,預測的結果見表4。

表4 最小二乘支持向量模型評分測試表(測試集)
從表4可以看出,5家電子商務企業的模型預測結果比較吻合實際評分結果,說明PCA-PSO-LSSVM組合模型對電子商務信用風險的評分有較強的預測能力。
3.3模型組合的擬合性檢測
為了檢驗PCA-PSO-LSSVM模型的優越性,選擇LSSVM、PSO-LSSVM和PCA-PSO-LSSVM進行比較,模型性能評價標準為:平均絕對誤差(Mean Absolute Percent Error,MAPE)和均方根誤差(Root Mean Squre Error,RMSE)[8],它們的定義如下:

對于式(21)、(22),xi為電子商務信用風險指標的實測值為某指標的預測值,i為測試期數,i=1,2,···,n,MAPE、RMSE的值越小,模型的預測精度越高,模型的擬合效果越好。各種方法的預測效果見表5。

表5 三種預測方法誤差比較
從表4可以看出,PCA-PSO-LSSVM模型的RMSE、MAPE值最小,說明PCA-PSO-LSSVM模型比單個的模型預測評分精度要高,PSO-LSSVM比LSSVM的評分精度要高,PCA-PSO-LSSVM的評分精度最高,說明PCAPSO-LSSVM的擬合度最好,同時也說明本文提出的PCA-PSO-LSSVM模型是科學合理的。
為了提高電子商務信用風險的綜合評分能力,本文提出了PCA-PSO-LSSVM組合模型對電子商務信用風險進行綜合評分,并利用18家電子商務企業的19個指標的相關樣本數據進行了實證分析。實證結果顯示:PCA-PSO-LSSVM組合模型對電子商務信用風險的綜合評分有較強的預測評分能力,與其他電子商務信用風險綜合評分模型相比,基于PCA-PSO-LSSVM組合模型的電子商務信用風險綜合評分模型具有參數少、計算速度快、預測準確等優點,然而,由于樣本收集較為因難。建議評分在60以下的企業要加強信用風險的防范,改進工作,提高抗風險能力;評分在60分以上的企業,說明該電子商務企業風險小,有抗風險的能力要優化風險調控結構,提高風險防范意識。
[1]姜明輝,許佩,韓旖桐,等.基于優化CBR的個人信用評分研究[J].中國軟科學,2014,(12)∶148-156.
[2]王磊,范超,解明明.數據挖掘型在小企業主信用評分領域的應用[J].統計研究,2014,31(10)∶89-97.
[3]董曉林,陶月琴,程超.信用評分技術在縣域小微企業信貨融資中的應用[J].農業技術經濟,2015,(10)∶107-116.
[4]陸愛國,王玨,劉紅衛.基于改進的SVM學習算法及其在信用評分中的應用[J].系統工程理論與實踐,2012,32(3)∶515-522.
[5]Wei-Li Qin,Wen-Jin Zhang,Chen Lu.A Method for Aileron Actuator Fault Diagnosis Based on PCA and PGC-SVM[J]. Journal of Economics and Business,2016,25∶254-261.
[6]孫振球,徐勇勇.醫學統計學[M].北京∶人民衛生出版社,2002.
[7]龍文,梁昔明,龍祖強,等.PSO-LSSVM灰色組合模型在地下水埋深預測中的應用[J].系統工程理論與實踐,2013,33(1)∶243-248.
[8]朱幫助,魏一鳴.基于GMDH-PSO-LSSVM的國際碳市場價格預測[J].系統工程理論與實踐,2011,31(12)∶2 264-2 271.
[9]余樂安.基于最小二乘法近似支持向量回歸模型的電子商務信用風險預警[J].系統工程理論與實踐,2012,32(3)∶508-514.
[10]王新輝.基于BP神經網絡的國際電子商務信用風險預警模型研究[D].沈陽∶沈陽工業大學,2006.
Evaluation of E-commerce Credit Risks Based on Kernel PCA and Neural Network
Wu Jianping
(School of Business, Lingnan Normal University, Zhanjiang 524048, China)
In this paper, in order to reinforce the classification of the e- commerce credit risks and reduce the complexity of the ecommercecategorization, we established the e- commerce credit risk classification model using the kernel PCA, PSO and neural networkalgorithm. More specifically, we pre- treated the data, had its eigenvalue and eigenvector extracted using the kernel PCA to reduce thedimensionality of the data, next, using the modified PSO, searched and determined the inertial weight and threshold value of the BP neuralnetwork, using the BP neural network to train the data of 13 enterprises and then tested and forecast the data of another five, and finallyclassified the results of the 18 enterprises. Through the application, we verified the merit of the KPCA-MPSO-ANN based model in thisrespect.
F713.36;F224
A
1005-152X(2016)03-0087-07
10.3969/j.issn.1005-152X.2016.03.020
2016-02-15
國家級星火計劃項目(2013GA780086);湛江市第一批財政資金科技專項備用經費項目(湛科[2013]120號);南海絲綢之路協同創新中心資助
鄔建平(1962-),男,湖北仙桃人,博士,高級實驗師,研究方向:電子商務智能管理、電子商務綜合評價。