摘要:支持向量機(SVM)是在結構風險最小化的一種新的機器學習技術,在解決小樣本、非線性及高維空間問題中具有獨特的優勢,適用于政府采購中對供應商進行信用分析。但供應商信用屬性數據構成了高維空間的稀疏分布,不利于SVM的準確建模。由于主成分分析技術具有良好的去噪音特性,能夠對信用屬性數據進行有效地挖掘。因此,若將兩者進行有機地結合,就能有效改善SVM輸入樣本的特性,從而提高SVM分類的準確率。
關鍵詞:政府采購;信用分析;支持向量機
中圖分類號:F720 文獻標識碼:A
Credit Analysis of the Suppliers in Government Procurement Based on PCA-SVM
HUANG Wen-jie,XIE Ying
(School of Business Management, North China Electric Power University, Beijing 102206,China)
Abstract:Support Vector Machines (SVM) based on structural risk minimization (SRM) principle is a new machine learning technique and has many advantages in solving small sample size, nonlinear and high dimensional pattern recognition. In this paper, it is applied to the credit scoring prediction of suppliers in the government procurement activities. To get better classification accuracy, PCA(Principal Component Analysis) is combined to SVM to mine the independent attributes of supplier credit.And then, SVM is trained by these independent attributes obtained. By this way, the model of PCA-SVM for credit ananlysis of suppliers in the government procurement activities is builtto evaluate the prediction accuracy of PCA-SVM,while comparing its performance with those of neural networks (NN) and traditional SVM.
Key words:government procurement;credit analysis; support vector machines
政府采購不同于一般的采購行為,它具有政策性強、規模大、資金多等特點。政府采購項目,尤其是國家重點建設項目,如北京奧體項目、南水北調工程、三峽工程等,更是集政治性、經濟性、社會性于一身,對國家的社會效益、政治效益和經濟效益都會產生廣泛而深遠的影響。因此,在政府采購中為避免國家的財稅流失、保證政府投資效益,提高政府采購效率,必須規范政府采購市場,促進供應商在市場競爭中遵守國家法律、法規,規范經營,并將對供應商的管理提高到信用管理的高度。
在市場經濟環境下,良好的履約能力對政府采購項目按時、保質、保量地完成是十分必要的,而供應商履約能力是與其信用水平密不可分的。因此,在對供應商進行規范化管理過程中,政府部門應對供應商的信用進行公正、客觀地分析。這具有很強的理論與現實意義,引發了國內外學者廣泛的研究和探討[ 1-3]。常用的信用分析方法包括層次分析法、模式識別理論和神經網絡等。由于信用分析具有多屬性和非線性等特征,這些方法在應用中都很難取得滿意的效果。
筆者嘗試將數據挖掘技術與機器學習方法相結合,建立基于主成分分析——支持向量機技術的供應商信用分析模型。通過主成分分析技術進行數據挖掘,改善了信用屬性數據的特性,提高了支持向量機的建模效率。
一、模型的總體設計
供應商信用分析效果的好壞,主要取決于信用分析中所選用的屬性數據的特性以及所采用的方法解決非線性復雜問題的能力。
當前,商業信用分析主要是通過基于財務指標的信用特征而進行的商業信用等級劃分。由于財務屬性數據種類繁多,且數據之間往往存在緊密的相關性。這無疑加大了信用分析建模的難度。因此,有必要在進行信用分析之前,對信用屬性數據進行數據挖掘。在眾多的數據挖掘技術中,主成分分析方法既能夠有效去除屬性數據間的相關性,又可以降低數據維數。因此,它被選作供應商信用屬性數據特征挖掘的工具,以構造新的更有效的信用屬性數據。
數據挖掘后,接著面臨的問題是如何有效地構建供應商的信用分析模型。由于在政府采購多采用“短名單”,這就造成了供應商的信用分析具有典型的小樣本、多屬性及非線性等特征。傳統的信用分析方法很難進行有效地分析。神經網絡技術雖然能夠進行良好的經驗學習[ 2],但由于其基于經驗風險最小,易出現過擬合問題,從而降低了模型的泛化能力。
20世紀90年代興起的支持向量機(Support Vector Machines,SVM)是基于結構風險最小化原理的統計學習方法, 適用于小樣本分類問題。在解決高維、非線性問題時,SVM通過非線性映射把非線性分類化為線性問題來處理。從而,顯示出其顯著的優越性[ 4-5]。因此,SVM技術是進行供應商信用分析建模的有效工具。
筆者將PCA技術與SVM技術相結合構建政府采購中供應商的信用分析模型,建模的基本過程如圖1所示。
二、信用屬性數據的特征挖掘
主成分分析方法目前主要有兩種:標準主成分分析方法和基于核的主成分分析方法。
(一)標準主成分分析
標準的主成分分析是一種有效的數據特征挖掘方法[ 6]。它基于數據二階統計矩,對由一系列觀測數據向量組成的向量組進行分析,通過選擇樣本點分布方差大的坐標軸進行投影來降低維數而使信息量損失最少。
記供應商的信用觀測屬性矢量為:
(二)基于核的主成分分析方法[ 7]
基于核的主成分分析方法(Kernel Principle Component Analysis, KPCA)是一種非線性特征挖掘方法, 其基本思想是利用核函數, 通過非線性映射將輸入數據映射到一個高維的特征空間中,然后在特征空間中利用標準主成分分析法來挖掘主成分作為特征向量。
實踐證明,PCA與KPCA都能夠獲得良好的特征挖掘效果[ 6][7]。雖然與PCA相比,KPCA挖掘后的道德標準均方誤差更小,但是KPCA需要大量的主成分,要耗費大量的時間進行計算,這對于供應商信用管理信息系統的建立和維護是不利的。由于PCA完全能夠滿足精度要求,在本文中被采用進行信用屬性數據的特征挖掘。然后,將挖掘出的新的屬性樣本數據用于支持向量機的信用分析建模。
三、信用分析模型的建立
在政府采購項目中能夠得到供應商各種類型的信用數據十分有限,這些數據構成了信用分析輸入空間的稀疏分布。此時,若利用神經網絡進行信用分析建模,由于神經網絡是以經驗風險最小化進行優化,易引起過擬合問題,從而影響模型的泛化能力,并且易陷入局部極小點。
與其相比,支持向量機分類的基本思想是通過建立一個超平面作為一個決策平面。它不但能將分類中的兩類樣本正確分開,而且還使分類間隔最大。在分類過程中將優化問題轉化為一個凸二次規劃問題,由標準的拉格朗日乘子算法解得具有較高精度的全局最優解[ 4][5] [7]。
(二)非線性問題
SVM解決非線性問題的基本思想是基于Mercer定理,通過選用適合的核函數,將樣本空間映射到一個高維的特征空間,在此特征空間中求解線性問題。
此時,目標函數變為[ 4][8]:
(三)模型評估
根據信用分析的特點,本文定義信用分析模型的評估指標如下:
式中:N表示樣本的總數量,ci表示第i分類被錯分的樣本數量。
在兩分類問題中,k=2,可以定義兩類分類錯誤:第一類錯誤為將信用“好”的供應商誤判為“差”;第二類錯誤為信用“差”的供應商誤判為“好”。
四、實證分析
選取參加政府采購活動的32位供應商進行信用分析。其中,有9位供應商經營狀況欠佳,其余的供應商經營狀況正常。利用Matlab實現計算與模擬。由于在樣本中存在兩類樣本數據,因而對供應商進行兩模式的信用分類。選取的屬性數據類型如下:流動比率(C1)、速動比率(C2)、負債/權益比率 (C3)、存貨周轉率(C4)、總資產報酬率(C5)、資產負債率(C6)、長期負債比率(C7)、銷售利潤率(C8)、利息保證倍數(C9)等,原屬性數據樣本如圖2所示。
首先,利用PCA進行數據挖掘,特征值見表1。生成了三個主成分,貢獻率累計為99-06%,能夠完全滿足信用分析的要求。相應主成分的特征向量見表2,構造的新屬性數據如圖3所示。
通過對圖2與圖3的對比可以看到,新的屬性數據在完全能夠滿足信用分析的前提下,比原屬性數據更加平穩,這對于后面的支持向量機建模是非常有益的。
采用新的屬性數據進行SVM分類的訓練建模,設懲罰因子C=100,選擇高斯徑向基函數作為核函數。分別選取26個樣本作為訓練樣本,6個樣本測試樣本,采用不同的算法對供應商的信用兩模式進行判斷,結果如表3所示。
從表3可以看出,在分類正確率方面,普通SVM模型和本文模型明顯優于ANN算法,SVM與本文模型相比,本文模型的正確率高于普通的SVM。說明由于引入PCA技術對信用屬性數據進行挖掘,改善了屬性數據的表征能力,從而提高了模型的準確率。
五、結語
筆者在應用支持向量機進行供應商信用分析過程中,引入PCA進行屬性數據特征挖掘,提高了支持向量機的推廣能力和建模效率,為今后政府采購中供應商的信用分析提供一種可借鑒的方法。實例和分析的結果表明所建信用分析模型的質量比較高,驗證了其有效性。
參考文獻:
[1] Yurdakul M ustafa, Yusuf Tansel. AHP app roach in the credit evaluation of the manufacturing firms in Turkey[J].International J ou rnal of P rod uction E conom ics, 2004,88 (3) : 269 289.
[2] 郝麗萍,胡欣悅,李麗.利用BP網絡模型對商業銀行信貸風險進行分析和預測[J].系統工程理論與實踐, 2001,21(5): 66-69.
[3] 齊巍巍,李友華.商業銀行公司治理與信用風險管理的博弈分析[J].商業研究,2005(10):68-70.
[4] 龐素琳,王燕鳴,羅育中.多層感知器信用評價模型及預警研究[J].數學的實踐與認識,2003 ,33(9) :55 - 62.
[5] Theodore B T and Huseyin I. Support vector machine for regression and application to financial forecasting[J].Proceedind of the IEEE-INNS-ENNS International Ioint Conference on Neural Network,2000,(6)pp:348-353.
[6] L. J. Cao and Francis E. H. Tay. Support Vector Machine With Adaptive Parameters in Financial Time Series Forecasting[M].IEEE TRANSACTIONS ON NEURAL NETWORKS, VOL. 14, NO. 6, 2003,NOVEMBER pp: 1506-1518.
[7] Li Aijun, Luo Siwei, Liu Yunhui, and Nan Zhihong.Combining PCA and Entropy Criterion to Build ANN's Architectures[M].Proceedings of the Third International Conference on Machine Learning and Cybernetics,Shanghai,26-29 Auguest 2004,pp:3052-3055.
[8] Chengjun Liu.Gabor-Based Kernel PCA with Fractional Power Polynomial Models for Face Recognition[J].IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 26:572-581, NO. 5, MAY 2004.
[9] V. N. Vapnik.The Nature of Statistical Learning Theory. New York[M],1995.
(責任編輯:孫桂珍)
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”