習 勤,米帥軍
(華東交通大學 經濟管理學院,南昌 330013)
指標篩選技術在神經網絡數據挖掘模型中的應用
習 勤,米帥軍
(華東交通大學 經濟管理學院,南昌 330013)
文章以分類神經網絡中的RBF網絡為例,討論了神經網絡數據挖掘模型中指標篩選的重要性,并以信用卡欺詐檢測神經網絡數據挖掘模型為實證案例,演示了指標篩選方法能有效地提高神經網絡模型的分類效率與收斂速度,同時,討論如何針對數據挖掘主題與數據特點選擇合適的指標篩選技術。
數據挖掘;神經網絡;指標篩選;信息增益
根據Universal Approximation Theore[1],即神經網絡具有對任何復雜函數的模擬逼近功能,這為神經網大規模應用提供了強有力的理論依據。由于神經網絡是基于生物神經網絡的模擬,通過不斷學習來認識事物潛在的規律。同時,由于神經網絡沒有對數據分布進行相應的假設,這使神經網絡在各行業中的應用具有廣泛的適用性。另一方面,由于沒有對數據分布進行假定,使神經網絡對噪聲數據具有相當的柔性,這進一步使人們在面對高維空間與海量數據時,更偏向于采用基于生物模擬的神經網絡,而非基于傳統的統計分析與計量方法,如多元統計分析等。但是,神經網絡的柔性與通用逼近性在實踐中有時并未給研究分析帶來理想的效果,其根本原因在于,直接導入高維空間數據致使神經網絡的效率急劇下降,也使得神經網絡很難滿足實時響應的要求,如實時欺詐監控、實時風險評級、工業實時控制等。因此,本文針對神經網絡的應用,提出了高維空間的預處理,即指標篩選。
人工神經網絡(Neural Networks)是對生物神經網絡進行仿真研究的結果。它通過采集樣本數據進行學習的方法來建立數據模型,系統通過樣本不斷學習,在此基礎上建立計算模型,從而建立神經網絡結構[2]。神經網絡通過訓練后可以執行復雜函數的功能,能對所有函數進行逼近,即Universal Approximation Theorem。這就是說,如果一個網絡通過訓練后呈收斂狀態,那么神經網絡就具備了執行輸入到輸出這種線性或非線性的函數功能。當然,這種函數不是基于理論或經驗的假設,而是基于對樣本的有監督的訓練,使神經網絡具備了模擬復雜系統的功能。根據數據挖掘主題的類型,神經網絡可分為分類神經網絡(含預測)與聚類神經網絡。本文實證分析部分采用神經網絡中的RBF網絡,RBF網絡屬于分類神經網絡,其拓撲圖與學習原理可參閱相應文獻[3]。RBF神經網絡除了具有神經網絡的相應優點外,還有兩大缺陷,一是網絡的訓練時間較長,或需要高性機能計算機設備,當然,除非工業級的實時監控上的應用,對一般的經濟分析而言,這點不足為慮。另一個不足是研究者不能得到一個基于樣本訓練出來的分類函數,也即不能對輸入輸出進行結構分析,這也是所有神經網絡模型的一大缺憾。
數據挖掘需要處理的是海量的數據集,且變量(或指標)非常多(一般都在50個以上,稱為高維空間),由于不知道相應的規則或模式,收集更多的樣品指標以防止遺漏重要解釋變量,但是這不等于把所的指標都應用數據挖掘建模,這樣會嚴重影響建模的效率與對挖掘結果的解釋,少量的指標有利于模型的結構解釋。因此,在建模之前必須對指標進行篩選,以挑選出對目標變量或模式有重要影響的變量。
指標篩選即指標歸約,是指用部分指標來代替原有的指標體系,即進行適當降維。降維的方法主要有兩類,一是選擇指標的子集來代替原有的指標體系,如相關分析、回歸分析、信息增益與模糊集等。二是對原有指標進行變換,轉化成新的綜合性指標,如主成分分析。本文所述的指標篩選是子集的選擇。
指標選取的方法有多種,常用的是相關分析,基于Pearson相關定理。本節重點介紹基于回歸分析與信息增益的指標篩選方法。
與相關分析不同,基于回歸分析篩選方法試圖從線性因果關系來說明各個自變量對因變量的影響程度與方向?;谛畔⒃鲆娴闹笜撕Y選方法與上述兩種方法完全不同。信息增益方法源于熵理論,即熱力學第二定律,目前在社會學科、管理科學以及空間科學上取得了相當多的成功應用,其基本思想是以指標的信息含量來評價指標的重性,進而篩選指標。
回歸分析有線性與非線性之分。線性回歸分析適用于取值范圍不大的指標,以防止個別指標值對回歸線產生較大的拉近作用,使回歸線過分擬合異常值(或端點值)?;貧w分析指標篩選方法有:前進法(Forward)、后退法(Backward)以及步進法(Stepwise)。其基本原理如下:
Forward是在回歸模型中逐步加入指標,直到沒有滿足一定顯著性要求的指標為止。對已入選擇的指標在有新的指標加入后,其顯著性是否符合要求不再進行檢測,即“只進不出”。顯著性檢測一般采用Fj偏檢驗。
Backward是先把所有的指標納入到回歸模型中,然后根據顯著性水平,剔除顯著性水平最低的指標(即T值絕對值最小的,且不顯著性),再由剩下的指標重新擬合回歸模型,并剔除T值最小的指標,如此循環,直到所有指標都達到一定的顯著性要求為止。Backward最大的特點,也即缺點是對已剔除的指標不再有機會入選回歸模型,即“只出不進”。
Stepwise是Forward與Backward的結合,也是最為常的回歸篩選指標的方法。其基本過程與Forward類似,不同之處在于對已剔除的指標還有機會重新選入模型,即 “有進有出”。最為關鍵的是分別對剔除與選入設定了不同的顯著性水平,且剔除的顯著性水平αout小于進入的顯著性水平αin,即所謂的“寬進嚴出”,否則會產生引進后再剔除這樣的循環過程。
基于回歸分析的指標篩選應用的關鍵在于對回歸函數形式的假設是否與實際相符,同時指標的顯著性檢驗需要對數據分布作相應的的假設。其優點是可以從結構上說明各指標的重要性。
在進行數據挖掘時,要確定使用哪些指標,除了基于成功的經驗與先驗理論外,一般比較困難,況且數據挖掘的目標是發現潛在的有興趣的模式與規律。也就是說,事先沒有一定的理論認識,如有相當的認識,則可以采用其它統計手段進行分析。如果采用的指標太少,會降低數據挖掘的效果。如果選用的指標太多,會產生指標間的共線性,導致挖掘主題被“淹沒”,如在判別分析中不能得到判別函數,同時參數的標準差將增大,顯著性檢驗失效。因而,指標篩選成了數據挖掘的關鍵之一。
在介紹信息增益方法前,先對熵(entropy)的概念做相應解釋。熵是對數據集的隨機性的一種度量,是一種量化信息的概念。愛因斯坦曾指出熱力學的第二定律(熵理論)是聯系自然界與人類社會的橋梁,由此可見熵理論的重要性。熵理論目前已廣泛應用于信息科學、管理科學與環境空間科學等。熵表達了一種物質狀態所能提供的信息,如果熵小,則物質呈現出一種相對有序的狀況,這就意味著所包括的信息量較少。對統計分析而言,如果一個數據集中的所有數據都屬于同一類,概率取值為1,則沒有不確定性,此時的熵取值為0。
假設有一個數據集S(一個樣本),被解釋變量(指標)為0,有 r個指標值(o1,o2,…,or),根據 o的取值可以把數據集 S劃成 r個子集(s1,s2,…,sr),顯然有 S=(s1∪s2∪…∪sr),s1∩s2∩…∩sr=φ。任一樣品屬于si概率為pi,則對樣本S分成r類所需要的信息為:

采用以2為底的對數log2pi,是因為信息編碼采用二進制方式。
解釋變量(評價指標)為 Ai(i=1,2,…,n),任取一個指標Ai,Ai有 m 個取值(a1,a2,…,am),根據指標 Ai的取值可能把數據集 S 劃成 m 個子集(sa1,sa2,…,sam),顯然有 S=sa1∪sa2∪…∪sam,S=sa1∩sa2∩…∩sar=φ, 則 sk與 sal交集為 Ckl=sk∩sal。令 nkl為 Ckl中的樣品數目,其中(k=1,2,…,r,l=1,2,…,m)則根據指標Ai對樣本S進行分類所需要的信息稱作Ai的熵,記為E(Ai)

則Ai上該劃分所獲得的“信息增益”定義為:

通過上述方法,可以計算每個n指標的信息增益,按信息增益從大到小的順序選取部分指標作為評價指標。
比較回歸分析指標篩選技術與信息增益指標篩選技術的原理,可以發現,除離散化之外,基于熵理論的信息增益方法對數據分布沒有相應的假設,同時信息增益技術在決策樹ID3與C4.5算法中起著支撐作用。一般而言,在沒有數據的分布信息的情況下,使信息增益進行指標篩選更為合理。
基于指標篩選的RBF神經網絡信用卡評級分析所用的數據集為DMAGECR與DMAGESCR,由SAS公司提供,分別用于模型的訓練、測試。記錄數分別為1000、75條,共有21個指標。目標變量為risk,“1”表示欺詐,“0”表示正常。
分析工具采用SAS/STAT,SAS/EM4.3。SAS/STAT主要是用于一般的統計分析,SAS/EM4.3主要用于決策樹。
RBF神經網絡數據挖掘流程如圖1所示。

由于目標變量risk為二值型,采用Logistic回歸分析進行指標篩選,方法為Stepwise。指標篩選結果,按顯著性依高到 低 為 :CHECKING、INSTALLP、SAVING、PURPOSE、MARTIAL、DURATION、AMOUNT。
根據信息增益理論可得各指標的信息增益比,前六個指標值分別為:CHECKING=0.052,HISTORY=0.026,DURATION=0.022,AMOUNT=0.020,SAVING=0.015、PURPOSE=0.012
綜合回歸分析指標篩選結果與信息增益指標篩選結果,可以發現,衡量客戶是否存在欺詐與社會人口信息類指標相關性不強(只有MARTIAL,即婚姻狀況),而與客戶的消費儲蓄行為較為密切。兩類指標篩選結論基本一致,但是在具體指標選擇上還是有較大差別,其原因主要是兩者的原理不同,判斷指標重要性的標準不同。
上述指標篩選結論說明兩個問題:一是對于信用卡欺詐建模,客戶的社會人口方面的信息并不重要,是否存在欺詐與客戶行為密切相關,這種簡化的數據結構給經濟行為結構分析帶來了便利。二是在進行數據挖掘時,如果把所有的相關性不明顯的指標納入分析模型,有可能導致模型的挖掘性能大為下降,同時也會給后續的結構分析帶來困難。對于一些不具有伸縮性(Flexible)的挖掘模型(如回歸分析等),過多的指標不利于提取數據結構信息,即使是對一些伸縮能力很強的挖掘模型(如神經網絡),指標太多也會降低挖掘模型的性能,使模型的泛化能力下降。
信用卡欺詐分析RBF神經網絡數據挖掘,分別采用所有原始指標、基于回歸分析的指標子集與基于信息增益的指標子集作為輸入數據結構,以便比較其對應的準確率。
建模流程如圖2所示。

表1 RBF神經網絡模型分類效率對比表
圖2中SAMPSIO.DMAGECR功能為選取數據集,Data Partition功能為抽取樣本,Neural Network功能為建立RBF神經網絡模型。
分析結果對比如表1所示。
從表1可以發現,C模型的分類錯誤率較低 (0.017),且訓練誤判率(0.017)高于驗證誤判率(0.013),說明C模型具有較強的泛化能力。A模型采用原始所有指標,分類誤判率較高(0.29),訓練誤判率(0.29)低于驗證誤判率(0.32),模型泛化能力較弱。對比B模型與C模型的分類誤判率,可以發現,基于信息增益的指標選擇,使RBF神經網絡的誤判率明顯下降。其根本原本在于,基于回歸分析的指標篩選對數據分布有一定的假定;而基于信息增益的指標篩選,除離散化外,對數據基本無要求。從RBF網絡收斂速度來看,通過指標篩選能有效提高運行速度。由于本次實證只有1000條數據,采用指標篩選后,收斂速度提高3-4倍。經測試,對于20000條,指標87個的海量數據集,神經網絡收斂時需1-2小時(運行于普通臺式電腦),可見指標篩選對神經網絡收斂速度有很大的影響。
本文首先簡要介紹了神經網絡的基本原理與其在實踐中的應用,指出了神經網絡模型的高度柔性和處理高維空間數據的能力。其次,介紹了神經網絡模型中指標篩選的必要性。再次,介紹幾類常用的指標篩選技術,并著重介紹了回歸分析指標篩選技術與信息增益指標篩選技術。最后,基于RBF神經網絡數據挖掘模型(信用卡欺詐檢測分析),比較了采用原始所有指標、回歸分析子標集與信息增益指標集三種情況下,RBF模型的分類效率與收斂速度,進一步展示了指標篩選技術在神經網絡模型中應用的必要性與可行性。事實上,本文所介紹的指標篩選技術適合于所有高維空間的降維處理與建模分析。
[1]Simon Haykin.Neural Networks:A Comprehensive Foundation (2ndEdition)[M].北京:清華大學出版社,2001.
[2]張云濤,龔玲,數據挖掘,電子工業出版社,2004
[3]張德豐,《MATLAB神經網絡應用設計》[M].北京:機械工業出版社,2009.
[4]Jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].北京:機械工業出版社,2006.
[5]Mehmed Kantardzic.Data Mining Concepts,Models,Methodsand Algorithms[M].北京:清華大學出版社,2003.
O236
A
1002-6487(2011)10-0163-03
習 勤(1956-),男,江西南昌人,教授,研究方向:統計理論與方法。
米帥軍(1974-),男,湖南長沙人,碩士,研究方向:統計方法與數據挖掘。
(責任編輯/亦 民)