摘 要: 文章研究了分別利用統計學方法和數據挖掘方法,對數據進行分類和預測,具體考察了Logistic回歸和決策樹的分類效能,并通過ROC曲線進行檢驗。結果表明:兩種分類方法各有利弊,沒有明顯的孰優孰劣,對預測變量可以進行有效的交叉驗證。
關鍵詞:Logistic回歸;分類回歸樹;ROC曲線
中圖分類號:TP311 文獻標識碼:A 文章編號:2095-2163(2014)05-
The ROC Curves Comparing of Classification Performance between Logistic Regression and Decision Tree
WANG Dongyan
(School of Psychology, Nanjing University of Chinese Medicine, Nanjing 210023,China)
Abstract:This paper studies the use of statistical methods, and data mining methods for data classification and prediction, specifically examines the classification performance Logistic regression and decision trees, then the corresponding performance are examined by ROC curve. The results shows that: two classification methods have advantages and disadvantages, and there is no obvious one is better, which can take effective cross-validation for predicting variables.
Keywords: Logistic Regression; Classification and Regression Tree; ROC Curve
0 引 言
在統計方法中,回歸方程最常用于分類和預測,而回歸方程對變量的要求卻都很高,在分類過程中更多關注的則是全局的態勢及走向。同時,由于Logistic回歸較易受到自變量間多重共線性的影響,將無法估計各個自變量間可能存在的交互效應[1]。
在數據挖掘領域,研發涌現了多種數據分類技術,例如決策樹、貝葉斯方法、神經網絡等,其中決策樹算法是數據挖掘研究中高頻活躍的領域之一,也是解決分類問題最有效的方法[2]。與其它算法相比,決策樹算法有著更易理解、計算量較小、速度較快、生成規則簡易快捷、且可理解性強[3]等優點,適合研究者掌握、進而做出最優決策。但由于決策樹方法更多地考慮了細節上的劃分,在全局的把握上即呈現了些微欠缺。因此,本研究將利用ROC曲線來檢驗兩種方法的分類效能,辨別兩種方法孰優孰劣。具體將展開如下論述。
1 Logistic回歸原理
Logistic 回歸是一種多變量分析方法,方法中的回歸模型為:
ln( )= + (1)
其中,Pi=P ( yi=1 x1i,x2i,…,xki)為在給定系列原因變量x1i,x2i,…,xki的值時的事件發生概率,而K則為原因變量的總個數。
Logistic 回歸系數近似服從正態分布,主要采用卡方檢驗和似然比檢驗。建模方法主要有向前法、向后法、逐步法等。而且,Logistic 回歸作為一個概率型模型,可通過具體計算某事件發生的概率達到預測的目的。
2 決策樹分類算法
本文采用分類回歸樹(CART)算法來進行分類預測。根據給定的樣本集L 構建分類決策樹,算法核心是首先從眾多的輸入變量中選擇一個最佳的分組變量,再從分組變量的眾多取值中尋獲一個最佳的分割閾值。在此,采用Gini系數生成原始樹,即:
Gini ( Dj ) = 1– pi2
(2)
式中,c 是數據集/子集Dj中決策類的個數,pi是第i個決策類在D 中的比例。Gini系數表示從相同總體中隨機抽取兩個樣本后,而這兩個樣本來自于不同類別的概率。
其后,再將數據集劃分成多個數據子集,這些數據子集劃分前的Gini系數與劃分后的Gini系數加權和的差為:
G(A) = Gini( D)– Gini ( Dj) (3)
其中,A是候選屬性,k是該屬性的分支數;D是未使用A進行劃分時的數據集,Dj是由A劃分而成的子數據集。在所有屬性中具有最大G (A)的屬性即當選為牧前進行劃分的結點。
針對多分支會降低決策樹適用性這個問題,CART算法進行了相應的限制,為生成二叉樹,使用Gini系數使屬性值兩兩組合,由此而得出最佳的二分方法[4]。CART算法則采用后剪枝法,并遵循代價復雜度最小原則,即:
Ra (T ) = R ( T ) + a|T| (4)
其中,| T |為該樹的葉節點的個數;a為復雜度參數,在二分類問題中可選取a = 2。
3 Logistic回歸與CART分類效能的ROC曲線比較
對一組來華留學生適應性數據分別建立Logistic回歸模型和CART模型,從總適應性、社會文化適應、校園適應和心理適應四個方面,建立四個分類模型。為了準確地評價四個模型在前述分類方法下的分類效果,可通過計算各模型的ROC曲線面積,來說明模型分類的實際效能。
本研究中利用非參數方法計算 ROC 面積大小,假設常規組有nc個觀察值,記為X j( j=1,2,…nc),非常規組有na個觀察值,再記為Xi( i=1,2,…na)。如果觀察值大,則將其歸為非常規組,ROC 面積(用Az表示)就是非常規組每個觀察值大于常規組每個觀察值的概率,具體計算方法如下[5]:
(5)
公式(5)的數學含義是將非常規組na個Xi與常規組的nc個Xj進行比較,如果前者大于后者則比結果為1,相等為0.5,小于則為0;再將na×nc個比較結果相加并取平均即可得Az。Az的標準誤差的計算公式可表述為:
(6)
其中,SE (Az )為Az的標準誤,Q1是更可能劃歸為常規組的概率,Q2是更可能劃歸為非常規組的概率。根據Az±ua SE (Az )可計算Az的100(1-α)%置信區間。
又設兩個診斷試驗 ROC 面積分別為Az1和Az2,對應的標準誤差分別為SE1和SE2,比較 ROC 面積對應的公式則為[6]:
(7)
其中,z是標準正態離差值。Az1和Az2是兩診斷試驗的曲線下面積,SE1和SE2則是與其對應的標準誤差。而r即為兩個 ROC 曲線下面積間的相關系數。
ROC曲線一般位于參考線的上方,因此AUC多在0.5到1之間,越接近1就表明模型的判別效果越優秀[7]。對總適應性、社會文化適應、心理適應和校園適應的Logistic回歸模型和CART模型分別繪制ROC曲線,由其可得比較模型分類效能曲線,具體可如圖1所示。
對四個適應性模型經過兩種方法擬合后,再計算ROC模型面積并進行統計性檢驗,檢驗結果如表1所示。
由表1的結果來看,所有模型標準誤差都小于0.05,說明這些分類具有統計學意義。從AUC數據來看,除了總適應性模型,其余三個適應性模型的曲線下面積相比較,CART分類方法都大于二元Logistic回歸分類結果。從95%置信區間來看,都在0.5以上,這即說明模型具有判別意義。心理適應模型可信區間略低,則表明模型分類效果不夠理想,但這種擬合不好的情況應該和所使用的分類方法沒有關系,而只是受到了變量本身數據模糊性的影響。
從圖1中可以看出,所有模型曲線均位于參考線上方,且都較為平滑。總適應性模型和校園適應性模型的邏輯回歸曲線稍顯不平整,相比較而言,CART分類曲線較平整,且其曲線下面積都稍稍大于Logistic回歸模型的面積。為了驗證兩種分類方法的差異是否具有統計學意義,可通過計算Z值來進一步判斷兩者的分類效能。經計算得出四個適應性模型兩兩之間的Z值分別為7.719 7、1.825 7、9.128 7、5.477 2,通過比對U臨界值表,將檢驗水準α定義為0.05,除了社會文化適應模型的兩種分類方法差異不顯著,其余模型差異都具有統計學意義??傔m應性模型的分類中,二元Logistic回歸表現分類效能更高;在心理適應和校園適應的模型分類中,CART模型的分類效能較高[8]。因此,本研究驗證CART分類方法稍好于二元Logistic分類。但此結論卻因情況而定,所以兩種分類方法各有利弊,優劣則要根據具體的數據情況來呈現和表現。
4 結束語
本文通過Logistic回歸和決策樹兩種方法對心理學數據進行分類,經數據分析發現,總的說來兩種分類方法各有利弊,而經過Z值判斷可知CART分類模型要稍好于二元Logistic模型。所以對心理統計這種具有一定模糊性的數據來說,也許用數據挖掘的方法進行分析會更好一些,當然也要考慮具體分析的心理特質的不同。
參考文獻
[1] SPRENT P. An introduction to categorical data analysis[J]. Journal of the royal statistical society series a-statistics in society. New York: Wiley-Inter-science Publication,2007.
[2] MAJOR J A, MANGANO J. Selecting among rules induced from a Hurricane database[J]. Proc, AAAI'93 Workshop Knowledge Discovery in Databases, 1993,(15).
[3] BRAMER M. Knowledge discovery and data mining[J]. The Institution of Electrical Engineers London, 2003,(4)
[4] 胡可云,田鳳占,黃厚寬. 數據挖掘理論與應用[M].北京:清華大學出版社,2008.
[5] METZ C E, HERMAN B A, SHEN J H. Maximum likelihood estimation of receiver operating characteristic(ROC) curves from continuously-distributed data[J]. Statistics in Medicine, 1998,(9).
[6] DELONG E R, DELONG D M, DANIEL L, et al. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach [J]. Biometrics, 1988,(3).
[7] NAKAS C T, YIANNOUTSOS C T. Ordered multiple-class ROC analysis with continuous measurements[J]. Statistics in medicine,2004,(22).
[8] 王冬燕. 來華留學生跨文化適應性規則提取研究[D]. 南京:南京師范大學,2013.