999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Logistic回歸與決策樹分類效能的ROC曲線比較

2014-04-29 12:39:54王冬燕
智能計算機與應用 2014年5期

摘 要: 文章研究了分別利用統計學方法和數據挖掘方法,對數據進行分類和預測,具體考察了Logistic回歸和決策樹的分類效能,并通過ROC曲線進行檢驗。結果表明:兩種分類方法各有利弊,沒有明顯的孰優孰劣,對預測變量可以進行有效的交叉驗證。

關鍵詞:Logistic回歸;分類回歸樹;ROC曲線

中圖分類號:TP311 文獻標識碼:A 文章編號:2095-2163(2014)05-

The ROC Curves Comparing of Classification Performance between Logistic Regression and Decision Tree

WANG Dongyan

(School of Psychology, Nanjing University of Chinese Medicine, Nanjing 210023,China)

Abstract:This paper studies the use of statistical methods, and data mining methods for data classification and prediction, specifically examines the classification performance Logistic regression and decision trees, then the corresponding performance are examined by ROC curve. The results shows that: two classification methods have advantages and disadvantages, and there is no obvious one is better, which can take effective cross-validation for predicting variables.

Keywords: Logistic Regression; Classification and Regression Tree; ROC Curve

0 引 言

在統計方法中,回歸方程最常用于分類和預測,而回歸方程對變量的要求卻都很高,在分類過程中更多關注的則是全局的態勢及走向。同時,由于Logistic回歸較易受到自變量間多重共線性的影響,將無法估計各個自變量間可能存在的交互效應[1]。

在數據挖掘領域,研發涌現了多種數據分類技術,例如決策樹、貝葉斯方法、神經網絡等,其中決策樹算法是數據挖掘研究中高頻活躍的領域之一,也是解決分類問題最有效的方法[2]。與其它算法相比,決策樹算法有著更易理解、計算量較小、速度較快、生成規則簡易快捷、且可理解性強[3]等優點,適合研究者掌握、進而做出最優決策。但由于決策樹方法更多地考慮了細節上的劃分,在全局的把握上即呈現了些微欠缺。因此,本研究將利用ROC曲線來檢驗兩種方法的分類效能,辨別兩種方法孰優孰劣。具體將展開如下論述。

1 Logistic回歸原理

Logistic 回歸是一種多變量分析方法,方法中的回歸模型為:

ln( )= + (1)

其中,Pi=P ( yi=1 x1i,x2i,…,xki)為在給定系列原因變量x1i,x2i,…,xki的值時的事件發生概率,而K則為原因變量的總個數。

Logistic 回歸系數近似服從正態分布,主要采用卡方檢驗和似然比檢驗。建模方法主要有向前法、向后法、逐步法等。而且,Logistic 回歸作為一個概率型模型,可通過具體計算某事件發生的概率達到預測的目的。

2 決策樹分類算法

本文采用分類回歸樹(CART)算法來進行分類預測。根據給定的樣本集L 構建分類決策樹,算法核心是首先從眾多的輸入變量中選擇一個最佳的分組變量,再從分組變量的眾多取值中尋獲一個最佳的分割閾值。在此,采用Gini系數生成原始樹,即:

Gini ( Dj ) = 1– pi2

(2)

式中,c 是數據集/子集Dj中決策類的個數,pi是第i個決策類在D 中的比例。Gini系數表示從相同總體中隨機抽取兩個樣本后,而這兩個樣本來自于不同類別的概率。

其后,再將數據集劃分成多個數據子集,這些數據子集劃分前的Gini系數與劃分后的Gini系數加權和的差為:

G(A) = Gini( D)– Gini ( Dj) (3)

其中,A是候選屬性,k是該屬性的分支數;D是未使用A進行劃分時的數據集,Dj是由A劃分而成的子數據集。在所有屬性中具有最大G (A)的屬性即當選為牧前進行劃分的結點。

針對多分支會降低決策樹適用性這個問題,CART算法進行了相應的限制,為生成二叉樹,使用Gini系數使屬性值兩兩組合,由此而得出最佳的二分方法[4]。CART算法則采用后剪枝法,并遵循代價復雜度最小原則,即:

Ra (T ) = R ( T ) + a|T| (4)

其中,| T |為該樹的葉節點的個數;a為復雜度參數,在二分類問題中可選取a = 2。

3 Logistic回歸與CART分類效能的ROC曲線比較

對一組來華留學生適應性數據分別建立Logistic回歸模型和CART模型,從總適應性、社會文化適應、校園適應和心理適應四個方面,建立四個分類模型。為了準確地評價四個模型在前述分類方法下的分類效果,可通過計算各模型的ROC曲線面積,來說明模型分類的實際效能。

本研究中利用非參數方法計算 ROC 面積大小,假設常規組有nc個觀察值,記為X j( j=1,2,…nc),非常規組有na個觀察值,再記為Xi( i=1,2,…na)。如果觀察值大,則將其歸為非常規組,ROC 面積(用Az表示)就是非常規組每個觀察值大于常規組每個觀察值的概率,具體計算方法如下[5]:

(5)

公式(5)的數學含義是將非常規組na個Xi與常規組的nc個Xj進行比較,如果前者大于后者則比結果為1,相等為0.5,小于則為0;再將na×nc個比較結果相加并取平均即可得Az。Az的標準誤差的計算公式可表述為:

(6)

其中,SE (Az )為Az的標準誤,Q1是更可能劃歸為常規組的概率,Q2是更可能劃歸為非常規組的概率。根據Az±ua SE (Az )可計算Az的100(1-α)%置信區間。

又設兩個診斷試驗 ROC 面積分別為Az1和Az2,對應的標準誤差分別為SE1和SE2,比較 ROC 面積對應的公式則為[6]:

(7)

其中,z是標準正態離差值。Az1和Az2是兩診斷試驗的曲線下面積,SE1和SE2則是與其對應的標準誤差。而r即為兩個 ROC 曲線下面積間的相關系數。

ROC曲線一般位于參考線的上方,因此AUC多在0.5到1之間,越接近1就表明模型的判別效果越優秀[7]。對總適應性、社會文化適應、心理適應和校園適應的Logistic回歸模型和CART模型分別繪制ROC曲線,由其可得比較模型分類效能曲線,具體可如圖1所示。

對四個適應性模型經過兩種方法擬合后,再計算ROC模型面積并進行統計性檢驗,檢驗結果如表1所示。

由表1的結果來看,所有模型標準誤差都小于0.05,說明這些分類具有統計學意義。從AUC數據來看,除了總適應性模型,其余三個適應性模型的曲線下面積相比較,CART分類方法都大于二元Logistic回歸分類結果。從95%置信區間來看,都在0.5以上,這即說明模型具有判別意義。心理適應模型可信區間略低,則表明模型分類效果不夠理想,但這種擬合不好的情況應該和所使用的分類方法沒有關系,而只是受到了變量本身數據模糊性的影響。

從圖1中可以看出,所有模型曲線均位于參考線上方,且都較為平滑。總適應性模型和校園適應性模型的邏輯回歸曲線稍顯不平整,相比較而言,CART分類曲線較平整,且其曲線下面積都稍稍大于Logistic回歸模型的面積。為了驗證兩種分類方法的差異是否具有統計學意義,可通過計算Z值來進一步判斷兩者的分類效能。經計算得出四個適應性模型兩兩之間的Z值分別為7.719 7、1.825 7、9.128 7、5.477 2,通過比對U臨界值表,將檢驗水準α定義為0.05,除了社會文化適應模型的兩種分類方法差異不顯著,其余模型差異都具有統計學意義??傔m應性模型的分類中,二元Logistic回歸表現分類效能更高;在心理適應和校園適應的模型分類中,CART模型的分類效能較高[8]。因此,本研究驗證CART分類方法稍好于二元Logistic分類。但此結論卻因情況而定,所以兩種分類方法各有利弊,優劣則要根據具體的數據情況來呈現和表現。

4 結束語

本文通過Logistic回歸和決策樹兩種方法對心理學數據進行分類,經數據分析發現,總的說來兩種分類方法各有利弊,而經過Z值判斷可知CART分類模型要稍好于二元Logistic模型。所以對心理統計這種具有一定模糊性的數據來說,也許用數據挖掘的方法進行分析會更好一些,當然也要考慮具體分析的心理特質的不同。

參考文獻

[1] SPRENT P. An introduction to categorical data analysis[J]. Journal of the royal statistical society series a-statistics in society. New York: Wiley-Inter-science Publication,2007.

[2] MAJOR J A, MANGANO J. Selecting among rules induced from a Hurricane database[J]. Proc, AAAI'93 Workshop Knowledge Discovery in Databases, 1993,(15).

[3] BRAMER M. Knowledge discovery and data mining[J]. The Institution of Electrical Engineers London, 2003,(4)

[4] 胡可云,田鳳占,黃厚寬. 數據挖掘理論與應用[M].北京:清華大學出版社,2008.

[5] METZ C E, HERMAN B A, SHEN J H. Maximum likelihood estimation of receiver operating characteristic(ROC) curves from continuously-distributed data[J]. Statistics in Medicine, 1998,(9).

[6] DELONG E R, DELONG D M, DANIEL L, et al. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach [J]. Biometrics, 1988,(3).

[7] NAKAS C T, YIANNOUTSOS C T. Ordered multiple-class ROC analysis with continuous measurements[J]. Statistics in medicine,2004,(22).

[8] 王冬燕. 來華留學生跨文化適應性規則提取研究[D]. 南京:南京師范大學,2013.

主站蜘蛛池模板: 国产乱人免费视频| 99ri精品视频在线观看播放| 亚洲伊人天堂| 专干老肥熟女视频网站| 人妻无码一区二区视频| 国产欧美视频一区二区三区| 在线国产毛片| 视频国产精品丝袜第一页| 国产18在线播放| 国产乱子伦一区二区=| a级毛片免费网站| 91精品视频在线播放| 国产一级在线观看www色| 毛片国产精品完整版| 伊人色综合久久天天| 国产免费黄| 欧洲成人在线观看| 蜜臀av性久久久久蜜臀aⅴ麻豆| 老汉色老汉首页a亚洲| 97超碰精品成人国产| 综合五月天网| 日韩一区精品视频一区二区| 国产精品xxx| 福利视频久久| 欧美成在线视频| 中文字幕无码av专区久久| 日韩精品欧美国产在线| 中文字幕乱码二三区免费| 欧美中出一区二区| 欧美日韩一区二区三| 国产免费精彩视频| 久久男人资源站| 久久a毛片| 国产欧美精品一区二区| 欧美精品二区| 福利国产微拍广场一区视频在线| 日韩精品亚洲一区中文字幕| 第一区免费在线观看| 国产精品无码一二三视频| 国产免费怡红院视频| 91人人妻人人做人人爽男同| 国产精品伦视频观看免费| 国产成人一区二区| 国产亚洲精品97AA片在线播放| 在线观看的黄网| 2020国产免费久久精品99| 亚洲开心婷婷中文字幕| 91视频首页| 亚洲精品视频免费| 欧美区在线播放| 午夜日本永久乱码免费播放片| 91小视频在线观看| 丝袜美女被出水视频一区| 青青青视频蜜桃一区二区| 国产精品综合久久久| 91黄视频在线观看| 99热这里只有精品国产99| 伊人久久久大香线蕉综合直播| 麻豆国产精品一二三在线观看| 亚洲成a∧人片在线观看无码| 中文字幕亚洲第一| 夜色爽爽影院18禁妓女影院| 国产一级在线观看www色| 97人妻精品专区久久久久| 好吊色妇女免费视频免费| 亚洲国产欧美国产综合久久| 亚洲欧美综合在线观看| 美女被操91视频| 精品视频一区二区观看| 免费人成黄页在线观看国产| 久精品色妇丰满人妻| 特黄日韩免费一区二区三区| 国产亚洲视频在线观看| 亚洲无码高清一区| 亚洲成AV人手机在线观看网站| 亚洲欧美成人综合| 在线国产资源| 99热这里只有免费国产精品 | 亚洲色精品国产一区二区三区| 东京热高清无码精品| 色综合中文综合网| 一级香蕉视频在线观看|