999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AUC統(tǒng)計量的隨機森林變量重要性評分的研究*

2016-12-26 05:38:44哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室150081張曉鳳
中國衛(wèi)生統(tǒng)計 2016年3期
關鍵詞:重要性方法

哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室(150081) 張曉鳳 侯 艷 李 康

基于AUC統(tǒng)計量的隨機森林變量重要性評分的研究*

哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室(150081) 張曉鳳 侯 艷 李 康△

隨機森林(random forest,RF)[1]是高維組學數(shù)據(jù)常用的分析方法,在進行判別分析時,同時能夠給出變量重要性評分(variable importance measure,VIM)。RF的變量重要性評分通常有兩種,一種方法是通過變量值的置換計算其重要性,第二種方法是通過基尼(Gini)指數(shù)計算其重要性,由于置換法比Gini指數(shù)法具有更好的非偏倚性能,因此多采用置換法進行變量篩選[2-5]。然而,當數(shù)據(jù)類別(標簽)比例不均衡時,即收集到的數(shù)據(jù)在兩類中的數(shù)目不相同,尤其比例相差較大時,基于錯誤率(error rate,ER)的置換法不能準確反映變量的重要性。為此,Janitza等(2013)提出基于AUC統(tǒng)計量的評價方法,能夠克服類別間比例不平衡的影響[6]。本文在簡要介紹該方法的基礎上,通過模擬實驗和實例數(shù)據(jù)探索其適用性,并與傳統(tǒng)的置換法進行比較。

原理與方法

1.RF的基本思想

RF采用組合方法(ensemble method)的思想,即對樣本數(shù)據(jù)進行多次隨機抽樣產(chǎn)生N(通常為Ntree)個訓練樣本構造N棵分類樹(稱基分類器),在每次基分類器構建過程中,將訓練樣本以外的數(shù)據(jù)作為測試數(shù)據(jù),稱為袋外數(shù)據(jù)(out of bag data sets,OOB),并通過錯誤率來評價基分類器性能,最后根據(jù)投票(vote)準則將基分類器組合為一個RF分類器。RF在構建分類器的過程中,通過對變量重要性排序進行變量重要性評分。

2.基于錯誤率的置換方法

基于錯誤率置換方法的變量重要性評分(VIM_ER),其基本原理是用同時隨機置換各變量值,通過計算置換前后的OOB錯誤率間的差異衡量該變量的重要性。具體地,欲獲得變量Xi的重要性評分,首先基于訓練樣本構建隨機森林,并估計所有OOB樣本的錯誤率,然后對所有OOB樣本中的變量Xi值進行打亂獲得新的袋外數(shù)據(jù)(OOB′),估算OOB′樣本的ER,最后計算兩次袋外數(shù)據(jù)的ER變化值。最后將所有OOB樣本ER變化均值作為Xi的VIM,Xi的VIM定義如下:

其中,Ntree為RF中樹的個數(shù),ERit為變量Xi置換之前第t棵樹對應的錯誤率,ER′it為變量Xi置換之后第t棵樹對應的錯誤率。

由VIM計算公式我們知道,如果變量Xi與標簽(類別)無關聯(lián),隨機置換該變量后對應的袋外數(shù)據(jù)錯誤率不會發(fā)生變化,理論上=0;相反地,如果>0,則說明變量Xi與分類是有關聯(lián)的。

3.基于AUC統(tǒng)計量的置換方法

基于AUC統(tǒng)計量置換法同樣能夠得到變量的重要性評分(VIM_AUC),與OOB錯誤率得到的VIM_ER原理相似,兩者區(qū)別在于后者基于錯誤率變化衡量變量重要性,前者則是基于AUC(ROC曲線下面積)值的變化評價變量重要性。這里,變量Xi重要性評分定義如下:

其中,AUCit為變量Xi置換之前第t棵樹對應的AUC值,AUC′it為變量 Xi置換之后第 t棵樹對應的 AUC值。

使用OOB錯誤率的變化作為評價變量重要性的指標時,考慮的是整體錯誤率變化情況,但最大的問題是當多數(shù)類樣本較大時,OOB錯誤率未充分考慮少數(shù)類的錯誤率,相當于賦予了多數(shù)類更高的權重。基于AUC統(tǒng)計量的置換方法同時考慮靈敏度和特異度,相當于對兩類各自的準確率賦予了相同的權重,直觀上,對于類別間不平衡數(shù)據(jù)而言,基于AUC統(tǒng)計量得到的變量重要性評分更趨于合理。

模擬實驗

1.實驗目的

(1)探索處理不平衡數(shù)據(jù)時基于ER估計VIM的偏倚性,驗證基于AUC統(tǒng)計量獲得VIM的合理性。

(2)比較VIM_ER和VIM_AUC對變量排序的差別,以及對差異變量和噪音變量的區(qū)分能力。

2.實驗設置

(1)模擬數(shù)據(jù)共設置65個自變量 X=(X1,…,X65)和一個應變量Y∈{0,1},其中按自變量與應變量之間的關聯(lián)程度設置強、中、弱、無四個等級,共15個變量,稱為差異變量;另外設置50個無關聯(lián)變量,稱為噪音變量,具體分布情況見表1。現(xiàn)設置,分組1為樣本較少一組,分組2為樣本較多一組;兩組類別樣本量不平衡的比例(n1∶n2)為 1∶1,1∶3,1∶5,1∶10,1∶15,1∶20;第一組的樣本含量分別為10和30,實驗重復100次。

(2)隨機森林構建參數(shù)設置,分類樹Ntree=1000,mtry=5,基分類器構建時抽取的訓練數(shù)據(jù)為無放回抽樣。

表1 自變量的分布參數(shù)設置

3.模擬實驗結果

(1)圖1和圖2分別給出兩組樣本量平衡和不平衡情況下,VIM_ER和VIM_AUC兩種方法的結果。圖1結果顯示,在兩組例數(shù)相同時,VIM_ER和VIM_AUC兩種方法均能真實反映變量重要性;圖2結果顯示,在兩組例數(shù)不相同、并且相差較大時(n1∶ n2=1∶20),VIM_ER方法幾乎看不到差異變量的作用,而VIM_AUC方法能更好地區(qū)分出差異變量,比VIM_ER方法更合理。

圖1 兩組樣本量平衡(n1=30,兩組樣本量比例為1∶1)

圖2 兩組樣本量不平衡(n1=30,兩組樣本量比例為1∶20)

(2)圖3給出了兩組樣本量不相同情況下,VIM_ER和VIM_AUC兩種方法區(qū)分差異變量的能力。結果顯示,隨著兩組不平衡比例增加,VIM_ER法對差異變量區(qū)分的AUC值呈下降趨勢,表明兩組樣本比例不平衡時,VIM_ER方法獲得的變量VIM得分不能很好地識別差異變量;而VIM_AUC法得到的AUC值隨著總樣本量的增加而增加,最后趨于穩(wěn)定,表明VIM_AUC不受兩組樣本例數(shù)不平衡的影響。

圖4給出了在不同差異情況下,VIM_ER和VIM_AUC兩種方法得到的結果。結果顯示,差異不大和樣本量較小時,兩組不平衡比例對VIM_ER的影響非常明顯,而VIM_AUC則能夠更好地區(qū)分差異變量與噪音變量。

圖3 VIM_ER和VIM_AUC兩種方法區(qū)分15個差異變量的能力

圖4 VIM_ER和VIM_AUC兩種方法區(qū)分5個不同差異變量的能力

實際數(shù)據(jù)驗證

本文選取RNA編輯數(shù)據(jù)作為實際數(shù)據(jù)對上述兩種方法進行比較。該數(shù)據(jù)共包含2613例樣本,分為兩組,其中1306例進行了 RNA編輯,1307例未進行RNA編輯,分析變量43個[7]。為評估 VIM_ER和VIM_AUC兩種方法在不平衡情況下篩選變量的結果,對數(shù)據(jù)做以下處理:①隨機打亂43個變量形成噪音變量,加入到實際數(shù)據(jù)中,從而共有43×2=86個變量;②在第一組中隨機抽100例,同時在第二組中抽取一定比例的樣本,設置兩組例數(shù)比值分別為1∶5和1∶10。以上過程重復100次,最后計算VIM得分的平均值。

圖5分別給出了兩組樣本量平衡(1∶1)和不平衡(1∶5,1∶10)時,使用 VIM_ER和 VIM_AUC兩種方法得到的結果。結果顯示:兩組樣本量相同時,VIM_ER法與VIM_AUC法進行變量篩選后得到的VIM值排序基本相同;兩組樣本量不同時,隨著兩組不平衡程度的增加,使用VIM_ER方法得到的VIM值中很多逐漸趨于0,而VIM_AUC方法仍能給出相對準確的變量重要性評分,保持“差異變量”的VIM值相對較高,從而不會因不平衡問題改變變量的重要性排序。

討 論

1.隨機森林(RF)是由多個決策樹(基分類器)組成的分類器,能夠有效地處理非線性、交互作用、共線性以及高維等問題,同時還能夠避免過擬合,可以進行預測和變量篩選[8]。在類別間例數(shù)不平衡時,實際經(jīng)常使用的方法是在計算變量重要性時使用錯誤率,相當于對例數(shù)較多的類別賦予了更高的權重,從而導致這種方法估計VIM時出現(xiàn)明顯的偏倚,這在實際應用中應予注意。

圖5 兩種方法的變量重要性評分(A圖1∶1,B圖1∶5,C圖1∶10)

2.在構建RF分類器時,使用AUC統(tǒng)計量計算VIM值,能夠在樣本例數(shù)不平衡時準確地反映變量的作用。模擬實驗和實際數(shù)據(jù)驗證的結果顯示了這種方法可以有效地解決不平衡的問題。

3.不平衡的問題主要出現(xiàn)在前瞻性研究中,比如癌癥患者遠遠少于健康人群。這種情況下,雖然可以使用巢式病例-對照的方法,但是如果數(shù)據(jù)完整,直接分析全部數(shù)據(jù)效果會更好,這時可以使用VIM_AUC方法進行變量篩選。

4.VIM_AUC方法也有一定的局限性,即AUC這一指標有時不夠敏感,因此今后也可以考慮使用部分ROC曲線下面積、信息量等其他統(tǒng)計量構建RF分類器。

[1]Breiman L.Random Forests.Machine Learning,2001.45(1):5-32.

[2]Calle M L,Urrea V.Letter to the Editor:Stability of Random Forest importance measures.Briefings in bioinformatics,2011,12(1):86-89.

[3]Strobl C,Boulesteix AL,Zeileis A,et al.Bias in random forest variable importance measures:Illustrations,sources and a solution.BMC bioinformatics,2007,8(1):25.

[4]Boulesteix AL,Bender A,Bermejo JL,et al.Random forest Gini importance favours SNPs with large minor allele frequency:impact,sources and recommendations.Briefings in Bioinformatics,2012,13(3):292-304.

[5]Nicodemus KK.Letter to the editor:on the stability and ranking of predictors from random forest variable importance measures.Briafings in Bioinformatrics,2011,12(4):369-373.

[6]Janitza S,Strobl C,Boulesteix AL.An AUC-based permutation variable importance measure for random forests.BMC bioinformatics,2013,14(1):119.

[7]Cumm ings MP,Myers DS.Simple statistical models predict C-to-U edited sites in plantmitochondrial RNA.BMC bioinformatics,2004,5(1):132.

[8]李貞子,張濤,武曉巖,等.隨機森林回歸分析及在代謝調(diào)控關系研究中的應用.中國衛(wèi)生統(tǒng)計,2012(6):158-160,163.

國家自然科學基金資助(81473072)

△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

(責任編輯:郭海強)

猜你喜歡
重要性方法
土木工程中建筑節(jié)能的重要性簡述
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
學習方法
論七分飽之重要性
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 亚洲天堂视频在线免费观看| 无码粉嫩虎白一线天在线观看| 红杏AV在线无码| 亚洲日本中文字幕乱码中文 | 国产成人一级| 男女性色大片免费网站| 免费国产高清精品一区在线| 不卡无码h在线观看| 婷婷午夜影院| 亚洲午夜福利在线| a毛片在线播放| 国产色网站| 91色国产在线| 伊人成人在线视频| 无码专区第一页| 中文字幕乱码中文乱码51精品| 亚洲,国产,日韩,综合一区| 久久精品人人做人人爽电影蜜月 | 亚洲欧美一区二区三区麻豆| 永久在线精品免费视频观看| 免费啪啪网址| 成年人国产网站| 成人福利在线观看| 欧美在线一级片| 亚洲一区免费看| www成人国产在线观看网站| 极品私人尤物在线精品首页| 国产资源免费观看| 欧美精品伊人久久| 久久综合一个色综合网| 一级不卡毛片| 国产成人AV综合久久| 伊人丁香五月天久久综合 | 9久久伊人精品综合| 国产97视频在线观看| 91久久国产综合精品| 伊人久久精品亚洲午夜| 国产精女同一区二区三区久| 中文字幕亚洲另类天堂| 欧美在线国产| 性色在线视频精品| 久久精品这里只有精99品| 精品第一国产综合精品Aⅴ| 无码日韩精品91超碰| 精久久久久无码区中文字幕| 四虎影视8848永久精品| 91外围女在线观看| 欧美国产菊爆免费观看| 国产SUV精品一区二区6| 欧美区在线播放| 国产精品福利在线观看无码卡| 国产欧美日韩专区发布| 一本大道香蕉中文日本不卡高清二区 | 中文无码毛片又爽又刺激| 久久国产精品影院| 青青青亚洲精品国产| 久久五月天综合| 亚洲天堂网在线视频| 青青操国产| 精品久久高清| 亚洲国产天堂久久综合| 国产精品刺激对白在线| 久久婷婷国产综合尤物精品| 亚洲美女一区| 一级做a爰片久久毛片毛片| 国产浮力第一页永久地址| 国产日韩丝袜一二三区| 国内精自线i品一区202| 伊人久久精品无码麻豆精品| 久久久久久尹人网香蕉 | 香蕉久久永久视频| 欧美综合中文字幕久久| av免费在线观看美女叉开腿| 亚洲欧洲日韩久久狠狠爱| 久久精品国产免费观看频道| 国产精品视频公开费视频| 老司国产精品视频91| 欧美另类精品一区二区三区| 欧美a在线| 国产精品自拍合集| 亚洲日韩高清在线亚洲专区| 欧美一级特黄aaaaaa在线看片|