999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于AUC統(tǒng)計量的隨機森林變量重要性評分的研究*

2016-12-26 05:38:44哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室150081張曉鳳
中國衛(wèi)生統(tǒng)計 2016年3期
關鍵詞:重要性方法

哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室(150081) 張曉鳳 侯 艷 李 康

基于AUC統(tǒng)計量的隨機森林變量重要性評分的研究*

哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計教研室(150081) 張曉鳳 侯 艷 李 康△

隨機森林(random forest,RF)[1]是高維組學數(shù)據(jù)常用的分析方法,在進行判別分析時,同時能夠給出變量重要性評分(variable importance measure,VIM)。RF的變量重要性評分通常有兩種,一種方法是通過變量值的置換計算其重要性,第二種方法是通過基尼(Gini)指數(shù)計算其重要性,由于置換法比Gini指數(shù)法具有更好的非偏倚性能,因此多采用置換法進行變量篩選[2-5]。然而,當數(shù)據(jù)類別(標簽)比例不均衡時,即收集到的數(shù)據(jù)在兩類中的數(shù)目不相同,尤其比例相差較大時,基于錯誤率(error rate,ER)的置換法不能準確反映變量的重要性。為此,Janitza等(2013)提出基于AUC統(tǒng)計量的評價方法,能夠克服類別間比例不平衡的影響[6]。本文在簡要介紹該方法的基礎上,通過模擬實驗和實例數(shù)據(jù)探索其適用性,并與傳統(tǒng)的置換法進行比較。

原理與方法

1.RF的基本思想

RF采用組合方法(ensemble method)的思想,即對樣本數(shù)據(jù)進行多次隨機抽樣產(chǎn)生N(通常為Ntree)個訓練樣本構造N棵分類樹(稱基分類器),在每次基分類器構建過程中,將訓練樣本以外的數(shù)據(jù)作為測試數(shù)據(jù),稱為袋外數(shù)據(jù)(out of bag data sets,OOB),并通過錯誤率來評價基分類器性能,最后根據(jù)投票(vote)準則將基分類器組合為一個RF分類器。RF在構建分類器的過程中,通過對變量重要性排序進行變量重要性評分。

2.基于錯誤率的置換方法

基于錯誤率置換方法的變量重要性評分(VIM_ER),其基本原理是用同時隨機置換各變量值,通過計算置換前后的OOB錯誤率間的差異衡量該變量的重要性。具體地,欲獲得變量Xi的重要性評分,首先基于訓練樣本構建隨機森林,并估計所有OOB樣本的錯誤率,然后對所有OOB樣本中的變量Xi值進行打亂獲得新的袋外數(shù)據(jù)(OOB′),估算OOB′樣本的ER,最后計算兩次袋外數(shù)據(jù)的ER變化值。最后將所有OOB樣本ER變化均值作為Xi的VIM,Xi的VIM定義如下:

其中,Ntree為RF中樹的個數(shù),ERit為變量Xi置換之前第t棵樹對應的錯誤率,ER′it為變量Xi置換之后第t棵樹對應的錯誤率。

由VIM計算公式我們知道,如果變量Xi與標簽(類別)無關聯(lián),隨機置換該變量后對應的袋外數(shù)據(jù)錯誤率不會發(fā)生變化,理論上=0;相反地,如果>0,則說明變量Xi與分類是有關聯(lián)的。

3.基于AUC統(tǒng)計量的置換方法

基于AUC統(tǒng)計量置換法同樣能夠得到變量的重要性評分(VIM_AUC),與OOB錯誤率得到的VIM_ER原理相似,兩者區(qū)別在于后者基于錯誤率變化衡量變量重要性,前者則是基于AUC(ROC曲線下面積)值的變化評價變量重要性。這里,變量Xi重要性評分定義如下:

其中,AUCit為變量Xi置換之前第t棵樹對應的AUC值,AUC′it為變量 Xi置換之后第 t棵樹對應的 AUC值。

使用OOB錯誤率的變化作為評價變量重要性的指標時,考慮的是整體錯誤率變化情況,但最大的問題是當多數(shù)類樣本較大時,OOB錯誤率未充分考慮少數(shù)類的錯誤率,相當于賦予了多數(shù)類更高的權重。基于AUC統(tǒng)計量的置換方法同時考慮靈敏度和特異度,相當于對兩類各自的準確率賦予了相同的權重,直觀上,對于類別間不平衡數(shù)據(jù)而言,基于AUC統(tǒng)計量得到的變量重要性評分更趨于合理。

模擬實驗

1.實驗目的

(1)探索處理不平衡數(shù)據(jù)時基于ER估計VIM的偏倚性,驗證基于AUC統(tǒng)計量獲得VIM的合理性。

(2)比較VIM_ER和VIM_AUC對變量排序的差別,以及對差異變量和噪音變量的區(qū)分能力。

2.實驗設置

(1)模擬數(shù)據(jù)共設置65個自變量 X=(X1,…,X65)和一個應變量Y∈{0,1},其中按自變量與應變量之間的關聯(lián)程度設置強、中、弱、無四個等級,共15個變量,稱為差異變量;另外設置50個無關聯(lián)變量,稱為噪音變量,具體分布情況見表1。現(xiàn)設置,分組1為樣本較少一組,分組2為樣本較多一組;兩組類別樣本量不平衡的比例(n1∶n2)為 1∶1,1∶3,1∶5,1∶10,1∶15,1∶20;第一組的樣本含量分別為10和30,實驗重復100次。

(2)隨機森林構建參數(shù)設置,分類樹Ntree=1000,mtry=5,基分類器構建時抽取的訓練數(shù)據(jù)為無放回抽樣。

表1 自變量的分布參數(shù)設置

3.模擬實驗結果

(1)圖1和圖2分別給出兩組樣本量平衡和不平衡情況下,VIM_ER和VIM_AUC兩種方法的結果。圖1結果顯示,在兩組例數(shù)相同時,VIM_ER和VIM_AUC兩種方法均能真實反映變量重要性;圖2結果顯示,在兩組例數(shù)不相同、并且相差較大時(n1∶ n2=1∶20),VIM_ER方法幾乎看不到差異變量的作用,而VIM_AUC方法能更好地區(qū)分出差異變量,比VIM_ER方法更合理。

圖1 兩組樣本量平衡(n1=30,兩組樣本量比例為1∶1)

圖2 兩組樣本量不平衡(n1=30,兩組樣本量比例為1∶20)

(2)圖3給出了兩組樣本量不相同情況下,VIM_ER和VIM_AUC兩種方法區(qū)分差異變量的能力。結果顯示,隨著兩組不平衡比例增加,VIM_ER法對差異變量區(qū)分的AUC值呈下降趨勢,表明兩組樣本比例不平衡時,VIM_ER方法獲得的變量VIM得分不能很好地識別差異變量;而VIM_AUC法得到的AUC值隨著總樣本量的增加而增加,最后趨于穩(wěn)定,表明VIM_AUC不受兩組樣本例數(shù)不平衡的影響。

圖4給出了在不同差異情況下,VIM_ER和VIM_AUC兩種方法得到的結果。結果顯示,差異不大和樣本量較小時,兩組不平衡比例對VIM_ER的影響非常明顯,而VIM_AUC則能夠更好地區(qū)分差異變量與噪音變量。

圖3 VIM_ER和VIM_AUC兩種方法區(qū)分15個差異變量的能力

圖4 VIM_ER和VIM_AUC兩種方法區(qū)分5個不同差異變量的能力

實際數(shù)據(jù)驗證

本文選取RNA編輯數(shù)據(jù)作為實際數(shù)據(jù)對上述兩種方法進行比較。該數(shù)據(jù)共包含2613例樣本,分為兩組,其中1306例進行了 RNA編輯,1307例未進行RNA編輯,分析變量43個[7]。為評估 VIM_ER和VIM_AUC兩種方法在不平衡情況下篩選變量的結果,對數(shù)據(jù)做以下處理:①隨機打亂43個變量形成噪音變量,加入到實際數(shù)據(jù)中,從而共有43×2=86個變量;②在第一組中隨機抽100例,同時在第二組中抽取一定比例的樣本,設置兩組例數(shù)比值分別為1∶5和1∶10。以上過程重復100次,最后計算VIM得分的平均值。

圖5分別給出了兩組樣本量平衡(1∶1)和不平衡(1∶5,1∶10)時,使用 VIM_ER和 VIM_AUC兩種方法得到的結果。結果顯示:兩組樣本量相同時,VIM_ER法與VIM_AUC法進行變量篩選后得到的VIM值排序基本相同;兩組樣本量不同時,隨著兩組不平衡程度的增加,使用VIM_ER方法得到的VIM值中很多逐漸趨于0,而VIM_AUC方法仍能給出相對準確的變量重要性評分,保持“差異變量”的VIM值相對較高,從而不會因不平衡問題改變變量的重要性排序。

討 論

1.隨機森林(RF)是由多個決策樹(基分類器)組成的分類器,能夠有效地處理非線性、交互作用、共線性以及高維等問題,同時還能夠避免過擬合,可以進行預測和變量篩選[8]。在類別間例數(shù)不平衡時,實際經(jīng)常使用的方法是在計算變量重要性時使用錯誤率,相當于對例數(shù)較多的類別賦予了更高的權重,從而導致這種方法估計VIM時出現(xiàn)明顯的偏倚,這在實際應用中應予注意。

圖5 兩種方法的變量重要性評分(A圖1∶1,B圖1∶5,C圖1∶10)

2.在構建RF分類器時,使用AUC統(tǒng)計量計算VIM值,能夠在樣本例數(shù)不平衡時準確地反映變量的作用。模擬實驗和實際數(shù)據(jù)驗證的結果顯示了這種方法可以有效地解決不平衡的問題。

3.不平衡的問題主要出現(xiàn)在前瞻性研究中,比如癌癥患者遠遠少于健康人群。這種情況下,雖然可以使用巢式病例-對照的方法,但是如果數(shù)據(jù)完整,直接分析全部數(shù)據(jù)效果會更好,這時可以使用VIM_AUC方法進行變量篩選。

4.VIM_AUC方法也有一定的局限性,即AUC這一指標有時不夠敏感,因此今后也可以考慮使用部分ROC曲線下面積、信息量等其他統(tǒng)計量構建RF分類器。

[1]Breiman L.Random Forests.Machine Learning,2001.45(1):5-32.

[2]Calle M L,Urrea V.Letter to the Editor:Stability of Random Forest importance measures.Briefings in bioinformatics,2011,12(1):86-89.

[3]Strobl C,Boulesteix AL,Zeileis A,et al.Bias in random forest variable importance measures:Illustrations,sources and a solution.BMC bioinformatics,2007,8(1):25.

[4]Boulesteix AL,Bender A,Bermejo JL,et al.Random forest Gini importance favours SNPs with large minor allele frequency:impact,sources and recommendations.Briefings in Bioinformatics,2012,13(3):292-304.

[5]Nicodemus KK.Letter to the editor:on the stability and ranking of predictors from random forest variable importance measures.Briafings in Bioinformatrics,2011,12(4):369-373.

[6]Janitza S,Strobl C,Boulesteix AL.An AUC-based permutation variable importance measure for random forests.BMC bioinformatics,2013,14(1):119.

[7]Cumm ings MP,Myers DS.Simple statistical models predict C-to-U edited sites in plantmitochondrial RNA.BMC bioinformatics,2004,5(1):132.

[8]李貞子,張濤,武曉巖,等.隨機森林回歸分析及在代謝調(diào)控關系研究中的應用.中國衛(wèi)生統(tǒng)計,2012(6):158-160,163.

國家自然科學基金資助(81473072)

△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

(責任編輯:郭海強)

猜你喜歡
重要性方法
土木工程中建筑節(jié)能的重要性簡述
“0”的重要性
論七分飽之重要性
幼兒教育中閱讀的重要性
甘肅教育(2020年21期)2020-04-13 08:09:24
學習方法
論七分飽之重要性
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
讀《邊疆的重要性》有感
唐山文學(2016年11期)2016-03-20 15:26:04
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 精品国产一区91在线| 亚洲国产看片基地久久1024| 国产jizz| 99视频精品全国免费品| 无码电影在线观看| 成人一区在线| 69精品在线观看| 亚洲男人天堂2018| 真实国产乱子伦视频| 毛片卡一卡二| vvvv98国产成人综合青青| 亚洲IV视频免费在线光看| 欧美精品高清| 午夜老司机永久免费看片| 国产成人一区| 久久综合色88| 亚洲最猛黑人xxxx黑人猛交| 国产成人艳妇AA视频在线| 婷婷综合在线观看丁香| 久久伊伊香蕉综合精品| 青青青伊人色综合久久| 综合网天天| 91精品啪在线观看国产60岁| 久久无码免费束人妻| 99久久国产自偷自偷免费一区| 美女无遮挡免费视频网站| 免费人成网站在线高清| 91久久国产热精品免费| 国产精品一老牛影视频| 在线欧美日韩国产| 国产亚洲精品自在久久不卡| 天堂亚洲网| 亚洲精品视频网| 欧美精品xx| 亚洲最新地址| 全午夜免费一级毛片| 国产95在线 | 少妇精品久久久一区二区三区| 精品色综合| 亚洲天堂在线免费| a级毛片毛片免费观看久潮| 一级香蕉视频在线观看| 日韩高清欧美| 毛片久久网站小视频| 熟女成人国产精品视频| 中文无码毛片又爽又刺激| 亚洲av日韩综合一区尤物| 波多野结衣无码视频在线观看| 一本一道波多野结衣一区二区| 午夜一级做a爰片久久毛片| 久久精品中文无码资源站| 伊人久久婷婷五月综合97色| 国产青榴视频| 日韩免费毛片| 中国一级毛片免费观看| 无码一区18禁| 福利在线不卡一区| 一区二区三区四区精品视频 | 久久国产乱子| 国产中文在线亚洲精品官网| 亚洲婷婷六月| 日本成人精品视频| 91外围女在线观看| 国产屁屁影院| 国产乱人激情H在线观看| 国产精品亚洲va在线观看| 动漫精品啪啪一区二区三区| 国产嫩草在线观看| 欧美黄网站免费观看| 啪啪国产视频| 国产在线视频福利资源站| 国产精品无码翘臀在线看纯欲| 欧美激情视频一区二区三区免费| 一级毛片网| 天堂成人av| 在线看国产精品| 国产AV无码专区亚洲精品网站| 国产91高跟丝袜| 日韩国产精品无码一区二区三区| 一区二区偷拍美女撒尿视频| 日韩欧美国产另类| 多人乱p欧美在线观看|