999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隨機森林的變量捕獲方法在高維數據變量篩選中的應用*

2015-03-09 06:52:14宋欠欠李軼群侯艷李
中國衛生統計 2015年1期
關鍵詞:排序分類方法

宋欠欠李軼群侯 艷李 康△

隨機森林的變量捕獲方法在高維數據變量篩選中的應用*

宋欠欠1李軼群2侯 艷1李 康1△

目的探討隨機森林(RF)的變量捕獲方法在高維數據變量篩選中的應用。方法通過模擬實驗和實際數據分析,對兩種變量捕獲(vh.md,vh.vimp)和逐步剔除方法(varSelRF)進行比較,并通過選入變量的數目、模型預測錯誤率(PE)和受試者工作特征曲線下面積(AUC)對其進行評價。結果模擬實驗表明,在變量具有聯合作用、交互作用和弱獨立作用情況下,變量捕獲方法均明顯優于varSelRF方法和全變量VIMP排序方法;實際數據分析結果表明,變量捕獲方法篩選變量結果穩定,并能夠保證良好的預測效果。結論變量捕獲方法適用于高維數據的變量篩選,具有實用價值。

隨機森林 變量篩選 變量捕獲

高通量組學技術的迅速發展促進了研究者們從分子水平上研究疾病的發生和發展過程,成為生物學研究的有力工具。另一方面,高維組學數據的特點使得傳統的方法不再可行,對統計學和生物信息學數據分析提出了重大挑戰。近年來,隨機森林(random forest,RF)方法在高維組學中得到廣泛應用,它是一個非參數的基于樹的組合分類器(模型),能夠有效地處理高維變量問題[1]。RF的重要特點是可以對變量的重要性進行排序,識別與疾病有關的基因、蛋白、代謝物等生物標志物,同時能夠對數據進行分類。然而,通常情況下組學數據變量數目巨大(如m>2000),且對預測有作用的變量數目p占總變量數目m的比例很小(如p/m<0.05),建立的RF模型容易受到對分類不起作用變量的干擾,使變量重要性排序和分類效果下降,甚至完全失效[2-6]。為此,Ishwaran等人給出了變量捕獲(variable hunting)方法[7-9],用來解決這一問題。本文在簡要介紹這一方法的基礎上,通過模擬實驗和實際數據探索其適用性,并與直接使用RF方法及目前使用較多的變量逐步剔除方法(backwards variable elimination using random forests,varSelRF)進行比較[10]。

原理與方法

1.隨機森林的基本思想

RF的基本思想是通過自助法(bootstrap)重抽樣技術從原始數據中有放回的隨機抽取Ntree個自助樣本,作為訓練樣本,對每個樣本都建立一個二元遞歸分類樹。每個自助樣本平均不包含37%的原始數據,將這些數據稱為袋外數據(out of bag data sets,OOB)并作為RF的測試樣本;最后,由訓練樣本生成Ntree個分類樹組成隨機森林,根據分類樹的投票確定測試樣本的分類結果[1-2]。變量的篩選可以依據不同的統計量和篩選過程。

2.衡量變量重要性的統計量

(1)VIMP統計量 計算置換變量的重要性(permutation variable important,VIMP)。具體地,測量一個變量Xi(i∈1,2,…,m)的重要性,首先建立樣本數據的隨機森林(RF),然后對所有OOB樣本中這個變量的值進行隨機打亂,并根據建立好的RF模型對每一個體所屬類別進行預測,計算該變量擾亂前后OOB的預測錯誤率的改變大小。對于所有的樹,變量擾亂前后OOB預測錯誤率改變的平均值作為置換變量的重要性評分[1,4]。

(2)最小深度統計量 從樹的根結點到最近的變量Xi的最大子樹的根結點的距離稱為變量Xi的最小深度。變量Xi的最大子樹越接近根節點,其預測作用越大。最小深度的分布和變量篩選的閾值都可以計算出來[8-9]。在高維數據中,假設變量與分類變量無關,D(ζ)是樹ζ的深度,其概率分布為

其中ld等于深度為d時非終節點的數目,m為變量的數目。

3.變量捕獲方法

這是一種再抽樣和向前選擇變量的方法,由Ishwaran等人提出[8-9]。首先,從數據中隨機抽取一個子集(如五折抽樣,其中四份為訓練樣本,其余一份為預測樣本),同時隨機選擇一部分變量(如m/5);應用選擇的數據和變量構建RF,變量排序可以使用VIMP統計量(variable hunting with variable importance,vh.vimp)或最小深度統計量(variable hunting with minimal depth,vh.md)。選擇最小深度閾值作為最初的模型,然后根據最小深度或VIMP的排序將變量逐步增加到最初的模型中,直到模型的聯合VIMP統計量穩定為止,并作為最終模型。聯合VIMP統計量的計算原理同前,但需要同時置換多個變量。上述過程重復nrep次,計算平均篩選變量的個數(取近似整數值p),再根據各變量被篩選出來的頻率進行排序,選擇排列在前面的p個變量作為最終篩選出的重要變量。最后,應用篩選出的變量對樣本數據給出一個新的RF模型。

上述過程可以使用R語言程序包randomForestSRC實現。

模擬實驗

實驗目的:構建具有不同作用的變量,并加入一定數目的噪聲變量,考察基于VIMP的變量捕獲方法(vh.vimp)和基于最小深度的變量捕獲方法(vh.md)的篩選效果,同時與目前使用較多的變量逐步剔除方法(varSelRF)和直接使用VIMP統計量排序方法進行比較。

1.模擬實驗一

實驗設置:設置3個具有聯合分類作用的變量X1,X2,X3,且均為二分類編碼(1表示高表達,0表示低表達),3個變量有8種不同的組合方式,不同組合出現的概率不同,并與取值是否為“1”或“0”有極強的關系,如圖1所示。按照這種方式隨機產生2組上述聯合分類變量,即X1,X2,…,X6,其中X4,X5,X6,產生方式同X1,X2,X3,且各變量對于分類貢獻等同。隨機產生2000個標準正態分布噪聲變量Z~N(0,1),疾病組(D=1)與對照組(D=0)的樣本含量設置為n1=n2=50,形成模擬數據。同時產生兩組樣本量均為200的測試數據集。

圖1 二分類聯合作用變量的模擬數據產生示意圖

模擬方法:應用vh.vimp、vh.md和varSelRF程序對訓練數據進行變量篩選,并使用所有變量應用VIMP對其進行排序,記錄前10(vimp10)、25(vimp25)和50(vimp50)個變量中含有設定的差異變量的情況。根據篩選出的變量計算變量篩選的假發現率(false discovery rate,FDR),同時應用篩選后的訓練數據建立RF模型,并對預測數據進行預測,應用預測誤分錯誤率(predicted error rate,PE)和ROC曲線下面積(area under the receiver operating characteristic curve,AUC)進行評價。模擬重復100次,結果見表1。

模擬結果:表1給出了varSelRF、vh.vimp和vh.md在模擬實驗中篩選的變量個數、包含差異變量的個數、假發現率和變量篩選前后隨機森林預測效果的評價統計量的平均值,同時給出了根據隨機森林全部變量VIMP的大小進行排序后選擇前10、25、50個變量時包含真實差異變量的情況。結果表明,在二分類聯合作用條件下,varSelRF、vh.vimp和vh.md均能篩選出較多的差異變量,而基于全部變量的VIMP排序則不能夠達到較好的變量篩選效果。同時注意到,varSelRF篩選的變量結果極不穩定(四分位數間距為34),而vh.md方法雖然能夠篩選出所有的差異變量,但卻具有較高的FDR值。總之,三種方法中vh.vimp方法篩選變量的FDR值最小,結果穩定,其預測效果最好。

表1 具有變量聯合作用時幾種變量篩選方法的模擬實驗結果

2.模擬實驗二

實驗設置:設置具有交互作用的變量。兩個差異變量Z1和Z2服從正態分布,疾病組服從Z1~N(1,1)和Z2~N(5,1),對照組服從Z1~N(0,1)和Z2~N(0,1),兩變量的相關系數為0.6。做變量變換X1=Z1,X2=Z2/Z1,即X1和X2具有一階交互作用。應用同樣方式,給出{X3,X4},{X5,X6},{X7,X8},{X9,X10},每個單變量AUC≈0.76。另外,隨機產生2000個服從標準正態分布的變量作為噪聲變量(n1=n2=50),形成模擬數據,用于變量篩選和建立RF模型,同時產生兩組樣本量均為200的測試數據集用于變量篩選后RF模型的預測。模擬重復100次。

表2給出了varSelRF、vh.vimp、vh.md和基于全部變量顯示VIMP排序方法在存在交互作用時模擬實驗情況。結果顯示,變量捕獲方法明顯優于varSelRF方法,雖然varSelRF方法也能較好地篩選出差異變量,但其穩定性上明顯不如前者,同時變量捕獲方法有更低的FDR值。由于設定的差異變量作用很強,在包含所有變量的VIMP方法中這些變量也排在了最前面。

表2 具有變量交互作用時幾種變量篩選方法的模擬實驗結果

3.模擬實驗三

實驗設置:設置具有作用較弱且相互獨立的差異變量。病例組每個差異變量服從X~N(0.5,1)的正態分布,對照組服從標準正態分布X~N(0,1),每個單變量AUC≈0.62,共10個差異變量。在兩組中,隨機產生4000個正態分布噪聲變量X~N(0,1)。樣本量設置為n1=n2=50,形成模擬數據,進行變量篩選并用篩選后數據建立RF模型,同時應用上述模擬產生200例測試數據用于評價RF模型,模擬重復100次。

模擬結果:表3給出了varSelRF、vh.md、vh.vimp和基于全部變量的VIMP排序方法在模擬實驗中進行變量篩選的情況。結果顯示,varSelRF、vh.md和vh.vimp在一定程度上能夠達到變量篩選的效果,但漏選的變量較多。相比而言,兩種基于變量捕獲方法篩選的變量個數均比較穩定,并具有較低的FDR值(FDR<0.45),而varSelRF篩選的變量個數較多且不穩定,并有較高的FDR值。

實例驗證

選用課題組研究的四個代謝組數據進行分析,數據的基本情況如表4。利用7折交叉驗證方法,將實際數據劃分為訓練數據和測試數據,使用隨機森林的兩種變量捕獲方法(vh.md,vh.vimp)和逐步剔除(varSelRF)方法,對訓練數據進行變量篩選,然后應用篩選后的訓練數據建立RF模型,對測試數據進行預測和評價。隨機重復10次7折交叉驗證,計算平均值。

表3 具有變量弱獨立作用時幾種變量篩選方法的模擬實驗結果

表4 實際代謝組數據的樣本分布情況

表5給出了四個代謝組數據使用三種不同方法篩選的變量個數和預測情況。

表5 隨機森林(RF)篩選變量的三種方法分析結果

圖2 實際四組代謝組數據中應用三種篩選變量方法建立的RF預測結果

結果顯示,三種方法篩選變量后建模,其預測能力與使用全部變量相近,vh.md和vh.vimp方法優于varSelRF(圖2)。從變量篩選上看,varSelRF篩選的變量總數較少,vh.vimp在三種方法中篩選的變量個數適中,其四分位數間距最小,篩選變量的結果最為穩定和可靠。

討 論

1.RF是一個組合決策樹方法,具有抗噪聲、防止過擬合、不受共線影響和能夠處理非線性數據等優點,可用于高維組學數據的變量篩選和預測。在變量很多的情況下,RF變量篩選容易受大量無作用的噪聲變量的干擾,直接使用VIMP進行排序可能不準確,而且各變量之間的VIMP相互影響,無法用標準化的方法給出篩選變量的閾值。

2.varSelRF方法是一種向后選擇變量的方法,其基本思想是不斷去除VIMP排在后面的變量,減少噪聲變量的干擾,使前面的變量排序更加準確,再不斷去除可能沒有作用的變量,選擇OOB錯誤率最小的變量集。這種方法的主要問題是,如果有比較多的差異變量,而且一些變量之間具有較強的相關性(信息重疊),遵照“最節省原則”,可能會使很多變量不能被選入RF模型。另外,如果數據中含有作用很大的變量,其他作用相對較弱的變量就不容易選入模型,從實例驗證可以清楚地看到這一點。模擬實驗中沒有顯示相應的結果,原因是設置的差異變量的作用相同。varSelRF方法的最大問題是篩選變量的結果不穩定。

3.相對而言,變量捕獲方法是一種更好的變量篩選方法。其基本思想是利用重抽樣方法不斷抽取一定比例的樣本,同時在所有變量中抽取一定數量的變量進行建模,核心是利用最小深度統計量的概率分布確定閾值,在此基礎上向前進行變量篩選。理論上,這種方法可以應用于任意高維變量的組學數據中,拓寬了RF的應用范圍。本文在模擬實驗中,應用FDR值進行變量篩選效果的評價,同時對基于篩選變量后的訓練數據建立RF模型,并使用預測錯誤率以及AUC值兩個指標進行預測效果評價。模擬實驗證實,即使在變量作用較弱的情況下,仍能夠保證篩選的變量具有較低的FDR值,特別是vh.vimp方法在本文中給出的各種情況下,篩選變量的穩定性非常好,而且其篩選后變量的預測效果略優,結果更為可信。在實際數據分析中,本文應用篩選變量后的訓練數據建立RF模型并應用測試數據對篩選效果進行評價,結果表明vh.vimp和vh.md均在一定程度上優于varSelRF方法。

4.變量捕獲方法本質上是一種篩選變量的策略,篩選時可以使用不同的統計量。事實上,改變篩選變量過程的不同參數,可以獲得不同數量的“差異變量”,如本文確定RF模型變量的數目是根據再抽樣樣本選入變量的平均值,實際中也可以設定其他參數(如P75)進行變量篩選。

1.Breiman L.Random forests.Machine Learning,2001,45(1):5-32.

2.武曉巖,李康.隨機森林方法在基因表達數據分析中的應用及研究進展.中國衛生統計,2009,26(4):437-440.

3.Wu X,Wu Z,Li K.Classification and identification of differential gene expression for microarray data:improvement of the random forest method.International Conference on Bioinformatics and Biomedical Engineering,2008.

4.Wu X,Wu Z,Li K.Identification of differential gene expression form icroarray data using recursive random forest.Chinese Medical Journal,2008,121(24):2492-2496.

5.Strobl C,Boulesteix AL,Zeileis A,et al.Bias in random forest variable importance measures:illustrations,sources and a solution,BMC Bioinformatics,2007,8(25).

6.Biau G,Devroye L,Lugosi G.Consistency of random forests and other averaging classifiers,Journal of Machine Learning Research,2008,9:2015-2033.

7.Ishwaran H,Kogalur UB,Blackstone EH,et al.Random survival forests.The Annals of Applied Statistics,2008,2(3):841-860.

8.Ishwaran H,Kogalur UB,Gorodeski EZ,etal.High-Dimensional Variable Selection for Survival Data.Journal of the American Statistical Association,2010,105(489):205-217.

9.Ishwaran H,Kogalur UB,Chen X,et al.Random survival forests for high-dimensional data.Statistical Analysis and Data Mining,2011,4(1):115-132.

10.Díaz-Uriarte R,Alvarez de Andrés S.Gene selection and classification of microarray data using random forest.BMC Bioinformatics,2006,7(3).

(責任編輯:劉 壯)

The Application of a Random Forest-based Variable Hunting Method to Variable Selection in High-dimensional Data

Song Qianqian,Li Yiqun,Hou Yan,et al(Department of Medical Statistics,Harbin Medical University(150081),Harbin)

ObjectiveThis project explored the application of a random forest-based variable hunting approach to variable selection in high-dimensional data.MethodsTwo variable hunting methods(vh.md,vh.vimp)were compared with backwards variable elimination using random forest(varSelRF)by the analysis of simulation data and real metabonomics data,and then variable numbers,predicted error rate(PE)and the area under the receiver operating characteristic curve(AUC)were used to evaluate these approaches.ResultsSimulation experiments suggested that variable hunting method was more effective than varSelRF and sorted VIMP method,in the case of combined effects,interactions and weak independent effects.Analysis results of metabonomics data confirmed that the results of variable selection were stable and had favorable predictive effects with the variable hunting method.ConclusionThe variable hunting approach was applicable to variable selection in high-dimensional data and possessed practical value.

Random forest;Variable selection;Variable hunting

*:國家自然科學基金資助(81172767);高等學校博士學科專項基金(20122307110004)

1.哈爾濱醫科大學衛生統計學教研室(150081)

2.哈爾濱醫科大學生物信息教研室

△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

猜你喜歡
排序分類方法
排序不等式
分類算一算
恐怖排序
分類討論求坐標
節日排序
數據分析中的分類討論
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: av一区二区人妻无码| 无码人妻免费| 日韩精品一区二区三区swag| 欧美性色综合网| 91一级片| 茄子视频毛片免费观看| 无码电影在线观看| 欧美国产日产一区二区| 91外围女在线观看| 亚洲无码91视频| 71pao成人国产永久免费视频| 成人国产免费| 国产第八页| 一级做a爰片久久免费| 久久久久国产精品熟女影院| 国产超碰一区二区三区| 亚洲精品无码AⅤ片青青在线观看| 婷婷开心中文字幕| 国产网站免费观看| 亚洲欧美人成人让影院| 国产免费a级片| 国产成人做受免费视频| 毛片免费视频| 国产成人夜色91| 国产农村1级毛片| 97超级碰碰碰碰精品| 在线另类稀缺国产呦| 色男人的天堂久久综合| 成人精品视频一区二区在线| 最新国产成人剧情在线播放| 亚洲欧美另类日本| 伊人久久精品亚洲午夜| 手机永久AV在线播放| 永久免费精品视频| 91午夜福利在线观看精品| 精品福利国产| 久久天天躁狠狠躁夜夜躁| 2018日日摸夜夜添狠狠躁| 亚洲免费黄色网| 亚洲免费人成影院| 国产精品护士| 亚洲视频一区在线| 久久人妻xunleige无码| 亚洲专区一区二区在线观看| AV色爱天堂网| 欧美性猛交xxxx乱大交极品| 青草午夜精品视频在线观看| 91精品情国产情侣高潮对白蜜| 五月天久久婷婷| 老司机久久精品视频| 国产美女91呻吟求| 国产亚洲精品无码专| 亚洲成人在线免费| www亚洲精品| 国产一在线| 国语少妇高潮| a级毛片免费看| 九九热在线视频| 国产色伊人| а∨天堂一区中文字幕| 亚洲国产第一区二区香蕉| 99精品久久精品| 成·人免费午夜无码视频在线观看| 在线无码av一区二区三区| 成人精品区| 国产91麻豆视频| 国产无套粉嫩白浆| 青青青视频91在线 | 国产免费黄| 一区二区三区四区精品视频| 国产Av无码精品色午夜| 91精品专区国产盗摄| 狠狠色噜噜狠狠狠狠奇米777| 国内精品视频| 青青草原国产| 久久久久亚洲精品无码网站| 四虎国产在线观看| 亚洲精品不卡午夜精品| 欧美亚洲国产一区| 亚洲国产日韩一区| 亚洲欧美一区二区三区蜜芽| 91久久国产综合精品女同我|