999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高維組學(xué)變量篩選方法的穩(wěn)定性評價方法及應(yīng)用*

2016-12-26 05:38:12哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室150086王璟濤
中國衛(wèi)生統(tǒng)計 2016年3期
關(guān)鍵詞:一致性評價方法

哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室(150086) 王璟濤 侯 艷 李 康

高維組學(xué)變量篩選方法的穩(wěn)定性評價方法及應(yīng)用*

哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計教研室(150086) 王璟濤 侯 艷 李 康△

目的在高維組學(xué)變量篩選過程中,當(dāng)數(shù)據(jù)發(fā)生輕微變化時,變量篩選方法篩選出的變量會發(fā)生一定的變化。本文探索如何評價篩選變量的結(jié)果是否穩(wěn)定。方法通過模擬實(shí)驗(yàn),分析對比了HD、SCSR、TD、KI、CW、RCW六種穩(wěn)定性評價方法的準(zhǔn)確性及變異程度,并通過實(shí)例結(jié)合PLS、svmRFE和RF三種變量篩選方法對SCSR方法進(jìn)行了考察。結(jié)果當(dāng)變量排序?yàn)殡S機(jī)產(chǎn)生時,SCSR、KI和RCW三種方法基本能夠在取各種變量數(shù)目情況下始終接近于最小值0。對于置換標(biāo)簽和變量值后的數(shù)據(jù)集,PLS、RF、svmRFE三種方法的穩(wěn)定性幾乎完全相同,SCSR、KI和RCW三種穩(wěn)定性評價指標(biāo)在取不同篩選閾值時都達(dá)到了最小期望值。在評價指標(biāo)的穩(wěn)定性上,HD和SCSR能夠保持很小的變異,具有更好的穩(wěn)健性。結(jié)論SCSR的準(zhǔn)確性和穩(wěn)定性最好,推薦作為穩(wěn)定性評價指標(biāo)。

組學(xué) 高維數(shù)據(jù) 變量篩選 穩(wěn)定性

在高維組學(xué)研究中,變量篩選通常用于選擇能夠提高判別模型分類效果的最小變量子集。除了提高判別效果,在高維組學(xué)中,研究人員利用變量篩選方法剔除與疾病狀態(tài)無關(guān)的噪聲變量,篩選出與疾病狀態(tài)緊密相關(guān)、對疾病狀態(tài)具有一定預(yù)測價值的變量,并將這些變量作為潛在的生物學(xué)標(biāo)志物。

在進(jìn)行變量篩選時,為防止判別模型的過擬合,研究人員可以按照一定比例將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和測試集,在訓(xùn)練集上進(jìn)行變量篩選后,再利用測試集檢驗(yàn)所篩變量對疾病狀態(tài)的預(yù)測能力。通常,研究人員往往更加關(guān)注篩選出的變量用于判別模型后分類性能的提高,卻經(jīng)常忽略篩選變量結(jié)果的穩(wěn)定性,這種不穩(wěn)定性有可能降低潛在生物學(xué)標(biāo)志物的可信程度。因此,在變量篩選應(yīng)用中,對于特定的高維組學(xué)數(shù)據(jù),研究評價不同變量篩選方法的穩(wěn)定性,篩選出更為可靠的潛在生物學(xué)標(biāo)志物十分必要。本文在介紹了六種變量篩選穩(wěn)定性評價指標(biāo)的基礎(chǔ)上,對其特點(diǎn)進(jìn)行研究,并結(jié)合實(shí)例分析為如何選擇變量篩選方法提供一定的依據(jù)。

原理與方法

本文研究的穩(wěn)定性是指變量篩選方法對于訓(xùn)練集輕微變動的敏感性。在目前的研究中,對于穩(wěn)定性的評價通常是通過對變量篩選方法在不同訓(xùn)練集上篩選變量子集之間的一致性進(jìn)行評價。

圖1展示了評價穩(wěn)定性的一般過程[1]:①對于給定的數(shù)據(jù)集,從其中抽取比例為e的樣本形成子集,共抽取W次,得到W個樣本子集D1,D2,……,DW;②對每個樣本子集進(jìn)行變量篩選,變量篩選結(jié)果以變量重要性排序的形式體現(xiàn),保留每個變量排序結(jié)果中的前s個變量,得到 W個篩選變量子集:V1,V2,……,VW;③利用穩(wěn)定性評價指標(biāo)計算所有篩選變量子集中兩兩之間的一致性,得到一個一致性矩陣;④求所有一致性結(jié)果的均值,得到最終的穩(wěn)定性評價結(jié)果。

其中,第③步是整個評價過程中的核心部分,目前有許多文章提出了評價兩個篩選變量子集之間一致性的方法。

圖1 變量篩選方法穩(wěn)定性評價的一般過程

1.Hamming距離法

Kevin Dunne利用Hamming距離作為兩個篩選變量子集之間的一致性評價指標(biāo)[2],其表達(dá)式為

其中,M為原始數(shù)據(jù)集中變量的個數(shù);mi,mj為所有篩選變量子集中的任意兩個;cik表示所有變量中第k個變量被篩選變量子集mi納入的情況,如果該變量被納入篩選變量子集mi,則其值為1,否則其值為0。

然后,計算所有篩選變量子集兩兩之間的Hamming距離的均值,W個篩選變量子集兩兩之間共計算得到W(W-1)/2個Hamming距離,所以均值為

2.SCSR法

Barbosa提出將穩(wěn)定性顯著的變量(self-consisitent selections,SCS)個數(shù)與篩選變量子集長度的比值作為評價篩選方法穩(wěn)定性的指標(biāo)[3],即 SCSR(self-consisitentselections ratio)。這里假設(shè)某個變量在所有篩選變量子集中被納入的次數(shù)服從二項分布,二項分布的參數(shù)P等于篩選變量子集的長度與總的變量個數(shù)M的比值。設(shè)置檢驗(yàn)水準(zhǔn)為0.01,將出現(xiàn)次數(shù)高于該界值的變量當(dāng)做SCS,利用Holm-Bonferroni校正多重檢驗(yàn)的影響。然后計算每個篩選變量子集中SCS的個數(shù)與篩選變量子集長度的比值SCSR,將所有篩選變量子集的SCSR的均值作為評價指標(biāo)。

3.Tanimoto距離

Kalousis使用Tanimoto距離作為篩選變量子集一致性的評價指標(biāo)[4],統(tǒng)計量的計算公式為

其中,分子為任意兩個篩選變量子集交集的長度,分母為這兩個篩選變量子集并集的長度。

然后,計算所有篩選變量子集兩兩之間Tanimoto距離的均值,作為作為變量篩選方法的穩(wěn)定性的評價指標(biāo),即

4.Kuncheva指數(shù)

在兩個篩選變量子集的交集中,有一部分變量可能由于隨機(jī)波動導(dǎo)致。對于兩個長度相等的篩選變量子集,當(dāng)一個篩選變量子集固定時,隨機(jī)產(chǎn)生另一篩選變量子集,則兩個篩選變量子集重合部分的變量個數(shù)服從超幾何分布,其期望值為 s2/M。Kuncheva對Tanimoto距離法進(jìn)行了改進(jìn),將這一部分變量從重合部分中剔除[5],構(gòu)造了兩個篩選變量子集之間一致性的評價指標(biāo)Ic,其表達(dá)式為

其中,s為每個篩選變量子集的長度,r為兩個篩選變量子集的交集的長度,M為原始數(shù)據(jù)集中的變量個數(shù)。

然后,計算所有篩選變量子集兩兩之間的Ic的均值,作為作為變量篩選方法的穩(wěn)定性的評價指標(biāo),即

5.CW統(tǒng)計量

Somol將所有篩選變量子集中包含的變量進(jìn)行綜合考慮,記S為所有篩選變量子集中的變量構(gòu)成的集合,篩選變量子集個數(shù)為W,每個篩選變量子集的長度均為s,所有變量出現(xiàn)的次數(shù)總和(即集合S的長度)為V=W*s,集合S中出現(xiàn)的變量個數(shù)為A(A≤M),記 Ff為其中第 f個變量出現(xiàn)的次數(shù)(f=1,2,…,A),因此所有變量出現(xiàn)的次數(shù)總和 V也等于引入了評價指標(biāo) C(S),即

這一指標(biāo)的含義是計算集合S中每個變量出現(xiàn)的次數(shù)與所有變量出現(xiàn)的總次數(shù)之比的均值。

然后,在指標(biāo) C(S)中的每一項乘以一個權(quán)重wf=Ff/V,得到 CW指標(biāo)[6],用以衡量加權(quán)的一致性(weighted consistency),即

6.RCW統(tǒng)計量

上述CW未調(diào)整篩選變量子集個數(shù)W和原始數(shù)據(jù)集的變量個數(shù)M對一致性的影響,即隨著W和M的增大,CW也會隨之增大。為此,Somol計算出新的衡量指標(biāo),即首先在給定W和M的情況下CW的最大值和最小值

其中,G為V除以M后的余數(shù),即G=mod(V/M);H為V除以W后的余數(shù),即H=mod(V/W);然后利用最大值、最小值對CW進(jìn)行調(diào)整,構(gòu)建RCW指標(biāo)[6],用以衡量相對加權(quán)的一致性(relative weighted consistency),即

模擬實(shí)驗(yàn)

1.不同指標(biāo)對于隨機(jī)結(jié)果的評價能力

這里,模擬的方法是對1000個變量進(jìn)行隨機(jī)排序,然后分別取前 1%,5%,10%,15%,20%,25%,…,95%,100%的變量作為篩選變量子集,利用六種指標(biāo)進(jìn)行評價,重復(fù)100次,取其平均值。由于變量重要性的順序在每次排列時是隨機(jī)給出的,因此穩(wěn)定性應(yīng)接近最小期望值。結(jié)果顯示,在六種評價方法中,KI、SCSR和RCW三種統(tǒng)計量值基本能夠在取各種變量數(shù)目情況下始終處于最小值0附近,而其他三種方法則在變量選入數(shù)目不同時,統(tǒng)計量的值明顯變化;TD和CW僅在取變量總數(shù)目的1%時,其值接近于0;HD則呈拋物線狀,在任何情況下其值都不接近0(見圖2)。

圖2 各種評價指標(biāo)對隨機(jī)產(chǎn)生的篩選變量子集的評價結(jié)果

2.實(shí)際數(shù)據(jù)置換實(shí)驗(yàn)

取卵巢癌代謝組數(shù)據(jù),其中有2106個變量,病例組140例,對照組158例。將是否患病的標(biāo)簽和變量值不斷打亂,分別用偏最小二乘法(PLS)[7]、隨機(jī)森林(RF)[8]、支持向量機(jī)后退法(svmRFE)[9]進(jìn)行變量篩選,并保留前 1%,5%,10%,15%,20%,25%,…,95%,100%的變量作為篩選變量子集,重復(fù)100次,然后利用六種指標(biāo)進(jìn)行評價。結(jié)果顯示,PLS、RF和svmRFE三種變量篩選方法的結(jié)果完全重合(見圖3),而SCSR、KI和RCW三種穩(wěn)定性評價指標(biāo)在取不同篩選閾值時都達(dá)到了最小期望值,與前面的結(jié)果一致。

圖3 各種評價指標(biāo)對變量篩選方法在轉(zhuǎn)換數(shù)據(jù)上的穩(wěn)定性的評價結(jié)果

3.不同指標(biāo)穩(wěn)定性的對比研究

為了對六種指標(biāo)的自身穩(wěn)定性進(jìn)行比較,本研究進(jìn)行了如下模擬實(shí)驗(yàn):模擬產(chǎn)生A、B兩組數(shù)據(jù),包含20個差異變量,A組差異變量服從N(0,1)的正態(tài)分布,B組差異變量服從N(1,1)的正態(tài)分布,任意兩差異變量間的相關(guān)系數(shù)為ρ=0.9;然后加入980個噪聲(無差異變量),形成樣本數(shù)據(jù)。樣本量分別設(shè)置為30、50、100,計算各項指標(biāo)的參數(shù)設(shè)置為 e=0.9,W=1000。考慮模擬的計算量較大,這里僅使用偏最小二乘(PLS)方法進(jìn)行變量篩選,篩選的閾值分別取前1%、2%、3%、5%、10%、20%、50%的變量。上述過程模擬50次,然后分別計算六種指標(biāo)的變異系數(shù)。結(jié)果表明:在六種評價方法中,HD和SCSR在不同情況下均十分穩(wěn)定,變異系數(shù)恒接近0(圖4);KI、CW、RCW和TD則相對不夠穩(wěn)定,尤其在樣本量較小情況(n=30)時,變異較大(圖4)。

圖4 不同指標(biāo)的變異系數(shù)

實(shí)例分析

實(shí)例取自四個數(shù)據(jù)集,包括一個代謝組數(shù)據(jù)和三個基因表達(dá)數(shù)據(jù)(見表1)。現(xiàn)用SCSR方法分析比較PLS、RF、svmRFE三種不同變量篩選方法得到結(jié)果的穩(wěn)定性。

表1 四個數(shù)據(jù)集的相關(guān)信息

首先,將數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化、歸一化處理。然后分別利用PLS、RF、svmRFE進(jìn)行變量篩選,計算SCSR的參數(shù)設(shè)置為e=0.9,W=100,保留排序靠前的0.5%、1%、2%、5%、10%、25%、50%的變量,分別計算 SCSR。結(jié)果表明:PLS方法篩選出變量的穩(wěn)定性最好,其次是svmRFE方法,穩(wěn)定性最差的是RF方法(圖5)。

圖5 不同數(shù)據(jù)集上三種變量篩選方法的SCSR值

討 論

1.變量篩選方法的穩(wěn)定性是指數(shù)據(jù)的輕微變動引起結(jié)果變化的情況。實(shí)際中,如果篩選出的變量具有很好的穩(wěn)定性,則更有理由相信得到的結(jié)果具有較好的重現(xiàn)性,否則需要慎重對待得到的結(jié)果。

2.本文在簡要介紹了六種穩(wěn)定性評價指標(biāo)的基礎(chǔ)上,通過設(shè)置適當(dāng)?shù)臈l件和模擬實(shí)驗(yàn)分析對比了六種指標(biāo)的性質(zhì)。結(jié)果顯示,KI、SCSR和RCW三種方法相對較好,特別是SCSR方法無論在準(zhǔn)確性和穩(wěn)定性上都具有更好的性質(zhì),是我們推薦使用的方法。

3.通過實(shí)例分析,利用SCSR在四種數(shù)據(jù)集上對PLS、RF、svmRFE三種變量篩選方法的穩(wěn)定性進(jìn)行了分析。結(jié)果顯示,總體上PLS的穩(wěn)定性最好,svmRFE次之,RF方法的穩(wěn)定性最差。

4.從應(yīng)用角度看,對于代謝組數(shù)據(jù),無論取多少變量作為“差異變量”,使用svmRFE和RF方法篩選出的變量都不夠可靠,PLS方法則顯現(xiàn)出很好的穩(wěn)定性,從中說明了為什么PLS方法在代謝組學(xué)中有著更廣泛的應(yīng)用。對于基因組表達(dá)數(shù)據(jù),在取2%的變量作為“差異變量”時,三種方法篩選變量的穩(wěn)定性相差并不大,也從另一方面說明,svmRFE和RF方法可能對“差異大小”更為敏感,很可能基因組表達(dá)數(shù)據(jù)中大概只有2%的基因是真正的差異基因,這與文獻(xiàn)報道一致。

[1]Salem A,Zheng Z,Huan L.A Dilemma in Assessing Stability of Feature Selection Algorithms.International Conference on High Performance Computing and Communications Banff:IEEE,2011:701-707.

[2]Kevin D,Padraing C,F(xiàn)rancisco A.Solutions to Instability Problems with Sequential W rapper-based Approaches to Feature Selection.Journal of Machine Learning Research,2002,2:748-769.

[3]M iron BK.Robustness of Random Forest-based gene selection methods.BMC bioinformatics,2014,15(1):8-15.

[4]Kalousis A,Prados J,Hilario M.Stability of feature selection algorithms:a study on high-dimensional spaces.Know ledge and Information Systems,2007,12(1):95-116.

[5]Kuncheva LI.A stability index for feature selection.IASTED International Multi-Conference:artificial intelligence and applications Innsbruck:IASTED,2007:390-395.

[6]Somol P,Jana N.Evaluating the Stability of Feature Selectors That Optimize Feature Subset Cardinality.Proceedings of the 2008 Joint IAPR International Workshop on Structural,Syntactic,and Statistical Pattern Recognition,2008:956-966.

[7]武海濱,張濤,趙發(fā)林,等.基于偏最小二乘線性判別分析的遺傳算法在代謝組學(xué)特征篩選中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2013,30(4):517-520,524.

[8]武曉巖,李康.隨機(jī)森林方法在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用及研究進(jìn)展.中國衛(wèi)生統(tǒng)計,2009,26(4):437-440.

[9]武振宇,李康.支持向量機(jī)在基因表達(dá)數(shù)據(jù)分類中的應(yīng)用研究.中國衛(wèi)生統(tǒng)計,2007,24(1):8-11.

[10]Uriarte R,Andres SA.Gene selection and classification of microarray data using random forest.BMC bioinformatics,2006,7(1):3-15.

Theory and Application of Stability Measurement of Vaviable Selection Methods in High-dimensional Data

Wang Jingtao,Hou Yan,Li Kang(Department of Health Statistics,School of Public Health,Harbin Medical University(150086),Harbin)

ObjectiveIn the process of feature selection,the results of feature selection methods will be diffierent as instances vary slightly.Our research is to study how to measure the stability of the feature preference.MethodsWe perform simulation experiments to compare the accuracy and variation degree of six measurement of stability:HD,SCSR,TD,KI,CW,RCW.SCSR is further studied by applying PLS,RF,svmRFE to real data.ResultsWhen the feature preference is generated randomly,SCSR,KI,RCW are always close to them inimumnomatter the number of features remained.When we apply PLS,RF and svm-RFE to the data which labels and value of features is permutated and measure stability of results,the stabilities of PLS,RF and svmRFE are almost identical,and SCSR,KI,RCW are still close to them inimum no matter the number of features remained.In the terms of stability of measures themselves,the variation of HD and SCSR are small,this two measures have better robustness.ConclusionSCSR performs best in the terms of accuracy and variation degree,and is recommended by us as the measure of stability.

Omics;High-dimisional data;Feature selection;Stability

國家自然科學(xué)基金資助(81473072)

△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn

(責(zé)任編輯:郭海強(qiáng))

猜你喜歡
一致性評價方法
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學(xué)、評一致性 提高一輪復(fù)習(xí)效率
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
IOl-master 700和Pentacam測量Kappa角一致性分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
基于事件觸發(fā)的多智能體輸入飽和一致性控制
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于Moodle的學(xué)習(xí)評價
保加利亞轉(zhuǎn)軌20年評價
主站蜘蛛池模板: 性欧美久久| 国产欧美在线观看一区| 人人妻人人澡人人爽欧美一区| 青青草原国产| 在线五月婷婷| 欧美视频在线播放观看免费福利资源| 国产高潮流白浆视频| 99热免费在线| 国产玖玖视频| 91啪在线| 国产成人精品18| 蜜桃视频一区二区| 国产原创演绎剧情有字幕的| 国产男人天堂| 免费在线成人网| 欧美日韩午夜| 性视频久久| 三区在线视频| 久久亚洲天堂| 欧美精品三级在线| 欧美日韩免费| 国产在线自揄拍揄视频网站| 国产99视频免费精品是看6| 国产白丝av| 国产一区二区精品高清在线观看| 日韩欧美国产综合| 沈阳少妇高潮在线| 香蕉精品在线| 99人体免费视频| 视频二区中文无码| 中文字幕佐山爱一区二区免费| 美女免费黄网站| 亚洲综合色婷婷| 国产精品自在在线午夜| 欧美中文字幕一区| 国产在线观看一区二区三区| 黄片一区二区三区| 精品少妇人妻一区二区| 伊人天堂网| 亚洲香蕉伊综合在人在线| 久久不卡国产精品无码| 激情网址在线观看| 天堂va亚洲va欧美va国产| 亚洲欧美在线综合图区| 国产h视频在线观看视频| 99re这里只有国产中文精品国产精品 | 54pao国产成人免费视频| 拍国产真实乱人偷精品| 国产精品久久精品| 91无码人妻精品一区| 久久精品人妻中文视频| 国产网站黄| 青青草欧美| 亚洲精品在线观看91| 成人免费黄色小视频| 欧美精品一区二区三区中文字幕| 国国产a国产片免费麻豆| 亚洲日本在线免费观看| 国产精品爽爽va在线无码观看| YW尤物AV无码国产在线观看| 日韩AV手机在线观看蜜芽| 在线日韩日本国产亚洲| 亚洲第一色视频| 精品久久综合1区2区3区激情| 亚洲综合一区国产精品| 国产性猛交XXXX免费看| 伊人AV天堂| 欧美区国产区| 天天做天天爱夜夜爽毛片毛片| 国产成人精品午夜视频'| 视频一区亚洲| 国产成人精品日本亚洲77美色| 亚洲中文字幕手机在线第一页| 制服丝袜国产精品| 国产成人无码AV在线播放动漫| 久久这里只有精品8| 五月婷婷激情四射| 亚洲码一区二区三区| 久久毛片网| 老司机午夜精品视频你懂的| 极品性荡少妇一区二区色欲 | 美女内射视频WWW网站午夜|