999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LASSO的FDR控制方法及其在高維數(shù)據(jù)生存分析中的應(yīng)用*

2018-07-16 10:06:32許樹(shù)紅董曉強(qiáng)虞明星
關(guān)鍵詞:方法模型

許樹(shù)紅 董曉強(qiáng) 陶 然 高 雪 高 倩 虞明星 王 彤△

【提 要】 目的 基于LASSO-Cox模型探索交叉驗(yàn)證(cross validation)、pcvl法(penalized cross-validated log-likelihood)、EBIC準(zhǔn)則(extended bayesian information criterion)、平穩(wěn)選擇(stability selection)四種方法在控制FDR(false discovery rate)方面的表現(xiàn)及其變量選擇效果。方法 通過(guò)模擬研究評(píng)價(jià)各方法在不同刪失比例、自變量間不同相關(guān)程度以及回歸系數(shù)的不同稀疏水平下的FDR和PSR(positive select rate),并從GEO上下載DLBCL數(shù)據(jù)進(jìn)行基因與預(yù)后間的關(guān)聯(lián)分析。結(jié)果 模擬結(jié)果表明,在不同刪失比例、自變量相關(guān)程度和稀疏水平的情況下,平穩(wěn)選擇法控制FDR的能力都優(yōu)于其他方法且其變量選擇效能也較高。EBIC準(zhǔn)則在相關(guān)程度低、自變量較稀疏時(shí)表現(xiàn)較好,當(dāng)樣本量較小時(shí)結(jié)果較保守。pcvl法雖然不容易漏掉有效應(yīng)的變量,但其FDR仍較高。實(shí)例結(jié)果顯示,EBIC準(zhǔn)則只選出1個(gè)基因,平穩(wěn)選擇法選出的基因中大部分有統(tǒng)計(jì)學(xué)意義且與其他方法的結(jié)果重合度高。結(jié)論 在基于LASSO-Cox模型的高維數(shù)據(jù)生存分析中平穩(wěn)選擇法能較好地控制FDR且其變量選擇效能也較高。

LASSO(least absolute shrinkage and selection operator)作為一種常用的懲罰類(lèi)方法,在GWAS研究、測(cè)序數(shù)據(jù)分析中應(yīng)用廣泛且發(fā)展迅速,其中心思想是將模型系數(shù)的絕對(duì)值函數(shù)作為懲罰項(xiàng)對(duì)模型中變量的系數(shù)進(jìn)行壓縮,使得一些弱效應(yīng)變量的系數(shù)變小,甚至被壓縮為0,以提供一個(gè)稀疏解[1]。LASSO類(lèi)方法通過(guò)直接估計(jì)不為零的回歸系數(shù)來(lái)實(shí)現(xiàn)變量選擇,它不同于經(jīng)典的逐步回歸,并沒(méi)有采用假設(shè)檢驗(yàn)的步驟,并且其變量選擇和參數(shù)估計(jì)的結(jié)果在很大程度上受調(diào)整參數(shù)的影響,然而調(diào)整參數(shù)的傳統(tǒng)選擇方法如交叉驗(yàn)證法和信息準(zhǔn)則法,在選擇調(diào)整參數(shù)時(shí)主要考慮模型的擬合以及模型的復(fù)雜程度,亦未考慮Ⅰ類(lèi)錯(cuò)誤估計(jì)和控制問(wèn)題。目前已有研究者指出LASSO類(lèi)方法存在較高的假陽(yáng)性問(wèn)題[2-3],因此,如何在控制或降低假陽(yáng)性的前提下,選擇合適的調(diào)整參數(shù)從而選出正確的模型尤為重要。

目前已有一些研究在多重校正以及LASSO類(lèi)方法的基礎(chǔ)上,發(fā)展了一些控制Ⅰ類(lèi)錯(cuò)誤同時(shí)篩選出正確變量的方法[4]。FDR作為測(cè)序數(shù)據(jù)多重比較領(lǐng)域中控制Ⅰ類(lèi)錯(cuò)誤的常用指標(biāo),由Benjamini& Hochberg在1995年提出,指拒絕的假設(shè)檢驗(yàn)結(jié)果中Ⅰ類(lèi)錯(cuò)誤所占比例的期望,在整體上控制Ⅰ類(lèi)錯(cuò)誤的同時(shí)能篩出更多有意義的基因[5]。本文將基于LASSO-Cox模型,通過(guò)模擬和實(shí)例研究比較交叉驗(yàn)證法、pcvl法、EBIC準(zhǔn)則和平穩(wěn)選擇法四種調(diào)整參數(shù)選擇方法在控制FDR方面的表現(xiàn)以及在高維數(shù)據(jù)生存分析應(yīng)用中的優(yōu)劣。

原理與方法

LASSO-Cox模型的最大化目標(biāo)函數(shù)為:

(1)

其中p表示協(xié)變量的維數(shù),β=(β1,β2,…,βp)T為各協(xié)變量對(duì)應(yīng)的回歸系數(shù),l(β)為Cox模型的對(duì)數(shù)偏似然函數(shù),λ>0為調(diào)整參數(shù)。調(diào)整參數(shù)λ的大小影響著模型的復(fù)雜程度和收斂速度,λ值過(guò)大可能會(huì)使最終的模型中協(xié)變量個(gè)數(shù)過(guò)少,導(dǎo)致重要的變量被遺漏,反之,λ值若過(guò)小可能會(huì)使最終的模型中協(xié)變量個(gè)數(shù)過(guò)多,使得模型包含很多噪聲變量,導(dǎo)致結(jié)果中FDR過(guò)高。本課題組前期研究中已對(duì)基于LASSO的Ⅰ類(lèi)錯(cuò)誤控制方法的基本原理進(jìn)行了詳細(xì)闡述[4],本文對(duì)交叉驗(yàn)證法(cross validation,CV)、pcvl法(penalized cross-validated log-likelihood)、EBIC準(zhǔn)則(extended bayesian information criterion)、平穩(wěn)選擇法(stability selection)的原理進(jìn)行簡(jiǎn)單介紹。

1.交叉驗(yàn)證

目前最常用的交叉驗(yàn)證是K折交叉驗(yàn)證(K-fold cross-validation),K為整數(shù),1≤K≤n,通常取5或者10。該方法利用訓(xùn)練集來(lái)建立模型并求得回歸參數(shù)估計(jì)值,然后用該回歸參數(shù)估計(jì)值來(lái)預(yù)測(cè)驗(yàn)證集。對(duì)于對(duì)數(shù)偏似然函數(shù),其目標(biāo)函數(shù)為:

(2)

2.pcvl

Ternès[6]針對(duì)傳統(tǒng)交叉驗(yàn)證法容易出現(xiàn)過(guò)度擬合這一問(wèn)題提出pcvl法,公式如下:

pcvl(λ)=cvl(λ)-pen(λ)

(3)

“體育是人的類(lèi)存在的主體象征”[11],是人類(lèi)主體本性需求下的產(chǎn)物,是本體體驗(yàn)與身體經(jīng)驗(yàn)的結(jié)合,體育不僅是肉體強(qiáng)蠻的塑造之法,同時(shí)也是主體自由的解放之徑。體育行為以對(duì)生命的養(yǎng)護(hù)為最終的實(shí)踐目的,以主體的自由為最高的價(jià)值旨?xì)w,見(jiàn)證人類(lèi)個(gè)體自我造就的每一時(shí)刻。以銅為鏡,可以正衣冠;以史為鏡,可以知興替;以人為鏡,可以明得失。體育相當(dāng)于反觀(guān)人自身的明鏡,在體育競(jìng)賽中反觀(guān)自我的品性,在體育訓(xùn)練中反觀(guān)肉體的健康,在體育游戲中反觀(guān)主體的自由。在體育的實(shí)踐行為當(dāng)中認(rèn)識(shí)自我,發(fā)揮自身的優(yōu)點(diǎn),摒棄自身的不足,避免自身的異化。

(4)

圖1 cvl(λ)和pcvl(λ)以及模型中非零自變量個(gè)數(shù)隨λ變化趨勢(shì)圖(n=100,p=1000,q=6,L=3時(shí)的模擬結(jié)果)

3.EBIC準(zhǔn)則

(5)

當(dāng)γ=0時(shí),EBIC準(zhǔn)則等于傳統(tǒng)的BIC準(zhǔn)則;當(dāng)γ=1時(shí),EBIC準(zhǔn)則與mBIC準(zhǔn)則類(lèi)似。γ的取值大小影響著EBIC準(zhǔn)則的選擇一致性。Luo和Chen[8]基于線(xiàn)性模型對(duì)EBIC準(zhǔn)則的選擇一致性進(jìn)行了深入的探討。

4.平穩(wěn)選擇法

(6)

模擬試驗(yàn)

1.模擬試驗(yàn)設(shè)置

參考Luo、Song和Fan 等的模擬情形[13-15],模擬試驗(yàn)中自變量個(gè)數(shù)p=1000,樣本量n=(100,120,140,160,180,200),模擬次數(shù)B=100。

模擬方案一:探索生存數(shù)據(jù)刪失比例的不同和自變量間的相關(guān)程度不同對(duì)調(diào)整參數(shù)選擇方法的影響,具體設(shè)置如下:

(7)

(8)

(3)刪失時(shí)間是由均數(shù)為Uexp(-xβ)的指數(shù)分布產(chǎn)生,其中U是[1,L]上的均勻分布,不同的L值對(duì)應(yīng)的刪失比例不同,設(shè)置L=(2,3,4,5)。

模擬方案二:研究自變量的不同稀疏情況對(duì)調(diào)整參數(shù)選擇方法的影響,具體設(shè)置如下:

(1)自變量服從均數(shù)為0的正態(tài)分布,自變量間相關(guān)結(jié)構(gòu)與模擬方案一的區(qū)組相關(guān)結(jié)構(gòu)相同。

(3)刪失時(shí)間的指數(shù)分布中L=3。

2.模擬試驗(yàn)分析與評(píng)價(jià)

利用R 3.3.2軟件中g(shù)lmnet package建立LASSO-Cox模型,分別采用CV法、pcvl法、EBIC準(zhǔn)則、平穩(wěn)選擇法進(jìn)行調(diào)整參數(shù)的選擇和變量篩選。利用cv.glmnet函數(shù)進(jìn)行10折交叉驗(yàn)證分析。EBICγ1準(zhǔn)則中γ取值為1,EBICγ2準(zhǔn)則中γ取值略大于1-lnn/2lnp(在其基礎(chǔ)上向上取整)。pcvl法由于還沒(méi)有R軟件包可實(shí)現(xiàn),本次研究主要參考Ternès,Rotolo 和 Michiels提供的R程序[6]。利用lol package進(jìn)行平穩(wěn)選擇,平穩(wěn)選擇的重復(fù)抽樣次數(shù)設(shè)為100,截?cái)帱c(diǎn)πthr取0.6。

評(píng)價(jià)指標(biāo)主要為錯(cuò)誤發(fā)現(xiàn)率(FDR)和PSR(positive select rate)。FDR作為變量選擇的假陽(yáng)性指標(biāo)。PSR作為變量選擇效能指標(biāo),用來(lái)評(píng)價(jià)模型發(fā)現(xiàn)確實(shí)存在的有效應(yīng)變量的能力。FDR和PSR定義如下:

FDR=FP/(TP+FP)

(9)

PSR=TP/(TP+FN)

(10)

其中FP(false positive)表示在模擬試驗(yàn)的真實(shí)模型中回歸系數(shù)為零,但估計(jì)的回歸系數(shù)是非零的個(gè)數(shù);TP(true positive)表示在模擬試驗(yàn)的真實(shí)模型中系數(shù)是非零,估計(jì)的結(jié)果也是非零的個(gè)數(shù);FN(false negative)表示在模擬試驗(yàn)的真實(shí)模型中回歸系數(shù)為非零,但估計(jì)的結(jié)果為零的個(gè)數(shù)。FDR越接近0、PSR越接近1,說(shuō)明該調(diào)整參數(shù)選擇方法越好。

3.模擬試驗(yàn)結(jié)果

(1)如圖2和圖3,在樣本量、刪失比例、相關(guān)系數(shù)均一定的情況下,各方法的FDR從低到高依次為:平穩(wěn)選擇法≤EBICγ1準(zhǔn)則

(2)如圖4和圖5,在樣本量、自變量間相關(guān)系數(shù)和稀疏水平均一定時(shí),各方法的FDR相比較結(jié)果以及PSR相比較結(jié)果與方案一的結(jié)果一致。隨著真實(shí)非零自變量個(gè)數(shù)的增多即稀疏水平的降低,平穩(wěn)選擇法的FDR基本保持不變,pcvl法的FDR略升高且與CV法之間的差距逐漸減小,EBIC準(zhǔn)則對(duì)稀疏水平的變化比較敏感,其結(jié)果波動(dòng)較大;在樣本量較小且真實(shí)非零自變量個(gè)數(shù)增多的情況下,各方法的PSR值均出現(xiàn)不同程度的降低,平穩(wěn)選擇法的PSR值始終高于EBIC準(zhǔn)則。在樣本量較大的情況下,隨著真實(shí)非零自變量個(gè)數(shù)的增多,CV法、pcvl法和平穩(wěn)選擇法的PSR值基本保持不變且接近于1。

圖2 不同刪失比例和相關(guān)情況下模型變量選擇的FDR(100次模擬的平均值)

實(shí)例分析

1.數(shù)據(jù)來(lái)源及整理

圖3 不同刪失比例和相關(guān)情況下模型變量選擇的PSR(100次模擬的平均值)

2.實(shí)例分析結(jié)果

(1)這些基因之間存在比較高的相關(guān)關(guān)系,每個(gè)變量與其他變量間的最大相關(guān)系數(shù)的平均值是0.810。

(2)上述方法選出與預(yù)后有關(guān)的基因數(shù)分別有51、28、13、1個(gè),其中EBICr1準(zhǔn)則和EBICr2準(zhǔn)則結(jié)果一致。分別以各方法選出的基因?yàn)閰f(xié)變量,擬合Cox比例風(fēng)險(xiǎn)模型,得到的模型擬合結(jié)果如表1所示:平穩(wěn)選擇法選出的13個(gè)基因中有11個(gè)基因具有統(tǒng)計(jì)學(xué)意義,且與CV法相同的基因有12個(gè),與pcvl法相同的基因有10個(gè);pcvl法選出的28個(gè)基因中12個(gè)有統(tǒng)計(jì)學(xué)意義,與CV法相同的基因有26個(gè),與EBIC準(zhǔn)則相同的基因有1個(gè)。CV法選出的51個(gè)基因中只有16個(gè)基因具有統(tǒng)計(jì)學(xué)意義。其中MMP12、CXCL2、P2RY12、MAL基因已有文獻(xiàn)報(bào)道與DLBCL 的預(yù)后和疾病進(jìn)展有關(guān)[17-21]。值得注意的是有文獻(xiàn)報(bào)道CD163基因與DLBCL預(yù)后有關(guān)[22],但只有pcvl法選出了CD163。實(shí)例結(jié)果表明CV法選出變量很多且大部分無(wú)統(tǒng)計(jì)學(xué)意義。pcvl法一定程度上減少了假陽(yáng)性,且不容易漏掉有效應(yīng)的自變量,但選出的變量仍比較多。CV法、pcvl法選出的有統(tǒng)計(jì)學(xué)意義的基因大部分被平穩(wěn)選擇法選出,且占后者結(jié)果的絕大部分,說(shuō)明平穩(wěn)選擇法選出的自變量假陽(yáng)性很低,且與其他方法結(jié)果重合度高。EBIC準(zhǔn)則結(jié)果則過(guò)于保守。

圖4 自變量不同稀疏水平下模型變量選擇的FDR(100次模擬的平均值)

討  論

模擬研究和實(shí)例數(shù)據(jù)分析結(jié)果顯示傳統(tǒng)的CV法假陽(yáng)性問(wèn)題確實(shí)比較嚴(yán)重,原因是CV法在選擇調(diào)整參數(shù)時(shí)只考慮了模擬的擬合優(yōu)度未考慮模型的稀疏性。模擬結(jié)果顯示pcvl法既能將PSR保持在較高水平又能一定程度地減少FDR,同時(shí)其結(jié)果受自變量間相關(guān)的影響較小,但與EBIC準(zhǔn)則、平穩(wěn)選擇法相比其FDR仍然比較高,而且當(dāng)真實(shí)有效應(yīng)的自變量較多時(shí)pcvl法控制FDR的能力略微下降,可能是因?yàn)閜cvl法通過(guò)在CV法的目標(biāo)函數(shù)中加入懲罰項(xiàng)達(dá)到擬合優(yōu)度與稀疏程度的折中,其結(jié)果一定程度上依賴(lài)于CV法。

EBIC準(zhǔn)則γ參數(shù)取值不同時(shí)結(jié)果不相同,當(dāng)γ=1時(shí)其控制FDR的能力與平穩(wěn)選擇法相差不大,但其PSR在小樣本時(shí)比較低,提示樣本量很小時(shí)可能會(huì)遺漏重要的變量;與γ=1的結(jié)果相比,γ取值略大于1-lnn/2lnp時(shí)的PSR較高但其FDR也比較高;EBIC準(zhǔn)則結(jié)果受自變量間相關(guān)和稀疏水平影響較大;實(shí)例研究結(jié)果中EBIC準(zhǔn)則只選出1個(gè)基因,遺漏掉的重要變量比較多。Luo等[15]將EBIC準(zhǔn)則應(yīng)用于SIS-Adaptive LASSO的調(diào)整參數(shù)的選擇,在其實(shí)例分析中γ取值越小篩選的基因數(shù)越多,當(dāng)0.3≤γ≤0.7時(shí)只篩選出兩個(gè)基因,說(shuō)明該方法確實(shí)比較保守。

平穩(wěn)選擇法將FDR控制在低水平的同時(shí)仍使PSR保持在可接受水平。該方法降低了模型變量選擇結(jié)果對(duì)調(diào)整參數(shù)值的依賴(lài)性,因此在自變量間不同相關(guān)程度和不同稀疏水平的情況下表現(xiàn)均比較穩(wěn)定,雖然在樣本量小且有意義變量多的情況下效能有所降低,但仍高于EBIC準(zhǔn)則。

圖5 自變量不同稀疏水平下模型變量選擇的PSR(100次模擬的平均值)

本研究主要基于LASSO-Cox模型進(jìn)行四種方法變量選擇的比較和評(píng)價(jià),然而這些方法不僅可以用于LASSO調(diào)整參數(shù)的選擇,還可以應(yīng)用于其他懲罰類(lèi)方法如adaptive LASSO、SCAD(smoothly clipped absolute deviation)、MCP(minimax concave penalty)等,這部分內(nèi)容將在今后的研究工作中進(jìn)一步探討。在利用變量選擇方法篩選變量時(shí),除了考慮其統(tǒng)計(jì)學(xué)意義,還需要結(jié)合問(wèn)題本身的專(zhuān)業(yè)知識(shí)和實(shí)際意義,尤其是面對(duì)目前日益龐大的生物學(xué)數(shù)據(jù),利用變量選擇方法篩選出很有可能與癌癥患者生存有關(guān)聯(lián)的候選基因后,其具體的生物學(xué)意義仍需要進(jìn)一步實(shí)驗(yàn)加以驗(yàn)證。

表1  各方法篩選出的基因

注:粗體字表示平穩(wěn)選擇法、pcvl法、CV法選出的相同基因;斜體字表示pcvl法、CV法選出的相同基因;斜體字加粗表示平穩(wěn)選擇法、CV法選出的相同基因;字體背景灰色表示EBIC準(zhǔn)則和pcvl法選出的相同基因;***表示P值小于0.001,**表示P值小于0.01,*表示P值小于0.05

猜你喜歡
方法模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
學(xué)習(xí)方法
3D打印中的模型分割與打包
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢(qián)方法
捕魚(yú)
主站蜘蛛池模板: 欧美精品亚洲精品日韩专| 国产免费看久久久| 色综合热无码热国产| 国产精女同一区二区三区久| 免费Aⅴ片在线观看蜜芽Tⅴ| 成年女人18毛片毛片免费| 久久综合五月婷婷| 欧美成人第一页| 欧美成人h精品网站| 国产精品妖精视频| 成人免费视频一区| 午夜毛片免费观看视频 | 欧美一级高清视频在线播放| 国产精品毛片一区| 99热这里只有精品免费国产| 青草国产在线视频| 国产美女一级毛片| 国产高潮流白浆视频| 18黑白丝水手服自慰喷水网站| 福利在线免费视频| 成年人视频一区二区| 天堂岛国av无码免费无禁网站 | 国产精品永久久久久| 国产特级毛片| 素人激情视频福利| 性视频一区| a级毛片毛片免费观看久潮| 国产高清毛片| 国产精品福利在线观看无码卡| 99国产在线视频| 青青操国产视频| 国产三级a| 欧美色视频网站| 为你提供最新久久精品久久综合| 亚洲天堂.com| 久久天天躁夜夜躁狠狠| 亚洲嫩模喷白浆| 国产理论最新国产精品视频| 在线欧美一区| 久青草国产高清在线视频| 久爱午夜精品免费视频| 538国产在线| 欧美伊人色综合久久天天| 东京热一区二区三区无码视频| 无码内射中文字幕岛国片| 亚洲天堂免费观看| 97在线碰| 看国产一级毛片| 久久天天躁狠狠躁夜夜2020一| 日韩精品资源| 视频一本大道香蕉久在线播放 | 亚洲浓毛av| 国产免费高清无需播放器| 亚洲一区毛片| 日韩一级二级三级| 亚洲福利网址| 欧美精品成人一区二区在线观看| 白浆免费视频国产精品视频 | 91免费精品国偷自产在线在线| 97久久免费视频| 在线中文字幕网| 四虎影视库国产精品一区| 99re这里只有国产中文精品国产精品 | 日本成人不卡视频| 天堂久久久久久中文字幕| 欧美午夜一区| 欧美区一区| 无码中文AⅤ在线观看| 欧美www在线观看| 园内精品自拍视频在线播放| 成人夜夜嗨| 欧美成人精品高清在线下载| 不卡色老大久久综合网| 日日拍夜夜嗷嗷叫国产| 色综合久久88色综合天天提莫 | 激情六月丁香婷婷四房播| 97成人在线视频| 精品撒尿视频一区二区三区| 亚洲美女久久| 亚洲精品第五页| www.精品国产| 国产黄在线免费观看|