基于LASSO的FDR控制方法及其在高維數(shù)據(jù)生存分析中的應(yīng)用*

2018-07-16 10:06:32許樹(shù)紅董曉強(qiáng)虞明星

中國(guó)衛(wèi)生統(tǒng)計(jì) 2018年3期

關(guān)鍵詞：方法模型

許樹(shù)紅　董曉強(qiáng)　陶　然　高　雪　高　倩　虞明星　王　彤△

【提　要】　目的　基于LASSO-Cox模型探索交叉驗(yàn)證(cross validation)、pcvl法(penalized cross-validated log-likelihood)、EBIC準(zhǔn)則(extended bayesian information criterion)、平穩(wěn)選擇(stability selection)四種方法在控制FDR(false discovery rate)方面的表現(xiàn)及其變量選擇效果。方法　通過(guò)模擬研究評(píng)價(jià)各方法在不同刪失比例、自變量間不同相關(guān)程度以及回歸系數(shù)的不同稀疏水平下的FDR和PSR(positive select rate)，并從GEO上下載DLBCL數(shù)據(jù)進(jìn)行基因與預(yù)后間的關(guān)聯(lián)分析。結(jié)果　模擬結(jié)果表明，在不同刪失比例、自變量相關(guān)程度和稀疏水平的情況下，平穩(wěn)選擇法控制FDR的能力都優(yōu)于其他方法且其變量選擇效能也較高。EBIC準(zhǔn)則在相關(guān)程度低、自變量較稀疏時(shí)表現(xiàn)較好，當(dāng)樣本量較小時(shí)結(jié)果較保守。pcvl法雖然不容易漏掉有效應(yīng)的變量，但其FDR仍較高。實(shí)例結(jié)果顯示，EBIC準(zhǔn)則只選出1個(gè)基因，平穩(wěn)選擇法選出的基因中大部分有統(tǒng)計(jì)學(xué)意義且與其他方法的結(jié)果重合度高。結(jié)論　在基于LASSO-Cox模型的高維數(shù)據(jù)生存分析中平穩(wěn)選擇法能較好地控制FDR且其變量選擇效能也較高。

LASSO(least absolute shrinkage and selection operator)作為一種常用的懲罰類(lèi)方法，在GWAS研究、測(cè)序數(shù)據(jù)分析中應(yīng)用廣泛且發(fā)展迅速，其中心思想是將模型系數(shù)的絕對(duì)值函數(shù)作為懲罰項(xiàng)對(duì)模型中變量的系數(shù)進(jìn)行壓縮，使得一些弱效應(yīng)變量的系數(shù)變小，甚至被壓縮為0，以提供一個(gè)稀疏解[1]。LASSO類(lèi)方法通過(guò)直接估計(jì)不為零的回歸系數(shù)來(lái)實(shí)現(xiàn)變量選擇，它不同于經(jīng)典的逐步回歸，并沒(méi)有采用假設(shè)檢驗(yàn)的步驟，并且其變量選擇和參數(shù)估計(jì)的結(jié)果在很大程度上受調(diào)整參數(shù)的影響，然而調(diào)整參數(shù)的傳統(tǒng)選擇方法如交叉驗(yàn)證法和信息準(zhǔn)則法，在選擇調(diào)整參數(shù)時(shí)主要考慮模型的擬合以及模型的復(fù)雜程度，亦未考慮Ⅰ類(lèi)錯(cuò)誤估計(jì)和控制問(wèn)題。目前已有研究者指出LASSO類(lèi)方法存在較高的假陽(yáng)性問(wèn)題[2-3]，因此，如何在控制或降低假陽(yáng)性的前提下，選擇合適的調(diào)整參數(shù)從而選出正確的模型尤為重要。

目前已有一些研究在多重校正以及LASSO類(lèi)方法的基礎(chǔ)上，發(fā)展了一些控制Ⅰ類(lèi)錯(cuò)誤同時(shí)篩選出正確變量的方法[4]。FDR作為測(cè)序數(shù)據(jù)多重比較領(lǐng)域中控制Ⅰ類(lèi)錯(cuò)誤的常用指標(biāo)，由Benjamini& Hochberg在1995年提出，指拒絕的假設(shè)檢驗(yàn)結(jié)果中Ⅰ類(lèi)錯(cuò)誤所占比例的期望，在整體上控制Ⅰ類(lèi)錯(cuò)誤的同時(shí)能篩出更多有意義的基因[5]。本文將基于LASSO-Cox模型，通過(guò)模擬和實(shí)例研究比較交叉驗(yàn)證法、pcvl法、EBIC準(zhǔn)則和平穩(wěn)選擇法四種調(diào)整參數(shù)選擇方法在控制FDR方面的表現(xiàn)以及在高維數(shù)據(jù)生存分析應(yīng)用中的優(yōu)劣。

原理與方法

LASSO-Cox模型的最大化目標(biāo)函數(shù)為：

(1)

其中p表示協(xié)變量的維數(shù)，β=(β1,β2,…,βp)T為各協(xié)變量對(duì)應(yīng)的回歸系數(shù)，l(β)為Cox模型的對(duì)數(shù)偏似然函數(shù)，λ>0為調(diào)整參數(shù)。調(diào)整參數(shù)λ的大小影響著模型的復(fù)雜程度和收斂速度，λ值過(guò)大可能會(huì)使最終的模型中協(xié)變量個(gè)數(shù)過(guò)少，導(dǎo)致重要的變量被遺漏，反之，λ值若過(guò)小可能會(huì)使最終的模型中協(xié)變量個(gè)數(shù)過(guò)多，使得模型包含很多噪聲變量，導(dǎo)致結(jié)果中FDR過(guò)高。本課題組前期研究中已對(duì)基于LASSO的Ⅰ類(lèi)錯(cuò)誤控制方法的基本原理進(jìn)行了詳細(xì)闡述[4]，本文對(duì)交叉驗(yàn)證法(cross validation,CV)、pcvl法(penalized cross-validated log-likelihood)、EBIC準(zhǔn)則(extended bayesian information criterion)、平穩(wěn)選擇法(stability selection)的原理進(jìn)行簡(jiǎn)單介紹。

1.交叉驗(yàn)證

目前最常用的交叉驗(yàn)證是K折交叉驗(yàn)證(K-fold cross-validation)，K為整數(shù)，1≤K≤n，通常取5或者10。該方法利用訓(xùn)練集來(lái)建立模型并求得回歸參數(shù)估計(jì)值，然后用該回歸參數(shù)估計(jì)值來(lái)預(yù)測(cè)驗(yàn)證集。對(duì)于對(duì)數(shù)偏似然函數(shù)，其目標(biāo)函數(shù)為：

(2)

2.pcvl

Ternès[6]針對(duì)傳統(tǒng)交叉驗(yàn)證法容易出現(xiàn)過(guò)度擬合這一問(wèn)題提出pcvl法，公式如下：

pcvl(λ)=cvl(λ)-pen(λ)

(3)

“體育是人的類(lèi)存在的主體象征”[11]，是人類(lèi)主體本性需求下的產(chǎn)物，是本體體驗(yàn)與身體經(jīng)驗(yàn)的結(jié)合，體育不僅是肉體強(qiáng)蠻的塑造之法，同時(shí)也是主體自由的解放之徑。體育行為以對(duì)生命的養(yǎng)護(hù)為最終的實(shí)踐目的，以主體的自由為最高的價(jià)值旨?xì)w，見(jiàn)證人類(lèi)個(gè)體自我造就的每一時(shí)刻。以銅為鏡，可以正衣冠；以史為鏡，可以知興替；以人為鏡，可以明得失。體育相當(dāng)于反觀(guān)人自身的明鏡，在體育競(jìng)賽中反觀(guān)自我的品性，在體育訓(xùn)練中反觀(guān)肉體的健康，在體育游戲中反觀(guān)主體的自由。在體育的實(shí)踐行為當(dāng)中認(rèn)識(shí)自我，發(fā)揮自身的優(yōu)點(diǎn)，摒棄自身的不足，避免自身的異化。

(4)

圖1　cvl(λ)和pcvl(λ)以及模型中非零自變量個(gè)數(shù)隨λ變化趨勢(shì)圖(n=100,p=1000,q=6,L=3時(shí)的模擬結(jié)果)

3.EBIC準(zhǔn)則

(5)

當(dāng)γ=0時(shí)，EBIC準(zhǔn)則等于傳統(tǒng)的BIC準(zhǔn)則；當(dāng)γ=1時(shí)，EBIC準(zhǔn)則與mBIC準(zhǔn)則類(lèi)似。γ的取值大小影響著EBIC準(zhǔn)則的選擇一致性。Luo和Chen[8]基于線(xiàn)性模型對(duì)EBIC準(zhǔn)則的選擇一致性進(jìn)行了深入的探討。

4.平穩(wěn)選擇法

(6)

模擬試驗(yàn)

1.模擬試驗(yàn)設(shè)置

參考Luo、Song和Fan 等的模擬情形[13-15]，模擬試驗(yàn)中自變量個(gè)數(shù)p=1000，樣本量n=(100,120,140,160,180,200)，模擬次數(shù)B=100。

模擬方案一：探索生存數(shù)據(jù)刪失比例的不同和自變量間的相關(guān)程度不同對(duì)調(diào)整參數(shù)選擇方法的影響，具體設(shè)置如下：

(7)

(8)

(3)刪失時(shí)間是由均數(shù)為Uexp(-xβ)的指數(shù)分布產(chǎn)生，其中U是[1,L]上的均勻分布，不同的L值對(duì)應(yīng)的刪失比例不同，設(shè)置L=(2,3,4,5)。

模擬方案二：研究自變量的不同稀疏情況對(duì)調(diào)整參數(shù)選擇方法的影響，具體設(shè)置如下：

(1)自變量服從均數(shù)為0的正態(tài)分布，自變量間相關(guān)結(jié)構(gòu)與模擬方案一的區(qū)組相關(guān)結(jié)構(gòu)相同。

(3)刪失時(shí)間的指數(shù)分布中L=3。

2.模擬試驗(yàn)分析與評(píng)價(jià)

利用R 3.3.2軟件中g(shù)lmnet package建立LASSO-Cox模型，分別采用CV法、pcvl法、EBIC準(zhǔn)則、平穩(wěn)選擇法進(jìn)行調(diào)整參數(shù)的選擇和變量篩選。利用cv.glmnet函數(shù)進(jìn)行10折交叉驗(yàn)證分析。EBICγ1準(zhǔn)則中γ取值為1，EBICγ2準(zhǔn)則中γ取值略大于1-lnn/2lnp(在其基礎(chǔ)上向上取整)。pcvl法由于還沒(méi)有R軟件包可實(shí)現(xiàn)，本次研究主要參考Ternès，Rotolo 和 Michiels提供的R程序[6]。利用lol package進(jìn)行平穩(wěn)選擇，平穩(wěn)選擇的重復(fù)抽樣次數(shù)設(shè)為100，截?cái)帱c(diǎn)πthr取0.6。

評(píng)價(jià)指標(biāo)主要為錯(cuò)誤發(fā)現(xiàn)率(FDR)和PSR(positive select rate)。FDR作為變量選擇的假陽(yáng)性指標(biāo)。PSR作為變量選擇效能指標(biāo)，用來(lái)評(píng)價(jià)模型發(fā)現(xiàn)確實(shí)存在的有效應(yīng)變量的能力。FDR和PSR定義如下：

FDR=FP/(TP+FP)

(9)

PSR=TP/(TP+FN)

(10)

其中FP(false positive)表示在模擬試驗(yàn)的真實(shí)模型中回歸系數(shù)為零，但估計(jì)的回歸系數(shù)是非零的個(gè)數(shù)；TP(true positive)表示在模擬試驗(yàn)的真實(shí)模型中系數(shù)是非零，估計(jì)的結(jié)果也是非零的個(gè)數(shù)；FN(false negative)表示在模擬試驗(yàn)的真實(shí)模型中回歸系數(shù)為非零，但估計(jì)的結(jié)果為零的個(gè)數(shù)。FDR越接近0、PSR越接近1，說(shuō)明該調(diào)整參數(shù)選擇方法越好。

3.模擬試驗(yàn)結(jié)果

(1)如圖2和圖3，在樣本量、刪失比例、相關(guān)系數(shù)均一定的情況下，各方法的FDR從低到高依次為：平穩(wěn)選擇法≤EBICγ1準(zhǔn)則

(2)如圖4和圖5，在樣本量、自變量間相關(guān)系數(shù)和稀疏水平均一定時(shí)，各方法的FDR相比較結(jié)果以及PSR相比較結(jié)果與方案一的結(jié)果一致。隨著真實(shí)非零自變量個(gè)數(shù)的增多即稀疏水平的降低，平穩(wěn)選擇法的FDR基本保持不變，pcvl法的FDR略升高且與CV法之間的差距逐漸減小，EBIC準(zhǔn)則對(duì)稀疏水平的變化比較敏感，其結(jié)果波動(dòng)較大；在樣本量較小且真實(shí)非零自變量個(gè)數(shù)增多的情況下，各方法的PSR值均出現(xiàn)不同程度的降低，平穩(wěn)選擇法的PSR值始終高于EBIC準(zhǔn)則。在樣本量較大的情況下，隨著真實(shí)非零自變量個(gè)數(shù)的增多，CV法、pcvl法和平穩(wěn)選擇法的PSR值基本保持不變且接近于1。

圖2　不同刪失比例和相關(guān)情況下模型變量選擇的FDR(100次模擬的平均值)

實(shí)例分析

1.數(shù)據(jù)來(lái)源及整理

圖3　不同刪失比例和相關(guān)情況下模型變量選擇的PSR(100次模擬的平均值)

2.實(shí)例分析結(jié)果

(1)這些基因之間存在比較高的相關(guān)關(guān)系，每個(gè)變量與其他變量間的最大相關(guān)系數(shù)的平均值是0.810。

(2)上述方法選出與預(yù)后有關(guān)的基因數(shù)分別有51、28、13、1個(gè)，其中EBICr1準(zhǔn)則和EBICr2準(zhǔn)則結(jié)果一致。分別以各方法選出的基因?yàn)閰f(xié)變量，擬合Cox比例風(fēng)險(xiǎn)模型，得到的模型擬合結(jié)果如表1所示：平穩(wěn)選擇法選出的13個(gè)基因中有11個(gè)基因具有統(tǒng)計(jì)學(xué)意義，且與CV法相同的基因有12個(gè)，與pcvl法相同的基因有10個(gè)；pcvl法選出的28個(gè)基因中12個(gè)有統(tǒng)計(jì)學(xué)意義，與CV法相同的基因有26個(gè)，與EBIC準(zhǔn)則相同的基因有1個(gè)。CV法選出的51個(gè)基因中只有16個(gè)基因具有統(tǒng)計(jì)學(xué)意義。其中MMP12、CXCL2、P2RY12、MAL基因已有文獻(xiàn)報(bào)道與DLBCL 的預(yù)后和疾病進(jìn)展有關(guān)[17-21]。值得注意的是有文獻(xiàn)報(bào)道CD163基因與DLBCL預(yù)后有關(guān)[22]，但只有pcvl法選出了CD163。實(shí)例結(jié)果表明CV法選出變量很多且大部分無(wú)統(tǒng)計(jì)學(xué)意義。pcvl法一定程度上減少了假陽(yáng)性，且不容易漏掉有效應(yīng)的自變量，但選出的變量仍比較多。CV法、pcvl法選出的有統(tǒng)計(jì)學(xué)意義的基因大部分被平穩(wěn)選擇法選出，且占后者結(jié)果的絕大部分，說(shuō)明平穩(wěn)選擇法選出的自變量假陽(yáng)性很低，且與其他方法結(jié)果重合度高。EBIC準(zhǔn)則結(jié)果則過(guò)于保守。

圖4　自變量不同稀疏水平下模型變量選擇的FDR(100次模擬的平均值)

討　　論

模擬研究和實(shí)例數(shù)據(jù)分析結(jié)果顯示傳統(tǒng)的CV法假陽(yáng)性問(wèn)題確實(shí)比較嚴(yán)重，原因是CV法在選擇調(diào)整參數(shù)時(shí)只考慮了模擬的擬合優(yōu)度未考慮模型的稀疏性。模擬結(jié)果顯示pcvl法既能將PSR保持在較高水平又能一定程度地減少FDR，同時(shí)其結(jié)果受自變量間相關(guān)的影響較小，但與EBIC準(zhǔn)則、平穩(wěn)選擇法相比其FDR仍然比較高，而且當(dāng)真實(shí)有效應(yīng)的自變量較多時(shí)pcvl法控制FDR的能力略微下降，可能是因?yàn)閜cvl法通過(guò)在CV法的目標(biāo)函數(shù)中加入懲罰項(xiàng)達(dá)到擬合優(yōu)度與稀疏程度的折中，其結(jié)果一定程度上依賴(lài)于CV法。

EBIC準(zhǔn)則γ參數(shù)取值不同時(shí)結(jié)果不相同，當(dāng)γ=1時(shí)其控制FDR的能力與平穩(wěn)選擇法相差不大，但其PSR在小樣本時(shí)比較低，提示樣本量很小時(shí)可能會(huì)遺漏重要的變量；與γ=1的結(jié)果相比，γ取值略大于1-lnn/2lnp時(shí)的PSR較高但其FDR也比較高；EBIC準(zhǔn)則結(jié)果受自變量間相關(guān)和稀疏水平影響較大；實(shí)例研究結(jié)果中EBIC準(zhǔn)則只選出1個(gè)基因，遺漏掉的重要變量比較多。Luo等[15]將EBIC準(zhǔn)則應(yīng)用于SIS-Adaptive LASSO的調(diào)整參數(shù)的選擇，在其實(shí)例分析中γ取值越小篩選的基因數(shù)越多，當(dāng)0.3≤γ≤0.7時(shí)只篩選出兩個(gè)基因，說(shuō)明該方法確實(shí)比較保守。

平穩(wěn)選擇法將FDR控制在低水平的同時(shí)仍使PSR保持在可接受水平。該方法降低了模型變量選擇結(jié)果對(duì)調(diào)整參數(shù)值的依賴(lài)性，因此在自變量間不同相關(guān)程度和不同稀疏水平的情況下表現(xiàn)均比較穩(wěn)定，雖然在樣本量小且有意義變量多的情況下效能有所降低，但仍高于EBIC準(zhǔn)則。

圖5　自變量不同稀疏水平下模型變量選擇的PSR(100次模擬的平均值)

本研究主要基于LASSO-Cox模型進(jìn)行四種方法變量選擇的比較和評(píng)價(jià)，然而這些方法不僅可以用于LASSO調(diào)整參數(shù)的選擇，還可以應(yīng)用于其他懲罰類(lèi)方法如adaptive LASSO、SCAD(smoothly clipped absolute deviation)、MCP(minimax concave penalty)等，這部分內(nèi)容將在今后的研究工作中進(jìn)一步探討。在利用變量選擇方法篩選變量時(shí)，除了考慮其統(tǒng)計(jì)學(xué)意義，還需要結(jié)合問(wèn)題本身的專(zhuān)業(yè)知識(shí)和實(shí)際意義，尤其是面對(duì)目前日益龐大的生物學(xué)數(shù)據(jù)，利用變量選擇方法篩選出很有可能與癌癥患者生存有關(guān)聯(lián)的候選基因后，其具體的生物學(xué)意義仍需要進(jìn)一步實(shí)驗(yàn)加以驗(yàn)證。

表1　各方法篩選出的基因

注：粗體字表示平穩(wěn)選擇法、pcvl法、CV法選出的相同基因；斜體字表示pcvl法、CV法選出的相同基因；斜體字加粗表示平穩(wěn)選擇法、CV法選出的相同基因；字體背景灰色表示EBIC準(zhǔn)則和pcvl法選出的相同基因；***表示P值小于0.001，**表示P值小于0.01，*表示P值小于0.05