王 萌 王 策 栗思思 盧宇紅 宋佳麗 李 康 侯 艷△
【提 要】 目的 探索基于深度學習模型聯(lián)合正則化方法在小樣本高維數(shù)據(jù)特征篩選中的優(yōu)勢。方法 通過模擬實驗和實際數(shù)據(jù)分析比較深度學習模型單獨及聯(lián)合正則化方法在小樣本高維特征篩選準確性方面的差異;采用測試集中C指數(shù)作為兩種模型泛化能力評價指標。結果 在小樣本研究中單純的深度學習模型在變量之間存在復雜相關性時會表現(xiàn)過擬合,而深度學習模型聯(lián)合正則化的方法比單獨的深度學習模型在測試集中體現(xiàn)出防止過擬合的作用,具有更好的泛化能力。通過比較不同正則化的方法,發(fā)現(xiàn)深度學習聯(lián)合組 lasso相比于lasso在測試集中表現(xiàn)出更好的泛化能力。結論 深度學習模型聯(lián)合正則化的方法在小樣本高維數(shù)據(jù)特征篩選中可以防止過擬合,保證外部測試具有較好的預測效果。
深度學習模型融合正則化方法是指在常規(guī)深度學習的輸入層與第一隱藏層之間加入正則化方法,剔除對結局變量作用較小的特征組,從而進行特征篩選,以保證使用較少且重要的特征來訓練深度學習模型,避免出現(xiàn)過擬合現(xiàn)象[4]。深度學習與正則化融合方法的示意圖如圖1所示。由于高維組學數(shù)據(jù)具有特征個數(shù)較多、樣本量少、數(shù)據(jù)結構較為復雜等特點,傳統(tǒng)的深度學習模型學習數(shù)據(jù)的特征時常常嘗試兼顧所有的數(shù)據(jù)點,很容易出現(xiàn)過擬合現(xiàn)象。考慮在深度學習模型學習特征的信息前首先利用正則化方法對高維組學數(shù)據(jù)篩選出對結局變量影響較大的特征,再作為輸入變量放入深度學習結構中,可能會具有更為有效的防止過擬合,同時提高模型學習效率等優(yōu)點。

圖1 深度學習與正則化融合方法的示意圖
1963年Tikhonov提出正則化不但具有降維的作用[5],同時可以有效防止模型過擬合[6]。正則化主要思想是在估計參數(shù)時,引導損失函數(shù)的最小值朝著約束方向迭代。正則化的方法有很多,例如lasso、自適應lasso、彈性網等,近年來由于組lasso(group lasso)能夠實現(xiàn)生物學有對結局指標類別的篩選,即篩選出對結局變量影響較大的特征組,進而在此類特征組中進一步篩選特征,此種思想在實際應用中較為常用[7]。以下為組lasso的參數(shù)估計表達式:
(1)

深度學習模型輸出層的特征是綜合全部特征變量的信息篩選得到的一個或多個特征,將其與各類模型相結合進行有效地預測,便于評估篩選變量結果準確性的指標。本文通過模擬實驗和實例數(shù)據(jù)來評價深度學習聯(lián)合正則化是否可以篩選出有效特征,提高模型的泛化能力。
1.模擬數(shù)據(jù)的產生
(1)特征數(shù)與樣本含量的設定
在實際的組學數(shù)據(jù)中常常具有成千上萬個基因,增加了數(shù)據(jù)處理與分析的困難性,為了使模擬數(shù)據(jù)與TCGA中真實的數(shù)據(jù)結構相似且便于計算,我們在模擬實驗中設置特征的個數(shù)p=800,樣本量n=500,此時符合實際組學數(shù)據(jù)中基因的數(shù)量遠遠多于患者數(shù)量的特點。
梅黎明指出,“鄉(xiāng)村振興戰(zhàn)略的內涵十分豐富,將‘四化’同步發(fā)展提升為‘農業(yè)農村優(yōu)先發(fā)展’,將‘社會主義新農村建設’提升為‘鄉(xiāng)村振興戰(zhàn)略’,將‘農業(yè)現(xiàn)代化’提升為‘農業(yè)農村現(xiàn)代化’,將‘統(tǒng)籌城鄉(xiāng)’提升為‘城鄉(xiāng)融合’。”
(2)特征組的設定
考慮到組學數(shù)據(jù)中特征間具有相關性,在分析數(shù)據(jù)時應將具有相關性的特征分為一組,在模擬實驗中設每個組內有4個特征,即將8000個特征平均分為2000個組,同時假定5個組即20個特征對生存有影響。
(3)生存時間及生存結局的設定
本文以Cox比例風險模型作為深度學習模型的預測模型探索方法的有效性,這里模擬500名患者的生存時間和生存結局。每個患者潛在生存時間可表示為:
(2)

βX={β1X1,β2X2,…,βg-1Xg-1,βgXg}
共有g個組,在第j個特征組中:
βjxj={βj1xj1,βj2xj2,βj3xj3,βj4xj4}
1≤j≤g,βj1xj1,βj2xj2,βj3xj3,βj4xj4為第j組內4個特征及其系數(shù)。設T1為服從參數(shù)為λ指數(shù)分布的刪失時間,若T1≥T,則生存結局為死亡;若T1 2.評價方法及指標 隨機抽取數(shù)據(jù)集的60%、20%和20%分別作為訓練集、測試集和驗證集,訓練次數(shù)為5000次。首先在訓練集中訓練深度學習模型,然后在驗證集中采用梯度下降法不斷對模型的超參數(shù)進行調整,尋求最佳模型,最后在測試集中評估其泛化能力。選擇測試集中C指數(shù)客觀地評估深度學習模型單獨及聯(lián)合正則化方法后的泛化能力。 3.模擬實驗的結果 使用模擬數(shù)據(jù)集分別訓練聯(lián)合組lasso和lasso的深度學習模型與單純的深度學習模型,每經過一次訓練后記錄訓練集、驗證集和測試集中的C指數(shù),隨著訓練次數(shù)的增加,相應的C指數(shù)發(fā)生改變如圖2所示。 圖2反應了不同模型的訓練過程中,訓練集、驗證集和測試集中C指數(shù)的變化情況。訓練未加入正則化的深度學習模型時(圖A所示),驗證集和測試集C指數(shù)無明顯波動,由表1可知當不同數(shù)據(jù)集的C指數(shù)保持不變時,訓練集的C指數(shù)較驗證集和測試集中C指數(shù)0.62高的多,由此可見,未加入正則化深度學習的模型存在過擬合的風險,可能不具有較好的泛化能力。加入lasso(圖B所示)和組lasso(圖C所示)的深度學習模型在訓練過程中驗證集和測試集的C指數(shù)均有顯著增大的趨勢,且訓練分別至約為2000次和3000次,驗證集和測試集的C指數(shù)趨向穩(wěn)定。圖B和圖C中測試集C指數(shù)達到穩(wěn)定時分別為0.80和0.88。深度學習模型中加入正則化,通過在訓練集中不斷訓練以及在驗證集中對模型超參數(shù)的不斷調整獲得的深度學習模型具有很好的泛化能力,在一定程度上可以有效防止訓練深度學習模型時出現(xiàn)過擬合,且組lasso防止模型過擬合的效果優(yōu)于lasso。 圖2 不同模型訓練集、驗證集和測試集中C指數(shù)隨訓練次數(shù)增加的變化情況 表1 相同模型不同情況下三個數(shù)據(jù)集中穩(wěn)定的C指數(shù) 1.數(shù)據(jù)的來源及整理 從TCGA癌癥基因庫中下載共計630名卵巢癌患者的mRNA、蛋白質組學以及臨床信息,將模擬實驗中所闡述的方法及評價指標應用于上述實例數(shù)據(jù)。在上述數(shù)據(jù)中選擇原發(fā)卵巢癌患者同時剔除缺失生存結局、生存時間的患者,最終保留196名包含有組學數(shù)據(jù)和臨床信息的原發(fā)卵巢癌患者;剔除大于等于70%患者中缺失的特征,若小于70%的患者缺失某個特征值,對其缺失值采取中位數(shù)填補[9]。對填補缺失值后的組學數(shù)據(jù)進行Z標準化。在實例數(shù)據(jù)中,共有18717個特征,mRNA和蛋白組學中受同一基因調控的特征分為一個特征組。 2.實例分析結果 如圖3所示,隨著訓練次數(shù)不斷增加,同時模型在不斷的優(yōu)化,此時融入組lasso模型測試集的C指數(shù)明顯增加,最高可達到0.67,且明顯高于常規(guī)深度學習模型測試集的C指數(shù)。對兩種模型測試集C指數(shù)的中位數(shù)進行Wilcoxon秩和檢驗,檢驗得到的P值小于0.0001,二者中位數(shù)的差值具有統(tǒng)計學意義,即融入組 lasso模型的測試集C指數(shù)中位數(shù)高于常規(guī)深度學習模型的測試集C指數(shù)的中位數(shù)。由此可見在模型中加入組lasso可以提高模型的C指數(shù),且融入組lasso模型相比于常規(guī)深度學習模型具有更好的泛化能力,過擬合風險相對更低。 圖3 未加入正則化與融入組 lasso兩種模型測試集C指數(shù)隨訓練次數(shù)的變化 實驗結果顯示,使用常規(guī)深度學習模型進行預測時模型的C指數(shù)中位數(shù)僅為0.57,且模型驗證集的損失函數(shù)并沒有減小,此時模型存在過擬合。實際中癌癥高維組學數(shù)據(jù)的樣本量較少且與結局變量無關的特征較多是導致深度模型出現(xiàn)過擬合的主要原因。在訓練常規(guī)的深度學習模型時需要大量的樣本,但是在實際癌癥組學數(shù)據(jù)的研究中,樣本量較少限制了模型的學習能力,與此同時數(shù)據(jù)中又存在大量與結局變量無關的特征,因此模型不能充分且有效地學習從而導致模型的預測性能降低。此時我們需要正則化方法對癌癥高維組學數(shù)據(jù)進行降維,為訓練模型選擇與結局變量高度相關的特征或者特征組(癌癥高維組學數(shù)據(jù)中具有分組信息),在樣本量較少的情況下提高模型的學習效率和預測的準確性,降低模型過擬合的風險。 實際癌癥高維組學數(shù)據(jù)中,大部分特征都不是相互獨立的,常規(guī)的深度學習模型并不能對彼此之間具有相關性的輸入特征進行分組,所以加入組lasso的深度學習模型更適合處理實際的癌癥高維組學數(shù)據(jù)。眾所周知,實際癌癥組學數(shù)據(jù)中特征個數(shù)以及它們之間的相關性使數(shù)據(jù)結構較為復雜,在模擬實驗中是將所有特征均勻分組,即每特征組中特征個數(shù)相等,而在卵巢癌患者的組學數(shù)據(jù)中某些基因可能同時調控多個組學的不同特征,亦可能僅調控一個組學特征,因此并不能保證每個特征分組內的特征個數(shù)相等,在一定程度上也增加了數(shù)據(jù)結構的復雜性。但模型中融入正則化方法可以使模型在小樣本的數(shù)據(jù)中具有較強的學習能力,防止模型過擬合,減少無用功,節(jié)約運算時間。 雖然本研究通過在深度學習模型中加入正則化方法使得在實際組學數(shù)據(jù)中訓練模型較少的出現(xiàn)過擬合,但是如果將同一通路中組學特征分為一組,需要考慮同一組學特征出現(xiàn)在不同的通路中,換言之,同一特征同時出現(xiàn)在不同的特征組中時,本文所述的lasso、組lasso不再適用,它們能夠改善過擬合的問題,但不能徹底解決,在未來的研究中我們嘗試將重疊lasso應用于深度學習模型中,改善用組間具有重疊特征的組學數(shù)據(jù)訓練深度學習模型時出現(xiàn)的過擬合問題。隨著高維組學數(shù)據(jù)研究不斷發(fā)展,正則化方法在進行高維特征篩選方面具有較好的應用前景。

實例分析

討 論