999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學習模型融合正則化方法在高維數(shù)據(jù)特征篩選中的應用研究*

2021-03-16 09:54:18栗思思盧宇紅宋佳麗
中國衛(wèi)生統(tǒng)計 2021年1期
關鍵詞:深度特征模型

王 萌 王 策 栗思思 盧宇紅 宋佳麗 李 康 侯 艷△

【提 要】 目的 探索基于深度學習模型聯(lián)合正則化方法在小樣本高維數(shù)據(jù)特征篩選中的優(yōu)勢。方法 通過模擬實驗和實際數(shù)據(jù)分析比較深度學習模型單獨及聯(lián)合正則化方法在小樣本高維特征篩選準確性方面的差異;采用測試集中C指數(shù)作為兩種模型泛化能力評價指標。結果 在小樣本研究中單純的深度學習模型在變量之間存在復雜相關性時會表現(xiàn)過擬合,而深度學習模型聯(lián)合正則化的方法比單獨的深度學習模型在測試集中體現(xiàn)出防止過擬合的作用,具有更好的泛化能力。通過比較不同正則化的方法,發(fā)現(xiàn)深度學習聯(lián)合組 lasso相比于lasso在測試集中表現(xiàn)出更好的泛化能力。結論 深度學習模型聯(lián)合正則化的方法在小樣本高維數(shù)據(jù)特征篩選中可以防止過擬合,保證外部測試具有較好的預測效果。

模型介紹

深度學習模型融合正則化方法是指在常規(guī)深度學習的輸入層與第一隱藏層之間加入正則化方法,剔除對結局變量作用較小的特征組,從而進行特征篩選,以保證使用較少且重要的特征來訓練深度學習模型,避免出現(xiàn)過擬合現(xiàn)象[4]。深度學習與正則化融合方法的示意圖如圖1所示。由于高維組學數(shù)據(jù)具有特征個數(shù)較多、樣本量少、數(shù)據(jù)結構較為復雜等特點,傳統(tǒng)的深度學習模型學習數(shù)據(jù)的特征時常常嘗試兼顧所有的數(shù)據(jù)點,很容易出現(xiàn)過擬合現(xiàn)象。考慮在深度學習模型學習特征的信息前首先利用正則化方法對高維組學數(shù)據(jù)篩選出對結局變量影響較大的特征,再作為輸入變量放入深度學習結構中,可能會具有更為有效的防止過擬合,同時提高模型學習效率等優(yōu)點。

圖1 深度學習與正則化融合方法的示意圖

1963年Tikhonov提出正則化不但具有降維的作用[5],同時可以有效防止模型過擬合[6]。正則化主要思想是在估計參數(shù)時,引導損失函數(shù)的最小值朝著約束方向迭代。正則化的方法有很多,例如lasso、自適應lasso、彈性網等,近年來由于組lasso(group lasso)能夠實現(xiàn)生物學有對結局指標類別的篩選,即篩選出對結局變量影響較大的特征組,進而在此類特征組中進一步篩選特征,此種思想在實際應用中較為常用[7]。以下為組lasso的參數(shù)估計表達式:

(1)

深度學習模型輸出層的特征是綜合全部特征變量的信息篩選得到的一個或多個特征,將其與各類模型相結合進行有效地預測,便于評估篩選變量結果準確性的指標。本文通過模擬實驗和實例數(shù)據(jù)來評價深度學習聯(lián)合正則化是否可以篩選出有效特征,提高模型的泛化能力。

模擬實驗

1.模擬數(shù)據(jù)的產生

(1)特征數(shù)與樣本含量的設定

在實際的組學數(shù)據(jù)中常常具有成千上萬個基因,增加了數(shù)據(jù)處理與分析的困難性,為了使模擬數(shù)據(jù)與TCGA中真實的數(shù)據(jù)結構相似且便于計算,我們在模擬實驗中設置特征的個數(shù)p=800,樣本量n=500,此時符合實際組學數(shù)據(jù)中基因的數(shù)量遠遠多于患者數(shù)量的特點。

梅黎明指出,“鄉(xiāng)村振興戰(zhàn)略的內涵十分豐富,將‘四化’同步發(fā)展提升為‘農業(yè)農村優(yōu)先發(fā)展’,將‘社會主義新農村建設’提升為‘鄉(xiāng)村振興戰(zhàn)略’,將‘農業(yè)現(xiàn)代化’提升為‘農業(yè)農村現(xiàn)代化’,將‘統(tǒng)籌城鄉(xiāng)’提升為‘城鄉(xiāng)融合’。”

(2)特征組的設定

考慮到組學數(shù)據(jù)中特征間具有相關性,在分析數(shù)據(jù)時應將具有相關性的特征分為一組,在模擬實驗中設每個組內有4個特征,即將8000個特征平均分為2000個組,同時假定5個組即20個特征對生存有影響。

(3)生存時間及生存結局的設定

本文以Cox比例風險模型作為深度學習模型的預測模型探索方法的有效性,這里模擬500名患者的生存時間和生存結局。每個患者潛在生存時間可表示為:

(2)

βX={β1X1,β2X2,…,βg-1Xg-1,βgXg}

共有g個組,在第j個特征組中:

βjxj={βj1xj1,βj2xj2,βj3xj3,βj4xj4}

1≤j≤g,βj1xj1,βj2xj2,βj3xj3,βj4xj4為第j組內4個特征及其系數(shù)。設T1為服從參數(shù)為λ指數(shù)分布的刪失時間,若T1≥T,則生存結局為死亡;若T1

2.評價方法及指標

隨機抽取數(shù)據(jù)集的60%、20%和20%分別作為訓練集、測試集和驗證集,訓練次數(shù)為5000次。首先在訓練集中訓練深度學習模型,然后在驗證集中采用梯度下降法不斷對模型的超參數(shù)進行調整,尋求最佳模型,最后在測試集中評估其泛化能力。選擇測試集中C指數(shù)客觀地評估深度學習模型單獨及聯(lián)合正則化方法后的泛化能力。

3.模擬實驗的結果

使用模擬數(shù)據(jù)集分別訓練聯(lián)合組lasso和lasso的深度學習模型與單純的深度學習模型,每經過一次訓練后記錄訓練集、驗證集和測試集中的C指數(shù),隨著訓練次數(shù)的增加,相應的C指數(shù)發(fā)生改變如圖2所示。

圖2反應了不同模型的訓練過程中,訓練集、驗證集和測試集中C指數(shù)的變化情況。訓練未加入正則化的深度學習模型時(圖A所示),驗證集和測試集C指數(shù)無明顯波動,由表1可知當不同數(shù)據(jù)集的C指數(shù)保持不變時,訓練集的C指數(shù)較驗證集和測試集中C指數(shù)0.62高的多,由此可見,未加入正則化深度學習的模型存在過擬合的風險,可能不具有較好的泛化能力。加入lasso(圖B所示)和組lasso(圖C所示)的深度學習模型在訓練過程中驗證集和測試集的C指數(shù)均有顯著增大的趨勢,且訓練分別至約為2000次和3000次,驗證集和測試集的C指數(shù)趨向穩(wěn)定。圖B和圖C中測試集C指數(shù)達到穩(wěn)定時分別為0.80和0.88。深度學習模型中加入正則化,通過在訓練集中不斷訓練以及在驗證集中對模型超參數(shù)的不斷調整獲得的深度學習模型具有很好的泛化能力,在一定程度上可以有效防止訓練深度學習模型時出現(xiàn)過擬合,且組lasso防止模型過擬合的效果優(yōu)于lasso。

圖2 不同模型訓練集、驗證集和測試集中C指數(shù)隨訓練次數(shù)增加的變化情況

表1 相同模型不同情況下三個數(shù)據(jù)集中穩(wěn)定的C指數(shù)

實例分析

1.數(shù)據(jù)的來源及整理

從TCGA癌癥基因庫中下載共計630名卵巢癌患者的mRNA、蛋白質組學以及臨床信息,將模擬實驗中所闡述的方法及評價指標應用于上述實例數(shù)據(jù)。在上述數(shù)據(jù)中選擇原發(fā)卵巢癌患者同時剔除缺失生存結局、生存時間的患者,最終保留196名包含有組學數(shù)據(jù)和臨床信息的原發(fā)卵巢癌患者;剔除大于等于70%患者中缺失的特征,若小于70%的患者缺失某個特征值,對其缺失值采取中位數(shù)填補[9]。對填補缺失值后的組學數(shù)據(jù)進行Z標準化。在實例數(shù)據(jù)中,共有18717個特征,mRNA和蛋白組學中受同一基因調控的特征分為一個特征組。

2.實例分析結果

如圖3所示,隨著訓練次數(shù)不斷增加,同時模型在不斷的優(yōu)化,此時融入組lasso模型測試集的C指數(shù)明顯增加,最高可達到0.67,且明顯高于常規(guī)深度學習模型測試集的C指數(shù)。對兩種模型測試集C指數(shù)的中位數(shù)進行Wilcoxon秩和檢驗,檢驗得到的P值小于0.0001,二者中位數(shù)的差值具有統(tǒng)計學意義,即融入組 lasso模型的測試集C指數(shù)中位數(shù)高于常規(guī)深度學習模型的測試集C指數(shù)的中位數(shù)。由此可見在模型中加入組lasso可以提高模型的C指數(shù),且融入組lasso模型相比于常規(guī)深度學習模型具有更好的泛化能力,過擬合風險相對更低。

圖3 未加入正則化與融入組 lasso兩種模型測試集C指數(shù)隨訓練次數(shù)的變化

討 論

實驗結果顯示,使用常規(guī)深度學習模型進行預測時模型的C指數(shù)中位數(shù)僅為0.57,且模型驗證集的損失函數(shù)并沒有減小,此時模型存在過擬合。實際中癌癥高維組學數(shù)據(jù)的樣本量較少且與結局變量無關的特征較多是導致深度模型出現(xiàn)過擬合的主要原因。在訓練常規(guī)的深度學習模型時需要大量的樣本,但是在實際癌癥組學數(shù)據(jù)的研究中,樣本量較少限制了模型的學習能力,與此同時數(shù)據(jù)中又存在大量與結局變量無關的特征,因此模型不能充分且有效地學習從而導致模型的預測性能降低。此時我們需要正則化方法對癌癥高維組學數(shù)據(jù)進行降維,為訓練模型選擇與結局變量高度相關的特征或者特征組(癌癥高維組學數(shù)據(jù)中具有分組信息),在樣本量較少的情況下提高模型的學習效率和預測的準確性,降低模型過擬合的風險。

實際癌癥高維組學數(shù)據(jù)中,大部分特征都不是相互獨立的,常規(guī)的深度學習模型并不能對彼此之間具有相關性的輸入特征進行分組,所以加入組lasso的深度學習模型更適合處理實際的癌癥高維組學數(shù)據(jù)。眾所周知,實際癌癥組學數(shù)據(jù)中特征個數(shù)以及它們之間的相關性使數(shù)據(jù)結構較為復雜,在模擬實驗中是將所有特征均勻分組,即每特征組中特征個數(shù)相等,而在卵巢癌患者的組學數(shù)據(jù)中某些基因可能同時調控多個組學的不同特征,亦可能僅調控一個組學特征,因此并不能保證每個特征分組內的特征個數(shù)相等,在一定程度上也增加了數(shù)據(jù)結構的復雜性。但模型中融入正則化方法可以使模型在小樣本的數(shù)據(jù)中具有較強的學習能力,防止模型過擬合,減少無用功,節(jié)約運算時間。

雖然本研究通過在深度學習模型中加入正則化方法使得在實際組學數(shù)據(jù)中訓練模型較少的出現(xiàn)過擬合,但是如果將同一通路中組學特征分為一組,需要考慮同一組學特征出現(xiàn)在不同的通路中,換言之,同一特征同時出現(xiàn)在不同的特征組中時,本文所述的lasso、組lasso不再適用,它們能夠改善過擬合的問題,但不能徹底解決,在未來的研究中我們嘗試將重疊lasso應用于深度學習模型中,改善用組間具有重疊特征的組學數(shù)據(jù)訓練深度學習模型時出現(xiàn)的過擬合問題。隨著高維組學數(shù)據(jù)研究不斷發(fā)展,正則化方法在進行高維特征篩選方面具有較好的應用前景。

猜你喜歡
深度特征模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 91福利免费| 一本色道久久88综合日韩精品| 丁香亚洲综合五月天婷婷| 国产99久久亚洲综合精品西瓜tv| 欧美精品一区二区三区中文字幕| 亚洲成av人无码综合在线观看| 天天综合色网| 亚洲欧美激情小说另类| 99视频在线免费| 99精品伊人久久久大香线蕉 | 99视频在线免费| 四虎综合网| 亚洲看片网| 国产精品蜜臀| 宅男噜噜噜66国产在线观看 | 国产成人精品在线1区| 性色一区| 日本免费一区视频| 亚洲天堂日韩av电影| 麻豆精品在线视频| 天堂网亚洲系列亚洲系列| 无码'专区第一页| 亚洲无码高清一区二区| 99这里精品| 国产伦片中文免费观看| 91午夜福利在线观看| 国产91无码福利在线| 亚洲二区视频| 亚洲男人天堂久久| 福利小视频在线播放| 亚洲一级毛片免费观看| 亚洲av片在线免费观看| 欧美国产在线看| 思思热在线视频精品| 国产尤物在线播放| 67194在线午夜亚洲| 日韩视频福利| 国产91色在线| 美女免费黄网站| 无码视频国产精品一区二区| 爽爽影院十八禁在线观看| 国产成人1024精品| 99精品国产自在现线观看| 欧美在线视频a| 91网站国产| 婷婷开心中文字幕| 麻豆国产精品| 久操中文在线| 国产精品lululu在线观看| 国产成人8x视频一区二区| 国产极品美女在线观看| 中文字幕无码电影| 毛片在线区| 欧美有码在线观看| 国产精品久久久久久久久久98 | 久久一级电影| 亚洲第七页| 久久毛片免费基地| 这里只有精品在线播放| 欧美性猛交一区二区三区| 中文字幕免费播放| 天堂网亚洲系列亚洲系列| 精品视频第一页| 天天摸天天操免费播放小视频| 性做久久久久久久免费看| 免费Aⅴ片在线观看蜜芽Tⅴ | 青青草综合网| 欧美色图第一页| 国产人人乐人人爱| 国内精自视频品线一二区| 亚洲第一成年网| 免费a级毛片18以上观看精品| 91久久青青草原精品国产| 97se亚洲综合在线天天| 国产麻豆精品久久一二三| 国产高清不卡| 日韩在线影院| 99久久精品国产自免费| 夜夜操狠狠操| 色天天综合| 久久人妻xunleige无码| 99视频全部免费|