999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ESPCA模型的結腸癌差異基因篩選研究*

2021-10-09 08:20:00哈爾濱醫科大學衛生統計學教研室150081張秋菊叢雨欣劉美娜
中國衛生統計 2021年4期
關鍵詞:結腸癌模型

哈爾濱醫科大學衛生統計學教研室(150081) 李 稱 張秋菊 孫 琳 叢雨欣 趙 敏 劉美娜

【提 要】 目的 驗證ESPCA模型降維及變量選擇的效果優于SPCA;利用ESPCA模型分析結腸癌基因數據,尋找不同主成分的通路信息,篩選結腸癌的差異基因。方法 模擬實驗比較ESPCA模型與SPCA的降維及變量選擇能力,通過靈敏度、特異度、準確度評價其變量篩選效果;收集TCGA結腸癌基因數據,利用ESPCA模型對結腸癌基因數據進行降維及變量篩選。結果 模擬實驗獲得的ESPCA模型具有較高的靈敏度、特異度和準確度,降維及變量選擇效果優于SPCA。結腸癌數據分析結果顯示:降維后ESPCA模型第一主成分中基因與18條GO-BP通路及7條KEGG通路有關,ESPCA模型第二主成分中基因與19條GO-BP通路有關;根據度中心性及中介中心性對主成分基因排序篩選出6個差異基因:MYC、CD44、PKM、FBL、PSMA7、RPS2,經GSE137327數據集驗證具有較高的AUC值。結論 ESPCA模型在降維過程中既考慮數據本身信息,又考慮了生物網絡信息,具有良好的降維及變量選擇效果。結腸癌數據分析中ESPCA第一主成分中基因參與癌癥相關的通路;ESPCA第二主成分中基因參與的通路與免疫相關;通路中基因參與癌癥的發生發展過程、可能通過免疫反應相關通路調節結腸癌的發生發展過程;獲得的6個結腸癌差異基因可為研究疾病發生機制和鑒別診斷提供依據。

隨著組學技術發展,高通量組學數據為尋找生物標志物、疾病鑒別診斷提供新機遇?!案呔S、小樣本”為組學數據的重要特征,成為影響組學研究結果準確性的重要因素。為解決這一問題,許多數據降維、變量選擇方法被應用于組學數據分析。目前,稀疏主成分分析(sparse principal component analysis,SPCA)廣泛用于高維組學數據降維,如LASSO正則化[1]、加權稀疏主成分分析[2]。SPCA模型在基因篩選中,假定所有基因有同等概率被選至各主成分中,沒有考慮變量間的權重、忽略基因在網絡中的相互作用。邊組稀疏主成分分析[3](edge-group sparse PCA,ESPCA)以基因調控網絡中相互作用關系為先驗信息對高維組學數據進行分析;基因調控網絡[4]可以反應出基因間相互作用關系,將調控網絡引入到稀疏主成分分析中,獲得的主成分更加接近真實的生物模式,但該方法尚未應用在癌癥基因數據的變量篩選中。

目前,結腸癌的發病率逐年遞增,基因治療[5]正被廣泛用于腫瘤等疾病的治療中,但其潛在的基因通路及結腸癌差異基因仍不明確。本研究通過模擬比較ESPCA模型與SPCA在降維、變量選擇的效果,并利用ESPCA模型對結腸癌基因數據集進行降維及變量選擇,獲得結腸癌相關通路及差異基因,為研究結腸癌的相關機制及鑒別診斷與治療提供依據。

分析方法

1.ESPCA 模型

ESPCA模型[3]是一種以網絡交互作用為導向處理高維組學數據的方法,將稀疏主成分與先驗網絡相結合,通過選擇具有交互作用的組結構實現變量選擇,算法步驟為:

(1)假設g為組結構,g={e1,…,eM}表示基因調控網絡中所有邊組的集合。當g為非重疊的組結構時,組稀疏懲罰為L1范數或L0范數。然而實際應用中需要考慮重疊組結構[6]的情況,基因相互作用網絡中兩個相連基因被視為一個邊組。顯然,邊組為重疊組結構,因此邊組稀疏懲罰(ES懲罰)如下:

‖u‖ES=minimize|g′|

?g′?g,support(u)?V(g′)

(1)

其中,g′為g的子集,V(g′)為g′的頂點集,|g′|表示g′的元素個數,support(u)為u中非零元素指數集。

(2)由于ES懲罰的應用,ESPCA載荷非零元素的選擇基于g中重要基因相互作用的邊。最終形成帶有ES懲罰的主成分分析即ESPCA,其表達式如下:

(2)

其中,X為基因表達矩陣,u為主成分載荷,v為主成分,k為選擇邊的個數,‖·‖2為歐氏距離。

(3)模型參數估計的核心問題在于用固定的v、z=Xv,求解k邊組稀疏投影問題。該問題為NP-難問題,將通過貪婪算法[7]求解下式的最優解:

(3)

(4)

其中,g(i)為包含基因i的邊組指數集;supp(z,k)表示z的絕對值中較大的k個元素的指數集。

(4)采用交替迭代策略直到收斂得到最優解:

(5)應用Gram-Schmidt正交化方法,分別求出ESPCA多個主成分和主成分載荷。

(6)

2.模型參數選擇

邊個數k和主成分數l是ESPCA模型最重要的參數,這兩個參數的確定是開放性的問題,常以最小化貝葉斯信息準則(bayes′ information criterion,BIC)實現模型參數估計為可行的策略之一。根據已有文獻[3],本研究將k=150,l=2設為默認值。

模擬實驗

1.模擬參數設置

(1)生成兩個主成分載荷u1、u2,長度為200的列向量,u1中前100個變量的載荷隨機產生,后100個變量載荷均為0;u2反之;

(2)生成兩個主成分v1、v2,表示隨機產生的長度為100的列向量;

(4)相互作用網絡g由g1,g2,g3組成;g1,g2分別為前100和后100個變量以概率p=0.3組成的網絡;g3為前、后100個變量之間以p=0.04組成的網絡;

(5)k設定為300,為了便于比較,提取前兩個主成分,且SPCA每個主成分提取變量個數與ESPCA的相同。

2.模擬評價指標

(1)靈敏度:實際為陽性(系數非零)的變量中,判斷為陽性的比例。

(2)特異度:實際為陰性(系數為零)的變量中,判斷為陰性的比例。

(3)準確度:正確判斷為陽性和陰性變量的比例。

3.模擬實驗結果

模擬實驗獲得兩個主成分,每一個主成分在不同的噪聲水平下,ESPCA靈敏度、特異度、準確度的效果優于SPCA;隨著噪聲水平γ的增大,靈敏度、特異度、準確度呈下降趨勢;由于PC1大于PC2的權重值,故PC1有更高的靈敏度、特異度、準確度,見圖1。

圖1 在不同噪聲水平下SPCA、ESPCA的靈敏度、特異度、準確度

結腸癌差異基因篩選

下載TCGA(TCGA,http://cancergenome.nih.gov/)結腸癌RNA-seq表達數據:包括60488個基因,512例樣本(471個為癌組織,41個為癌旁組織)。

1.數據預處理

基因篩選:(1)根據“80原則”剔除缺失變量;(2)相同探針保留變異較大的基因;(3)剔除t檢驗P>0.05的變量,最終剩余7837個基因。邊的獲得:利用7837個基因在STRING網站中獲得基因網絡相互作用的邊,共87493條。

2.ESPCA模型降維及富集分析

ESPCA模型應用于預處理后結腸癌數據集,提取前兩個主成分:ESPCA1和ESPCA2,繪制結腸癌得分圖,結果見圖2,圖中兩個主成分可以很好地區分癌組織與癌旁組織。

圖2 基于ESPCA前兩個主成分結腸癌的得分圖

ESPCA1中有95個基因變量,ESPCA2中有92個基因變量,將兩個主成分中的基因分別進行富集分析發現:ESPCA1中基因與18條GO-BP通路和7條KEGG通路有關,其中細胞分裂、PI3K-Akt信號、EMC-受體交互、癌癥中心的碳代謝等通路與癌癥的發生發展相關,如 PKM,SLC1A5,SLC2A1,MYC等基因參與KEGG中的癌癥中心碳代謝通路,結果見表1;ESPCA2的基因與19條GO-BP通路有關,富集分析發現通路與免疫過程相關,如:補體激活、免疫反應調節、B細胞受體信號通路、免疫應答等,結果見表2。

表1 ESPCA第一主成分富集分析結果

表2 ESPCA第二主成分富集分析結果

3.篩選結腸癌的差異基因

主成分中的基因做PPI網絡圖(圖3),根據度中心性和中介中心性排序,選擇前6個基因,分別為MYC、CD44、PKM、FBL、PSMA7、RPS2,其AUC值分別為0.97、0.99、0.98、0.96、0.97、0.96,見表3。

圖3 基因相互作用網絡

表3 6個基因排序及AUC值

下載GEO結腸癌數據集GSE137327共18例樣本,其中9個為對照組,9個為病例組進行外部驗證,6個基因的AUC值分別為0.72、0.69、0.74、0.77、0.68、0.74,結果見圖4。

圖4 篩選6個基因的ROC曲線

討 論

本研究模擬實驗的驗證結果顯示,在不同的噪聲水平下,ESPCA的靈敏度、特異度、準確度均優于SPCA,在邊的信息下提取的樣本信息更加接近真實模式。ESPCA模型不僅能用于基因組學數據,也可用于對蛋白質組學、代謝組學數據的降維及變量選擇。

ESPCA模型對結腸癌數據進行降維分析,獲得兩個主成分ESPCA1和ESPCA2,基于兩個主成分可以很好地區分癌組織和癌旁組織。富集分析發現ESPCA1中的基因參與PI3K-Akt信號、EMC-受體交互、癌癥中心的碳代謝等與癌癥相關的通路。研究表明:PI3K-Akt信號通路[8]是癌癥中影響生存進展的主要通路,Akt[9]的失調會導致癌癥、糖尿病、心血管和神經系統等疾?。籈MC[10]對細胞粘附、增殖、凋亡起重要作用,影響腫瘤的進展過程;與正常細胞相比,癌癥細胞的中心代謝通路[11]存在明顯差異,癌癥細胞即使在正常的氧氣濃度下也能將大部分葡萄糖轉換為乳酸,這種差異影響癌癥的發生發展。富集分析發現ESPCA2中的基因參與補體激活、免疫反應調節、B細胞受體信號、免疫應答等免疫相關通路。有研究發現,免疫浸潤有關的mRNA與I~III期的結腸癌的診斷及預后有關;腫瘤浸潤淋巴細胞是三陰性乳腺癌[12]重要的預后因素。目前尚未發現免疫通路影響結腸癌的發生,提示基因通過調控免疫反應通路可能影響結腸癌的發生發展,免疫反應機制可能是發生癌癥的潛在機制之一。

篩選出的6個基因在結腸癌數據集及GSE137327驗證集中有較高的AUC值。其中,PKM、MYC、CD44和PSMA7已被證實與結腸癌有關,PKM[13]基因通過調控STAT3相關的信號通路促進結腸癌細胞的黏附和遷移;MYC[14]基因為結腸癌的關鍵基因,并作為LEF1的轉錄調節因子,通過激活LEF1的表達來調節結腸癌細胞的增殖過程;CD44[15]基因已被多個研究證實是結腸癌和胃癌干細胞的生物標志物;PSMA7[16]基因在結腸癌組織中過表達,能誘導HT-29細胞的凋亡。目前尚未發現FBL、RPS2與結腸癌發生發展有關,本研究為進一步深入了解結腸癌發生發展過程及基因治療提供了參考和依據。

本文雖然擴展了現有文獻的參數設置,但仍需探索更多的參數組合下模型的效果;GSE137327驗證集中癌組織和癌旁組織的比例與TCGA結腸癌數據集中的比例相差較大,結果可能會有一定的偏差;只考慮了網絡中兩個相互作用的基因作為一個組結構,未來可以考慮將通路中具有類似功能的多個基因作為一個組結構進行ESPCA模型分析。

猜你喜歡
結腸癌模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
MicroRNA-381的表達下降促進結腸癌的增殖與侵襲
3D打印中的模型分割與打包
結腸癌切除術術后護理
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
中西醫結合治療晚期結腸癌78例臨床觀察
結腸癌合并腸梗阻41例外科治療分析
帕瑞昔布鈉用于結腸癌術后鎮痛的療效觀察
主站蜘蛛池模板: 国内精品一区二区在线观看| 国产人人乐人人爱| 在线欧美a| 亚洲狼网站狼狼鲁亚洲下载| 成年人久久黄色网站| 黄片一区二区三区| 中文毛片无遮挡播放免费| 欧美激情伊人| 四虎影视永久在线精品| 美女视频黄又黄又免费高清| 午夜免费小视频| 久久精品免费国产大片| 亚洲欧美在线综合图区| 91美女在线| 日韩经典精品无码一区二区| 高h视频在线| 国产三级韩国三级理| 国产激情无码一区二区免费| 成人91在线| 国产丝袜丝视频在线观看| 亚洲永久色| 亚洲中文字幕无码爆乳| 韩国v欧美v亚洲v日本v| 国产丝袜第一页| 国产女人综合久久精品视| 久久一级电影| 国产在线自揄拍揄视频网站| 欧美精品综合视频一区二区| 成年女人18毛片毛片免费| 爱色欧美亚洲综合图区| 欧美五月婷婷| lhav亚洲精品| 五月天久久综合| 国产区免费精品视频| a级毛片在线免费观看| 性色在线视频精品| 国产噜噜在线视频观看| 日韩一二三区视频精品| 国产AV毛片| 波多野结衣一区二区三区四区视频 | 免费一级α片在线观看| 久久黄色一级视频| 真人高潮娇喘嗯啊在线观看| 91无码人妻精品一区二区蜜桃| 日韩欧美成人高清在线观看| 国产精品黑色丝袜的老师| 国产欧美在线| 久久国产精品麻豆系列| 成人一区专区在线观看| 久久永久精品免费视频| 国产精品深爱在线| 白浆视频在线观看| 日本欧美在线观看| 亚洲美女高潮久久久久久久| 97av视频在线观看| 中国一级特黄大片在线观看| 国产免费a级片| a欧美在线| 中国国产一级毛片| 91精品国产麻豆国产自产在线| 欧美高清三区| AV在线天堂进入| 手机永久AV在线播放| 精品综合久久久久久97超人| 亚洲伊人电影| 国产日本一区二区三区| 日本尹人综合香蕉在线观看| 亚洲第一视频免费在线| 国产丝袜啪啪| 无码电影在线观看| 亚洲精品视频网| 成人国产精品网站在线看| 9999在线视频| 欧美va亚洲va香蕉在线| 亚洲人成成无码网WWW| 日韩欧美中文亚洲高清在线| 欧美不卡视频在线观看| 精品无码日韩国产不卡av| 毛片卡一卡二| 91小视频在线观看免费版高清| 91麻豆精品国产91久久久久| 幺女国产一级毛片|