999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合自噬相關基因表達譜和臨床因素的肺腺癌預后預測模型

2022-11-12 07:54:18李麗希
生物信息學 2022年3期
關鍵詞:分析模型

李麗希,黃 鋼

(1.上海理工大學 健康科學與工程學院,上海 200090;2.上海市分子影像重點實驗室,上海 201200)

肺癌是全球死亡率最高的癌癥之一,非小細胞肺癌(Non-small cell lung cancer,NSCLC)是肺癌中最常見的類型,約占所有肺癌病例的80%[1]。肺腺癌(Lung adenocarcinoma,LUAD)是非小細胞肺癌的主要亞型之一,對全球不吸煙者而言是致死率最高的疾病[2-3]。由于LUAD在早期容易轉移復發,LUAD患者的預后效果很差,平均5年生存率低于20%[4]。在臨床實踐中,腫瘤分期系統已廣泛應用于癌癥患者的指導治療和預后評估。然而,預后的判斷通常只基于固有的解剖學信息,由于肺腺癌的異質性,很難預測疾病的發展。因此,迫切需要尋找有效的預后生物標志物來幫助臨床醫生做出準確的肺腺癌診斷,預測臨床結果,為個體化醫學提供參考。

過去幾年里,研究發現自噬在腫瘤的發生過程中發揮了重要的作用[6-9]。自噬是一個復雜的生理病理過程,自噬的溶酶體降解功能在細胞生理學中起著至關重要的作用,如適應代謝應激、清除危險物質(如蛋白質聚集體、受損或老化的細胞器、細胞內病原體)、細胞分化和發育過程中的更新等[10]。在癌癥中,自噬具有雙重作用,它既能夠抑制良性腫瘤的生長,也可以促進晚期癌癥的發展[11]。目前,許多研究小組已經確定把自噬作為癌癥治療的潛在靶點。

本項研究構建了一個結合多個自噬相關基因和臨床參數的模型來預測LUAD患者的預后。從TCGA數據庫的LUAD數據中篩選出表達具有顯著差異的自噬相關基因,對差異自噬相關基因進行單因素Cox回歸分析來確定與LUAD患者生存相關的候選基因,然后使用lasso回歸模型篩選出預后相關基因,對預后相關基因進行多因素Cox分析,構建風險評分模型,并對風險評分模型進行內部驗證和外部驗證。最后將風險評分與臨床參數結合,構建了預測患者生存概率的列線圖模型,使用一致性指數(Concordance index, C-index)、校準曲線和ROC曲線來評估模型的性能。

1 材料和方法

1.1 數據收集和數據預處理

在人類自噬專用數據庫HADb(http://www.autophagy.lu/)、ARN數據庫(http://autophagyregulation.org)、自噬數據庫(http://www.tanpaku.org/autophagy/index.html)上下載了自噬相關基因共1 417個。從TCGA(https://portal.gdc.cancer.gov/)下載LUAD的COUNT數據和FPKM數據各585例,包含526例肺腺癌樣本和59例癌旁正常肺組織。從UCSC Xena(https://xenabrowser.net/)下載TCGA-LUAD的生存信息641例和臨床數據706例。對于TCGA數據,過濾生存信息、腫瘤分期信息、年齡、性別和復發信息不完整的樣本,保留了TCGA的417例肺腺癌樣本和48例正常樣本。在TCGA數據中篩選出自噬相關基因的信息,并將癌癥樣本(n=417)隨機分配為訓練組和測試組,比例為1∶1。

同時,在GEO(https://www.ncbi.nlm.nih.gov/geo/)數據庫下載了GSE50081數據集用于外部驗證,該數據集包括了127例肺腺癌樣本和54例正常樣本。

1.2 預后相關基因的篩選

使用“limma”包對自噬相關基因進行差異分析,差異基因篩選標準為:|logFC|>1.5,P<0.05。

對表達具有顯著差異的自噬相關基因使用單因素Cox比例風險回歸分析篩選出候選基因,篩選閾值為:風險比HR≠1,p<0.05。

Lasso是一種高維預測回歸方法,并已被廣泛應用于高維數據生存分析的Cox比例風險回歸模型中[12]。為了進一步篩選出與LUAD生存顯著相關的基因,在訓練集(n= 209)中使用Lasso回歸模型對候選基因進行篩選,并進行十折交叉驗證,以確定最佳的預后相關基因。

1.3 多基因預后標志的建立和評估

對預后相關基因進行多因素Cox比例風險回歸分析,獲得預后相關基因的回歸系數。然后,采用predict函數將基因的表達水平和回歸系數進行組合算出每個患者的風險評分。

使用“survminer”包計算出最優cutoff值,以cutoff為臨界值,將訓練組分為高風險組和低風險組。為了確定風險評分在預測肺腺癌患者臨床預后中的作用,采用對數秩檢驗對訓練組進行了生存分析,比較高風險組和低風險組之間的生存差異。繪制了與時間相關的ROC曲線來進一步評估風險評分的預后性能,并計算了其3年和5年的AUC值。

此外,為了探討多基因預后標志在其他臨床參數中的診斷能力,進行了一項分層分析,以cutoff值為分界點進行分組,使用Kaplan-Meier曲線比較了stage亞組、年齡、性別亞組中高低風險組的生存差異。

1.4 多基因預后標志的驗證

使用內部驗證集(n=208),外部驗證集GSE50081(n=127),以及全集(n=417)來驗證風險評分的預測能力和適用性。在驗證集中,使用訓練集中獲得的回歸系數計算每個樣本的風險評分,然后根據cutoff值將患者分為高風險組和低風險組,采用對數秩檢驗進行生存分析,繪制與時間相關的ROC曲線。

1.5 列線圖的構建和驗證

對風險評分和一些臨床參數(stage、T期、N期、年齡、性別、復發)進行了單因素Cox回歸分析,以比較風險評分與臨床參數的預后能力。然后,使用多因素Cox回歸模型來確定風險評分是否具有臨床獨立性,其中,在單因素Cox回歸分析中具有顯著統計學差異(p<0.05)的臨床參數也被納入多因素Cox回歸模型中。

基于上述單因素和多因素Cox回歸分析,篩選出具有統計學差異的參數作為獨立預后參數,用于列線圖的構建,以預測患者3年、5年的生存概率。

為了評價模型的預測能力,計算出列線圖模型的C-index,并繪制其3年、5年的ROC曲線,同時繪制了3年時stage、風險評分和列線圖的ROC曲線,比較三者的預測能力。然后,使用校準曲線,通過500次重采樣,以3年、5年的觀察速率來可視化列線圖的性能,列線圖的預測結果和實際結果都能夠在校準曲線中進行比較,其中,45°線為最佳預測結果。在內部驗證集和全集中使用上述相同的辦法來驗證結果。

2 結 果

2.1 預后相關基因的篩選

在HADb數據庫、ARN數據庫和自噬數據庫中共下載了1 417個自噬相關基因,其中938個基因在TCGA數據中有表達。對938個自噬基因進行差異分析,獲得了38個上調基因和44個下調基因(見圖1a),篩選條件為|logFC|>1.5,P<0.05。

在全集中,對差異基因進行單因素Cox回歸分析,發現有13個候選基因與肺腺癌生存相關(見圖1b)。為進一步確定與LUAD患者預后相關的基因,使用“glmnet”R包對候選基因進行了LASSO回歸分析以及十折交叉驗證,其結果顯示,當λmin=0.029時,模型性能達到最佳,此時篩選出了6個預后相關基因(見圖1c,1d),即ARNTL2、NAPSA、ATG9B、CAPN12、MAP1LC3C、KRT81,這些基因中有4個(NAPSA、ATG9B、CAPN12、MAP1LC3C)的風險比小于1,表明它們的低表達與預后不良有關,而ARNTL2和KRT81的風險比大于1,表明它們的過度表達與低生存率有關。

圖1 回歸分析篩選與LUAD預后相關的自噬相關基因

2.2 多基因預后標志的建立和評估

對6個預后相關基因進行多因素Cox回歸分析(見圖2),然后,使用predict函數結合多基因的回歸系數和表達量構建風險評分,通過“survminer”R包獲取風險評分的最優cutoff值,以cutoff值為分界點,將患者分為高風險組和低風險組,并展示了訓練集中患者的生存狀態和6個預后相關基因的熱圖(見圖3a)。對訓練組進行生存分析,結果顯示,與低風險組相比,高風險組的預后結果更差(見圖3b)。然后,我們構建了一個與時間相關的ROC曲線(見圖3c),其3年、5年的AUC值分別為0.852、0.868,這表明這個多基因預后標志具有較好的預測能力。

圖2 預后相關基因的多因素Cox回歸分析

圖3 訓練集中多基因特征的預后分析

此外,對stage、年齡和性別進行了風險分層,以cutoff值為分界點,將訓練組的患者分為高風險組和低風險組,進行Kaplan-Meier生存分析(見圖4)。在stage Ⅰ/Ⅱ、stageⅢ/Ⅳ、男性、女性、年齡大于65歲和年齡小于65歲的亞組中,高風險組的生存率都顯著低于低風險組(p<0.05)。

圖4 風險評分在不同亞組中的生存分析

2.3 多基因預后標志的驗證

使用內部測試集(n=208)、外部測試集(n=127)和全集(n=417)來驗證風險評分的預測能力。與訓練集中的結果一致,測試集的生存分析曲線都顯示高風險組的預后結果比低風險組的差(見圖5a-5c)。ROC曲線顯示,內部測試集的3年、5年AUC值為0.863、0.938(見圖5d),外部測試集的3年、5年AUC值為0.939、0.852(見圖5e),全集的3年、5年AUC值為0.861、0.905(見圖5f),以上結果都顯示風險評分在預測LUAD患者的預后方面表現良好。

圖5 風險評分的內部驗證和外部驗證

2.4 列線圖的構建與驗證

對風險評分和一些臨床參數(stage、T期、N期、年齡、性別、復發)進行了單因素和多因素Cox比例風險回歸分析,其結果顯示風險評分可以作為預測LUAD預后的獨立參數,而在傳統臨床參數中,stage和復發也可以作為獨立預后參數(見圖6a,6b)。我們將傳統臨床風險因素和風險評分相結合,構建一種能夠有效預測患者3年、5年生存率的列線圖(見圖6c)。列線圖的C-index指數為0.807,表明列線圖有較好的預測能力。校準曲線顯示,列線圖的預測結果與實際結果較為一致(見圖7a)。ROC曲線顯示,列線圖3年、5年的AUC值分別為0.898、0.88(見圖7d)。三年時,列線圖生存的AUC值遠高于風險評分模型和stage的AUC值(見圖7g),這表明列線圖可能是預測LUAD預后生存的最佳方式。

圖6 臨床單、多因素Cox分析以及列線圖的構建

為了驗證列線圖的預測價值,使用內部測試集(n=208)和全集(n=417)來檢驗上述的發現。內部測試集和全集的列線圖的C-Index指數分別為0.8和0.792,校準曲線也顯示兩個測試集列線圖的3年、5年生存預測結果與實際結果有良好的一致性(見圖7b,7c)。列線圖的ROC曲線顯示,兩個測試集具有較好的預測準確度(見圖7e,7f)。同時,在3年期的生存預測中,列線圖無論在哪組都比風險評分和stage有更好的預測準確度(見圖7h,7i)。

圖7 列線圖預測LUAD生存率的性能以及列線圖、風險評分和Stage預測能力的比較

3 討 論

自噬是高度保守的代謝過程,在循環代謝能量以維持細胞內穩態方面起著關鍵作用[13]。有研究表明了多個自噬相關基因與肺癌的發生發展密切相關[14-16],因此,決定把自噬相關基因作為肺腺癌治療的潛在靶點。通過對TCGA肺腺癌數據中的938個自噬相關基因進行差異分析,獲得了82個差異基因,然后對差異自噬基因進行單因素Cox回歸分析,篩選出了13個與LUAD生存相關的候選基因,然后使用lasso回歸進一步篩選出6個與LUAD預后相關的基因。通過多因素Cox回歸分析獲得每個預后相關基因的回歸系數,通過每個基因的表達量和回歸系數計算出每個患者的風險評分。在訓練集中,風險評分能夠很好地將高風險患者和低風險患者區分開,并且其預測性能也在內部、外部測試集中得到了驗證。同時,在分層分析中,風險評分在stage,年齡和性別亞組中的風險分層表現也很好,這意味著此風險評分模型可以根據亞組將LUAD患者分為高低風險組,幫助臨床醫生進行臨床決策。

用于構建風險評分的6個基因包括ARNTL2、NAPSA、ATG9B、CAPN12、MAP1LC3C和KRT81。ARNTL2屬于PAS超家族,在晝夜節律和缺氧過程中起著重要的作用,其在乳腺癌、腎細胞癌等人類惡性腫瘤中具有致癌作用[17-19],目前已有研究報道ARNTL2的高表達與肺腺癌的低生存期相關,并且能夠影響肺腺癌的免疫浸潤水平[20-21]。NAPSA是天冬氨酸肽酶,其編譯的蛋白酶能夠參與肺表面活性物質蛋白B在肺中的蛋白水解過程,目前它已被證實是肺腺癌的生物標記物,并且已被用作識別原發性肺腺癌的免疫組化染色劑[22-24]。ATG9B是自噬相關基因,在自噬過程中起調節作用,與肝癌[25]、腎細胞癌[26]、胃癌[27]等多種癌癥的發生發展有關,但其在肺腺癌中的作用還尚未闡明。CAPN12是一種鈣蛋白酶,鈣蛋白酶能夠調節多種細胞生理過程,包括細胞增殖、細胞遷移、細胞侵襲、細胞自噬等,各種癌癥的發病機制也需要鈣蛋白酶系統,其可能起到促進癌癥發展的作用,最新研究也確定了CAPN12是新的結直腸癌易感基因[28-30]。MAP1LC3C是自噬蛋白ATG8的同源物,被用作自噬機制的生物標志物,有研究發現,MAP1LC3C介導了MET/HGF-RTK信號通道在癌癥中的作用,MAP1LC3C和MET復合物招募HGF并且激活MET-RTK信號通路從而進行自噬降解,進而影響腫瘤轉移[31]。在肺癌方面,有研究證明其與肺腺癌氧化磷酸化過程十分相關[32]。KRT81是一種角蛋白,相關研究發現其與肺腺癌腫瘤轉移相關[33]。上述結果都表明風險評分模型具有潛在的臨床應用價值。

最后,單因素和多因素Cox回歸分析表明,風險評分可以作為預后評估的獨立因素。為了提高風險評分的預測能力,結合臨床參數和風險評分構建了一個基于多基因預后標志的列線圖來預測患者生存率。通過比較,列線圖的預測性能高于風險評分和stage的預測性能,并在驗證集中得到同樣的結果。這表明,與單一的臨床參數相比,列線圖模型更能幫助臨床醫生預測LUAD患者的生存狀態,并為臨床醫生提供治療指導。然而,我們的研究還有一些不足之處,我們的數據只包含TCGA數據庫的mRNA數據,未來還可以從單核苷酸多態性、拷貝數變異數據、DNA甲基化等突變數據中進一步分析這6種新的生物標志物是否與上述突變相關。

4 結 論

基于6個基因的多基因預后標志來預測LUAD患者的生存風險,在訓練集和測試集中都表現出良好的準確率,并且獨立于其他臨床特征。然后,結合多基因預后標志和臨床特征構建了列線圖模型以預測LUAD患者的預后生存率,與單一臨床特征相比,列線圖模型具有更好的預測性能。因此,這6個基因很可能是LUAD的潛在生物標志物,基于多基因預后標志和臨床特征的列線圖模型很有可能用于評估LUAD患者的生存率,并幫助臨床醫生進行個體化治療的臨床決策。

猜你喜歡
分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 99久久精品国产麻豆婷婷| 欧美在线伊人| 性喷潮久久久久久久久| 亚洲第一福利视频导航| 午夜久久影院| 欧美不卡在线视频| 亚洲无码精彩视频在线观看| 欧美一级视频免费| 国产精品久久久久鬼色| 免费无遮挡AV| 日韩欧美中文在线| 在线观看亚洲国产| 精品国产成人高清在线| 欧美人与性动交a欧美精品| 成人国产精品2021| 国产微拍一区二区三区四区| 国产精品jizz在线观看软件| 亚洲女同欧美在线| 国产aⅴ无码专区亚洲av综合网| 精品国产成人a在线观看| 91精品小视频| 国产精品无码一二三视频| 狠狠做深爱婷婷综合一区| 熟妇无码人妻| 2021精品国产自在现线看| 成AV人片一区二区三区久久| 亚洲国产一区在线观看| 狠狠亚洲五月天| 丁香六月激情综合| 97精品久久久大香线焦| 国产精品久久久久久久伊一| a级毛片在线免费观看| 91无码视频在线观看| 久久精品这里只有精99品| 毛片三级在线观看| 五月天在线网站| 特级毛片免费视频| 国产精品免费电影| 欧美成人精品欧美一级乱黄| 国产99欧美精品久久精品久久| 亚洲国产精品无码AV| 黄色片中文字幕| 风韵丰满熟妇啪啪区老熟熟女| av一区二区人妻无码| 亚洲色图综合在线| 97一区二区在线播放| 亚洲天堂网2014| 日韩无码黄色| 亚洲无码A视频在线| 国产综合另类小说色区色噜噜| 欧美一区日韩一区中文字幕页| 亚洲最大福利网站| 亚洲国产日韩视频观看| 亚洲黄网在线| 午夜精品久久久久久久2023| 国产亚洲视频免费播放| 精品国产Ⅴ无码大片在线观看81 | 亚洲第一黄片大全| 免费可以看的无遮挡av无码| 亚洲日韩国产精品综合在线观看| 四虎亚洲精品| 午夜激情婷婷| 无码内射中文字幕岛国片| 久久99热66这里只有精品一| 久久中文字幕av不卡一区二区| 国产精品手机在线播放| 日韩欧美中文| 国产va在线观看免费| 永久免费无码日韩视频| 亚洲国产精品无码AV| 国产原创演绎剧情有字幕的| 亚洲IV视频免费在线光看| 国产白浆视频| 亚洲自拍另类| 91福利免费视频| 国产在线拍偷自揄观看视频网站| 国产剧情一区二区| 国产精品无码久久久久久| 国产丝袜一区二区三区视频免下载 | 99人妻碰碰碰久久久久禁片| 亚洲妓女综合网995久久| 中文字幕久久亚洲一区|