趙博璇,劉 明,李建偉
(河北工業大學 人工智能與數據科學學院,天津 300401)
胃癌是一種極為常見的惡性腫瘤,其發生于胃粘膜上皮細胞,在全球癌癥死亡率排名中位居第二[1]。在我國,胃癌擁有較高的發病率和死亡率,位列我國惡性腫瘤的第三位,且全球新發胃癌病例中約有一半來自中國[2-3]。胃癌患者的早期癥狀不顯著,難以引起人們重視,只有當腫瘤細胞增殖影響胃部正常功能時,患者才出現較為明顯的癥狀。根據胃癌早期發病機制建立診斷預測模型,及早發現胃癌患者,可使患者避免錯過早期治療的最佳時機,輔以有效治療可以極大提升胃癌患者的五年生存率。本研究通過生物信息學技術對胃癌基因表達數據進行特征處理,采用機器學習算法構建胃癌早期診斷預測模型,為胃癌早期診斷的研究提供了新思路和新方法。
隨著高通量生物技術和生物信息學的迅猛發展,不斷有學者根據人類基因表達譜數據對胃癌開展各種層面的研究。JIANG K等通過對GEO(Gene Expression Omnibus,https://www.ncbi.nlm.nih.gov/geo)數據庫中的 GSE29272數據集進行研究,發現了5個可能代表胃癌的新型預后生物標志物(ASPN、COL1A1、FN1、VCAN和MUC5AC)[4]。Chen J等人根據TCGA(The Cancer Genome Atlas,TCGA,https://portal.gdc.cancer.gov)數據庫中胃癌患者的遺傳和臨床數據,通過構建加權基因共表達網絡分析,得到7個影響胃癌患者生存的基因(PDGFRB、COL8A1、EFEMP2、FBN1、EMILIN1、FSTL1 和KIRREL)[5]。對人類胃癌組學數據的探索可為胃癌的預防、治療和診斷提供強有力的幫助。本研究的工作流程主要包括數據下載與處理、胃癌早期診斷關鍵基因的篩選和診斷預測模型的構建3個部分。其中關鍵基因的篩選通過差異基因分析、PPI網絡分析和診斷效能分析等3個步驟完成,并對差異基因進行GO和KEGG富集分析。
TCGA即癌癥基因組圖譜數據庫,它從創建至今已收錄了30多種類型癌癥的基因組學數據,存儲了豐富的與癌癥相關的各類信息[6]。TCGA 數據庫中胃癌基因表達數據由二代測序技術(RNA-seq)獲得,用戶利用官方下載工具gdc-client,可下載基因表達豐度為read count值形式的原始表達數據,并可同時獲得相關的臨床數據。GTEx(Genotype-Tissue Expression,GTEx,https://gtexportal.org/home)名為基因型-組織表達數據庫。截至2015年底,它已包括大約900名尸體捐贈者的大量尸檢樣本數據,涵蓋50多個組織[7]。
在本研究中,從TCGA數據庫中篩選得到201個胃癌樣本,其中正常組織 32個,早期胃癌組織樣本為169個(56例癌癥I期,113例癌癥II期)。TCGA數據庫記錄的正常組織測序結果較少,大量病人的正常組織測序數據并未包含在內,如胃癌正常組織樣本量與癌組織早期樣本量相差近5倍。為增加正常組織樣本量,本研究通過GTEx數據庫官網下載原始表達矩陣文件和樣本信息文件,根據樣本信息從表達矩陣中提取出174個正常胃部組織的基因表達數據。
對獲得的TCGA和GTEx的胃癌原始表達數據集進行預處理,通過篩選同時存在于兩個數據庫的基因,最終得到二者的聯合數據集。該數據集共包含375個樣本,正常組織和胃癌早期組織樣本分別為206個和169個(見表1)。

表1 基因表達數據集描述信息Table 1 Description of gene expressiondataset (個)
TCGA和GTEx為不同平臺的測序數據,其數據因獲取的方式不同而存在批次差異,在進行差異分析前先進行批次效應處理[8]。本研究使用R平臺(R 4.0.3,https://www.r-project.org)中自帶去批次效益函數的Deseq2軟件包對TCGA和GTEx聯合數據集進行批次效益去除和差異表達基因(Differentially expressed genes, DEGs)篩選。Deseq2軟件包僅支持未經標準化的read count形式的數據類型[9],設置|log2FC|>2,Benjamini Hochberg校正后的差異顯著性閾值P.adj<0.05。
基因本體論(Gene Oncology, GO)分析被廣泛應用于降低復雜性和全基因組的表達研究,其包括分子功能(Molecular Function,MF)、細胞組分(Cellular Component, CC)和生物過程(Biological process, BP)3部分。KEGG通路富集分析采用的是京都基因與基因組百科全書數據庫((Kyoto Encyclopedia of Genes and Genomes,KEGG),它是一個基因功能系統分析庫,包括基因組、化學和系統功能等信息。本研究利用R語言的clusterProfiler軟件包實現差異基因的GO和KEGG富集分析,富集篩選閾值設定為經Benjamini Hochberg校正后的P<0.05。
STRING數據庫(https://string-db.org)整合了蛋白質間所有已知關聯和預測關聯,包括物理相互作用和功能關聯,從多個數據源收集評分證據,收錄了千萬種蛋白質間的相互作用[10]。通過STRING數據庫構建蛋白質間的相互作用(Protein-protein interaction,PPI)網絡,可得到關系密切的蛋白基因集,有助于篩選關鍵基因。利用Cytoscape(Cytoscape 3.7.0,https://cytoscape.org)軟件中的MCODE插件搜索提取PPI網絡中的關鍵子網,關鍵子網中的基因即可被認為是候選關鍵基因。
通過MedCalc(MedCalc 19.1,https://www.medcalc.org)軟件對候選關鍵基因的診斷能力進行評價分析。基于受試者工作特征曲線(Receiver Operating Characteristic,ROC)[11]、曲線下面積(AUC)、敏感性和特異性等指標可以評估關鍵基因的識別能力。隨著ROC曲線下面積的增大,關鍵基因對胃癌早期識別能力逐漸增大,本研究設置AUC值大于0.9的基因可作為早期診斷關鍵基因。
使用Python(Python 3.7.4,https://www.python.org) 機器學習擴展包 scikit-learn開發實現分別基于支持向量機(Support Vector Machines,SVM)[12]、隨機森林(Random Forest,RF)[13]、樸素貝葉斯(Naive Bayes Model,NBM)[14]、 K 近鄰(K-Nearest Neighbor,KNN)[15]、極致梯度提升(eXtreme Gradient Boosting,XGBoost)[16]和自適應提升(Adaptive Boosting,AdaBoost)[17]的胃癌早期診斷預測模型。
不同算法訓練得到的分類器模型在訓練集上具有不同的表現,廣泛應用的評價指標有:準確率(Accuracy)、精確率(Precision)、召回率(Recall)[18]、F1_score[19]、ROC曲線和AUC值等。AUC定義為ROC曲線下面積值,AUC作為一個數值,其越大說明分類模型越好[20]。混淆矩陣常被用作二分類模型的評判指標[21]。
對于TCGA和GTEx聯合數據集,通過Deseq2軟件包進行批次效益去除并篩選差異表達基因,得到1 524個DEGs,包含735個上調基因和789個下調基因,其火山圖(見圖1)。

圖1 胃癌組織與正常組織間DEGs火山圖Fig.1 Volcano map of DEGs between gastric cancer tissue and normal tissue
通過clusterProfiler軟件包對差異基因進行GO和KEGG功能富集分析。GO富集分析結果中共包含501個條目,其中細胞組分條目48條,分子功能條目125條,生物過程條目328條。將P.adjust值按照升序排列,分別選取三部分前10條目進行展示(見圖2)。分析表明差異基因主要富集于生物過程上,包括表皮細胞分化、肌肉系統過程和皮膚發育等;細胞組分功能主要富集于細胞外基質、細胞頂端和轉運復合體;分子功能主要富集于受體配體活性、信號受體及內肽酶活性,主要結果(見表2)。

表2 GO功能富集分析部分結果Table 2 Partial results of GO function enrichment analysis

圖2 顯著富集的GO termFig.2 Significantly enriched GO terms
KEGG通路富集分析結果中共包含32個條目,差異基因主要富集在神經活性配體-受體相互作用、細胞因子-細胞因子受體相互作用和cAMP 信號等通路。將經Benjamini Hochberg校正后的P值按升序排列,選擇前10條目進行氣泡圖繪制(見圖3)。表3全面地展示了將通路包含基因數量按照降序排列的前10條目結果。

表3 KEGG通路富集分析部分結果Table 3 Partial results of KEGG pathway enrichment analysis

圖3 KEGG通路富集分析氣泡圖Fig.3 Bubble chart of KEGG pathway enrichment analysis
利用STRING數據庫對1 524個DEGs構建其PPI網絡,并通過Cytoscape軟件中的MCODE插件獲得每個蛋白質相互作用子網的評分,按照得分遞減順序提取前兩名的子網為關鍵子網(見圖4)。兩個關鍵子網中共包含的58個基因作為胃癌早期診斷候選關鍵基因。

圖4 關鍵子網的PPI網絡圖Fig.4 PPI network of key subnetworks
分別對兩個關鍵子網中包含的基因進行GO功能富集分析,富集分析結果表明關鍵子網1所包含的33個基因主要富集在生物過程上,包括粒細胞趨化、趨化因子介導信號通路和G蛋白耦聯受體信號通路等;關鍵子網2所包含的25個基因主要富集于生物過程的角質細胞分化和交聯肽。
基于基因表達數據,利用MedCalc軟件對58個候選關鍵基因進行診斷效能分析,結果分別在圖5中進行展示。提取AUC值大于0.9的基因,最終得到10個胃癌早期診斷關鍵基因,它們分別為CXCL11、CCR8、CXCL9、CXCL10、CXCL1、CCL20、CXCL8、CXCL6、APLN、HTR1E。關鍵基因的診斷效能結果如表4所示,其敏感性和特異性均高于70%。


圖5 候選關鍵基因ROC曲線Fig.5 ROC curve of candidate key genes

表4 基于關鍵基因的早期胃癌分類效果Table 4 Classification effect of early gastric cancer based on key genes
利用10個胃癌早期診斷關鍵基因構建胃癌的早期診斷模型,具體步驟如下:
1)提取出10個關鍵基因在TCGA聯合GTEx數據集的表達值形成新的表達譜矩陣。
2)將來源于TCGA聯合GTEx數據集的169個早期胃癌樣本和206個正常樣本分別隨機提取1/11組成獨立測試集,用于驗證診斷預測模型的魯棒性和泛化能力。獨立測試集共包括33個樣本,胃癌早期樣本和正常樣本數量分別為15個和18個,余下的342個樣本用作訓練集,流程(見圖6)。

圖6 胃癌早期診斷預測模型流程圖Fig.6 Flow chart of early diagnosis and prediction model of gastric cancer
在含有342個樣本的訓練集上采用十折交叉驗證法構建基于SVM、RF、NBM、KNN、XGBoost、AdaBoost 6種算法的診斷預測模型。在訓練集中,SVM、RF、NBM、XGBoost、AdaBoost 5種模型均具有十分優秀的表現,各個指標得分均高于0.9,KNN模型表現略微遜色(見表5)。根據圖7的ROC曲線圖可知,各個模型均具有極高的AUC值。

圖7 訓練集ROC曲線Fig.7 ROC curve of training set

表5 6個模型在訓練集中的評價指標Table 5 Evaluation indicators of six models on training set
在含有 33個樣本的獨立測試集上對6個模型的預測性能進行驗證。據表6可知各個模型性能均有一定程度的下降。圖8的ROC曲線表明在獨立測試集上各個模型仍然具有較高的AUC值。綜合6個模型在訓練集和獨立測試集上的表現,在本研究中,研究性能最出色、魯棒性最高和泛化能力最好的模型是基于極致梯度提升算法構建的胃癌診斷預測模型。

表6 6個模型在獨立測試集中的評價指標Table 6 Evaluation indicators of six models on independent test set

圖8 獨立測試集ROC曲線Fig. 8 ROC curve of independent test set
通過檢索公開數據庫收集胃癌基因表達數據信息,利用生物信息學方法進行胃癌早期診斷關鍵基因的挖掘,最終得到10個關鍵基因(CXCL11、CCR8、CXCL9、CXCL10、CXCL1、CCL20、CXCL8、CXCL6、APLN、HTR1E)。
Wang H等[22]通過多種生物信息學分析方法發現CXCL11與胃癌腫瘤免疫浸潤顯著相關,其高表達可以作為胃癌預后和腫瘤浸潤的潛在生物標志物,為EBVaGC的免疫治療提供了新視角。Jie Yi等[23]對TCGA數據庫中正常組織及胃癌組織數據進行統計分析,結果表明CCR8在胃癌組織中表達上調,并與胃癌患者的不良生存相關。Zhang C等[24]探索胃癌中程序性死亡配體 1(PD-L1)相關基因,體外實驗驗證闡明CXCL9/10/11-CXCR3 通過激活胃癌細胞中的 STAT 和 PI3K-Akt 信號通路上調 PD-L1 的表達。Chen X等[25]利用qPCR分析胃癌標本中CXCL1和CXCL8的表達,認為CXCL1 和 CXCL8通過與受體CXCR2結合協同參與胃癌細胞增殖、凋亡和遷移過程。相關臨床數據表明CXCL1和CXCL8的低表達與胃癌不良預后的特征顯著相關,包括AFP水平、腫瘤大小和TNM分期。Chen X等[26]還通過研究CXCL家族與胃癌發展的關系,結論表明CXCL6梯度與B細胞的絕對數相關,CXCL家族在胃癌的發病機制中具有重要作用,可以作為胃癌發展的標志物。
幽門螺桿菌感染相關的慢性炎癥是胃癌的主要原因,Yin H等[27]利用TCGA和GEO 數據庫,分析識別到CCL20為幽門螺桿菌感染相關的胃癌關鍵差異表達基因。Feng M等[28]采集270名胃癌患者的腫瘤樣本和匹配的相鄰正常組織,其研究數據表明APLN的表達水平和腫瘤分化、淋巴結和遠處轉移密切相關,可以用作評估臨床特征和預測胃癌患者的預后的標志。腹膜轉移(PM)是胃癌治療手術最常見的失敗原因之一,Zhang J等[29]利用差異分析識別到HTR1E為高風險PM患者的關鍵基因。
Alberto等[30]通過研究從32名胃癌患者的冰凍腫瘤樣本獲得的基因表達譜數據,利用方差分析和差異表達分析等方法,得到了3個與淋巴結轉移風險較高的胃癌關鍵基因(Bik、aurorakinaseB和eIF5A2)?;陉P鍵基因建立邏輯回歸診斷預測模型用于預測淋巴結狀態,該模型正確預測出32例胃癌患者中30例淋巴結狀態,模型準確率為93.75%。該胃癌診斷預測模型為極致梯度提升診斷預測模型,其在訓練集和獨立測試集準確率分別為96.78%和93.94%,具有較好的預測效果。
通過生物信息學方法挖掘了胃癌早期診斷的10個關鍵基因,利用MedCalc軟件分析可知,該10個關鍵基因對正常樣本和胃癌早期樣本具有較高的分類識別能力,可以作為早期胃癌診斷及研究的靶點。
本文特色之處在于基于關鍵基因的表達數據,通過分析多種機器學習算法,實現了診斷預測模型的構建,并最終選擇了XGBoost診斷預測模型為最優模型。該模型在訓練集和獨立測試集上的具有最好的綜合性能,可以作為一種無創性檢查早期胃癌的手段,具有良好的應用前景。通過篩選關鍵基因構建了早期胃癌診斷預測模型,為提高胃癌早期診斷的研究提供了新的思路和方法。本研究不足之處在于對胃癌發生機制的研究不夠深入全面,轉錄組學數據的分析并不能完全闡釋機體總體變化;此外,本文研究內容僅為生物信息學診斷預測層面,缺少體內或體外實驗支撐。在后續研究中,要加強與生物實驗相結合,開發出更加實用、更加準確地胃癌早期診斷預測模型。