張鑫,冉小柯,趙云霞,陳茜,徐宗瑤,陳曉琦
1河南中醫藥大學第一臨床醫學院,鄭州 450000
2河南中醫藥大學第一附屬醫院脾胃肝膽科,鄭州 450000
原發性肝癌是世界性的健康難題,預計到2025 年全球每年將有超過100 萬人受到肝癌的影響[1]。乙型或丙型肝炎病毒感染、酒精性肝損傷、肥胖等導致肝硬化和慢性肝病的因素與肝癌的發病密切相關,盡管進行了相應預防,但肝癌總體發病率始終居高不下[2]。肝癌是全球腫瘤的第三大死亡原因,而且主要死亡人口集中在東亞地區[3]。據中國癌癥中心統計,2012—2015 年中國肝癌患者的5 年生存率僅為12.1%[4]。肝癌的發生發展涉及眾多基因、通路的共同作用,其中原癌基因激活、抑癌基因失活及信號通路異常活化與肝癌的發病密切相關[5]。從基因層面去探尋肝癌的發生發展機制,挖掘精準的生物標志物和治療靶點,可更好地指導臨床診療,為肝癌診治帶來新的希望。本研究利用癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數據庫的基因信息對肝癌進行生物信息學分析,尋找其發生發展的分子機制,構建肝癌生物標志物預后模型,為尋找肝癌的治療靶點及臨床診療提供參考,現報道如下。
從TCGA 數據庫網站(https://portal.gdc.cancer.gov/repository)下載肝癌及癌旁組織的臨床數據及基因表達量等信息,采用Perl軟件將原始數據提取為矩陣文件,從ensembl 網站(https://asia.ensembl.org/index.html)下載人類基因名與基因id 的對應關系,通過Perl軟件將原始數據中的基因id轉換為基因名。
R 語言4.04 版本環境下(下同),引用“edgR”數據包進行差異基因分析,設定篩選條件fold-Change=3(差異倍數﹥9),padj=0.01(糾正后P 值﹤0.01),引用“gplots”數據包進行差異基因的“volcano”(火山圖)繪制,使結果可視化。
引用“clusterProfiler”包,對差異基因中上調和下調基因進行基因本體論(Gene Ontology,GO)功能富集分析和京都基因和基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,設定篩選條件為P value cut off=0.05(P﹤0.05)、Q value cut off=0.05(Q﹤0.05),引用“barplot”(柱狀圖)數據包使分析結果可視化。
采用String 數據庫(https://www.string-db.org/)對差異上調基因進行蛋白功能互作(protein-protein interaction,PPI)生物分析,去除網絡無關基因并設定最小所需互動分數為0.99,輸出圖形。采用R 軟件尋找PPI 網絡核心基因,引用“barplot”數據包使分析結果可視化。
引用“survival”數據包,采用Kaplan-Meier 法對差異基因進行單基因生存分析,根據基因在所有組織中表達量的中位數將樣品分為高、低表達兩組,引用“survdiff”函數分析高、低表達組的生存差異,引用“plot”工具包使差異結果可視化,并以年為單位批量繪制5 年生存曲線。
引用“survival”數據包對差異基因進行Cox 單因素分析,得出風險比(hazard ratio,HR)值、P 值等。采用R 軟件取兩項生存分析中P﹤0.0001 的交集基因,差異交集基因作為單線變量進行Cox 多因素分析。采用“step”函數篩選出差異交集基因中信息量最大、基因數目最小的基因變量,得出基因變量X、回歸系數β,并得出模型基因變量的HR值,引用“survminer”數據包繪制森林圖使HR 值結果可視化。
引用“predict”函數,根據生存風險評分(survival risk score,SRS)公式計算每個組織的SRS,根據所有組織SRS 的中位數將組織分為低風險組和高風險組。采用Kaplan-Meier 法進行生存分析,驗證SRS 與預后的相關性。引用“survivalROC”數據包繪制受試者工作特征(receiver operating characteristic,ROC)曲線,評估SRS 預后模型的準確性。
采用R 語言進行統計學分析,以P﹤0.05 為差異有統計學意義。
本次下載共得到407 例肝癌組織、58 例癌旁組織中的60 244個基因表達信息。差異分析后得出差異顯著基因1913 個(差異倍數﹥9,糾正后P 值﹤0.01),其中上調基因1836個,下調基因77個。(圖1)

圖1 肝癌組織(n=407)和癌旁組織(n=58)中差異基因的火山圖
差異上調基因GO 富集分析顯示,過度激活基因主要聚集于DNA 結合轉錄激活因子活性,DNA結合轉錄激活因子活性,特異性RNA 聚合酶Ⅱ,激素活性,被動的跨膜轉運蛋白活性,門控通道活性,通道活性功能上(P﹤0.0001)(圖2A)。差異下調基因GO 富集分析顯示,表達被抑制的基因主要聚集在糖結合、甘露糖結合、受體配體活性、單糖結合、信號轉導受體激活劑活性功能上(P ﹤0.0001)(圖2B)。

圖2 差異上調基因和下調基因的GO功能富集分析柱狀圖
差異上調基因KEGG 富集分析顯示,過度激活基因主要聚集于神經活性配體受體相互作用、細胞周期、蛋白質消化吸收、尼古丁成癮通路上(P﹤0.001)(圖3)。差異下調基因由于基因數目較少,本次KEGG 分析并未富集出有意義的結果。

圖3 差異上調基因的KEGG通路富集分析柱狀圖
差異上調基因PPI 網絡中的部分作用結果如下:基因染色體鄰域評分為0,基因融合評分最高值為細胞周期蛋白A2(cyclin A2,CCNA2)-細胞周期蛋白依賴性激酶1(cyclin dependent kinase 1,CDK1)基因(0.007),系統并發發育評分最高值為serpin 家 族B 成 員3(serpin family B member 3,SERPINB3)-serpin 家 族B 成 員4(serpin family B member 3,SERPINB4)基因(0.449),同族評分最高值為SERPINB3-SERPINB4(0.984),共表達評分最高值為非SMC 凝聚素Ⅰ復合亞基G(non-SMC condensin Ⅰcomplex subunit G,NCAPG)-非SMC凝聚素Ⅰ復合亞基H(non-SMC condensin Ⅰcomplex subunit H,NCAPH)(0.994),實驗確定相互作用評分最高值為細胞周期蛋白B1(cyclin B1,CCNB1)-CDK1、BUB1 有絲分裂檢查點絲氨酸/蘇氨酸激B(BUB1 mitotic checkpoint serine/threonine kinase B,BUB1B)-細胞分裂周期20(cell division cycle 20,CDC20)(0.999),文本挖掘評分最高值為CCNB1-CDK1(0.983),數據注釋評分最高值為CCNB1-CDK1、NDC8 動粒復合體成分(NDC80 kinetochore complex component,NDC80)、NDC80 動粒復合體的SPC25 成分(SPC25 component of NDC80 kinetochore complex,SPC25)等(0.900),混合評分最高值為CCNB1-CDK1、NDC80-SPC25 等(0.999),R 軟件得出互作蛋白數最高的基因為CDK1(39)。
生存分析顯示,1913 個差異基因中360 個基因與樣品生存時間相關(P﹤0.05),34 個基因顯著相關(P﹤0.0001),如基質金屬蛋白酶10(matrix metalloproteinase 10,MMP10)、甲狀腺激素受體相互作用物13(thyroid hormone receptor interactor 13,TRIP13)、細胞分裂周期相關8(cell division cycle associated 8,CDCA8)等。
Cox 單因素生存分析結果顯示,1913 個差異基因中632個基因與樣品生存時間相關(P﹤0.05),97個基因顯著相關(P﹤0.0001)。Kaplan-Meier 生存分析、Cox 單因素分析中的顯著相關基因共有29 個交集基因,選取前10個基因建立預后模型。(圖4)

圖4 交集基因的森林圖
由預后模型得出的402個樣品的SRS中位數將樣品分為高風險組(n=201)和低風險組(n=201)。Kaplan-Meier 生存分析顯示,高風險組患者生存情況明顯差于低風險組患者(P﹤0.01)。(圖5)

圖5 高風險組(n=201)與低風險組(n=201)肝癌患者的生存曲線
繪制ROC 曲線評估SRS 基因模型預測預后的價值,結果顯示,曲線下面積(area under the curve,AUC)=0.724,表明SRS 基因模型預測肝癌患者預后具有較高的價值。(圖6)

圖6 SRS基因模型預測肝癌患者預后的ROC曲線
原發性肝癌以其早期診斷困難、中晚期轉移迅速、治療難度大等特點嚴重威脅著中國人民的生命健康[6]。控制腫瘤的復發轉移是治療腫瘤的核心問題,目前抗腫瘤血管生成藥物及免疫檢查點抑制劑的臨床應用在患者的客觀緩解率和總生存率上取得了令人鼓舞的治療效果[7],但仍需深入挖掘新的治療靶點以達到更佳的治療效果。本文基于TCGA 數據庫對肝癌組織和癌旁組織的差異基因進行生物信息學分析,分析出原癌基因與抑癌基因的主要功能及通路富集點,揭示了肝癌的可能發生發展機制。同時通過對差異基因的多層次預后分析,尋找到與肝癌患者預后密切相關的10個核心基因,并構建出相關預后模型,ROC 曲線分析證明該模型對患者的預后預測具有較高的價值。
本研究通過PPI 生物學分析證明原癌基因CDK1 在肝癌發生發展調控網絡中居核心位置。CDK 是重要的細胞周期調節蛋白,屬于絲氨酸/蘇氨酸激酶家族,CDK 家族中CDK1 可以單獨促進細胞周期,對細胞周期進程和細胞分裂至關重要[8]。有研究發現,CDK1 在胰腺癌組織中高表達,且CDK1 的高表達與腫瘤大小、組織學分級、不良預后相關[9]。CDK1 可以促進5-氟尿嘧啶耐藥的結腸癌細胞遷移、侵襲并抑制其凋亡,抑制CDK1的表達可以增強結腸癌細胞對5-氟尿嘧啶的敏感性[10]。以上研究與本研究結果一致,但目前關于CDK1 與肝癌發生發展之間的關系并無明確闡述,值得深入探討。
本研究發現了與肝癌患者預后顯著相關的10個核心基因,其中NIMA 相關激酶2(NIMA related kinase 2,NEK2)、TOPBP1 交互檢查點和復制調節器(TOPBP1 interacting checkpoint and replication regulator,TICRR)、E2F 轉錄因子2(E2F transcription factor 2,E2F2)、RAD54 樣基因(RAD54 like,RAD54L)的表達量與肝癌患者的預后呈正相關。有研究通過免疫組化分析證明NEK2 在肝癌組織中的表達水平低于癌旁組織,同時發現低表達的NEK2 與肝細胞肝癌的進展和不良預后相關[11]。有研究證明,S 期周期蛋白依賴激酶可以磷酸化TICRR 限制細胞S 期進展,進而可能會影響腫瘤的發生發展[12]。有研究發現,E2F2 的轉錄活性有助于促進成年肝細胞增殖和肝臟再生[13],亦有研究證明E2F2 失活與Myc 基因表達共同促進皮膚和口腔腫瘤的發展[14]。有研究證明,同源重組修復基因RAD54L 可以影響胰腺癌[15]、膀胱癌[16]患者的生存期。上述研究中,過表達的NEK2 對肝癌細胞的抑制作用與本研究結果一致,TICRR、E2F2、RAD54L被證實可以抑制腫瘤進展,但與肝癌的關系仍需進一步探討。
本研究證明,SRS 模型中霍利迪連接識別蛋白(Holliday junction recognition protein,HJURP)、CDCA8、TRIP13、nei 樣DNA 糖基化酶3(nei like DNA glycosylase 3,NEIL3)、分泌磷蛋白1(secreted phosphoprotein 1,SPP1)、SRY-box 轉錄因子11(SRY-box transcription factor 11,SOX11)的表達量與肝癌患者的預后呈負相關。HJURP 在體內體外均能通過促分裂原活化的蛋白激酶(mitogen-activated protein kinase,MAPK)/細胞外信號調節激酶(extracellular signal-regulated kinase,ERK)1/2 和蛋白激酶B(protein kinase B,PKB,又稱AKT)/糖原合酶激酶3β(glycogen synthase kinase 3β,GSK3β)信號通路使p21 不穩定從而促進肝癌細胞增殖[17]。有研究通過體外實驗證明SPP1 特異性抗體能有效抑制肝癌細胞的侵襲,并在裸鼠體內抑制肝癌細胞的肺轉移[18]。研究通過TCGA 數據分析證明CDCA8表達增加與肝癌預后不良顯著相關,同時發現CDCA8 可能通過細胞凋亡、細胞周期、p53、轉化生長因子-β(transforming growth factor-β,TGF-β)等信號通路促進腫瘤發展[19]。有研究證明,TRIP13 能與肌動蛋白α4(actinin alpha 4,ACTN4)相互作用并正調控其表達,從而激活AKT/雷帕霉素靶蛋白(mechanistic target of rapamycin kinase,MTOR)通路驅動肝癌細胞的增殖、遷移和侵襲[20]。相關研究通過公共數據分析證明,SOX11 在肝癌組織中明顯上調,其mRNA表達水平與肝癌患者的不良預后密切相關[21]。研究發現NEIL3 過表達的胰腺癌、肺腺癌等腫瘤患者的總生存期較差[22],同時NEIL3 突變與受損的B 細胞功能和嚴重的自身免疫有關[23];這揭示了NEIL3 可能成為腫瘤的潛在免疫治療靶點。以上研究證明,過表達的HJURP、CDCA8、TRIP13、SPP1、SOX11、NEIL3 均可促進肝癌的發生發展,這與本研究的結論一致。
本研究通過公共數據分析構建并驗證了10 個核心基因組成的預后模型,通過模型求得的SRS可計算風險分層,預測肝癌患者預后,為臨床的個體化精準診療提供依據,而核心基因可作為高度特異性的生物標志物為肝癌患者的診斷和治療帶來新的希望。