王卓智,陳秋月,韓勇,陳永孜,黃怡菲,龔衛靜,徐雙兵,李居怡,鄧艾平,劉亞妮,曾芳,呂永寧,張玉
(1.天津醫科大學生物醫學工程與技術學院,天津 300070;2.華中科技大學同濟醫學院附屬協和醫院藥學部,湖北省重大疾病精準用藥醫學研究中心,武漢 430022;3.天津醫科大學腫瘤醫院腫瘤細胞生物學實驗室,天津市腫瘤防治重點實驗室,國家腫瘤臨床醫學研究中心,天津市惡性腫瘤臨床醫學研究中心,天津 300060;4.華中科技大學同濟醫學院附屬協和醫院腫瘤科,武漢 430022;5.武漢市中心醫院,武漢 430024)
肺癌是全球常見的惡性腫瘤之一。肺癌包括兩種主要的組織學類型:小細胞肺癌(small cell lung cancer,SCLC)和非小細胞肺癌(non-small cell lung cancer,NSCLC)。其中,NSCLC是常見的組織學類型,占肺癌總病例的80%[1]。NSCLC是一種高度異質性疾病,患者對化療敏感性個體差異較大。近年來有很多研究通過篩選生物標志物(如CTR1、ABCB1等)能夠預測NSCLC患者化學治療(化療)的生存情況[2-6]。但這些生物標志物基于較少臨床樣本量的檢測與驗證,且每項研究用于檢測和分析的備篩選生物標志物數量有限。由于NSCLC在早期無典型癥狀,患者確診時多以中晚期為主[7]。長春瑞濱+順鉑序貫化療治療方案(NP方案)是晚期NSCLC的一線化療方案,臨床研究表明,NP 方案可顯著延長晚期患者的生存期(P<0.001)[8-9]。本研究利用生物信息學中的一致性相關系數(concordance correlation coefficient,CCC,或ρc)從GEO和NCI 60等生物學信息數據庫的高通量基因信息中,篩選多類型細胞系與NSCLC癌癥樣本中表達一致的基因[10],對NSCLC的NP方案藥物敏感性基因進行預測和分析,為將來結合臨床樣本進一步構建、驗證和優化NP方案精準化療模型提供研究基礎。
1.1數據來源 從美國國家癌癥研究所網站(http://discover.nci.nih.gov)下載使用HG-U133A GeneChip陣列分析的NCI 60細胞系數據(Affymetrix)。從NCI數據庫獲得(http://dtp.nci.nih.gov)NCI 60細胞系50%生長抑制(GI50)的藥物敏感性數據。從基因表達數據庫 GEO 數據庫中下載NSCLC患者數據GSE3593(Potti198,198個NSCLC樣本)[11]。平臺信息:GPL96[HG-U133A]Affymetrix Human Genome U133A Array。
1.2方法
1.2.1篩選藥物敏感性基因 使用5種統計學方法,包括Pearson相關分析、Spearman相關分析、Welch's t-test、協方差分析(ANCOVA)和rank-based ANCOVA,以GI50為臨界值,比較兩個化療藥物(順鉑和長春瑞濱)對同一細胞系各個基因的不同作用,篩選出這兩種藥物的敏感性基因。這些基因與體外藥物敏感性高度相關或在每種藥物的敏感和耐藥細胞系之間明顯存在差異表達。示意圖見圖1。
1.2.2篩選CCC基因 使用CCC進行相關分析[10,12-13]。本研究檢索GEO和ArrayExpress數據庫,限定檢索條件“NSCLC;Homo sapiens;Expression profilling by array”篩選出所需NSCLC數據庫,選擇樣本量最大的 Potti198作為研究對象[11]。具體過程簡化為3步:①將NCI 60數據庫里面的每個基因與剩余其他基因的spearman相關系數定義為CRi,N為基因個數,有CRi={cri-1,cri-2,…,cri-N};②將NSCLC樣本Potti198里面每個基因與剩余其他基因spearman相關系數定義為HRi,有HRi={hri-1,hri-2,…,hri-N};③計算每個基因在這兩個數據集中的相關系數的相關系數(correlation of correlations),即ρc=r(CRi,HRi),以截斷值(cutoff value)為0.1,篩選出一致性相關基因。所有統計分析使用R軟件(R Studio,版本1.0.143)分析。經CCC算法分析得到的基因為CCC基因。
1.2.3DAVID通路分析 將5種統計學方法篩選出的基因取合集,導入DAVID 6.8分析工具(https://david.ncifcrf.gov),進行KEGG通路富集分析,條件設定為P<0.01,富集結果使用“ggplot 2”繪制氣泡圖進行展示。

圖1 從細胞系中篩選藥物敏感性基因
2.1藥物敏感性基因的篩選結果 NCI 60細胞系數據用于藥物敏感性基因的篩選。篩選出的化療藥物順鉑和長春瑞濱的藥物敏感性基因,其生物學功能類型見圖2和圖3,其數量見表1。

圖2 順鉑藥物敏感性基因通路富集圖

圖3 長春瑞濱藥物敏感性基因通路富集圖

表1 順鉑和長春瑞濱的藥物敏感性基因數量
2.2CCC算法分析結果 通過CCC算法分析NCI 60細胞系與 Potti198樣本中具有共同表達模式的基因,篩選出可能應用于預測NSCLC化療藥物敏感性的基因。化療藥物順鉑和長春瑞濱的藥物敏感性基因數量見表1。除了Welch's t-test 分析未得到長春瑞濱藥物敏感性基因外,CCC算法分析結果與藥物敏感性基因的篩選結果相似。
2.3基因通路富集分析 將CCC算法分析結果取合集,在DAVID網站進行KEGG通路富集分析,將具有相似功能的基因放到一起,進一步解讀基因的功能,作氣泡圖。P值越小,富集越顯著,順鉑的藥物敏感性基因主要富集在蛋白聚糖(Proteoglycan in cancer)、細菌侵襲上皮細胞(Bacteria invasion of epithelial cells)中;長春瑞濱的藥物敏感性基因主要與癌癥信號通路(Pathways in cancer)有關、可能與蛋白聚糖(Proteoglycan in cancer)表達有關。其中具代表性的部分生物學功能和基因見表2。藥物敏感性基因通路富集圖見圖2和圖3。

表2 CCC基因的生物學功能
NSCLC是一種異質性疾病,腫瘤異質性一直以來是影響抗腫瘤藥物治療敏感性的一個關鍵問題,篩選生物標志物能預測患者對化療的敏感性,能夠為臨床提供更有效的個體化化療方案。生物信息學中某些算法可以通過從細胞系中初步篩選出適用于臨床精準化療的腫瘤學生物標志物,如進一步運用臨床樣本進行模型構建、驗證與優化,可為克服腫瘤異質性、提高抗腫瘤藥物治療敏感性提供精準治療方案。近年來,生物信息學被廣泛應用于癌癥生物標志物的篩選。ZHU等[14]通過生物信息學中最大化R2算法預測出表征NSCLC患者NP方案化療預后的基因。CHEN等[15]使用穩健多陣列平均值(robust multi-array average,RMA)算法分析單個基因表達值篩選與NSCLC患者預后相關的惡性風險基因,但這些基因都需要更多的數據集進行驗證。
筆者在本研究采用生物信息學中CCC算法,預測NSCLC患者一線化療NP方案(順鉑+長春瑞濱)的藥物敏感性基因。研究中對5種統計方法得到的藥物敏感性基因取合集,并通過KEGG通路富集分析,對篩選出的藥物敏感性基因功能進行了分類闡釋。順鉑能夠與DNA分子交叉聯結,影響DNA復制,高濃度時也能抑制RNA及蛋白質合成。富集分析后發現藥物敏感性基因主要與蛋白聚糖和細菌侵襲通路有關。由性別、煙草史和組織學類型建立的Cox回歸模型顯示,肺癌組織中蛋白聚糖表達水平高的患者具有較高的生存風險[16]。細菌侵襲通路中PTK2是miR-16-5p 的靶標蛋白,miR-16-5p的過表達抑制了NSCLC細胞的增殖和侵襲[17]。上皮-間質轉化(epithelial-mesenchymal transition,EMT)是癌細胞轉移和化學耐藥所必需的細胞過程,而CRK家族銜接子蛋白有望抵消EMT和化學抗性[18]。長春瑞濱為周期特異藥物,抑制微管蛋白的聚合,并使分裂期微管崩解,導致細胞在有絲分裂過程中微管形成障礙。富集分析后發現其藥物敏感性基因主要與癌癥信號通路有關,可能與蛋白聚糖表達有關。研究顯示表麻黃醇A通過抑制癌癥信號通路中細胞遷移關鍵調節劑蛋白激酶B(Akt)的激活,進而抑制肺癌細胞的遷移[19]。SU等[20]研究發現通過直接介導FZD1下調,miR-135b抑制NSCLC的化學耐藥性。黃芩素通過靶向RHOA / ROCK信號通路,抑制了NSCLC中血管生成擬態(VM)的形成,發揮抗癌作用[21]。
本研究通過生物信息學中CCC算法初步篩選出可能應用于NSCLC化療的NP方案藥物敏感性基因。但由于可以獲得的公開數據集非常有限,目前得到的這些基因只能夠作為NSCLC化療中的候選藥物敏感性基因,尚需通過更多的臨床研究數據集或臨床樣本信息進行驗證與優化。未來我們將密切關注TCGA、GEO等數據庫中含有兩種藥物治療信息的新公開數據集;同時,課題組擬開展相關臨床研究,收集臨床樣本,基于上述初篩結果完善相關生物標記物檢測并收集與分析患者信息(如人口學信息、預后等各種臨床指標),以進一步構建、驗證和優化NSCLC的NP方案精準化療模型[22]。