賈玉潔,王一,王冀邯
1.館陶縣疾病預防控制中心,河北 館陶 057750;
2.河北科技大學化學與制藥工程學院,河北 石家莊 050018;
3.西安交通大學附屬紅會醫院,陜西 西安 710054
腎透明細胞癌(clear cell renal cell carcinoma,ccRCC)來源于腎實質泌尿小管上皮細胞,占據腎臟惡性腫瘤首位,也是泌尿系統最常見的腫瘤類型之一,且近年來發病率呈逐年上升趨勢[1-2]。腎癌相關靶向藥物有限,且其化療敏感性及預后較差,目前仍以傳統的根治性手術治療為主[3-4]。早發現、早診斷、早治療對惡性疾病的預后至關重要。本研究對公共數據平臺腫瘤基因組圖譜計劃(The Cancer Genome Atlas,TCGA)[5]中腎透明細胞癌的mRNA基因表達譜進行了分析,并探索了年齡、性別、TNM分期及顯著差異表達基因對患者預后的影響,旨在為挖掘腎癌相關的生物標志物、探索疾病發病機制、尋找新型藥物靶點等提供依據。
1.1 數據來源 選取TCGA數據庫中收錄的腎透明細胞癌RNA測序數據進行分析,數據下載鏈接:https://gdc.xenahubs.net/download/TCGA-KIRC.htseq_counts.tsv.gz。該數據集包含了535例腫瘤樣本和72例正常對照樣本的測序數據,同時收錄了對照者及患者的年齡、性別、腫瘤TNM分期、生存時間和狀態等臨床信息。
1.2 數據處理 通過UCSC xean下載ccRCC據集(包括基因表達數據、相應的mRNA基因名稱與ID對照數據以及樣本的臨床信息數據)。運用Python語言對數據進行預處理,主要包括基因ID與基因名稱的匹配、基因表達數據的異常數據處理及去重計算、癌癥組與對照組的數據分離等步驟。
1.3 統計學分析 運用R/Bioconductor分析獲得的基因表達原始數據[6]。在本研究中,運用R平臺(版本號:3.5.1)中的Limma算法[7]篩選腫瘤組與正常對照組間基因表達差異倍數(fold change,FC)大于2,P<0.05的基因為差異表達基因(differentially expressed genes,DEGs)。應用R 3.5.1中的pheatmap包對顯著差異表達的基因進行雙聚類分析。篩選出腫瘤與正常組織中的DEGs。運用R 3.5.1中的survival包,基于患者年齡、性別、TNM、顯著高/低表達的前20個DEGs表達值繪制Kaplan-Meier生存曲線(其中計量資料以中位數為界分成高水平組和低水平組),以α=0.05為檢驗水準。
2.1 臨床一般資料 該研究所用數據集包含401例男性,其中349例腫瘤樣本,年齡26~90歲,平均(59.36±12.10)歲;52例正常對照樣本,年齡38~90歲,平均(62.56±12.49)歲。還有206例女性,其中186例腫瘤樣本,年齡29~90歲,平均(62.90±11.81)歲;20例正常樣本,年齡41~86歲,平均(62.40±11.04)歲。在535例腫瘤樣本中,臨床TNM分期為Ⅰ期、Ⅱ期、Ⅲ期、Ⅳ期者分別有269例、58例、123例、82例,另外3例樣本的TNM分期信息未知。
2.2 腎透明細胞癌差異表達基因的篩選結果 運用Limma算法分析腫瘤組織與正常對照組織的mRNA基因表達譜,得到組間倍數改變大于2且P<0.05的基因共4 837個(其中上調基因1 974個,下調基因2 863個)。選取組間倍數改變大于5、P<0.05的基因,共得到252個差異基因(其中上調基因27個,下調基因225個,詳細基因名稱見表1),對該252個組間差異基因進行雙聚類分析(由于ccRCC腫瘤樣本過多,本研究隨機抽取了80例腫瘤樣本,將其與72例正常對照樣本共同聚類)。可以看出,基于組間DEGs表達情況能夠將腫瘤樣本、正常對照樣本較好地進行鑒別區分,見圖1。

表1 腎透明細胞癌腫瘤樣本中基因表達倍數>5的差異表達基因匯總
2.3 影響腎透明細胞癌預后的相關因素 本研究分別將腎透明細胞癌患者的年齡、性別、TNM分期、上調/下調差異表達最顯著的前20個基因表達值(包括上調最顯著的10個差異表達基因:TNFAIP6、FABP6、HSF4、NDUFA4L2、C5orf46、NPTX2、SLC6A3、CD70、FABP7、CA9,以及下調最顯著的10個差異表達基因:UMOD、AQP2、KNG1、SLC12A1、FXYD4、CLDN8、MUC15、TMEM213、BSND、SLC9A4)為影響因素繪制生存曲線。結果如圖2所示,隨著年齡增加,患者總體生存率下降(P<0.001);性別差異對預后影響不大(P>0.05);隨著TNM分期的進展,患者整體生存率下降(P<0.000 1);隨著基因NPTX2、HSF4表達升高,患者整體生存率下降(P<0.05);隨著基因TMEM213表達升高,患者整體生存率上升(P<0.05),另外的17個差異表達基因對患者整體生存率影響不顯著(P>0.05,圖中未顯示)。

圖1 腎透明細胞癌腫瘤組織與正常對照組織差異表達基因的雙聚類分析

圖2 腎透明細胞癌患者年齡、性別、TNM分期、DEGs表達值的生存曲線分析
ccRCC作為最常見的泌尿系統腫瘤之一,預后較差。尋找有效的分子標志物對惡性疾病的早篩查、早診斷、早治療至關重要[8]。TCGA數據平臺做為目前最大的癌癥基因信息庫,擁有大規模的樣本量、豐富的組學數據以及規范的臨床數據信息,為惡性疾病相關的基因研究提供了寶貴資源。本研究分析了TCGA平臺中ccRCC的基因表達數據以及臨床信息。研究結果顯示:性別因素對患者預后影響不大,隨著年齡增加及臨床TNM分期進展,患者整體生存率呈下降趨勢。
通過差異基因篩選,本研究得到了一系列在腎透明細胞癌中存在差異表達且具有預后研究價值的mRNA。神經元正五聚體蛋白2(neuronal pentraxin 2,NPTX2)是神經元正五聚體蛋白NPTXs家族成員。NPTXs是一類與C反應蛋白和血清淀粉樣蛋白P具有同源性的蛋白家族。有研究表明NPTX2的異常表達與腎透明細胞癌的發生、發展有關[9-10]。林晏廷等[11]報道顯示,ccRCC腫瘤組織中NPTX2的mRNA及蛋白水平均表達升高,且其基因表達水平與TNM分期呈正相關,NPTX2高表達患者的總體生存率及無病生存率顯著降低,這與本研究得出的結果相一致。熱休克轉錄因子 4(heat shock transcription factor 4,HSF4)是熱休克轉錄因子HSF家族成員。HSF在熱應激反應中與熱休克基因相應的啟動子結合進而啟動基因的轉錄過程,最終導致熱休克蛋白的表達[12-13]。近年來研究發現,HSF4除了能啟動HSP編碼基因的轉錄過程,發揮耐受不良刺激、保持細胞完整性等重要適應性保護作用外,亦可參與與應激性刺激無關的過程包括細胞周期、細胞分化等生物學過程[14-15]。目前尚無報道揭示HSF4與腎癌的相關性。HSF4表達在原發性結直腸癌腫瘤組織中顯著升高,是與結直腸癌預后相關的獨立影響因素[16]。JIN等[17]研究提示小鼠體內HSF4基因失活可以誘發腫瘤細胞衰老,抑制腫瘤形成。在肝癌細胞系中,HSF4通過與靶基因相互作用,參與了細胞發育、增殖和對外部刺激應答的生物過程,具有與核酸和蛋白質結合及蛋白質激活的分子功能,參與了藥物和有害異物代謝以及化學致癌的信號傳導通路[18]。本研究發現HSF4在腎透明細胞癌組織中表達升高,且隨著HSF4的高表達,患者整體生存率顯著下降(P<0.05),也提示該基因在疾病中可能發揮了致癌基因的作用。與此相反,基因TMEM213在ccRCC腫瘤組織中表達下調,且隨著其在腫瘤組織中表達升高,患者總體生存率提高,推測TMEM213在腎透明細胞癌發病中可能發揮著抑癌基因的作用。
綜上,研究通過對TCGA數據庫中腎透明細胞癌數據的生物信息學分析,篩選出了腫瘤組織中的差異表達基因譜,并鑒定出了部分能夠影響患者預后的差異表達基因,這些基因的應用價值及其在疾病中的作用機制還有待于進一步臨床研究和基礎實驗的證實。研究將為腎透明細胞癌的早期分子學診斷、藥物靶點研發、疾病的發病機制分析等提供依據。