耿艷敏,李超,譚軍*
(1.新鄉醫學院第三臨床學院,河南 新鄉 453003;2.佛山市婦幼保健院,廣東 佛山 528000)
腦膠質瘤是起源于腦神經膠質細胞的腫瘤,是最常見的原發性顱內腫瘤,而膠質母細胞瘤(glioblastoma,GBM)是其中一種最常見且最具侵襲性的腦膠質瘤,生長迅速,預后較差。全球來看,北美、澳洲GBM發病率最高,尤其是美國,發病率已達9.23/10萬[1-2]。由于GBM致病分子機制尚不明確,疾病早中期缺乏特異性表征,也缺乏有效治療手段,目前約70%患者在2年內死亡。因此,明確GBM發生、發展機制,實施有效治療對改善預后具有重要意義。近年來,基于生物信息學的表達譜分析已鑒定出用于腫瘤診斷和預后的各種生物標志物[3-5]。本研究采用生物信息學手段從TCGA數據庫篩選GBM患者的臨床數據,挖掘其差異表達基因并行功能注釋,鑒定預后因子,了解GBM潛在的分子機制,為GBM尋找新的診療靶標提供依據,現報道如下。
1.1 研究對象 從TCGA數據庫下載最新的GBM基因表達譜數據和臨床資料,數據類別選擇轉錄組分析,數據類型選擇基因表達定量,最終納入174例臨床樣本,其中169例為GBM腫瘤樣本,5例為正常腦組織對照樣本。
1.2 數據處理
1.2.1 差異基因 采用R語言的“limma”包篩選差異表達基因[6]。對重復的基因取平均值,定義adj.P.Val<0.05且log2FC絕對值>2的基因為具有統計學意義的差異基因。利用R包“org.Hs.eg.db”轉換基因名稱為對應的基因ID,用于后續的基因功能注釋富集分析[7]。
1.2.2 功能注釋 采用R語言的“clusterProfiler”包進行差異基因的GO和KEGG富集功能注釋[7]。GO注釋通常分為分子生物學功能(molecular function,MF)、生物學過程(biological process,BP)和細胞學組分(cellular component,CC)3類。KEGG數據庫被廣泛用于基因通路的富集注釋。設置篩選參數pvalueCutoff=0.05為具有統計學意義,P值矯正方法為Benjamini-Hochberg。
1.2.3 核心基因 String數據庫主要用于研究基因編碼蛋白間的相互作用網絡,挖掘核心的調控關鍵基因。本研究設置參數score>0.4為差異具有統計學意義。Cytoscape軟件用于將調控基因網絡文本文件進行可視化分析。采用Cytoscape軟件的Cyto-Hubba插件可鑒定候選關鍵基因,數據輸入文件為String數據庫獲得的結果文件,得到排名前10的候選核心基因進行后續生存分析[8]。
1.2.4 生存分析 逐一提取TCGA數據庫中GBM樣本表達譜10個候選關鍵基因的表達矩陣和臨床數據中記錄的生存時間。采用R語言“survival”包繪制生存分析曲線[9]。所有分析均以各個基因在不同樣本的中位表達值為界,分為高表達組和低表達組,評估候選核心基因對GBM患者生存時間的影響,設定P<0.05為具有統計學意義的生存曲線。
2.1 差異基因及功能注釋 根據設置的差異基因篩選條件,共鑒定出1 326個差異表達基因,其中868個基因表達下調,458個基因表達上調,見圖1。差異基因的GO富集分析詳見圖2。BP變化的差異基因顯著富集于突觸信號傳遞的調控、神經元投射發育的調節;CC變化的差異基因主要富集于突觸前、突觸膜、軸突部分、神經細胞體和突觸后專業化方面;MF變化的差異基因主要富集于轉運蛋白和渠道活性功能。KEGG通路富集分析詳見圖3。差異基因主要富集在神經活性配體-受體相互作用、鈣信號通路、cAMP信號通路和谷氨酸能突觸通路上。

圖1 差異表達基因的火山圖分布情況Figure 1 Volcano plot of differentially expressed genes

圖2 GO富集氣泡圖Figure 2 Bubble chart of GO enrichment

圖3 KEGG通路圖Figure 3 Bubble chart of KEGG pathways
2.2 核心基因 根據CytoHubba模塊,篩選出10個處于分子互作網絡內的候選核心基因(圖4),分別為GRIN1、SNAP25、SYN1、KCNJ9、SLC32A1、DLG4、GRIA2、HTR5A、TP53和EGFR。其中前8個為低表達基因,后2個為高表達基因。

圖4 關鍵共有差異基因鑒定網絡Figure 4 Network identification of key common differential genes
2.3 生存分析 依次提取10個候選基因表達量,將其與樣本生存時間合并,繪制生存曲線。生存分析發現僅SYN1具有統計學意義。SYN1在腫瘤低表達組預測有較高的生存率,高表達組相對預后不良;其表達分布及生存情況,見圖5。

圖5 SYN1表達分布及生存情況Figure 5 Expression distribution and survival of SYN1
近30年來,GBM患者的臨床結果幾乎無明顯改善,綜合診斷治療,中位生存時間僅10~15個月。GBM是最激進且最常見的原發性中樞神經系統腫瘤,預后較差,5年總生存率是所有人類癌癥中最低的腫瘤之一,需探尋能改善生存預測并幫助診斷治療的新型分子標志物[10-11]。近年來,有研究通過高通量測序發現,MET基因相關的分子事件促進腦膠質瘤的惡性進展[12]。也有小樣本量的初步報道CCND2基因的表達上調提示可能是GBM的有利預后因素[13]。
本研究通過TCGA全球數據庫大規模樣本結合生物信息學手段探索GBM發生的潛在致病關鍵基因及候選的預后因子。經功能富集分析發現,篩選的差異表達基因集中參與神經突觸組織的構成,也集中顯著富集于神經突觸相關生物過程,參與神經活性配體-受體相互作用和神經信號的通路調控,揭示這些差異基因可能通過其表達量的變化改變原有的相關神經生物行為從而加速GBM的發生發展。分子互作網絡篩選到的10個潛在核心基因經生存分析發現,SYN1為可能的預后因子,在TCGA腫瘤樣本組為顯著低表達。通過查詢Oncomine數據庫中的大型研究[14]也驗證了GBM患者SYN1為顯著下調基因,與本研究提取的TCGA樣本表達情況相符。Kaplan-Meier法生存曲線分析發現,SYN1其相對的高表達通常預測更不良的生存結局。查詢文獻和數據庫,SYN1基因是突觸蛋白基因家族的成員,該家族成員具有共同的蛋白質結構域特征,與突觸發生和神經遞質釋放的調節相關,提示在幾種神經疾病中的潛在作用,基因表達變化可能與原發性神經元變性疾病有關[15-17]。考慮SYN1對患者生存時間的影響為首次提出,僅從統計學角度分析得出的結論,需進一步探討其對生存預后的評估效能及藥物開發的潛在靶標的價值,其具體的相關作用機制需更深入的體外研究實驗闡明。
綜上所述,表達譜芯片和測序技術的廣泛應用,加快了對眾多腫瘤致病機制的認知,全球數據庫的建立和維護加速了腫瘤精準醫學的進展。本研究綜合運用生物信息學的技術手段初步篩選鑒定的GBM相關關鍵基因以期對GBM的診療研究起到一定的啟示作用。