張霞 石光 張兆敬 侯琳 劉存
神經(jīng)母細(xì)胞瘤(Neuroblastoma,NB)是兒童最常見的顱外實(shí)體瘤,也是嬰兒最常見的惡性腫瘤[1]。它起源于神經(jīng)嵴祖細(xì)胞,多見于腹部,尤其是腎上腺[2]。盡管NB 的發(fā)病率約為8%,卻不成比例地導(dǎo)致了15%的兒童癌癥相關(guān)死亡,是兒童癌癥死亡的重要原因[3]。NB 是一種具有高度異質(zhì)性的疾病,其預(yù)后也是高度可變的,即從圍產(chǎn)期的自發(fā)消退到較大兒童的難治性轉(zhuǎn)移性疾病[4]。近年來,兒童腫瘤研究組(Children’s Oncology Group,COG)根據(jù)INSS分期、確診年齡、MYCN 基因狀態(tài)、腫瘤倍體及NB的組織病理學(xué)類型將NB 分為三個(gè)風(fēng)險(xiǎn)等級,即低風(fēng)險(xiǎn)組、中風(fēng)險(xiǎn)組、高風(fēng)險(xiǎn)組[5]。低風(fēng)險(xiǎn)和中風(fēng)險(xiǎn)組患者對手術(shù)和化療反應(yīng)較好,長期生存率在90%以上[6]。相反,高風(fēng)險(xiǎn)組患者即使采用高強(qiáng)度化療聯(lián)合手術(shù)、放療、自體骨髓干細(xì)胞移植,其長期生存率仍不足50%[7~9]。提高高風(fēng)險(xiǎn)NB 患者的治愈率和長期生存率是改善整體預(yù)后的關(guān)鍵,是基礎(chǔ)研究和臨床治療中亟待解決的問題。因此,有必要進(jìn)一步探索新的有效靶點(diǎn)來診斷和治療NB。
生物信息學(xué)(Bioinformatics)是近年來新發(fā)展起來的一門交叉學(xué)科,其在生物學(xué)和醫(yī)學(xué)等領(lǐng)域的應(yīng)用已得到越來越多的關(guān)注[10]。運(yùn)用生物信息學(xué)方法,對高通量技術(shù)產(chǎn)生的海量腫瘤相關(guān)數(shù)據(jù)進(jìn)行分析,有助于找到腫瘤的關(guān)鍵靶點(diǎn),為癌癥的早期診斷、治療和藥物研發(fā)等開辟新的思路。依靠生物信息學(xué)技術(shù),研究者可對公開數(shù)據(jù)庫中的NB 基因組數(shù)據(jù)進(jìn)行分析,為探索NB 的發(fā)病機(jī)制提供參考。近年來,雖有研究者對NB 測序數(shù)據(jù)進(jìn)行生物信息學(xué)分析[3,11],但綜合運(yùn)用NB 細(xì)胞和組織樣本轉(zhuǎn)錄組測序數(shù)據(jù)的生物信息學(xué)分析文獻(xiàn)尚未檢索到。本研究中,我們從GEO 數(shù)據(jù)庫中下載了兩個(gè)NB 芯片數(shù)據(jù)集GSE39262 和GSE66586。通過比較NB細(xì)胞與對照細(xì)胞的基因表達(dá),篩選差異表達(dá)基因(Differentially expressed genes,DEGs),并對兩個(gè)數(shù)據(jù)集共有的DEGs 進(jìn)行GO 和KEGG 富集分析。使用String 數(shù)據(jù)庫構(gòu)建蛋白-蛋白互作網(wǎng)絡(luò)(Proteinprotein interaction,PPI),并通過Cytoscape 軟件篩選Hub 基因。最后,利用R2 基因組分析和可視化平臺(tái)整理的NB 組織樣本測序數(shù)據(jù)對篩選的Hub 基因進(jìn)行驗(yàn)證。
1.1 數(shù)據(jù)獲取GEO 數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)收錄并整理了全球范圍內(nèi)研究工作者上傳的微陣列芯片、二代測序以及其他形式的高通量基因組數(shù)據(jù),并提供免費(fèi)下載[12]。在GEO 數(shù)據(jù)庫中搜索NB 相關(guān)芯片,搜索關(guān)鍵詞為“neuroblastoma”,篩選條件為“Expression profiling by array”和“Homo sapiens”,獲得芯片數(shù)據(jù)集GSE39262 和GSE66586。GSE39262 數(shù)據(jù)集基于GPL96 平臺(tái)(Affymetrix Human Genome U133A Array),其包含6 種NB 細(xì)胞和對照細(xì)胞(骨髓間充質(zhì)干細(xì)胞)。GSE66586 數(shù)據(jù)集基于GPL6244 平臺(tái)(Affymetrix Human Gene 1.0 ST Array),其包含8 種NB 細(xì)胞和對照細(xì)胞(骨髓間充質(zhì)干細(xì)胞及人皮層神經(jīng)元細(xì)胞)。
1.2 DEGs 的篩選采用GEO2R 在線分析數(shù)據(jù)集GSE39262 和GSE66586,獲得NB 細(xì)胞與對照細(xì)胞之間的DEGs,并繪制DEGs 的火山圖。差異基因的閾值設(shè)置為P.adj<0.05 且|logFC|>1。利用Venny2.1在線工具(https://bioinfogp.cnb.csic.es/tools/venny/index.html)繪制韋恩圖,獲得兩個(gè)數(shù)據(jù)集共有的差異基因。
1.3 功能和通路分析利用仙桃學(xué)術(shù)(https://www.xian-taozi.com/products/apply/43e4ad2d-25bf-460e-97ab-a94e8a29eda2)在線生信分析工具可對醫(yī)學(xué)大數(shù)據(jù)進(jìn)行多維度無代碼分析[13]。本研究利用仙桃學(xué)術(shù)生信工具對共有DEGs 進(jìn)行GO 功能富集和KEGG通路富集分析,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
1.4 PPI 網(wǎng)格構(gòu)建STRING 數(shù)據(jù)庫(http://string-db.org/)是一個(gè)預(yù)測蛋白互作關(guān)系的數(shù)據(jù)庫,該數(shù)據(jù)庫覆蓋了5 090 種生物體,2 460 萬種蛋白質(zhì),超過30 億種蛋白相互作用[14]。我們利用STRING 在線數(shù)據(jù)庫對共有DEGs 進(jìn)行PPI 網(wǎng)絡(luò)分析,并使用Cytoscape 軟件中CytoHubba 插件篩選Hub 基因。
1.5 NB 預(yù)后相關(guān)生物標(biāo)志物篩選R2 基因組分析和可視化平臺(tái)(R2 Genomics Analysis and Visualization Platform,https://hgserver1.amc.nl/cgi-bin/r2/)網(wǎng)站提供了大量轉(zhuǎn)錄組數(shù)據(jù)集,可從基因差異表達(dá)、相關(guān)通路、生存分析等多種層面進(jìn)行腫瘤信息學(xué)分析[15]。本研究采用R2 基因組分析和可視化平臺(tái)對10 個(gè)Hub基因進(jìn)行在線Kaplan-Meier 生存和Cox 回歸分析,分析選擇的數(shù)據(jù)集源自TARGET 數(shù)據(jù)庫(Tumor Neuroblastoma TARGET-Asgharzadeh-249-customhuex10t)。
1.6 統(tǒng)計(jì)學(xué)分析采用survival 和survminer 包進(jìn)行Kaplan-Meier 生存與COX 回歸分析,使用pROC 包對數(shù)據(jù)進(jìn)行ROC 分析。利用GraphPad Prism7.0 軟件對Hub 基因測序數(shù)據(jù)進(jìn)行分析及作圖,兩組數(shù)據(jù)分析時(shí)采用Unpairedttest。P<0.05 表示差異具有統(tǒng)計(jì)學(xué)意義。
2.1 DEGs 的篩選
2.1.1 GSE39262 及GSE66586 數(shù)據(jù)集DEGs 的初篩比較NB 細(xì)胞和正常對照細(xì)胞的基因表達(dá)情況,從GSE39262 數(shù)據(jù)集中分析獲得845 個(gè)DEGs,其中上調(diào)338 個(gè)、下調(diào)507 個(gè),見圖1A;從GSE66586 數(shù)據(jù)集中分析獲得2 980 個(gè)DEGs,其中上調(diào)1 322 個(gè)、下調(diào)1 658 個(gè),見圖1B。

圖1 差異表達(dá)基因的火山圖
2.1.2 GSE39262 和GSE66586 數(shù)據(jù)集共有DEGs 的篩選 利用韋恩圖比較GSE39262 和GSE66586 兩個(gè)數(shù)據(jù)集的DEGs,得到392 個(gè)共有DEGs,見圖2A。GSE39262 數(shù)據(jù)集中 的392 個(gè)共有DEGs 包含184 個(gè)上調(diào)基因和208 個(gè)下調(diào)基因;GSE66586 數(shù)據(jù)集中的392 個(gè)共有DEGs 包含186 個(gè)上調(diào)基因和206 個(gè)下調(diào)基因。進(jìn)一步分析發(fā)現(xiàn),兩個(gè)數(shù)據(jù)集共有183 個(gè)上調(diào)DEGs 和205 個(gè)下調(diào)DEGs,見圖2B、2C。
2.2 GO 和KEGG 富集分析我們對392 個(gè)共有DEGs 進(jìn)行GO 和KEGG 富集分析。GO 功能富集分析包括生物學(xué)過程(Biological process,BP)、細(xì)胞組成(Cell composition,CC)和分子功能(Molecular function,MF),在BP 中DEGs 主要富集于姐妹染色單體分離、有絲分裂細(xì)胞周期相變、DNA 復(fù)制,在CC 中DEGs 主要富集于染色體區(qū)域、CMG 復(fù)合物、DNA 復(fù)制起始前復(fù)合物,在MF 中DEGs 主要富集于單鏈DNA 解旋酶活性、細(xì)胞外基質(zhì)結(jié)構(gòu)成分、DNA 復(fù)制起點(diǎn)結(jié)合;KEGG 通路富集分析中DEGs主要富集于細(xì)胞周期、DNA 復(fù)制和ECM 受體相互作用,見圖3A。隨后我們又對183 個(gè)共有上調(diào)DEGs 和205 個(gè)共有下調(diào)DEGs 分別進(jìn)行了富集分析,結(jié)果見圖3B、3C。

圖3 差異表達(dá)基因的GO 和KEGG 富集分析
2.3 PPI 及Hub 基因篩選將392 個(gè)共有DEGs 導(dǎo)入String12.0 數(shù)據(jù)庫,構(gòu)建PPI 網(wǎng)絡(luò),得到由390 個(gè)作用節(jié)點(diǎn)、3 418 條邊組成的網(wǎng)絡(luò)圖,見圖4A。隨后以TSV 格式導(dǎo)入Cytoscape 軟件,利用CytoHubba插件選取前10 位的Hub 基因,見圖4B。

圖4 差異表達(dá)基因的蛋白互作網(wǎng)絡(luò)分析
2.4 Kaplan-Meier 生存和Cox 回歸分析利用R2 基因組分析和可視化平臺(tái)整理的源自TARGET數(shù)據(jù)庫的249 例NB 組織樣本數(shù)據(jù)分析10 個(gè)核心基因表達(dá)與患者預(yù)后的關(guān)系。Cox 回歸分析顯示,BUB1B、CCNB1、CDK1 和KIF2C 表達(dá)水平是NB 患者預(yù)后的獨(dú)立影響因素(P<0.05),見圖5A。Kaplan-Meier 生存分析結(jié)果提示,BUB1B、CCNB1、CDK1 和KIF2C 低表達(dá)患者的總生存期明顯高于高表達(dá)患者,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見圖5B~E。

圖5 10 個(gè)核心基因的Cox 與Kaplan-Meier 分析
2.5 四個(gè)核心基因在NB 組織樣本中的表達(dá)情況和ROC 分析為了解BUB1B、CCNB1、CDK1 和KIF2C 在NB 組織樣本中的表達(dá)情況,我們下載了上述249 例NB 組織樣本中的4 個(gè)基因的測序數(shù)值。這249 例樣本含低風(fēng)險(xiǎn)組30 例、高風(fēng)險(xiǎn)組217例和未知風(fēng)險(xiǎn)組2 例。用GraphPad Prism 軟件分析BUB1B、CCNB1、CDK1 和KIF2C 在兩組樣本中的表達(dá)情況,結(jié)果表明高風(fēng)險(xiǎn)組中4 個(gè)基因的表達(dá)明顯高于低風(fēng)險(xiǎn)組,見圖6A~D。隨后,我們試圖確定4 個(gè)基因在預(yù)測COG 風(fēng)險(xiǎn)中的作用。ROC 分析結(jié)果表明,4 個(gè)基因區(qū)分COG 高、低風(fēng)險(xiǎn)的特異性和敏感度較高,見圖6E。

圖6 4 個(gè)核心基因在NB 組織中的表達(dá)情況及ROC 分析
NB 是一種兒童常見的交感神經(jīng)系統(tǒng)惡性腫瘤,具有生長迅速、侵襲性強(qiáng)、早期轉(zhuǎn)移等惡性生物學(xué)特性[16]。由于NB 發(fā)病部位隱匿及缺乏有效的早期診斷技術(shù),往往診斷時(shí)腫瘤轉(zhuǎn)移發(fā)生率較高。年齡在1 歲以上的NB 患者中,有55%(所有年齡患者中有40%)診斷時(shí)發(fā)現(xiàn)為轉(zhuǎn)移性疾病[17]。盡管進(jìn)行強(qiáng)化治療,但通常生存率較低,死亡率居高不下。因此尋找有效的分子標(biāo)記物對NB 的早期診斷、治療和藥物研發(fā)等方面具有重要意義。
腫瘤本質(zhì)上是一種基因病,與基因的突變或表達(dá)異常密切相關(guān)。研究發(fā)現(xiàn),人類細(xì)胞數(shù)以萬計(jì)的基因中,與腫瘤相關(guān)的高達(dá)400 多個(gè)[10]。隨著高通量測序技術(shù)在腫瘤研究中的廣泛應(yīng)用,產(chǎn)生了海量腫瘤相關(guān)數(shù)據(jù)。采用生物信息學(xué)方法,對這些數(shù)據(jù)進(jìn)行分析,可預(yù)測腫瘤發(fā)生的分子機(jī)制。對公開數(shù)據(jù)庫中整理的NB 細(xì)胞、組織樣本轉(zhuǎn)錄組測序數(shù)據(jù)進(jìn)行生物信息學(xué)分析可預(yù)測NB 致病、預(yù)后相關(guān)的生物標(biāo)記物[18,19]。本研究綜合利用GEO 數(shù)據(jù)庫整理的NB 細(xì)胞和TARGET 數(shù)據(jù)庫整理的NB組織的轉(zhuǎn)錄組測序數(shù)據(jù),通過生物信息學(xué)分析探索NB 相關(guān)的生物標(biāo)志物。我們分析GSE39262 和GSE66586 兩個(gè)數(shù)據(jù)集,獲得了392 個(gè)共有DEGs(包含183 個(gè)共有上調(diào)DEGs 和205 個(gè)共有下調(diào)DEGs)。這些共有DEGs 主要參與細(xì)胞周期、DNA復(fù)制和ECM 受體相互作用。近年來,有研究表明細(xì)胞周期、DNA 復(fù)制和細(xì)胞外基質(zhì)(Extracellular matrix,ECM)與腫瘤的發(fā)生發(fā)展密切相關(guān),細(xì)胞周期調(diào)控在細(xì)胞增殖過程中扮演重要角色,細(xì)胞周期失調(diào)是腫瘤發(fā)生的根本原因[20]。針對不同腫瘤的細(xì)胞周期特異性研究,可能為腫瘤治療帶來新的希望。腫瘤的形成是一個(gè)復(fù)雜的過程,DNA 復(fù)制應(yīng)激是致瘤級聯(lián)過程中一個(gè)必要的早期事件,是導(dǎo)致基因組不穩(wěn)定的關(guān)鍵因素[21]。基因組不穩(wěn)定是癌癥的一個(gè)重要標(biāo)志,靶向DNA 復(fù)制起始是腫瘤治療的重要方向[22]。此外,ECM 是造成腫瘤微環(huán)境異質(zhì)性和復(fù)雜性的基礎(chǔ),深入研究ECM 對腫瘤的治療具有指導(dǎo)作用[23]。本研究分析結(jié)果支持細(xì)胞周期、DNA 復(fù)制和ECM 異常與NB 的發(fā)生發(fā)展密切相關(guān),進(jìn)一步對這些過程進(jìn)行特異性研究可能為NB 的治療和藥物研發(fā)帶來新策略。
近年來,隨著生物信息學(xué)的發(fā)展,多個(gè)生物信息學(xué)相關(guān)數(shù)據(jù)庫得以建立,這有助于研究者們更好地利用測序數(shù)據(jù)。R2 數(shù)據(jù)庫是由Jan Koster 團(tuán)隊(duì)建立并維護(hù)的免費(fèi)數(shù)據(jù)庫,對腫瘤學(xué)的研究具有重大推動(dòng)作用。本研究中,我們采用R2 數(shù)據(jù)庫對篩選的Hub 基因進(jìn)行了Kaplan-Meier/Cox 分析,獲得了4 個(gè)候選基因,即BUB1B、CCNB1、CDK1 和KIF2C。BUB1B 是有絲分裂檢查點(diǎn)的關(guān)鍵部分,其在多種癌癥中表達(dá)異常[24]。有報(bào)道CCNB1/CDK1作為通訊器介導(dǎo)了細(xì)胞周期進(jìn)程[25]。有研究指出,細(xì)胞周期蛋白B1、A 和D 可能成為免疫監(jiān)測的靶點(diǎn),并有望成為癌癥免疫治療的候選靶點(diǎn)[26]。目前對KIF2C 的泛癌分析發(fā)現(xiàn),KIF2C 的表達(dá)與多種腫瘤的致癌和臨床預(yù)后相關(guān)[27]。此外,我們還發(fā)現(xiàn)BUB1B、CCNB1、CDK1 和KIF2C 在COG 高風(fēng)險(xiǎn)組患者組織中的表達(dá)明顯升高,且能夠預(yù)測COG 高風(fēng)險(xiǎn)患者。這些結(jié)果支持它們可能是NB 致癌和預(yù)后相關(guān)的潛在生物學(xué)標(biāo)志物。
本研究通過生物信息學(xué)方法識(shí)別了BUB1B、CCNB1、CDK1 和KIF2C 四個(gè)NB 相關(guān)的Hub 基因。它們在高風(fēng)險(xiǎn)NB 組織中高表達(dá)且影響患者的生存期,對NB 患者的診斷、治療和預(yù)后評估具有重要的科學(xué)指導(dǎo)意義。但本研究還存在一定的不足之處,本研究結(jié)果是依靠公開數(shù)據(jù)庫數(shù)據(jù)分析獲得,缺乏進(jìn)一步體外實(shí)驗(yàn)或者臨床證據(jù)。我們將以此研究結(jié)果為指導(dǎo),進(jìn)一步開展體外實(shí)驗(yàn)來驗(yàn)證四個(gè)Hub基因與NB 之間的實(shí)際關(guān)聯(lián)。
綜上所述,通過分析NB 細(xì)胞與對照細(xì)胞的差異表達(dá)基因,篩選出BUB1B、CCNB1、CDK1 和KIF2C 四個(gè)NB 相關(guān)的Hub 基因,探究了其在低風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)NB 組織中的表達(dá),并分析了其表達(dá)量與患者預(yù)后的關(guān)系,希望能為NB 的診斷、治療及機(jī)制研究提供新靶點(diǎn)。