史廣林,繆雨青,錢佳燕,冒昕欣,施偉榮
(1.南通市第六人民醫(yī)院呼吸內(nèi)科,江蘇 南通 226011;2.南通市第六人民醫(yī)院胸外科,江蘇 南通 226011)
肺癌是最常見(jiàn)的惡性腫瘤之一,無(wú)論在發(fā)達(dá)國(guó)家還是發(fā)展中國(guó)家,肺癌都是癌癥死亡的主要原因[1-2]。肺癌分為小細(xì)胞肺癌(SCLC)和非小細(xì)胞肺癌(NSCLC),大約85%的肺癌患者被歸類為非小細(xì)胞肺癌并且診斷時(shí)通常處于晚期[3]。盡管肺癌在診療技術(shù)上有了很大的進(jìn)展,肺癌的預(yù)后仍不滿意,5年生存率小于15%[4]。肺癌的發(fā)生發(fā)展涉及多因素、多步驟、多基因的復(fù)雜生物學(xué)過(guò)程,除了環(huán)境因素作用,肺癌的基因?qū)W說(shuō)也越來(lái)越受重視。在過(guò)去的幾十年,對(duì)肺癌發(fā)生發(fā)展的分子生物學(xué)認(rèn)識(shí)有了很大的提高,然而目前臨床可用的基因數(shù)量有限,僅有EGFR、ALK、ROS1、BRAF、RET和C-MET等幾個(gè)基因,而且主要集中于肺腺癌中[5]。在腫瘤發(fā)生發(fā)展過(guò)程中,有大量伴隨基因參與癌基因擴(kuò)增過(guò)程,但是絕大多數(shù)并不是關(guān)鍵基因。因此,從分子水平揭示腫瘤發(fā)病機(jī)制,尋找新的治療靶點(diǎn),成為腫瘤研究的熱點(diǎn)。基因芯片技術(shù)是20世紀(jì)90年代以來(lái)影響最為深遠(yuǎn)的重大科技進(jìn)展,成為生命科學(xué)領(lǐng)域的一項(xiàng)重要的技術(shù)平臺(tái),是篩選差異表達(dá)相關(guān)基因的有效手段[6]。基因組富集分析(GSEA)基于基因組系統(tǒng)水平在病例對(duì)照類型數(shù)據(jù)上來(lái)挖掘影響疾病的重要基因及其通路[7]。本研究采用GSEA等生物信息學(xué)方法對(duì)NSCLC全基因組表達(dá)芯片數(shù)據(jù)進(jìn)行研究,挖掘出隱藏在芯片數(shù)據(jù)下的生物學(xué)信息,篩選出影響肺癌發(fā)生發(fā)展的關(guān)鍵基因,為對(duì)肺癌靶向治療的研究奠定基礎(chǔ)。
從NCBI共享數(shù)據(jù)庫(kù)GEO檢索NSCLC相關(guān)的基因芯片數(shù)據(jù)。最終選擇登錄號(hào)分別為GSE1987和GSE44077,芯片平臺(tái)分別為GPL91、GPL6244。GSE1987芯片平臺(tái)為GPL91,來(lái)自以色列特拉維夫大學(xué)包含從人類肺組織獲得的36個(gè)樣本,包括以下內(nèi)容:7例腺癌標(biāo)本;16例鱗狀細(xì)胞癌標(biāo)本;1腺鱗癌標(biāo)本;腎轉(zhuǎn)移2例;結(jié)腸轉(zhuǎn)移1例;7例癌旁正常肺組織;2例正常肺RNA。對(duì)癌和癌旁基因進(jìn)行差異表達(dá)篩選,選取上調(diào)2倍以上的基因,最終提取147個(gè)高表達(dá)基因。GSE44077芯片平臺(tái)為GPL6244,來(lái)自美國(guó)德克薩斯大學(xué)安德森癌癥中心,樣本包含226例NSCLC的癌組織或癌旁正常組織。對(duì)癌和癌旁基因進(jìn)行差異表達(dá)篩選,最終提取64個(gè)高表達(dá)基因。在TCGA數(shù)據(jù)庫(kù)檢索NSCLC數(shù)據(jù)庫(kù),對(duì)癌和癌旁基因進(jìn)行差異表達(dá)篩選,最終提取510個(gè)高表達(dá)基因。其中差異基因篩選的條件為:P<0.05、>=2-fold change。
將分析得到的NSCLC分子標(biāo)簽基因上傳至Funrich軟件中,分析相關(guān)基因可能的分子功能、參與的信號(hào)通路、編碼蛋白質(zhì)之間的相互作用關(guān)系以及建立基于文獻(xiàn)知識(shí)的基因轉(zhuǎn)錄子相關(guān)或物理相關(guān)的網(wǎng)絡(luò)圖譜等。使用DAVID進(jìn)行GO和KEGG通路分析對(duì)差異基因進(jìn)行功能注釋,對(duì)其中與腫瘤信號(hào)通路如細(xì)胞增殖、凋亡、DNA損傷等密切相關(guān)的基因進(jìn)一步分析。STRING分析差異表達(dá)基因的蛋白相互作用的網(wǎng)絡(luò)關(guān)系。選取關(guān)鍵基因,GEO數(shù)據(jù)庫(kù)分析關(guān)鍵基因在不同組織中的表達(dá)。利用CCLE數(shù)據(jù)庫(kù)分析關(guān)鍵基因在不同肺癌細(xì)胞系中的表達(dá)。并利用人類蛋白質(zhì)組圖譜對(duì)關(guān)鍵基因的蛋白水平進(jìn)行分析,并獲得直觀的免疫組化圖像。使用Kaplan-Meier Plotter進(jìn)行生存分析。通過(guò)以上數(shù)據(jù)庫(kù)分析,基本可以確定該基因在肺癌的發(fā)生發(fā)展以及預(yù)后中的作用。本次研究經(jīng)過(guò)本院醫(yī)學(xué)倫理委員會(huì)同意。
對(duì)GSE1987、GSE4077及TCGA三組數(shù)據(jù)使用Funrich V3軟件進(jìn)行聯(lián)合分析,根據(jù)篩選標(biāo)準(zhǔn)選出7個(gè)共同上調(diào)表達(dá)的基因分別是:SPP1、SPINK1、母體胚胎亮氨酸拉鏈激酶(MELK)、谷胱甘肽過(guò)氧化物酶(GPX2)、CYP24A1、TFAP2、ETV4。
使用Funrich進(jìn)行GO和KEGG通路分析對(duì)差異基因進(jìn)行功能注釋,發(fā)現(xiàn)這7個(gè)基因主要參與血管內(nèi)皮生長(zhǎng)因子(VEGF)、PI3K、mTOR、ErbB受體、TNF、信號(hào)轉(zhuǎn)導(dǎo)、凋亡等信號(hào)通路,主要參與細(xì)胞凋亡、蛋白質(zhì)代謝、信號(hào)轉(zhuǎn)導(dǎo)、細(xì)胞生長(zhǎng)等生物學(xué)過(guò)程。
STRING分析差異表達(dá)基因蛋白相互作用的網(wǎng)絡(luò)關(guān)系,以MELK為中心的PPI網(wǎng)絡(luò),與其相關(guān)的蛋白有ZNF622、BUB1、TPX2、CDK1、DLGAP5、TOP2A、CDC20、CCNB1、CCNB2、PBK,其信號(hào)通路及生物學(xué)過(guò)程主要富集在細(xì)胞信息傳遞及信號(hào)轉(zhuǎn)導(dǎo)。見(jiàn)圖1。

圖1 STRING分析差異表達(dá)基因的蛋白相互作用的網(wǎng)絡(luò)關(guān)系及以MELK為中心的PPI網(wǎng)絡(luò)
MELK在TCGA數(shù)據(jù)庫(kù)和CCLE數(shù)據(jù)庫(kù)分析關(guān)鍵基因RNA在不同組織及肺癌不同細(xì)胞系中的表達(dá)。可以發(fā)現(xiàn)MELK在肺癌組織中有較高表達(dá),在肺癌細(xì)胞系A(chǔ)549、HBEC3-KT、SCLC-KT中高表達(dá)。見(jiàn)圖2。

圖2 TCGA數(shù)據(jù)庫(kù)中MELK在不同組織RNA表達(dá)及CCLE數(shù)據(jù)庫(kù)中MELK在不同細(xì)胞系RNA表達(dá)
利用Kaplan-Meier Plotter對(duì)720例非小細(xì)胞肺癌患者M(jìn)ELK進(jìn)行生存分析。本文發(fā)現(xiàn)MELK高表達(dá)組生存期較短、預(yù)后較差(HR 1.56,P=0.000 19)。
MELK在人類蛋白質(zhì)圖譜數(shù)據(jù)庫(kù)對(duì)其在肺癌組織中的蛋白水平進(jìn)行分析,并獲得直觀的免疫組化圖像。見(jiàn)圖3。

圖3 MELK在人類蛋白質(zhì)圖譜中免疫組化不同表達(dá)水平
基因芯片技術(shù)是20世紀(jì)90年代以來(lái)影響最為深遠(yuǎn)的重大科技進(jìn)展,成為生命科學(xué)領(lǐng)域的一項(xiàng)重要的技術(shù)平臺(tái),是篩選差異表達(dá)相關(guān)基因的有效手段[6]。基因芯片技術(shù)具有高通量和快速測(cè)量等優(yōu)點(diǎn),解決了傳統(tǒng)核酸印跡雜交等技術(shù)復(fù)雜、自動(dòng)化程度低、檢測(cè)目的分子數(shù)量少、低通量等缺陷[8]。由于表達(dá)譜芯片在研究細(xì)胞基因表達(dá)模式上具有的優(yōu)勢(shì),利用它可獲取腫瘤細(xì)胞生長(zhǎng)的各期以及腫瘤發(fā)生與發(fā)展過(guò)程中相關(guān)基因的表達(dá)模式變化,因此,基因表達(dá)譜芯片對(duì)腫瘤發(fā)生機(jī)制、早期診斷、腫瘤基因分型、藥物篩選、指導(dǎo)治療及評(píng)估預(yù)后等許多研究領(lǐng)域起到了巨大的推動(dòng)作用[8-11]。隨著表達(dá)譜芯片技術(shù)的廣泛開(kāi)展,產(chǎn)生了豐富的、海量的、復(fù)雜的生物信息數(shù)據(jù)。如何解讀芯片上成千上萬(wàn)個(gè)基因點(diǎn)的雜交信息,揭示其中蘊(yùn)含的生命特征和規(guī)律,已成為限制基因芯片技術(shù)應(yīng)用和發(fā)展的主要“瓶頸”。因此,如何共享和利用這些數(shù)據(jù)成為基因表達(dá)譜研究的重要課題,也是生物信息學(xué)研究的重要內(nèi)容。本研究運(yùn)用生物信息學(xué)方法通過(guò)探索GEO NSCLC數(shù)據(jù)庫(kù)中的GSE1987、GSE44077和TCGA,通過(guò)聯(lián)合分析發(fā)現(xiàn)一組差異表達(dá)的基因重組人分泌型蛋白1(SPP1)、SPINK1、MELK、GPX2、CYP24A1、TFAP2、ETV4。GO和KEGG通路分析對(duì)差異基因進(jìn)行功能注釋,發(fā)現(xiàn)這7個(gè)基因主要參與VEGF、PI3K、mTOR、ErbB受體、TNF、信號(hào)轉(zhuǎn)導(dǎo)、凋亡等信號(hào)通路,主要參與細(xì)胞凋亡、蛋白質(zhì)代謝、信號(hào)轉(zhuǎn)導(dǎo)、細(xì)胞生長(zhǎng)等生物學(xué)過(guò)程。MELK基因是Snf1/AMPK激酶家族中一個(gè)獨(dú)特成員,是一種保守的周期依賴性激酶[12]。MELK在腦星形細(xì)胞瘤、膠質(zhì)母細(xì)胞瘤、乳腺癌、黑色素瘤及其他人類腫瘤中的表達(dá)增加[13-15],可能是它能促進(jìn)腫瘤的發(fā)生。此外,MELK的高表達(dá)與患者預(yù)后不良相關(guān)。MELK在腫瘤干細(xì)胞中異常激活,使腫瘤細(xì)胞具有生長(zhǎng)、侵襲和遷移能力[16-17]。本研究發(fā)現(xiàn)MELK與ZNF622、BUB1、TPX2、CDK1、DLGAP5、TOP2A、CDC20、CCNB1、CCNB2、PBK等蛋白相互作用,主要功能富集在細(xì)胞信息傳遞及信號(hào)轉(zhuǎn)導(dǎo),與細(xì)胞周期基因如TOP2A、CCNB2共存,提示MELK與細(xì)胞增殖功能密切相關(guān),有望成為藥物治療的靶點(diǎn)[18]。MELK在肺癌中研究較少,通過(guò)數(shù)據(jù)庫(kù)分析發(fā)現(xiàn)MELK在肺癌組織中有較高表達(dá),在肺癌細(xì)胞系A(chǔ)549、HBEC3-KT、SCLC-KT中高表達(dá)。Oncomin數(shù)據(jù)庫(kù)檢索,也進(jìn)一步證實(shí)MELK在肺腺癌患者癌組織中表達(dá)與正常肺組織對(duì)比明顯增高。人類蛋白質(zhì)組圖譜數(shù)據(jù)庫(kù)中能夠直觀地觀察到肺癌組織中MELK不同表達(dá)水平的免疫組化圖片。
綜上所述,本研究通過(guò)生物信息學(xué)方法篩選出7個(gè)在多個(gè)非小細(xì)胞肺癌數(shù)據(jù)庫(kù)中均高表達(dá)的核心基因,它們與細(xì)胞凋亡、蛋白質(zhì)代謝、信號(hào)轉(zhuǎn)導(dǎo)、細(xì)胞生長(zhǎng)等生物學(xué)過(guò)程密切相關(guān)。MELK在多種腫瘤中表達(dá)增加,數(shù)據(jù)庫(kù)檢索發(fā)現(xiàn)肺癌組織及細(xì)胞中均高表達(dá),并且其高表達(dá)與患者預(yù)后不良相關(guān),提示其子腫瘤的發(fā)生發(fā)展中發(fā)揮重要作用。病理分析及預(yù)后分析表明其有望成為NSCLC分級(jí)及預(yù)后的生物標(biāo)志物。對(duì)其生物學(xué)作用的進(jìn)一步研究有利于揭示NSCLC的具體發(fā)病機(jī)制以及提供新的潛在治療靶點(diǎn)。