馮振興,鄭雅方,田鐵栓
天津市胸科醫院·天津市心血管病研究所,天津 300222
小細胞肺癌(small cell lung cancer,SCLC)是一種高度惡性的神經內分泌腫瘤,約占所有肺癌的15%,具有增殖速度快,血管密度高,基因組不穩定和明顯的早期轉移傾向等特點,總體預后差[1]。全面的基因組分析在研究SCLC發病的機制和發現潛在治療靶點中起到重要作用。目前非小細胞肺癌的靶向治療和免疫治療已進行了深入研究及臨床廣泛應用,盡管在過去的30年里進行了廣泛的基礎和臨床研究,SCLC的靶向治療仍未取得顯著的進展,一個潛在的原因是外科手術治療在SCLC中的應用較少,病理組織樣本的缺乏限制了SCLC基因組學分析,進而阻礙了新的靶向藥物的發現[2-3]。
隨著基因表達芯片技術的廣泛應用,大量數據在公共數據庫平臺上發布。美國國立生物技術信息中心旗下的基因表達綜合數據庫(gene expression omnibus,GEO)是一個國際公共數據庫(https://www.ncbi.nlm.nih.gov/geo/),該數據庫對高通量基因表達和其他功能基因組數據集進行歸檔和自由分發[4]。本研究利用GEO數據庫中SCLC相關的基因芯片和臨床數據,采用生物信息學方法挖掘與SCLC發生發展相關的關鍵基因和信號通路,為SCLC的靶向治療提供新的思路。
從GEO數據庫中檢索到GSE6044、GSE40275和GSE43346 3套SCLC基因表達數據集,其中GSE6044(平臺號:GPL10558)包括9例SCLC和5例正常肺組織,GSE40275(平臺號:GPL15974)包括15例SCLC和43例正常肺組織,GSE43346(平臺號:GPL570)包括23例SCLC和1例正常肺組織,用于篩選SCLC和正常肺組織的差異表達基因(Differential expressed genes,DEGs)。
下載平臺文件和基因表達矩陣文件,使用Active-Perl-5.26軟件進行基因名注釋,使用R-3.5.3軟件的impute函數包進行缺失值補充(KNN法),基因對應多個探針時取均值,對芯片數據進行歸一化校正和log2處理,采用limma包計算DEGs,定義P<0.05和|logFC|>1的基因為DEGs,應用ggplot2包繪制火山圖,應用FunRich-3.1.3軟件對上述3套數據集的DEGs取交集。
使用DAVID數據庫(https://david.ncifcrf.gov)對DEGs進行GO(Gene ontology,基因本體)功能注釋和KEGG(Kyoto encyclopedia of genes and genomes,京都基因與基因組百科全書)通路富集分析,GO分析包括DEGs的細胞組成、分子功能、生物學過程,選取P<0.05富集結果進行分析。
使用交互基因檢索工具
STRING-11.0(https://string-db.org)對DEGs進行蛋白互作網絡分析。設置置信度閾值大于0.4,將DEGs的蛋白互作數據導入Cytoscape-3.7.1軟件中建立互作網絡可視化模型,并采用MCODE插件對蛋白互作網絡進行評價,篩選顯著模塊進行通路富集分析,使用CytoHubba插件篩選關鍵DEGs[5]。
GSE30219數據集(平臺號:GPL570)包括21例SCLC和14例正常肺組織基因表達數據以及19例SCLC患者臨床預后資料,該數據集用于關鍵DEGs的驗證,分析關鍵DEGs對SCLC生存時間的影響。使用GraphPad 8.0進行統計學分析和繪圖,DEGs的驗證采用t檢驗,生存分析采用Kaplan-Meier法,P<0.05表示差異有顯著統計學意義。
R軟件運算結果表明,GSE6044數據集中共獲得966個DEGs,其中上調基因474個,下調基因492個,GSE40275中共獲得3 099個DEGs,其中上調1 524個,下調1 575個,GSE43346中共獲得493個DEGs,其中上調352個,下調141個。3套數據集的結果取交集后篩選出81個DEGs,其中上調62個,下調19個,見圖1。

圖1 3個數據集共同差異表達基因的Venn圖
通過DAVID在線分析工具對SCLC中81個DEGs的GO分析結果顯示(圖2A-C),SCLC的DEGs主要分布在中間體、紡錘體微管、胞漿的核周區、驅動蛋白復合體和有絲分裂紡錘體等細胞組分中;其分子功能主要涉及染色質結合、ATP結合、微管運動、ATP酶活性和微管蛋白結合等;DEGs主要參與DNA復制起始、有絲分裂胞質分裂、微管運動、DNA依賴性DNA復制和有絲分裂染色體濃縮等22個在生物過程,其中與有15個與有絲分裂有關,包括有絲分裂細胞周期的調控、有絲分裂紡錘體組織、胞質分裂和紡錘體組裝等,涉及42個有絲分裂相關基因。KEGG分析結果表明(圖2D),這些差異基因共涉及11條信號通路,主要的信號通路有細胞周期、DNA復制和腫瘤通路等。

圖2 DEGs的GO和KEGG富集分析結果
通過SRING網站分析和cytoscape軟件獲得的DEGs蛋白互作網絡如圖3所示,該蛋白互作網絡包括71個結點和819條相互作用線,包含55個上調DEGs和16個下調DEGs。使用MCODE插件篩選出1個顯著的蛋白互作模塊(見圖4),包括39個結點(均為上調的DEGs)和706條線,涉及的DEGs主要富集在細胞周期、DNA復制和小細胞肺癌等信號通路。本研究使用CytoHubba插件中12種拓撲分析法分別計算出評分排名前30位的DEGs,并對12種算法結果取交集獲得了8個關鍵DEGs:AURKA、CENPF、BUB1B、RACGAP1、NUSAP1、KIF11、KIF20A和PBK,詳見表1。上述8個的關鍵DEGs均參與MCODE模塊中的蛋白互作。

圖3 差異表達蛋白相互作用網絡

表1 蛋白互作網絡篩選出的8個關鍵DEGs
使用GSE30219中基因表達數據驗證上述8個關鍵DEGs的表達水平,結果表明8個關鍵DEGs的mRNA在SCLC(n=21)中的相對表達水平均明顯高于正常肺組織(n=14),差異具有顯著統計學意義(P<0.001,見圖4)。GSE30219數據集中共有293例肺癌基因表達及臨床預后數據,從中篩選出19例隨訪資料完整的SCLC患者用于分析驗證8個關鍵DEGs對SCLC患者生存時間的影響,以中位數為界分為低表達組和高表達組,結果表明CENPF高表達組患者生存期顯著低于低表達患者(P=0.017,見圖5)。

圖4 關鍵DEGs在SCLC及正常肺組織中的相對表達水平

圖5 CENPF表達水平與SCLC患者預后的關系
基于生物信息學方法比較分析SCLC與正常細胞基因表達譜的差異,尋找SCLC相關基因,是發現SCLC潛在的治療靶基因的重要途徑之一。目前國內鮮有利用生物信息學方法挖掘SCLC靶基因的相關研究報道。鑒于TCGA(The Cancer Genome Atlas)癌癥基因組圖譜數據庫中沒有SCLC的相關數據,本研究通過檢索GEO數據庫中SCLC數據,對SCLC的潛在靶基因表達水平及其臨床預后進行了深度挖掘分析,共篩選出了81個DEGs,包括62個上調基因和19個下調基因。GO和KEGG功能富集分析表明這些DEGs的產物主要包括中間體、微管和紡錘體等有絲分裂相關的細胞組分,主要參與有絲分裂、細胞周期和DNA損傷修復等分子功能及信號通路。上述細胞組分、分子功能及通路與腫瘤細胞的增殖、侵襲和轉移密切相關,為研究SCLC的發病機制及診斷治療提供參考思路。
本研究通過蛋白互作分析篩選出8個處于互作網絡核心節點的關鍵DEGs:AURKA、CENPF、BUB1B、RACGAP1、NUSAP1、KIF11、KIF20A和PBK,這些基因且均為有絲分裂相關基因且相互之間聯系密切。SCLC快速增殖依賴于有絲分裂事件的增加,有絲分裂的關鍵步驟是紡錘體裝置的調節裝配和染色體的分離[24]。表1中匯總了8個關鍵DEGs在有絲分裂中的具體功能及相關研究進展。研究表明這些基因在人類多種惡性腫瘤等中異常表達,且與腫瘤的增殖、侵襲及預后密切相關,但與SCLC相關的研究鮮有報道。
目前僅有AURKA與SCLC的治療相關的報道。AURKA是重要的有絲分裂調節因子,研究表明Alisertib和LY3295668等多種高選擇性AURKA抑制劑可誘導細胞發生有絲分裂災難,研究表明Alisertib單藥作為晚期SCLC患者二線治療的客觀緩解率為21%[7-8]。此外,AURKA激酶磷酸化可招募著CENP家族的多種蛋白參與有絲分裂中期染色體在赤道板的正確排列[25]。CENPF是一種著絲粒-動粒復合體相關蛋白質,在有絲分裂著絲點形成和著絲粒組裝中發揮重要作用,并與腫瘤細胞代謝和進展有關[9]。臨床前研究表明抑制CENPF表達可起到抗腫瘤的作用,CENPF在非小細胞肺癌、前列腺癌、腦膠質瘤、結直腸癌和鼻咽癌等多種惡性腫瘤中呈高表達,CENPF高表達與腫瘤侵襲和不良預后相關,但其分子機制尚未闡明[10]。本研究對篩選出的8個關鍵DEGs進行預后分析,結果僅有CENPF高表達與SCLC不良預后相關,提示CENPF可能是SCLC潛在的治療靶點。
綜上所述,本研究共篩選出81個DEGs,其中8個關鍵DEGs包括AURKA、CENPF、BUB1B、RACGAP1、NUSAP1、KIF11、KIF20A和PBK,這些基因均是有絲分裂重要的作用因子,與SCLC的分裂和增殖關系密切,具有潛在的研究價值。鑒于CENPF在SCLC中高表達且與預后不良有關,因此我們篩選出CENPF作為候選靶分子。由于現有的數據庫中SCLC病例數量較少,后續本課題組將進一步擴大樣本量,探究CENPF表達與SCLC預后相關的臨床研究,同時進行分子生物學機制的基礎研究,以期為SCLC的治療提供新的作用靶點。