雷媛娣,劉艷萍,孫站兵,鄧偉華,張朝暉
(南華大學 公共衛生學院 預防醫學系,湖南 衡陽 421001)
肺癌是近年來全球范圍內發病率和死亡率最高的惡性疾病[1],其中85%以上為非小細胞肺癌(NSCLC)[2],包括肺腺癌(LUAD),肺鱗狀細胞癌(LUSC)和大細胞肺癌(LCLC),以及其他不常見的類型,其中肺腺癌最常見。目前,在肺腺癌的分子病理學、臨床腫瘤學、靶向治療等研究方面取得了較好進展,但肺腺癌患者的死亡率沒有顯著降低[3-4]。因此,需要尋找肺腺癌的早期診斷生物標志以提高患者的生存率。
近年,腫瘤與免疫的相關性受到越來越多的重視,腫瘤中免疫細胞浸潤程度與腫瘤生長、進展和患者結局有關,其不僅對患者的生存具有預測價值,還可影響腫瘤的治療效果[5-6]。肺癌、乳腺癌等實體腫瘤組織中存在免疫細胞浸潤,免疫細胞浸潤類型與這些實體腫瘤的臨床特征有較強的相關性且免疫細胞浸潤情況可用于腫瘤風險分層[7-9],免疫細胞包括B細胞,NK細胞、T細胞、DC細胞等等,而這些細胞通常會表達一些特定基因。
從TCGA和GEO數據庫中下載肺腺癌mRNA表達數據,用生物信息學方法篩選肺腺癌差異表達基因,對差異基因進行系統性分析,并利用Cibersort計算肺腺癌和正常肺組織樣本中不同種類免疫細胞的浸潤程度,探討肺腺癌早期診斷的生物標志物,為肺腺癌的靶向治療研究提供新思路。
通過GEO(https://www.ncbi.nlm.nih.gov/GEO31210)和TCGA數據庫(https://portal.gdc.cancer.gov/)下載肺腺癌基因表達及臨床病理數據。包括mRNA和clinical;GSE31210數據集基于GPL570([HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array)平臺,包括226例肺腺癌腫瘤樣本和20例正常肺組織樣本;TCGA數據集包括526例肺腺癌樣本和59例正常肺組織樣本。
利用R語言limma包,以P<0.05 及|log 2 FC|>2為條件,篩選正常組織以及肺腺癌樣本之間的差異表達基因[10],再將GEO和TCGA的差異基因取交集,得到234個差異基因,使用(http://PSB.ugent.be/web tools/Venn/)在線繪制Venn圖,然后用R語言ggscatter包繪制差異基因的火山圖。
利用DAVID網站(https://david.ncifcrf.gov/tools.jsp,對DEGs進行GO注釋及KEGG富集分析,研究DEGs的生物功能,包括生物過程(BP)、分子功能(MF)和細胞成分(CC);KEGG用于通路富集分析,P<0.05和FDR<0.05被標記為有效項。
通過 STRING 數據庫(https://string-db.org/)構建 PPI網絡,Cytoscape 軟件 將 PPI 網絡可視化[11],并利用 cytoHubba 插件選擇前 20 個基因作為 hub 基因。
按照表達量高低將肺腺癌樣本分為:高表達和低表達兩組,利用R語言survival包在GSE31210和TCGA數據庫里分別做預后生存分析;并使用卡普蘭-邁耶(Kaplan-Meier)(http://kmplot.com/analysis/index.php)在線工具對20個關鍵基因進行生存分析,并對有預后價值的基因用 GraphPad Prism 5軟件繪制生存圖。
用R語言pROC包繪制肺腺癌預后生存分析中有統計學意義的基因的ROC曲線[12],并根據AUC值對肺腺癌有診斷價值的hub基因進行評估,按AUC>0.7篩選肺腺癌診斷生物標志物。
為提高分析結果的準確性,采用GSEA軟件(https://www.gsea-msigdb.org/gsea/index.jsp)分析已篩選的肺腺癌診斷生物標志物等基因是否在所選數據集中富集分子通路[13-14],計算富集分數并進行顯著性檢驗分析。
為了評估肺腺癌中免疫細胞浸潤情況,以及篩選的肺腺癌診斷生物標志物等基因表達與肺腺癌組織中免疫細胞浸潤情況間的關系,用CIBERSORT算法(https://cibersort.stanford.edu/)對GSE31210數據進行分析,根據P<0.05篩選合適的樣本并計算樣本中每種免疫細胞的百分比,用 ggplot2 包繪制22種免疫細胞浸潤可視化小提琴圖,并分析其22種免疫細胞浸潤的差異。
結果顯示:TCGA數據庫中肺腺癌差異基因有2 019個,其中有1 195個表達上調,824個表達下調;GEO數據庫中肺腺癌差異基因為315個,129個上調,186個下調;由TCGA和GEO共得到234個肺腺癌差異表達基因DEGs(見圖1)。

圖1 TCGA和GEO數據庫中LUAD差異基因的篩選
GO分析發現,DEGs在分子功能(MF)方面主要富集在:血清型內肽酶活性、氧運輸功能、肝素結合、金屬內肽酶活性;在細胞組分(CC)方面主要富集在:質膜的組成成分、質膜、細胞外基質、胞外、細胞黏附等;在生物過程(BP)方面主要富集在膠原代謝、蛋白水解、血小板脫粒、免疫反應等(見圖2a)。KEGG富集分析發現DEGs主要涉及免疫、蛋白、膠原、細胞外成分等一系列與微環境相關的通路,如:PPAR信號通路、與瘧疾、補體和凝血級聯反應、PI3K AKT信號通路、病毒蛋白與細胞因子和細胞因子受體的相互作用通路,以及蛋白質消化和吸收相互作用通路、趨化因子信號通路及細胞周期信號通路(見圖2b)。

圖2 肺腺癌差異基因的功能富集分析
用STRING構建的PPI網絡(見圖3a);利用cytoHubba 插件選擇的前20個hub基因分別是:SPP1、CLDN5、BDNF、TEK、IL6、PPBP、CXCL13、MMP9、CCNA2、EGF、CAV1、MMP7、CDH5、SELE、MMP3、MMP13、MMP1、HMMR、TOP2A、DLGAP5等基因(見圖3b)。
小兒急性支氣管炎西醫診斷標準參照《諸福棠實用兒科學》第8版制定[5]。小兒咳嗽痰熱壅肺證參照中華中醫藥學會《中醫兒科常見病診療指南》(2012)制定[6]。

圖3 PPI網絡構建和Hub基因
采用卡普蘭-邁耶曲線和對數秩檢驗分析了以上20個肺腺癌關鍵基因對總生存期的影響,結果顯示:CCNA2、DLGAP5、HMMR、MMP1、MMP9、MMP13、SPP1、TOP2A等8個基因對肺腺癌生存期有影響(P<0.05),其中CCNA2、DLGAP5、HMMR、MMP1、SPP1、TOP2A等6個基因對肺腺癌生存期有顯著影響(P<0.01)(見圖4)。

圖4 肺腺癌關鍵基因的預后分析
對以上與肺腺癌預后生存相關的8個關鍵基因進行ROC 分 析,結 果 顯 示:DLGAP5(AUC=0.703)、CCNA2(AUC=0.682)、TOP2A(AUC=0.634)、HMMR(AUC=0.689)、MMP1(AUC=0.636)、MMP13(AUC=0.603)、SPP1(AUC=0.706)、MMP9(AUC=0.616),其中DLGAP5、SPP1的AUC>0.7,提示它們具有較高的診斷價值(見圖5)。

圖5 肺腺癌預后生存相關的8個hub 基因的ROC曲線
通過上述分析,發現DLGAP5及SPP1與其它hub基因相比更具有作為診斷標志物與預后標志物的潛力,因此驗證肺腺癌中DLGAP5、SPP1這2個關鍵基因的富集相關通路及其免疫相關功能,用GSEA根據DLGAP5、SPP1在肺腺癌組織表達的高低,驗證其是否富集在列表的頂部或底部并進行相關功能注釋[15],結果發現高表達DLGAP5、SPP1的肺腺癌樣本中富集了轉移、增殖、侵襲等通路,說明DLGAP5、SPP1等基因在肺癌轉移、增殖、侵襲過程中起到促進作用(見圖6,表1)。

圖6 GSEA分析DLGAP5、SPP1基因富集通路

表1 DLGAP5、SPP1基因在轉移、增殖、侵襲等通路的GSEA富集分析結果
利用GSE31210數據進行分析,使用Cibersort軟件“反卷積算法”,分析了數據庫中所有肺腺癌樣本組織中免疫細胞構成情況(見圖7);然后對正常肺組織與肺腺癌組織中免疫細胞浸潤情況進行分析,結果顯示:肺腺癌組織免疫細胞情況與正常肺組織存在明顯差異,且肺腺癌組織中免疫細胞數量較多的分別是未活化的CD4+記憶性T細胞、記憶性B細胞、濾泡輔助性T細胞、調節性T細胞、嗜酸性粒細胞、M0巨噬細胞(P<0.05)(見圖8)。

圖7 肺腺癌組織樣本中22種免疫細胞構成圖

圖8 肺腺癌及正常組織中免疫細胞占比小提琴圖
使用Cibersort分析GSE31210數據庫中肺腺癌樣本的DLGAP5、SPP1基因表達與免疫細胞浸潤的關系,結果(見圖9),肺腺癌組織中漿細胞、未活化的CD4+記憶細胞、調節T細胞、巨噬細胞(M0、M1、M2)及中性粒細胞等免疫細胞的數量與DLGAP5、SPP1基因表達水平顯著相關(P<0.05),肺腺癌組織中DLGAP5基因高表達時漿細胞、M0巨噬細胞、中性粒細胞等細胞數量較多(P<0.05),而DLGAP5低表達時記憶B細胞、未活化的記憶CD4+T細胞、濾泡輔助性T細胞、未活化肥大細胞分布較多。肺腺癌組織中SPP1基因高表達時巨噬細胞、靜息樹突細胞、中性粒細胞分布較多,而SPP1基因低表達時肺腺癌組織中漿細胞、未活化記憶CD4+T細胞、調節T細胞、M2巨噬細胞、肥大細胞分布高。以上結果表明DLGAP5、SPP1的表達水平與肺腺癌組織中漿細胞、未活化的CD4+T記憶細胞、調節T細胞、巨噬細胞、巨噬細胞M0、M1、中性粒細胞浸潤密切相關。

圖9 DLGAP5、SPP1基因表達與肺腺癌組織免疫細胞浸潤的關系
肺腺癌在世界各地發病率和死亡率都很高[16]。肺腺癌的高死亡率在很大程度上歸因于診斷不及時,因此尋找特異性早期診斷生物標志物對改善肺腺癌的預后至關重要。本研究利用生物信息學工具分析肺腺癌的mRNA表達譜及其肺腺癌中免疫細胞浸潤情況。本研究共篩選出234個肺腺癌DEGs,通過構建PPI網絡和富集分析及生存分析,共篩選出20個關鍵基因,其中CCNA2、DLGAP5、HMMR、MMP1、MMP9、MMP13、SPP1、TOP2A等8個基因對肺腺癌有預后價值。在生物過程方面,DEGs主要涉及膠原代謝、蛋白水解、免疫反應等生物過程,介導血清型內肽酶活性、金屬內肽酶活性等分子功能,DEGs基因產物主要富集于細胞外基質、胞外、細胞黏附。研究證明,細胞外基質與受體相互作用參與細胞黏附、細胞周期以及細胞增殖,而這些是導致肺癌中腫瘤增殖和細胞凋亡的關鍵[17-18]。本研究中肺腺癌關鍵基因富集的通路主要與PPAR信號通路、PI3K-AKT信號通路、TGF-β信號通路及細胞周期信號通路密切相關,該結果與Tang等人的研究結果相符[19]。
DLGAP5是細胞周期調控基因的表達產物[25],在肝細胞癌、腦膜瘤和腎上腺皮質瘤等癌癥中的表達水平隨疾病侵襲性升高而升高[26],因此推測周期調控基因DLGAP5可能在肺癌的免疫浸潤方面存在一定作用。另一方面,DLGAP5與視網膜母細胞瘤的發生、浸潤有關[27],且已在肺腺癌中被證實為生物診斷標志物。因此,DLGAP5和SPP1基因作為腫瘤微環境中浸潤性免疫細胞重要組成部分,可有效預測患者預后[28]。
浸潤性免疫細胞是腫瘤微環境的重要組成部分,可有效預測患者預后。本研究用“反卷積算法”分析了數據庫中肺腺癌樣本組織中免疫細胞構成及正常肺組織與肺腺癌組織中免疫細胞浸潤情況,發現肺腺癌組織免疫細胞構成情況與在正常肺組織有明顯差異,肺腺癌組織中免疫細胞數量較多主要是未活化的CD4+記憶性T細胞、記憶性B細胞、濾泡輔助性T細胞、調節性T細胞、嗜酸性粒細胞、M0巨噬細胞,且巨噬細胞M0、中性粒細胞數量與肺腺癌浸潤程度有關,提示這些免疫細胞參與了肺腺癌的發生與發展。巨噬細胞是腫瘤中主要的免疫浸潤細胞,是連接炎癥和癌癥的關鍵細胞類型[29],主要為巨噬細胞M1和巨噬細胞M2。巨噬細胞M1可激活細胞因子的產生,募集前免疫刺激白細胞TME,導致腫瘤細胞的吞噬作用,而M2型巨噬細胞可通過基底膜破裂、白細胞募集、血管生成和免疫促進腫瘤的發展[30-31]。有研究表明,巨噬細胞M1水平的增加腫瘤患者預后較好[32],而巨噬細胞M2水平的增加預后較差[33]。在免疫細胞浸潤分析中發現,DLGAP5和SPP1低表達的樣品中M2巨噬細胞增多。M2巨噬細胞具有激活腫瘤細胞增殖的作用,更重要的是可釋放多種細胞因子抑制淋巴T 細胞功能,成為影響 T 淋巴細胞功能和促進腫瘤細胞免疫逃逸的重要因素[34]。前期研究發現,SPP1過表達可參與肺腺癌 A549 細胞誘導的巨噬細胞的 M2 極化,進而減弱了 T 淋巴細胞活性,促進A549 細胞增殖、遷移和侵襲[35]。在A549細胞上清液促進了THP-1巨噬細胞向M2的極化,而敲除巨噬細胞中SPP1的可逆轉這一過程,以上均表明SPP1在A549細胞和腫瘤微環境中起重要作用[36]。
研究發現DLGAP5及SPP1與肺腺癌患者的預后生存相關,DLGAP5、SPP1表達越高,則肺腺癌患者預后生存越差;同時,DLGAP5、SPP1基因表達水平與肺腺癌組織免疫細胞浸潤密切相關。因此,DLGAP5、SPP1有望成為肺腺癌潛在的診斷和預后生物標志物以及免疫相關治療靶點,尚需進一步研究證實。