谷雨 王文俊 胡悅 王煒 孫英 黃克武
1首都醫科大學附屬北京朝陽醫院呼吸與危重癥醫學科 北京呼吸疾病研究所100020;2首都醫科大學基礎醫學院免疫學系,北京100069
COPD是一種以進行性、不可逆性氣道阻塞為主要特點的疾病,主要病理改變為肺部小氣道阻塞(慢性阻塞性細支氣管炎)和肺實質的破壞(肺氣腫)[1]。近年來,由于傳染病死亡率的降低和人均壽命的延長,COPD的患病率不斷上升。中國肺健康研究顯示,根據肺活量檢測定義的COPD的總體患病率為8.6%,在20歲以上的成年人中占9 990萬[2]。盡管目前認為,吸煙是COPD的主要危險因素,但COPD的發病機制尤其是細胞和分子機制,尚不十分明確,因此深入探索COPD的發病機制尤為重要。近年來,單細胞測序技術和生物信息學的發展為探究COPD發病的細胞和分子機制提供了更多的可能。但由于臨床標本來源有限,利用生物信息學方法對COPD患者肺組織的基因表達及其功能的研究較少,且缺乏相關的免疫細胞類群分析。因此,本研究旨在通過分析COPD患者肺組織中的差異表達基因,篩選出與COPD疾病進展有關的Hub基因,并結合免疫細胞類群分析,探究其在COPD疾病進展中的作用。
1.1 數據來源 從美國國立生物技術信息中心(NCBI,https://www.ncbi.nlm.nih.gov/)的GEO(Gene Expression Omnibus)數據庫中下載表達譜芯片GSE106986,芯片數據是基于GPL13497平臺的Agilent-026652 Whole Human Genome Microarray 4x44K v2所獲得的轉錄本生物信息。該芯片數據分為2組樣本,共19個肺組織樣本,其中一組為14例COPD患者肺組織樣本(GSM2858891-GSM2858904),另一組為5名正常人肺組織樣本(GSM2858905-GSM2858909)。
1.2 數據預處理和差異表達分析 使用R的“GEOquery”包下載數據后,使用R的“limma”包進行數據預處理和差異表達分析:先對數據進行歸一化處理,結合GPL13497平臺注釋文件的信息,將探針ID轉換成基因名稱,去除沒有對應基因的探針,對于僅與一個基因名稱匹配的幾種探針,計算探針的平均表達值并將其視為最終基因表達值,通過t檢驗計算P值,使用Benjamini&Hochberg方法對P值進行校正。通過無監督層次聚類分析觀察2組樣本之間是否存在表達差異,之后篩選差異基因,差異基因的篩選條件為差異倍數|log2FoldChange|>2且P<0.05,繪制火山圖來展示差異表達的基因。
1.3 功能富集分析 使用R的“ClusterProfiler”包對其差異表達基因分別進行基因本體論生物學功能富集分析和京都基因與基因組大百科全書(Kyoto Encyclopedia for Genes and Genomes,KEGG)信號通路富集分析。基因本體論富集包括生物過程、細胞學組分與分子功能3個類別[3]。KEGG由系統信息、基因組信息、化學信息與健康信息4類數據庫組成,利用KEGG數據庫[4]對差異基因的轉錄本進行通路分析。P<0.05為有統計學意義。
1.4 差異表達基因所調控蛋白質互作網絡與Hub基因篩選 STRING(https://string-db.org/)數據庫是一個用來構建蛋白互作網絡的在線工具。將差異表達的基因導入到STRING數據庫中,設置最低相互作用分值為0.4,獲得差異基因之間的相互作用關系,之后下載數據,通過Cytoscape及其相應的插件進行可視化分析并獲得Hub基因。
1.5 免疫細胞類群分析 使用CIBERSORT數據庫,對經歸一化處理的2組樣本的基因表達進行免疫細胞類群分析,得到了2組樣本之間肺組織中免疫細胞類群分析的結果。
2.1 COPD患者和正常人2組樣本的肺組織差異表達基因篩選 用R的“limma”包對表達譜數據集GSE106986進行處理,主成分分析(圖1)和無監督層次聚類分析(圖2)結果表明,2組樣本的基因表達存在明顯差異。使用差異倍數|logFC|>2且P<0.05為篩選條件,共找到47個差異表達基因(圖3),其中上調基因有37個,下調基因有10個,表達差異前10位的基因見表1。

圖1 2組樣本肺組織中表達基因的主成分分析結果

圖2 2組樣本肺組織中表達基因的無監督層次聚類分析結果
2.2 2組樣本肺組織差異表達基因的KEGG通路聚類分析結果 在篩選出差異表達基因后,對差異表達基因進行了KEGG通路聚類分析(圖4)。如圖4的KEGG通路聚類分析所示,紅色代表上調基因的通路聚類結果,藍色代表下調基因的通路聚類結果,其中上調的基因主要參與瘧疾、氨基糖和核苷酸的糖代謝、果糖和甘露糖代謝以及補體和級聯凝血途徑,下調的基因主要參與脂肪酸生物合成過程。

圖3 2組樣本肺組織中差異表達基因的火山圖

表1 2組樣本肺組織的差異表達基因中下調與上調的前五位基因

圖4 2組樣本肺組織中差異表達基因的KEGG富集分析
2.3 2組樣本肺組織差異表達基因的基因本體論功能富集分析結果中的生物過程 基因本體論富集分析圖所示,圖中的顯著性變化以顏色表示,顏色從藍色到紅色表示差異越來越顯著,參與基因數目以圓形面積的大小表示,參與調控某一通路和功能的基因數目越多,圓形的面積越大。基因本體論富集包括生物過程、細胞學組分與分子功能3個類別(圖5~7)。結果表明,差異表達基因在生物過程中主要參與對細菌的防御反應、細胞外基質和結構的形成、創傷反應的調節和負性調節凝血過程等。見圖5。

圖5 2組樣本肺組織差異表達基因的基因本體論富集分析結果中的生物過程
2.4 2組樣本肺組織差異表達基因的基因本體論功能富集分析結果中的細胞學組分 在細胞學組分方面,差異表達基因主要參與內質網腔、血小板α顆粒和血小板α顆粒腔等。見圖6。

圖6 2組樣本肺組織差異表達基因的基因本體論富集分析結果中的細胞學組分
2.5 2組樣本肺組織差異表達基因的基因本體論功能富集分析結果中的分子功能 在分子功能方面,差異表達基因主要涉及與糖胺聚糖結合、肝素結合和雙加氧酶活性。見圖7。

圖7 2組樣本肺組織差異表達基因的基因本體論富集分析結果中的分子功能
2.6 2組樣本肺組織差異表達基因的蛋白質互作網絡分析 為了獲得差異表達基因的蛋白質互作調控網絡,通過STRING數據庫分析了差異表達基因的蛋白互作網絡,然后將互作數據在Cytoscape軟件中進行可視化。結果顯示,差異表達基因的蛋白質互作網絡包含21個節點,紅色代表上調基因,藍色代表下調基因。靶點的度值表示相互作用的靶點個數,靶點度值較大的靶點在蛋白質互作網絡中發揮了關鍵作用,節點的大小與靶點度值呈正比。見圖8。
2.7 2組樣本肺組織差異表達基因中Hub基因的篩選 在得出蛋白質互作網絡結果后,又進行了Hub基因的篩選。以靶點度值≥5作為篩選標準,共篩選出5個Hub基因:FGG、FGA、IL-6、SERPINE1和SPP1。見圖9。
2.8 2組樣本肺組織的免疫細胞類群分析 將下載的數據進行歸一化處理后,使用CIBERSORT數據庫對2組樣本的肺組織基因表達情況進行免疫細胞類群分析。結果示,與正常人的肺組織相比,COPD患者肺組織中適應性免疫細胞如記憶B細胞、漿細胞、CD8+T細胞、靜息CD4+記憶T細胞、濾泡輔助性T細胞、調節性T細胞以及固有免疫細胞如單核細胞、M1型巨噬細胞、M2型巨噬細胞、靜息樹突狀細胞、活化的樹突狀細胞、活化的肥大細胞和嗜酸粒細胞都有顯著增加。見圖10。
COPD是一種病因不明的、以慢性氣道炎癥為主要病理改變、以不可逆性氣流受限為主要特征的慢性炎癥性疾病。雖然吸煙是COPD的主要危險因素,但全球范圍內仍有1/3的COPD患者沒有吸煙史[1]。且研究表明,空氣污染、生活燃料的燃燒、營養不良和住房潮濕等也會導致COPD的發生[5-6]。因此,探索COPD的發病機制尤為重要。近年來,隨著RNA測序技術和生物信息分析的發展,應用高通量測序和生物信息學方法為我們從細胞和分子水平揭示COPD的機制及其治療靶點提供了可能。
本研究通過GEO數據庫和差異表達基因所調控蛋白質互作網絡,共篩選出5個Hub基因:FGG、FGA、IL-6、SERPINE1和SPP1。這些基因在COPD患者的肺組織中都上調,其中FGG上調4倍以上。FGG是纖維蛋白原γ鏈,屬于纖維蛋白原家族成員,是系統性炎癥的標志物。以往有研究表明,外周血中FGG含量的增高與COPD患者疾病的嚴重程度及急性加重[7]、肺功能降低和COPD的發生風險增加有關[8-9]。但COPD患者增高FGG的來源及其在COPD發生、發展中的具體作用還有待進一步研究。FGA同屬于纖維蛋白家族,是纖維蛋白原α鏈,目前尚未有研究報道FGA與COPD之間的關系。IL-6是一種促炎細胞因子,有研究表明,COPD患者外周血和痰液中IL-6的水平顯著升高且與肺功能呈負相關[10-12],IL-6基因的變異與COPD相關[13]。穩定期COPD患者血清中IL-6的增高與急性加重密切相關[14]。有研究表明,吸煙與PAI-1水平升高有關[15],且與對照組相比,COPD患者痰中的SERPINE1增多[16]。但SERPINE1在COPD病理學中的作用以及靶向纖溶酶原激活物對減輕炎癥的療效目前尚不清楚。

圖8 2組樣本肺組織中差異表達基因的蛋白質互作網絡結果

圖9 2組樣本肺組織的差異表達基因中Hub基因的篩選
SPP1蛋白是由多種細胞(如巨噬細胞、自然殺傷細胞和上皮細胞等)分泌的一種糖磷酸蛋白[17-18]。研究發現,SPP1與多種疾病包括惡性腫瘤[19]、自身免疫性疾病和肺纖維化等的發病機制及不良預后有關[20-21]。已有證據表明,單核細胞衍生的SPP1能上調IL-12和IL-6的表達,下調IL-10的表達,并能作為巨噬細胞和中性粒細胞的趨化因子[22]。有研究發現,吸煙者肺泡巨噬細胞SPP1的表達升高與氣道阻塞程度相關[23],提示COPD患者肺中SPP1的升高在肺氣腫的發展過程中發揮一定的作用[24]。已知SPP1與PI3K-Akt信號通路[25-26]、巨噬細胞和樹突狀細胞的Toll樣受體信號通路的活化[27-29]密切相關,而這兩條通路活化所介導的慢性炎癥與COPD的發生、發展也密切相關[30-31]。本研究對2組樣本的肺組織進行免疫細胞類群分析后發現,COPD患者肺組織中增加的固有和適應性免疫細胞主要為活化的T、B細胞、單核細胞、活化的巨噬細胞、樹突狀細胞、活化的肥大細胞和嗜酸粒細胞。這些免疫細胞都可能在COPD的發生、發展中發揮作用。有研究表明,活化的樹突狀細胞參與COPD的發病機制[32],且不同表型的巨噬細胞在COPD中也發揮重要作用[33]。有研究表明,SPP1能作為巨噬細胞的趨化因子存在,且能上調炎性細胞因子IL-6的表達[22]。此外,我們通過在Human Protein Atlas數據庫搜索發現,肺組織中的SPP1主要來源為巨噬細胞。因此我們認為,COPD患者肺組織中增多的SPP1可能來源于巨噬細胞,且它們可能通過作用于樹突狀細胞、單核細胞或巨噬細胞來參與COPD的發生、發展。因此,接下來我們將收集臨床標本,進一步研究SPP1在COPD中的作用。目前尚不清楚肥大細胞和嗜酸粒細胞在COPD中的作用,但已有證據表明,COPD患者肺組織中肥大細胞的數量增加[34-35],且隨疾病嚴重程度的不同,細胞的密度和表型不同[36]。此外,有研究表明,肺組織中嗜酸粒細胞增多已成為COPD的臨床表型之一[37-39],且可能與COPD急性加重有關[40]。本研究中所發現的肥大細胞和嗜酸粒細胞增高是否具有共性尚待進一步研究。

圖10 2組樣本肺組織的免疫細胞類群分析
Hub基因是蛋白互作網絡中的核心基因,在疾病的發生、發展過程中可能發揮重要作用。因此,針對Hub基因的研究可能為COPD發病機制的研究提供新的方向。由于缺少在臨床樣本上的驗證,本研究也存在一定的不足,之后我們將收集相關的臨床樣本,進一步探討Hub基因SPP1在COPD中的作用和具體的機制。
綜上所述,COPD患者肺組織中增多的SPP1可能來源于巨噬細胞,且很可能通過作用于樹突狀細胞、單核細胞或巨噬細胞來參與COPD的發生、發展。這為進一步在細胞和分子水平研究COPD發生、發展的相關機制提供了指導,也為探索新的COPD治療靶點提供了依據。
利益沖突 所有作者均聲明不存在利益沖突