劉兆宇,胡臘,曾子成,林海,李明,易高,姚文霞
(廣州醫科大學附屬第五醫院,廣州510700)
慢性阻塞性肺病(COPD)是一種以氣流受限,且不完全可逆的一種常見病和多發病[1~3]。CODP的臨床特征往往表現為咳嗽、咳痰,并且伴隨有氣流受限、肺功能下降等病理特征。目前,COPD影響人口約3.3億,造成的經濟成本約2.1萬億美元[4]。隨著大氣污染日益加重,煙草人群增多和人口老齡化等因素,預計到2020年COPD講發展為全球第三大死亡原因[5]。長久以來,COPD的發病機制并不十分清楚,涉及的機制比較復雜。一般認為,COPD是一種慢性炎癥性疾病,以持續性氣道炎癥、肺功能惡化等為主要特征[6,7]。以往的大多數研究主要針對單個或數個基因與COPD相關性及生物學功能研究,盡管能闡明部分基因在COPD發展進程中的作用,然而并不能全面的探究COPD的形成。近年來隨著生物技術的發展,高通量測序和基因芯片已經在COPD、哮喘等疾病中有了廣泛的應用,并為相關疾病的診斷、治療靶點提供了可靠的思路[8~10]。本研究通過生物信息學等方法篩選基因芯片GSE37768中COPD肺組織中差異表達基因,并分析COPD相關基因的功能以及構建相關基因編碼蛋白的相互作用網絡,為進行下一步研究COPD發生發展的分子機制提供基礎。
1.1 芯片數據來源介紹 從美國國立生物技術信息中心(NCBI,https://www.ncbi.nlm.nih.gov/)的GEO(Gene Expression Omnibus)數據庫中下載COPD表達芯片GSE57148。該COPD表達芯片數據由漢城國立大學的JaeHyun Lim等上傳,包括98個COPD肺組織樣本(GSM1376077~GSM1376174)和91個正常肺組織標本(GSM1375986~GSM1376076),均為mRNA表達譜數據。
1.2 COPD中差異表達基因分析 下載COPD表達譜芯片GSE57148的表達數據和相應探針后,通過R軟件(R version 3.5.0)對表達數據進行標準化,然后采用R軟件擴展包“DESeq”進行差異表達基因分析。
1.3 COPD差異表達基因基因本體功能富集分析及調控通路分析 基因本體(GO)分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)分析是目前廣泛應用于芯片數據分析的方法,能夠對大規模的基因組數據進行功能分析和通路富集。我們采用R軟件擴展包“clusterProfiler”分析COPD中信號通路的富集情況,以P<0.05作為顯著性標準,對差異基因進行功能注釋,并分析其中涉及的相關通路。
1.4 COPD差異表達基因所調控蛋白互作網絡與關鍵基因分析 STRING(https://string-db.org/)是常用來構建蛋白相互作用網絡的工具。在最新版的數據中收集包含了5 090個物種中的24 584 628種蛋白之間的相互作用。我們將COPD中差異表達的基因導入到STRING11.0數據庫中分析,并設置最低相互作用分值為0.4,獲得差異基因之間的相互作用關系。在STRING數據庫中獲得差異基因之間的相互作用關系后,將數據下載,然后通過Cytoscape(Version 3.7.1)進行可視化,并通過相應的插件“cytoHubba”分析獲得Hub基因。
2.1 COPD肺組織中差異表達基因的篩選結果 通過對芯片數據進行分析,以表達量變化2倍,P<0.05為標準,在COPD肺組織中我們發現117個基因為差異表達基因,其中發生上調的基因有63個,發生下調的基因有54個。以表達量變化1.5倍,P<0.05為標準,在COPD肺組織中有642個基因差異表達,其中380個基因發生上調,262個基因發生下調。差異表達基因中上調最明顯的為HIST1H4A、CCKAR、TCF23、COL11A1、CDKL5,分別上調了7.5倍、5.1倍、4.6倍、3.9倍和3.5倍;下調最明顯的基因為PRAMEF21、FAM21B、RTBDN、GPR89C和CSAG1,分別下調了21.9倍、16.8倍、13.5倍、9.8倍和8.1倍。
2.2 COPD差異表達基因的GO功能和調控通路分析結果 在分析COPD肺組織中的差異性表達基因后,采用GO分析和KEGG分析研究COPD中差異性表達基因參與的信號通路激活情況。首先,分析差異基因主要參與的生物學過程發現這些基因主要參與細胞外結構組織(GO:0043062:extracellular structure organization)、細胞外基質組織(GO:0030198:extracellular matrix organization)、妊娠中的母性過程(GO:0060135:maternal process involved in female pregnancy)、外部刺激的正向調控(GO:0032103:positive regulation of response to external stimulus)和膠原纖維組織(GO:0030199:collagen fibril organization);主要分子功能為受體配體活性(GO:0048018:receptor ligand activity)、激素活性(GO:0005179:hormone activity)、細胞因子活性(GO:0005125:cytokine activity)、細胞色素c氧化活性(GO:0004129:cytochrome-c oxidase activity)和氧化還原活性(GO:0016676:oxidoreductase activity);而主要細胞組份為線粒體呼吸鏈復合物IV(GO:0005751:mitochondrial respiratory chain complex IV)、呼吸鏈復合物IV(GO:0045277:respiratory chain complex IV)、細胞外基質(GO:0031012:extracellular matrix)、血小板α顆粒官腔(GO:0031093:platelet alpha granule lumen)和纖維狀膠原三聚體(GO:0005583:fibrillar collagen trimer)。
在以P<0.05的標準下,KEGG信號通路富集分析表明COPD肺組織中差異性表達基因主要激活的信號通路有阿米巴蟲病(Amoebiasis)、精氨酸生物合成(Arginine biosynthesis)、補體與凝血級聯(Complement and coagulation cascades)、ECM受體相互作用(ECM-receptor interaction)和細胞因子-細胞因子相互作用(Cytokine-cytokine receptor interaction);主要抑制的信號通路有α-亞麻酸代謝(alpha-Linolenic acid metabolism)、醚酯代謝(Ether lipid metabolism)、核糖體(Ribosome)、亞油酸代謝(Linoleic acid metabolism)和Ras信號通路(Ras signaling pathway)。
2.3 COPD差異表達關鍵基因的篩選結果 為了通過分析COPD肺組織中差異表達基因來獲得相應的調控互作網絡,找出與COPD發生發展相關的關鍵基因,我們通過在線網站STRING分析差異表達基因的蛋白互作網絡和Hub基因。通過STRING數據庫,我們獲得了一份包含差異基因的433條互作關系的蛋白相互作用網絡。然后,將互作數據在Cytoscape軟件中進行可視化和Hub基因確認并展示出來,結果顯示Hub基因分別為VWF、FGG、IGF1、F5、RPS15、RPS12、SEC61B、THBS1和F13A1,它們之間存在較強的相互作用關系,可能是COPD發生發展的關鍵基因,為進一步探索COPD的發病機制、提供診斷和治療靶點提供基礎。
COPD的形成是一個非常復雜的生物學過程,一般認為是一種慢性炎癥性疾病,在發病過程中包括巨噬細胞、上皮細胞、中心粒細胞等多種細胞參與[11,12]。細胞生物學、分子生物學等方法是目前研究COPD的主要手段和方法,然而高通量測序、基因芯片結合生物信息的方法的應用為我們從分子水平揭示COPD的發生、發展機制提供了可能[13,14]。在本研究中,我們采用生物信息學方法分析了COPD肺組織和正常肺組織中的差異表達基因,發現變化2倍的基因有117個,變化1.5倍的基因有642個,并采用GO分析、KEGG分析了富集的信號通路,并通過蛋白-蛋白相互作用網絡分析了COPD相關的關鍵基因。
在117個變化2倍的差異基因中,表達上調的有63個,表達下調的有54個,其中變化5倍的基因有15個。通過GO分析發現,這些基因主要參與細胞外結構形成、細胞外基質形成、膠原纖維化和氧化還原活性等。細胞外基質改變,纖維化和氧化還原活性提高是COPD的基本病理特征[15~17]。多項研究表明,COPD肺組織存在纖維化情況,與纖維化相關的基因出現高表達。Bihlet等發現,COPD患者中性粒細胞彈性蛋白酶降解彈性蛋白,慢性炎癥誘導Ⅵ型膠原大量累積[18],Ⅰ型膠原蛋白、Ⅲ型膠原蛋白、Ⅳ型膠原、纖連蛋白、層粘連蛋白β2表達量增加[19]。
隨后,我們通過構建蛋白—蛋白互作網絡分析一共發現了433條互作關系,獲得的Hub基因分別為VWF、FGG、IGF1、F5、RPS15、RPS12、SEC61B、THBS1、F13A1,其中FGG屬于纖維蛋白原家族成員,是系統性炎癥的標志物。研究表明,fibrogen表達量的提高與肺功能降低、COPD發生的風險增加[20,21]。Hub基因是蛋白相互作用網絡中的核心基因,在生物學過程中可能發揮了十分關鍵的作用,因此針對這些基因的進一步研究將可能為COPD的相關研究提供進一步的思路。由于缺少臨床樣本,本研究才存在一定不足,下一步我們將收集相關臨床樣本,研究相關關鍵基因在COPD疾病進程中的作用和相關機制。
綜上所述,本研究采用生物信息學分析的方法對COPD高通量數據GSE57148進行了分析,獲得了COPD肺組織中的差異表達基因。通過這這些差異基因的GO分析和KEGG信號通路富集分析,揭示了COPD肺組織中主要涉及的信號通路,并通過蛋白互作網絡初步構建了VWF、FGG、IGF1、F5、RPS15、RPS12、SEC61B、THBS1、F13A1等為COPD相關的關鍵基因,為進一步在細胞和分子水平研究COPD發生發展的分子機制提供指導,為后續COPD的臨床診治提供依據。