洪 佳,李 汛
(武漢大學人民醫院:1.婦產科;2.感染科,湖北武漢 430060)
結核病是由結核分枝桿菌復合群(MTBC)感染所導致的一種嚴重危害人類健康的疾病。據世界衛生組織報道,2017年全球新發結核病患者約1 000萬,結核病死亡人數約為157萬[1]。結核分枝桿菌幾乎可以引起身體任何部位的感染,而且,結核分枝桿菌感染后臨床疾病譜表現多樣,可從無癥狀發展至危及生命的急性傳染病[2-3]。根據臨床表現的不同,結核感染可分為潛伏結核感染(LTBI)和活動性結核,前者沒有任何癥狀,也沒有傳染性;而后者可有典型的結核癥狀,包括發熱、乏力、納差及體質量減輕等[4]。盡管已有許多技術應用于診斷結核病,包括T細胞斑點檢測(T-SPOT.TB)、結核分枝桿菌及利福平耐藥快速檢測技術(Xpert?MTB/RIF)等。但是,目前對于一些肺外結核的診斷仍十分困難,尤其是在無明確感染病灶的情況下。因此,尋找新的生物標志物來輔助診斷活動性結核,特別是肺外結核顯得尤為重要?;蛐酒夹g能夠快速地檢測上萬個基因表達水平,已廣泛應用于各類疾病基因組水平差異表達的篩選[5]。GEO數據庫是一個公共功能基因組數據存儲庫,接受世界各國研究機構提交的基于數組和序列的高通量基因表達數據[6-7]。本研究通過分析GEO數據庫中結核分枝桿菌感染患者血液基因芯片表達譜數據,旨在尋找新的生物標志物來提高對活動性結核的診斷效率,以期為臨床診斷活動性結核提供新的指標。
1.1數據集獲取 登陸美國國立生物技術信息中心(NCBI)GEO數據庫下載基因表達芯片GSE19491、GSE25534和GSE31348。GSE19491芯片中含有498份人類血液標本,本研究選取其中健康人群(n=36)、LTBI患者(n=69)及活動性結核患者(n=54)全血基因芯片數據為研究對象。GSE25534芯片中含有51份人類血液標本,本研究選取其中健康人群(n=6)、LTBI患者(n=22)及活動性結核患者(n=23)全血基因芯片數據為研究對象。GSE31348芯片中含有135份人類血液標本,來自27例肺結核患者,包括采取2HRZE/4HR方案抗結核治療前,以及治療后1、2、4、26周5個時間點的全血基因芯片數據。
1.2分析方法 采用GEO數據庫在線數據分析工具GEO2R[8]對GSE19491和GSE25534兩組芯片數據進行分析,獲取差異表達基因(DEGs),并應用FunRich3.0軟件(http://www.FunRich.org/)獲取目的基因及核心基因。差異基因的篩選條件為差異倍數log fold change>1.5,Padjust<0.05。分別對兩組芯片中健康人群與活動性結核患者、健康人群與LTBI患者、LTBI患者與活動性結核患者這3組進行單獨分析,獲取3組DEGs,包括DEGs NOR與ACTB、DEGs NOR與LTBI、DEGs LTBI與ACTB。對比DEGs NOR與ACTB、DEGs LTBI與ACTB,提取兩者中的共表達基因,將提取的基因和DEGs NOR與LTBI進行對比,剔除其中的重合表達基因,獲得目的基因。兩組芯片的目的基因中交集的部分基因為本研究的核心基因。利用在線基因注釋工具Metascape (http://www.metascape.org)對核心基因進行GO富集分析和京都基因與基因組百科全書(KEGG)信號通路富集分析,并運用在線分析工具STRING 11.0 (https://string-db.org)構建核心基因編碼蛋白的相互作用網絡。提取GSE31348芯片中核心基因表達的數據,觀察核心基因表達水平在抗結核治療前后的變化。

2.1核心基因的篩選 對GSE19491基因芯片進行分析發現,DEGs NOR與ACTB中共有差異基因129個,DEGs NOR與LTBI中共有差異基因219個,DEGs LTBI與ACTB中共有差異基因274個,其中在DEGs NOR與ACTB、DEGs LTBI與ACTB中重合表達的差異基因有32個,剔除在DEGs NOR與LTBI中重合表達的1個基因,剩余31個目的基因,見圖1A。對GSE25534基因芯片進行分析發現,DEGs NOR與ACTB中共有差異基因73個,DEGs NOR與LTBI中共有差異基因43個,DEGs LTBI與ACTB中共有差異基因97個,其中在DEGs NOR與ACTB和DEGs LTBI與ACTB中重合表達的差異基因有37個,剔除在DEGs NOR與LTBI中重合表達的1個基因,剩余36個目的基因,見圖1B。取兩組目的基因交集,獲得核心基因13個,分別為AIM2、ANKRD22、BATF2、C1QB、CARD17、CD274、EPSTI1、ETV7、FCGR1B、GBP1、GBP5、P2RY14和RSAD2,見圖1C。

注:A為GSE19491基因芯片集中目的基因的篩選;B為GSE25534基因芯片集中目的基因的篩選;C為核心基因的篩選;NOR與ACTB為健康人群與活動性結核DEGs;LTBI與ACTB為LTBI與活動性結核DEGs;NOR與LTBI為健康人群與LTBI DEGs。
2.2GO及KEGG富集分析 運用在線分析工具Metascape對核心基因進行GO及KEGG富集分析,結果發現核心基因的主要功能主要集中在GO:0050663 cytokine secretion、0071346 cellular response to interferon gamma、0098542 defense response to other organism、0002250 adaptive immune response及0009617 response to bacterium。KEGG信號通路分析的唯一結果為hsa04621 NOD樣受體相關信號通路。見圖2。

圖2 核心基因GO及KEGG富集分析
2.3核心基因編碼蛋白的相互作用網絡分析 運用在線分析工具STRING 11.0 (https://string-db.org)構建核心基因編碼蛋白相互作用網絡。從蛋白相互作用網絡可發現,10種基因的編碼蛋白能夠相互作用,其中GBP5是基因連接度最高的hub基因,其次為GBP1和RSAD2,見圖3。
2.4核心基因在GSE31348基因芯片中的表達 為了驗證篩選出的核心基因是否在活動性結核中差異表達,本研究進一步提取了活動性肺結核患者的基因表達芯片GSE31348中核心基因表達的數據,除基因CARD17數據缺失外,其余核心基因表達數據均能成功獲取。通過對上述基因的表達情況進行分析,結果發現與治療前(0周)相比,所有核心基因表達水平在患者接受抗結核分枝桿菌治療后均有不同程度的下降,尤其是在第26周,下降幅度最明顯(P<0.05),見圖4。

圖3 核心基因編碼蛋白相互作用網絡

注:所有數據經過log2處理,與抗結核治療前(0周)相比,*P<0.05。
結核病是一種古老的疾病,雖然在全球范圍內結核病患者數不斷下降,但是其整體負擔仍較重。得益于新的診斷技術的應用,絕大多數結核病都能夠被及時準確地診斷。T-SPOT.TB是一種以T細胞為基礎的γ-干擾素釋放試驗(IGRA),其原理是通過檢測被結核分枝桿菌特異性早期分泌靶抗原6和培養濾液蛋白10分別刺激后釋放γ-干擾素的效應T細胞,以輔助診斷結核分枝桿菌感染[9]。IGRA是基于結核特異性抗原誘導的細胞免疫反應,在感染結核分枝桿菌后均可能獲得陽性結果,包括活動性結核、LTBI和既往結核病史患者[10]。因此,IGRA陽性結果反映體內曾發生過結核分枝桿菌感染的意義更大,而不能有效區分活動性結核、LTBI或既往結核分枝桿菌感染。Xpert?MTB/RIF是一種用于檢測結核分枝桿菌復合物的自動化診斷測試,這是一種基于DNA的檢測結核分枝桿菌rpoB基因的方法,還能檢測rpoB中可能導致利福平耐藥的突變[11]。Xpert?MTB/RIF是世界衛生組織推薦的用于結核病“快速”診斷的方法,它比涂片鏡檢的靈敏度、特異度更高,但是需要特定的組織或體液標本。對于肺外結核,尤其是不能明確感染部位者,由于難以獲得病變部位的組織或體液標本得到細菌學證據,因此,診斷仍十分困難[12]。
為了提高活動性結核,尤其是肺外活動性結核的診斷效率,本研究以生物信息學方法,分析了健康人群、LTBI和活動性結核患者的基因表達情況,篩選活動性結核患者特異表達的差異基因。本研究首先將健康人群與活動性結核患者進行對比,提取了二者之間的差異基因。為了區別LTBI與活動性結核,本研究進一步提取了LTBI和活動性結核患者之間的差異基因。將兩組差異基因對比,并且取其中的交集部分,使獲得的目的基因能同時將活動性結核與LTBI和健康人群加以區分。為了使目的基因能夠特異性反映活動性結核,避免LTBI患者的干擾,本研究分析了健康人群與LTBI患者的基因表達情況,獲取了二者之間的差異基因,并將后者與目的基因進行交集,刪除目的基因中重合表達的部分。為了進一步提高目的基因的特異性,本研究分別提取了GSE19491和GSE25534的目的基因,并將兩個目的基因集進行交集,最終獲得核心基因13個。
將13個核心基因進行功能富集,結果發現這些核心基因的功能主要與細胞因子的分泌、細胞對γ-干擾素的反應、適應性免疫和細菌感染反應等相關,而信號通路為固有免疫中的NOD樣受體相關信號通路。從以上結果可以發現,機體對抗結核分枝桿菌感染時以NOD樣受體相關信號通路為主,涉及機體固有免疫、適應性免疫、細胞γ-干擾素的反應、細胞因子的分泌等。
對以上核心基因編碼的蛋白構建相互作用網絡,結果發現其中的10種基因的編碼蛋白能夠相互作用,其中GBP5、GBP1和RSAD2是基因連接度較高的幾個hub基因,由此可推測GBP5、GBP1和RSAD2可能在機體對抗結核分枝桿菌過程中發揮核心作用。
為了進一步觀察本研究所篩選出的核心基因在活動性結核患者體內的表達情況,進一步提取了以上核心基因在GSE31348芯片中的表達數據,結果顯示,隨著抗結核藥物治療時間的延長,核心基因的表達均呈現下降趨勢,在治療結束時的第26周下降幅度最為明顯。該結果表明,以上核心基因能夠反映活動性結核的病情變化情況,能夠作為指示活動性結核的指標。
鳥苷酸結合蛋白 (GBPs)是一類干擾素誘導的GTP酶,可促進細胞內脂多糖(LPS)與caspase-11相互作用,激活非典型炎性小體[13]。KIM等[14]證實,鼠類GBPs是控制單核增生李斯特菌和牛分枝桿菌感染的關鍵,mGBP1和mGBP7可通過募集NADPH氧化酶進入吞噬體,促進活性氧的形成,并通過與p62/SQSTM1和Atg4b的相互作用誘導自噬。有研究表明,GBP5及BATF2聯合另一指標SCARF可作為短期內發生活動性結核的預測指標[15]。這也證實本研究所篩選出的核心基因能夠反映活動性結核。曲婧格等[16]證實,系統性紅斑狼瘡患者RSAD2 mRNA的表達水平明顯升高,并與疾病程度及免疫功能密切相關。機體對抗結核分枝桿菌感染也是一個免疫過程,從本研究所挖掘的信息來看,RSAD2的水平應該與結核分枝桿菌的活動程度相關。
本研究基于生物信息學,從篩選出的核心基因在活動性肺結核患者血液中的表達水平來看,確實能夠作為反映結核分枝桿菌活動的指標,將這些標志物結合臨床有望提高活動性結核的診斷效率。但是,由于機體對抗病原微生物時,都有著類似的免疫過程,以上核心基因能否作為區別結核分枝桿菌感染與其他細菌感染的指標,尚待進一步驗證。