高 巖 彭英杰 吳尚英 王媛媛
1 山東省濰坊市婦幼保健院 261000; 2 濰坊市人民醫(yī)院; 3 北京大學深圳醫(yī)院
糖尿病(Diabetes Mellitus,DM)是一種由胰島素分泌缺陷或其生物作用受損或兩者兼有引起的,以高血糖為主要特點的慢性代謝紊亂性疾病[1]。2021年全球約有5億多成年人(20~79歲)患有糖尿病,預(yù)計這一數(shù)字還會持續(xù)增加[2]。結(jié)核病(Tuberculosis,TB)是由于結(jié)核分枝桿菌感染(Mycobacterium tuberculosis,Mtb)引起的慢性傳染病,可在多個器官中發(fā)病,其中肺結(jié)核的發(fā)病率在80%以上[3]。2022年世界衛(wèi)生組織報告顯示:2021年新增結(jié)核病感染人數(shù)1 060萬,并且耐藥結(jié)核病同比增長3%,死亡人數(shù)達到160萬[4],嚴重危害中國公共衛(wèi)生安全問題。而中國恰好是DM和TB的雙重高負擔的大國,如何防治成為一個亟待解決的問題。
雖然大量研究表明DM和TB有許多共同危險因素,例如免疫功能低下或損傷。使得在DM患者中TB患病率增加,反之亦然[5]。但DM和TB之間具體的影響因素和潛在的分子機制未知,對其治療缺乏具體的建議。因此,本研究結(jié)合生物信息學方法篩選了DM和TB之間與免疫系統(tǒng)相關(guān)的共表達基因,并預(yù)測了其Hub基因和靶向的miRNA,并通過在線數(shù)據(jù)庫進行驗證。希望本研究可以通過進一步了解DM和TB共同分子機制,來尋找可能的分子標志物。
1.1 數(shù)據(jù)的收集和納入標準 通過在GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)中以“Tuberculosis”“Diabetes mellitus”“Homo Sapiens”和“RNA”為關(guān)鍵詞進行檢索,獲得GSE95849和GSE149458數(shù)據(jù)集,其中包括了6例糖尿病樣本、6例健康樣本、10例結(jié)核病樣本和10例健康對照樣本。當前研究中包括的數(shù)據(jù)集是從公共數(shù)據(jù)庫下載的,因此不需要倫理委員會的額外批準,并且數(shù)據(jù)收集和使用是根據(jù) GEO網(wǎng)站發(fā)布指南和數(shù)據(jù)訪問政策進行的。
1.2 差異基因篩選 采用R軟件4.0.3中的limma軟件包,以調(diào)整后P<0.05且差異倍數(shù)>1.2作為篩選標準,得到TB與正常對照的差異表達基因(Differential Express Gene,DEG)。
1.3 加權(quán)基因共表達網(wǎng)絡(luò)分析 (WGCNA) 使用WGCNA的R軟件包在基因表達譜基礎(chǔ)上,計算軟閾值功率β,并提出共表達相似性以計算鄰接關(guān)系。然后,將鄰接關(guān)系轉(zhuǎn)換為拓撲重疊矩陣(TOM)來測量基因的網(wǎng)絡(luò)連通性。采用平均連鎖層次聚類法,把相似模式的基因聚類到相同模塊(最小=30),用簇樹的分支和不同顏色表示,構(gòu)建模塊關(guān)系,計算基因模塊與表型之間的關(guān)系,鑒定與臨床性狀相關(guān)的模塊。最后計算基因顯著性(GS)和模塊成員(MM)以將模塊與臨床特征相關(guān)聯(lián)(|MM| >0.8 and |GS| >0.1)獲得關(guān)鍵基因集。
1.4 GO、KEGG分析 采用R軟件4.0.3的cluster-profiler包對差異基因進行GO和KEGG富集分析,并用氣泡圖展示顯著富集通路。
1.5 免疫細胞浸潤評估 首先從CIBERSORT 網(wǎng)站下載的 R 腳本 (https://cibersortx.stanford.edu/),基于CIBER-SORT算法計算各樣本22種免疫細胞比例,使用SangerBox工具繪制疾病組與正常對照在免疫細胞浸潤方面差異。計算關(guān)鍵基因與浸潤免疫細胞之間的Spearman相關(guān)系數(shù)。
1.6 蛋白—蛋白相互作用(PPI)網(wǎng)絡(luò)構(gòu)建與模塊選擇 使用在線檢索相互作用基因的搜索工具STRING(https://string-db.org/)構(gòu)建DEGs中的PPI網(wǎng)絡(luò),分析蛋白質(zhì)之間的功能相互作用可以為疾病的發(fā)生和發(fā)展機制提供新的思路。使用Cytoscape軟件對PPI網(wǎng)絡(luò)進行可視化,利用cytoHubba插件篩選PPI網(wǎng)絡(luò)中前十的hub基因。
1.7 靶向hub基因的miRNA預(yù)測 使用miRWalk和miRNA Target等在線軟件預(yù)測靶向hub基因的miRNA,并使用Draw Venn Diagram繪制韋恩圖。
2.1 WGCNA對糖尿病關(guān)鍵基因識別和分析 為了對糖尿病關(guān)鍵基因進行識別和分析,采用WGCNA將GSE95849表達數(shù)據(jù)進行聚類分析,選擇閾值β為(9,0.25),平均連通性為β(9,333.74)使各基因調(diào)控關(guān)系符合無尺度分布(見圖1a、b)。為了進一步分析模塊,通過構(gòu)建共表達計算模塊特征基因的不相似性,來繪制模塊聚類樹狀圖,在合并了距離<0.25的模塊的基礎(chǔ)上,最終獲得了10個共表達模塊,值得注意的是grey模塊被認為是無法被分配給任何模塊的基因集合(見圖1c、d)。為尋找與糖尿病最為相關(guān)模塊,構(gòu)建了模塊與表型相關(guān)性熱圖(見圖1e),結(jié)果發(fā)現(xiàn)orangered3相關(guān)性最高(相關(guān)系數(shù)=0.79,P=2.3e-3)。然后分析orangered3模塊成員與DM基因具有顯著相關(guān)性(見圖1f)。從orangered3模塊中獲得1 994個基因(|MM| >0.8 and |GS| >0.1),最后對orangered3的模塊基因進行GO和KEGG分析(見圖1g),GO分析發(fā)現(xiàn),大部分基因定位在胞質(zhì)內(nèi),參與免疫反應(yīng)細胞的激活和中性粒細胞的激活;KEGG分析發(fā)現(xiàn),主要富集在代謝途徑和內(nèi)吞作用。

圖1 WGCNA對糖尿病關(guān)鍵基因識別和分析
2.2 結(jié)核數(shù)據(jù)庫中差異基因篩選和分析 經(jīng)過篩選,從GSE149458數(shù)據(jù)集中共篩選出1 711個DEGs,其中,上調(diào)的基因為528個,下調(diào)的基因為1 183個(見圖2a),繪制差異基因聚類熱圖(見圖2b)。對1 711個DEGs進行GO和KEGG富集分析(見圖2c、d),GO分析發(fā)現(xiàn),主要富集于蛋白質(zhì)結(jié)構(gòu)域特異性結(jié)合、WW結(jié)構(gòu)域結(jié)合和腫瘤壞死因子受體結(jié)合;KEGG富集分析發(fā)現(xiàn),主要富集于壞死性凋亡通路、胰島素信號通路和炎癥介質(zhì)對色氨酸通道調(diào)控。

圖2 結(jié)核數(shù)據(jù)庫中差異基因篩選和分析
2.3 篩選共同關(guān)鍵基因 通過R的VennDiagram軟件包對DM和TB差異基因集取交集發(fā)現(xiàn)86個關(guān)鍵基因(見圖3a)。通過GO和KEGG進行富集分析(見圖3b、c),GO分析發(fā)現(xiàn),主要富集于線粒體部分;KEGG分析發(fā)現(xiàn),主要富集于溶酶體通路和氨基酸代謝。將86個基因?qū)隨TRING數(shù)據(jù)庫中構(gòu)建蛋白質(zhì)—蛋白質(zhì)互作網(wǎng)絡(luò)(見圖3d)。在Cytoscape中使用插件CytoHubb基于“MCC”算法篩選Hub基因,ARHGAP26、CLTCL1和NANS等評分前十的Hub基因,其中ARHGAP26、C12orf10和COG2為上調(diào)基因,其余7個為下調(diào)基因(見圖3e)。

圖3 篩選共同關(guān)鍵基因
2.4 免疫細胞浸潤及免疫細胞相關(guān)性分析 利用 CIBERSORT 反卷積算法評估了糖尿病和結(jié)核病中 22 種免疫細胞的免疫浸潤情況,結(jié)果發(fā)現(xiàn),糖尿病組中性粒細胞顯著高于對照組;結(jié)核病組漿細胞和M2細胞顯著高于對照組(見圖4、5)。然后計算10個關(guān)鍵基因與浸潤相關(guān)性分析,發(fā)現(xiàn)10個關(guān)鍵基因與中性粒細胞和M2細胞呈正相關(guān)(見圖6)。

圖4 22種免疫細胞浸潤相對比例熱圖

圖5 疾病組和對照組中每種免疫細胞浸潤豐度的小提琴圖

圖6 Hub基因和中性粒細胞和γδT細胞的相關(guān)性分析
2.5 關(guān)鍵基因驗證和潛在miRNA的預(yù)測 為進一步驗證ARHGAP26、CLTCL1和NANS等10 個關(guān)鍵基因在糖尿病和結(jié)核病中的表達情況,篩選GSE54992、GSE193273和GSE98461作為測試數(shù)據(jù)集對其表達進行驗證(見圖7a),結(jié)果發(fā)現(xiàn)只有ARHGAP26在結(jié)核病和糖尿病中穩(wěn)定高表達且和免疫細胞浸潤顯著相關(guān)(見圖7b)。通過miRNA Target和miRWalk在線數(shù)據(jù)庫篩選12個與ARHGAP26基因相關(guān)的潛在miRNA(見圖7c),并通過Cytoscape將其可視化(見圖7d)。最后通過GSE25435數(shù)據(jù)集對miRNA表達進行驗證,結(jié)果發(fā)現(xiàn)只有hsa-miR-520a-5p與正常組相比低表達(見圖7e)。

圖7 關(guān)鍵基因驗證和潛在miRNA的預(yù)測
雖然大量研究發(fā)現(xiàn)糖尿病引起的代謝改變和免疫功能低下與肺結(jié)核感染易感性增加之間有非常緊密的聯(lián)系[6-7],但具體作用機制,尤其是分子和免疫學機制不清。基于此本研究采取生物信息學方法發(fā)現(xiàn)了糖尿病和結(jié)核病免疫過程相關(guān)的關(guān)鍵基因,并通過鑒定靶向關(guān)鍵基因的miRNA,發(fā)現(xiàn)ARHGAP26和has-miR-520a-5p可能是檢測糖尿病和結(jié)核病的潛在生物標志物。
有研究表明糖尿病患者對結(jié)核分枝桿菌感染可能性會增加2~3倍,而且糖尿病也會增加結(jié)核病患者過早死亡的風險[8-9]。免疫功能受損是結(jié)核分枝桿菌感染的一個重要前提,而糖尿病造成免疫功能低下,會是結(jié)核病發(fā)展的一個重要推力。因此,我們采用生物信息學分別篩選了糖尿病和結(jié)核病可能與免疫系統(tǒng)相關(guān)聯(lián)的樞紐基因,然后將兩組基因取交集,并對其進行富集分析發(fā)現(xiàn)除與免疫密切相關(guān)外,而且參與溶酶體和氨基酸代謝通路,通過CytoHubb從交集基因中篩選出得分前十的基因,這些基因被認為與糖尿病和結(jié)核病密切相關(guān)。該方法已成功應(yīng)用于多種生物信息學分析,以鑒定與多種疾病表型相關(guān)的常見風險基因和機制[10-11]。
鑒于免疫細胞在糖尿病和結(jié)核病過程中起著至關(guān)重要的作用,我們首先研究糖尿病和結(jié)核病患者中免疫細胞浸潤,結(jié)果發(fā)現(xiàn)在糖尿病中CD8T細胞和被激活的肥大細胞占免疫細胞浸潤的大部分;結(jié)核病中CD4T細胞、M0和被激活的肥大細胞占免疫細胞浸潤的大部分。此外與對照組相比,糖尿病中M0和中性粒細胞均增加,結(jié)核病中M2、漿細胞和γδT細胞顯著增加。大量研究表明中性粒細胞作為先天免疫反應(yīng)的效應(yīng)器除參與適應(yīng)性免疫應(yīng)答外,還參與慢性炎癥和自身免疫過程[12]。巨噬細胞是結(jié)核免疫過程的第一道防線,巨噬細胞按其表面分子分為M1和M2類型。研究表明,M1巨噬細胞具有抗病原體活性的促炎表型,而M2巨噬細胞促進抗炎作用和組織修復(fù)反應(yīng)[13]。綜上所述,推測巨噬細胞和中性粒細胞可能在糖尿病和結(jié)核病中起潛在的重要作用。
最后筆者通過GSE54992、GSE193273和GSE98461進行篩選驗證發(fā)現(xiàn),只有ARHGAP26在糖尿病和結(jié)核病中穩(wěn)定高表達,并且其在肺鱗癌和集的生物信息學分析,可能無法完全反映患者實際情況。
綜上所述,本研究分析糖尿病和結(jié)核病免疫過程中常見的關(guān)鍵基因,發(fā)現(xiàn)ARHGAP26和has-miR-520a-5p可能是預(yù)測糖尿病和結(jié)核病的潛在生物標志物,ARHGAP26還可以作為肺結(jié)核鑒別診斷標志物。