



摘要:目的" 利用生物信息學和機器學習算法篩選克羅恩病(CD)關鍵基因,并進行免疫浸潤分析。方法" 下載基因表達數據庫中包含CD和健康對照者(Hcon)的乙狀結腸組織轉錄組測序數據進行差異分析,利用加權基因共表達網絡分析(WGCNA)篩選CD相關的差異表達基因(DEGs)。利用最小絕對收縮和選擇算子(LASSO)和隨機森林(RF)等機器學習方法篩選CD的關鍵基因,并進行免疫浸潤分析。結果" 共獲得54個CD相關DEGs,機器學習算法篩選出CD的潛在生物標志物CCAAT增強子結合蛋白δ(CEBPD)。CD樣本中靜息樹突狀細胞比例低于Hcon樣本。CEBPD與中性粒細胞呈正相關,與靜息CD4記憶T細胞呈負相關。結論" CEBPB是CD發病的關鍵基因,樹突狀細胞、中性粒細胞和CD4記憶T細胞與CD的發生發展密切相關,可能是治療CD的關鍵途徑。
關鍵詞:克羅恩病;免疫浸潤;機器學習;生物信息學
中圖分類號:R574.4" " " " " " " " " " " " " " " " "文獻標識碼:A" " " " " " " " " " " " " " " " "DOI:10.3969/j.issn.1006-1959.2025.04.002
文章編號:1006-1959(2025)04-0010-06
Key Gene Screening and Immune Infiltration Analysis of Crohn's Disease Based
on Bioinformatics and Machine Learning
BU Fanjing
(Department of Gastroenterology, Binzhou Second People′s Hospital, Binzhou 256800, Shandong,China)
Abstract: Objective" To screen the key genes of Crohn′s disease (CD) by bioinformatics and machine learning algorithms, and to analyze the immune infiltration. Methods" The transcriptional sequencing data of sigmoid colon tissue containing CD and healthy controls (Hcon) was downloaded for differential analysis, and weighted gene co-expression network analysis (WGCNA) was used to filter for CD-related differentially expressed genes (DEGs). The key genes for CD were identified using machine learning methods such as the least absolute shrinkage and selection operator (LASSO) and random forest (RF), and immune infiltration analysis was performed. Results" A total of 54 CD-related DEGs were obtained, and machine learning algorithms identified the potential biomarker for CD, CCAAT/enhancer-binding protein delta (CEBPD). In CD samples, the proportion of resting dendritic cells was lower than in Hcon samples. CEBPD was positively correlated with neutrophils and negatively correlated with resting CD4 memory T cells. Conclusion" CEBPB is a key gene in the pathogenesis of CD, and dendritic cells, neutrophils, and CD4 memory T cells are closely related to the development of CD, which may be a key in treating CD.
Key words: Crohn′s disease; Immune infiltration; Machine learning; Bioinformatics
克羅恩病(Crohn′s disease, CD)是炎癥性腸病,具有病程長、治療難度大、累及范圍廣等特點,隨著病程的進展,CD可導致腸管狹窄、復雜性肛瘺、腸瘺、腸道穿孔等并發癥,嚴重影響患者的生活質量[1]。目前尚無治愈CD的方案,臨床主要應用英夫利西單抗等藥物緩解CD的癥狀和進展,但僅有部分患者從中獲益[2]。此外,英夫利西單抗等藥物有導致患者繼發性失應答的風險,誘發重度感染、惡性腫瘤、自身免疫性疾病等嚴重不良后果[3]。近年來,諸多學者對CD的發病機制和干預途徑開展了相應的研究,但治療CD的有效途徑和關鍵靶點尚未完全明確[4-6]。本研究利用生物信息學分析思路,運用機器學習算法和免疫浸潤分析,探查CD發病的關鍵基因和免疫途徑,旨在為CD的研究提供新的思路。
1資料與方法
1.1數據來源" 從美國國家生物技術信息中心的基因表達數據庫(http://www.ncbi.nlm.nih.gov/geo)下載基因表達芯片數據集GSE235236[7]。GSE235236數據集共包含7例CD患者和8例健康對照者(healthy control, Hcon)的乙狀結腸組織樣本測序數據。
1.2差異表達基因(DEGs)篩選" 使用R語言“limma”數據包對GSE235236數據集中CD和Hcon乙狀結腸樣本測序數據進行標準化處理,消除樣本間的批次效應,以|logFC|>1、校正后P<0.05為條件,篩選得到DEGs,使用R語言“ggplot2”數據包繪制火山圖和熱圖進行可視化。
1.3加權基因共表達網絡分析(WGCNA)和CD相關DEGs篩選" 利用R語言“WGCNA”數據包構建共表達網絡,通過標準化處理和采用無尺度網絡原理確定最佳軟閾值,確保網絡的拓撲屬性符合無尺度分布特征,利用經驗公式法和平均連接度原則進行系統聚類分析,以模塊化處理GSE235236數據集中的基因。對構建的基因共表達網絡應用“Dynamic Tree Cut”算法進行模塊劃分,并通過“Module Membership”函數計算各個基因與各模塊的關聯程度,分析各模塊特征基因與CD的關聯度,篩選出與CD顯著相關的基因模塊。將GSE235236數據集DEGs和WGCNA篩選獲得的與CD相關的基因模塊取交集,獲得CD相關DEGs。
1.4機器學習篩選CD關鍵基因" 使用R語言“randomForest”數據包和“e1071”數據包對GSE235236數據集DEGs進行最小絕對收縮和選擇算子(least absolute shrinkage and selection operator, LASSO)和隨機森林(random forest, RF)分析。RF模型通過構建多個決策樹并進行集成學習,可以有效評估每個基因對CD預測的重要性,能夠提高模型的預測精度和抗過擬合能力。LASSO算法對數據進行降維處理,通過引入懲罰項,對各基因的系數進行收縮,將不重要的基因系數壓縮到零,從而實現變量選擇和模型簡化。為了提高關鍵基因篩選的準確性和魯棒性,將RF和LASSO模型各自篩選得到的基因列表進行交集,篩選CD關鍵基因。
1.5免疫浸潤分析" 運用CIBERSORT反卷積算法對GSE235236數據集中CD患者和Hcon的乙狀結腸樣本免疫細胞浸潤水平進行分析,計算出各類免疫細胞的相對豐度,比較兩組之間的免疫細胞比例。采用Spearman秩相關檢驗進行統計分析,計算免疫細胞的浸潤水平和關鍵基因表達之間的相關性,使用R語言“ggplot2”包進行數據可視化。
2結果
2.1 GSE235236數據集DEGs篩選" 使用R語言“limma”數據包對GSE235236數據集中CD和Hcon乙狀結腸組織樣本測序數據進行標準化處理,并篩選DEGs(圖1A),共獲得35 053個表達量大于0的基因,篩選獲得144個DEGs,其中差異表達上調基因101個,差異表達下調基因43個。繪制DEGs火山圖和熱圖進行可視化(圖1B、圖1C)。
2.2 WGCNA和CD相關基因篩選" 使用R語言“WGCNA”數據包的“pickSoftThreshold”函數對GSE235236數據集中表達量大于0的35 053個基因進行篩選,篩選最優軟閾值為17,建立無尺度網絡(圖2A)。將閾值設為0.25,最小模塊基因數設為50,共聚類出24個基因模塊(圖2B)。基因模塊和性狀關聯分析顯示,“Grey60”和“Turquoise”模塊與CD呈正相關(圖2C)。將DEGs和WGCNA篩選獲得的與CD病變相關的基因模塊取交集,獲得54個CD相關基因(圖2D)。
2.3 CD關鍵基因識別" 使用LASSO回歸識別出7個CD關鍵基因(圖3A),使用RF法識別出8個CD關鍵基因(圖3B),三種方法篩選出1個CF關鍵基因:CCAAT增強子結合蛋白δ(CCAAT/Enhancer-binding protein delta, CEBPD)(圖3C)。
2.4免疫浸潤分析" 使用CIBERSORT算法對GSE235236數據集中表達量大于0的35 053個基因進行免疫浸潤分析(圖4A),CD樣本中靜息樹突狀細胞比例低于Hcon樣本(圖4B),CEBPD與中性粒細胞(r=0.79,P=0.048)呈正相關;與靜息CD4記憶T細胞(r=-0.89,P=0.012)呈負相關(圖4C~4E)。
3討論
本研究通過分析CD和Hcon乙狀結腸樣本的測序數據,并借助機器學習算法,篩選出CD的關鍵基因CEBPB。免疫浸潤分析結果顯示,CD乙狀結腸樣本中靜息樹突狀細胞比例低于Hcon樣本,CEBPB與中性粒細胞呈正相關;與靜息CD4記憶T細胞呈負相關。
CEBPB是一種轉錄因子,屬于CCAAT增強子結合蛋白家族,主要通過調節靶細胞的基因轉錄參與重要的生命活動,可以調控多種基因的轉錄過程,在免疫和炎癥反應中扮演著重要角色,參與調節多種生理和病理過程,包括細胞增殖、分化、凋亡、炎癥反應、免疫應答、代謝調控等[8]。在免疫和炎癥反應中,CEBPB是重要的調節因子,可以調控多種免疫相關基因的轉錄,如白細胞介素6、腫瘤壞死因子α等[9]。包含6個國家、590例患者的歐洲隊列研究發現[10],全血基因表達測序數據可為CD、潰瘍性結腸炎的診斷提供參考,其中轉錄因子CEBPB發揮核心作用。
腸上皮屏障蛋白的破壞是結腸炎的重要表現。腸上皮屏障功能的破壞將導致機體的免疫反應,并產生炎性腸病的臨床病理表現[11]。既往研究表明,香葉木素可以通過顯著增加受損的腸道屏障蛋白來改善結腸炎[12]。Li H等[13]研究發現,CEBPB/PCK1和CEBPB/EFNA1通路可影響腸屏障蛋白的表達,柳氮磺吡啶、美沙拉啶、奧沙拉嗪和托法替尼等治療炎性腸病的一線藥物均可顯著抑制CEBPB、PCK1和EFNA1的mRNA表達水平,提示CEBPB/PCK1和CEBPB/EFNA1通路參與炎性腸病的病理過程。
腸道先天免疫系統由中性粒細胞、單核細胞、巨噬細胞、樹突狀細胞以及先天淋巴樣細胞構成,可抵御病原體和腸道微生物的進入,同時保持對常駐腸道微生物群的免疫耐受性,當這種平衡被破壞,免疫細胞可通過產生細胞因子、趨化因子,激活補體級聯反應和吞噬作用,介導宿主防御反應、炎癥和組織愈合,參與炎性腸病的發生和發展[14]。單細胞轉錄組測序數據分析發現,活動性CD患者的腸道粘膜樣本中,IL1B+HLA-DR+CD38+T細胞、IL1B+TNF+IFNG+na?觙ve B細胞、IL1B+樹突狀細胞和IL1B+漿細胞樣樹突狀細胞占比較高;CD患者外周血單核細胞中IL1B+T調節細胞、IL1B+樹突狀細胞和IL1B+漿細胞樣樹突狀細胞、IL1B+單核細胞增多[15]。
中性粒細胞是先天免疫系統的重要組成,中性粒細胞的持續激活和過度募集是許多炎癥性疾病的共同特征。中性粒細胞可產生高水平的活性氧,導致上皮屏障損傷,并能激活氧化還原敏感的炎癥途徑它們還釋放了大量蛋白酶、促炎細胞因子和介質,如白細胞介素8、腫瘤壞死因子α和白三烯B4,這些介質可破壞腸道上皮屏障,并向腸道招募單核細胞和更多的中性粒細胞,在炎性腸病中發揮重要作用[16]。髓過氧化物酶是一種血紅素過氧化物酶,主要保存在中性粒細胞的嗜氮顆粒中,并在中性粒細胞激活后產生,是中性粒細胞病理功能的標志物,其釋放到細胞外環境中可能會引起組織損傷,從而加劇炎癥[17]。研究證實[18],潰瘍性結腸炎小鼠模型小腸組織中性粒細胞中髓過氧化物酶的表達增加,提示中性粒細胞浸潤參與炎性腸病病理過程。另有研究發現[19],中性粒細胞可以釋放中性粒細胞胞外網狀陷阱,以促進其他細胞產生促炎介質,使腸上皮屏障功能障礙,使細胞外基質變性,并維持炎性腸病的惡性炎癥循環。
在腸道感染或炎癥刺激下,CD4記憶T細胞可活化為致病性CD4效應T細胞,介導炎性腸病的發生[20]。另有研究證實[21],CD4記憶T細胞是CD患者結腸粘膜中腫瘤壞死因子α的主要來源,CD患者結腸黏膜中CD4記憶T細胞呈擴增趨勢,產生白細胞介素17A和腫瘤壞死因子α等炎性因子,加劇CD的腸道炎癥。
綜上所述,本研究利用生物信息學、機器學習和免疫浸潤分析發現,CEBPB是CD發病的關鍵基因,樹突狀細胞、中性粒細胞和CD4記憶T細胞與CD的發生發展密切相關,可能是治療CD的關鍵途徑。
參考文獻:
[1]Cao S,Colonna M,Deepak P.Pathogenesis of Perianal Fistulising Crohn's Disease: Current Knowledge, Gaps in Understanding, and Future Research Directions[J].J Crohns Colitis,2023,17(6):1010-1022.
[2]劉萍,劉占舉,張萃.英夫利西單抗治療克羅恩病的臨床療效及影響因素[J].中華消化病與影像雜志(電子版),2024,14(1):28-34.
[3]陳佩玲,謝倫芳.克羅恩病患者應用英夫利西單抗的輸液不良反應[J].醫藥導報,2020,39(12):1756-1759.
[4]李靜,孫洋,熊心雨,等.櫻黃素抑制Toll樣受體4/髓樣分化因子88(TLR4/MyD88)通路減輕腸上皮炎癥反應改善小鼠克羅恩病樣結腸炎[J/OL].細胞與分子免疫學雜志,1-16[2024-03-09].https://doi.org/10.13423/j.cnki.cjcmi.009727.
[5]黃更新,黃永德,陳玲紅,等.miR-223、NLRP3、IL-1β、IL-18在克羅恩病患者外周血中的表達及意義[J].熱帶醫學雜志,2023,23(10):1402-1406.
[6]蘇培強,鐘壯霞,陳益耀,等.CD73在克羅恩病小鼠結腸組織中的表達及意義[J/OL].中國熱帶醫學,1-14[2024-03-09].http://kns.cnki.net/kcms/detail/46.1064.R.20230802.1121.002.html.
[7]Garrido-Trigo A,Corraliza AM,Veny M,et al.Macrophage and neutrophil heterogeneity at single-cell spatial resolution in human inflammatory bowel disease[J].Nat Commun,2023,14(1):4506.
[8]Zhao J,Hu J,Zhang R,et al.Cebpd Regulates Oxidative Stress and Inflammatory Responses in Hypertensive Cardiac Remodeling[J].Shock,2023,60(5):713-723.
[9]Bechara R,Amatya N,Bailey RD,et al.The m6A reader IMP2 directs autoimmune inflammation through an IL-17- and TNFα-dependent C/EBP transcription factor axis[J].Sci Immunol,2021,6(61):eabd1287.
[10]Nowak JK,Adams AT,Kalla R,et al.Characterisation of the Circulating Transcriptomic Landscape in Inflammatory Bowel Disease Provides Evidence for Dysregulation of Multiple Transcription Factors Including NFE2, SPI1, CEBPB, and IRF2[J].J Crohns Colitis,2022,16(8):1255-1268.
[11]Novak EA,Crawford EC,Mentrup HL,et al.Epithelial NAD+ depletion drives mitochondrial dysfunction and contributes to intestinal inflammation[J].Front Immunol,2023,14:1231700.
[12]Li HL,Wei YY,Li XH,et al.Diosmetin has therapeutic efficacy in colitis regulating gut microbiota, inflammation, and oxidative stress via the circ-Sirt1/Sirt1 axis[J].Acta Pharmacol Sin,2022,43(4):919-932.
[13]Li H,Li J,Xiao T,et al.Nintedanib Alleviates Experimental Colitis by Inhibiting CEBPB/PCK1 and CEBPB/EFNA1 Pathways[J].Front Pharmacol,2022,13:904420.
[14]Saez A,Herrero-Fernandez B,Gomez-Bris R,et al.Pathophysiology of Inflammatory Bowel Disease:Innate Immune System[J].Int J Mol Sci,2023,24(2):1526.
[15]Mitsialis V,Wall S,Liu P,et al.Single-Cell Analyses of Colon and Blood Reveal Distinct Immune Cell Signatures of Ulcerative Colitis and Crohn's Disease[J].Gastroenterology,2020,159(2):591-608.
[16]Danne C,Michaudel C,Skerniskyte J,et al.CARD9 in neutrophils protects from colitis and controls mitochondrial metabolism and cell survival[J].Gut,2023,72(6):1081-1092.
[17]Ramachandra CJA,Ja KPMM,Chua J,et al.Myeloperoxidase As a Multifaceted Target for Cardiovascular Protection[J].Antioxid Redox Signal,2020,32(15):1135-1149.
[18]Zhang C,Zhang J,Zhang Y,et al.Identifying neutrophil-associated subtypes in ulcerative colitis and confirming neutrophils promote colitis-associated colorectal cancer[J].Front Immunol,2023,14:1095098.
[19]Dos Santos Ramos A,Viana GCS,de Macedo Brigido M,et al.Neutrophil extracellular traps in inflammatory bowel diseases: Implications in pathogenesis and therapeutic targets[J].Pharmacol Res,2021,171:105779.
[20]Zhao Q,Duck LW,Huang F,et al.CD4+ T cell activation and concomitant mTOR metabolic inhibition can ablate microbiota-specific memory cells and prevent colitis[J].Sci Immunol,2020,5(54):eabc6373.
[21]Bishu S,El Zaatari M,Hayashi A,et al.CD4+ Tissue-resident Memory T Cells Expand and Are a Major Source of Mucosal Tumour Necrosis Factor α in Active Crohn's Disease[J].J Crohns Colitis,2019,13(7):905-915.
收稿日期:2024-03-28;修回日期:2024-04-10
編輯/成森