楊凈 龍世棋 熊研 葛毓臻 楊香蓮 羅傳粉 趙元橋 朱莉△
(1.貴陽市婦幼保健院兒童消化科,貴州 貴陽 550001;2.貴州醫科大學免疫學教研室,貴州 貴陽 550001;3.貴州醫科大學臨床專業,貴州 貴陽 550004)
潰瘍性結腸炎(UC)是一種原因尚不十分清楚的慢性非特異性結腸炎癥反應。主要表現為連續彌漫性淺表性炎癥病變,病變主要累及黏膜和黏膜下層,黏膜基底部灶性或彌漫性漿細胞浸潤伴隱窩結構變形破壞。UC的治療目前主要是緩解臨床癥狀,而其長期目標則是預防殘疾和結直腸癌的發生[1-3]。基因芯片是一種非常成熟的基因檢測技術,該方法可以高效、大規模的檢測生物樣本中的基因信息,特別適用于差異表達的基因篩選[4-5]。隨著基因芯片的廣泛應用,目前已經產生了大量的基因數據,并且大部分數據已經上傳并存儲在公共數據庫中。整合和重新分析這些數據可以為研究提供有價值的線索[6]。本研究利用基因表達數據庫(GEO)中的芯片原始數據進行差異基因分析,探討在UC轉歸過程中的關鍵基因并對其進行初步生物信息學分析,以期為深入研究UC發生、發展的分子機制提供理論依據。
1.1材料 GSE38713數據集:基因表達數據庫(GEO)隸屬于美國國立衛生研究院,是當今最大、最全面的公共基因表達數據庫。從GEO數據庫中下載GSE38713數據集(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE38713),該數據集由Planell N,Salas A等于2012年上傳。選取其中正常人結直腸黏膜數據13例,UC活動期黏膜數據23例,UC緩解期黏膜數據8例。樣本經RNA提取、逆轉錄、熒光標記等步驟處理后,與GPL570平臺(Affymetrix Human Genome U133 Plus 2.0 Array)雜交,經圖像掃描、數據標準化處理后以CEL格式上傳至GEO數據庫。
1.2方法
1.2.1差異基因篩選 GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r/)是一個在線工具,可以比較GEO系列的不同樣本組,以便識別差異表達的基因。以 logFold Change (FC) ≥2.0,P值<0.05 作為篩選標準,獲得UC活動期、UC恢復期相比于正常人腸黏膜的差異基因。隨后將UC活動期高表達,恢復期表達降低的基因進行交叉分析,并對其生物信息學進行初步分析。
1.2.2基因本體論(GO)和DEGs的富集分析 GO數據庫(http://www.geneontology.org)可對基因組數據的功能分類,成為了生物信息分析物種注釋的必用數據庫。整體來說GO分為三個不同的本體,包括生物過程(BP),細胞成分(CC)和分子功能(MF)。GO分析是一種常見的基因和基因產物注釋方法。京都基因和基因組百科全書(KEGG,http://www.genome.ad.jp/kegg/)數據庫是整合基因組、化學和系統功能信息的數據庫。可進行基因功能的系統分析,注釋和數據的可視化。Discovery(DAVID,http://david.abcc.ncifcrf.gov/)是一種基因功能分類的在線工具,是高通量基因分析,理解基因生物學意義的重要基礎。在本研究中,為了分析DEG的功能,使用DAVID在線工具對UC活動期表達上調,恢復期表達下調的差異基因進行GO富集和KEGG途徑分析,篩選條件為P<0.05。
1.2.3蛋白質 —蛋白質相互作用(PPI)網絡構建及核心關鍵基因分析 STRING(http://string.embl.de/)是一個用于預測蛋白質與蛋白質相互作用(PPI)信息的生物學數據庫。將DEG映射到STRING以評估交互關系,可信度≥0.4被定義為顯著。 然后使用Cytoscape,一種用于構建生物分子相互作用網絡的生物圖形可視化工具,構建PPI網絡。最后基于STRING數據,利用cytohubba中的三種算法解析核心關鍵基因。
2.1差異基因篩選 剔除重復探針后發現,與正常人結腸黏膜相比,UC活動期結腸黏膜中有587個差異基因,其中410個表達上調,177個表達下調。UC恢復期腸黏膜相比活動期結腸黏膜有373個差異基因,其中289個表達下調,84個表達上調(表1)。交叉分析顯示,在UC活動期表達上調而恢復期表達下調的基因有202個(圖1)。

表1 不同組別間顯著差異表達基因
注:*只列出部分差異表達基因。

注:A: UC活動期表達上調的基因;B: UC恢復期表達下調的基因圖1 不同組別差異表達基因韋恩圖
2.2GO term及 KEGG富集分析 為了進一步解析UC活動期表達上調,恢復期表達下調的202個差異基因的功能,將這些差異基因上傳到DAVID,以確定重要的GO類別和KEGG途徑。 GO分析結果顯示差異基因在BP中的顯著富集主要包括炎癥反應,趨化因子介導的信號通路以及白細胞遷移等(圖2 A); MF分析顯示,差異基因具備趨化因子活性,絲氨酸型內肽酶活性及糖基化終產物受體結合活性等(圖2 B); CC分析顯示,差異基因富集在胞外間隙、胞外區和細胞外基質等(圖2 C);KEGG分析顯示,差異基因顯著富集在補體和凝血級聯反應途徑、趨化因子信號通路途徑、細胞因子—細胞因子受體相互作用途徑、Toll樣受體(TLR)信號通路等(圖2 D)。

圖2 差異基因的GO及KEGG分析
2.3PPI網絡構建和分析 關鍵基因DEGs的PPI網絡由STRING數據庫(版本11.0)中構建的153個節點和1058個邊緣組成,并使用Cytoscape軟件可視化(圖3)。從拓撲學角度通過cytohubba中最大鄰域分量密度、程度和最大中心性在內的三種中心算法獲取了PPI網絡中的hub關鍵基因[7](圖4)。

圖3 蛋白互作分析

圖4 hub關鍵基因
隨著DNA微陣列和高通量測序技術的發展,在基因水平上研究包括UC在內的疾病已成為很常用的方法。基因芯片已廣泛應用于探索疾病發生、診斷和治療中的差異表達基因。目前對UC發病的相關基因的研究已經取得一定進展,但在UC進展中的作用尚不十分明確,需要進一步探究以便更好地針對其進行靶向治療。在本研究中,我們從GSE38713中提取數據,并利用生物信息學篩選出在UC活動期表達上調,恢復期表達下調的差異基因202個。GO term分析表明這些差異基因在 BP的顯著富集主要包括炎癥反應,趨化因子介導的信號通路以及白細胞遷移等。這符合目前對UC發病原因的認識,即UC與遺傳易感性、環境、微生物因素、腸上皮屏障功能及免疫反應等因素有關。其中白細胞的快速募集和不適當的滯留是慢性炎癥的標志,也是UC潛在的治療靶點[8]。KEGG分析顯示,差異基因顯著富集在補體和凝血級聯反應途徑、趨化因子信號通路途徑、細胞因子—細胞因子受體相互作用途徑、Toll樣受體(TLR)信號通路等。研究認為UC的發病可能與TLRs的表達及隨后炎性細胞因子的釋放有關[9-10]。因此,研究這些信號通路有助于預測UC的進展。
用DEGS構建PPI網絡,獲得了hub基因CCR2、CXCL2、CXCL9、CCL4、CXCR2、CXCL11、CXCL5、AGT、SELE和CASP1。其中CCR2、CXCL2、CXCL9、CCL4、CXCR2、CXCL11、CXCL5均屬趨化因子家族成員。CCR2屬于G蛋白偶聯受體(GPCR)超家族成員,并且是單核細胞趨化蛋白1~4(MCP1~4) 的受體。CCR2主要針對的病癥包括類風濕性關節炎、多發性硬化等,有研究認為CCR2高表達與結直腸癌患者較短的總生存期有關[8-11]。CXCL2屬于CXC趨化因子家族,也稱為巨噬細胞炎癥蛋白2-α(MIP2-α),其也是強大的中性粒細胞趨化因子,參與許多免疫反應,包括傷口愈合、腫瘤轉移和血管生成[12]。有研究提出可以把檢測CXCL2等趨化因子 mRNA含量作為反應UC腸黏膜炎癥分級的一種簡單、客觀的方法[13]。CXCL9是一種由干擾素-γ誘導的T細胞趨化因子。研究發現血清CXCL9水平與UC疾病活動有關,它是患者對治療反應的一個指標,阻斷CXCL9可作為治療中重度活動期UC的一種有效的治療方法[14]。CCL4又被稱為 巨噬細胞炎癥蛋白-1β(M IP-1β),有研究在評價UC治療效果時把CCL4的降低作為重要的評價指標[15]。CXCR2在實驗性UC中起著重要的病理生理作用,提示CXCR2的可以作為UC藥物治療的新靶點[16]。CXCL11、CXCL5循環水平增加對UC患者的腸道局部炎癥和組織損傷有重要影響[17]。探索阻斷這些炎癥介質的方法可以作為減輕甚至逆轉UC癥狀的重要途徑。AGT(血管緊張素原)是一種能引起血管收縮和血壓升高的肽類激素。研究發現,AGT-6和TGFβ1密碼子25變異在克羅恩病表型形成中具有重要作用[18]。血管緊張素原與UC的相關性還未見報道。SELE(E-選擇素)和CASP1(Caspase-1)又稱IL-1轉換酶,作為炎癥反應的始發者,它在細胞免疫中起著重要的作用。一旦被激活,可以導致兩種炎性細胞因子IL-1β和IL-18激活從而進一步誘導相鄰細胞的炎癥反應[19]。研究發現抑制NRLP3/ASC/Caspase-1通路的激活可以對抗葡聚糖硫酸鈉誘導的潰瘍性結腸炎[20]。
綜上所述,本研究對UC活動期表達上調,恢復期表達下調的差異基因進行了廣泛的生物信息學分析,揭示了一系列重要的影響UC發生和發展的靶點和途徑,為今后的研究奠定了基礎。這些發現增加了我們對該病的診斷和治療的認識。