童譯慶,高婧,段光臣,周偉,秦海軍
(上海交通大學附屬第六人民醫院 急診醫學科,上海 200233)
膿毒癥是機體對于感染反應失調導致的器官功能失調的綜合征[1],是急診ICU常見的急危重癥,臨床上有極高的發病率和病死率[2],世界衛生組織每年有3000萬膿毒癥,1940萬嚴重膿毒癥每年有600萬病例死于膿毒癥[3]。病原體入侵引起免疫失衡最終導致的持續過度的炎癥反應和晚期劇烈持久免疫抑制是它的主要病理特征,免疫介導損傷被仍為是導致器官損傷的重要原因[4-5]。促炎反應包括有補體系統,凝血反應,血管內皮細胞,白細胞以及血小板的激活,免疫抑制主要是抗原提呈的重新編排以及淋巴細胞的耗竭[6-7]。盡管目前對于膿毒癥發病機制較前已經大大增加,但仍需轉化為新的靶向治療。因此通過系統生物學方法深入了解膿毒癥的免疫發病機制對于膿毒癥的診斷和治療都有極其重要的作用。近年來隨著基因檢測技術和生物信息學的發展,這一領域的突破將為膿毒癥的早期診斷、預后分析和基因治療提供新的思路。目前已經有對膿毒癥基因表達譜進行的大量的研究,篩選出數千個可能與膿毒癥相關的差異表達基因(DEGs),但是各個樣本的異質性不同,不同技術檢測的平臺,不同數據處理的方法以及樣本來自不同的背景等,均可能導致不同研究間存在差異,即使在單一的隊列研究中仍然存在局限性。因此,我們需要用一種不偏倚的統計方法處理數據,通過合并分析基因表達譜可以解決部分問題。RobusRankAggreg使用一個概率模型對于合并的基因進行比較打分排名,能有效降低模型噪聲以及區分顯著性差異基因,篩選出的基因排名越高,P值越小[8]。本研究通過檢索GEO數據庫中膿毒癥患者的基因芯片,利用R軟件分析分析和篩選DEGs以及相互作用關系及其調控網絡,為深入研究膿毒癥分子機制及其早期診斷提供思路。
1.1 數據集的獲取和資料分析。以“sepsis”作為搜索詞,進入美國國立生物技術信息中心(NCBI)的GEO數據庫搜索已公布膿毒癥數據集,獲取數據集GSE57065,GSE33118,GSE28750三套數據集,三套數據集的信息見表1。

表1 三組數據集的基本信息
1.2 DEGs的表達分析與數據合并 數據分析均采用R語言各軟件包進行,原始數據通過RMA算法對原始數據進行標準化,DEGs的分析采用R軟件的limma包,limma是Bioconductor下專門用于處理芯片數據的R語言包,其中limma算法設計到實驗矩陣、基因表達線性模型、先驗分布引入、后驗分布分析和超參數估計等多方面的算法,是目前基因芯片數據處理中較好的算法,也是目前使用較多的算法[9]。選擇差異倍數 log fold change>1.0,P<0.05來篩選DEGs。數據合并采用R語言RobustRankAggreg(RRA)包,RRA是使用概率模型對于芯片基因進行聚合排名,篩選P<0.05,對于三套數據DEGs進行打分聚合,篩選出差異表達的關鍵基因。
1.3 功能富集分析和蛋白相互作用 獲得DEGs后采用DAVID在線數據庫對于DEGs進行GO分析、通路分析。分別從基因的生物過程(biological process)、分子功能(molecular function)、細胞組分(cellular component)3個方面對于基因進行富集分析,結果采用Benjamini矯正法矯正P值進行篩選,P<0.05。使用STRING在線數據庫(https://string-db.org)對于DEGs進行蛋白-蛋白相互作用的網絡分析(PPI),采用Cytoscape軟件獲取PPI網絡圖,使用M-CODE插件對于PPI網絡進行模塊分析獲取關鍵靶基因。
2.1 膿毒癥患者的DEGs表達分析。在進行差異分析前先對進行預處理,刪除缺失值以及基因對多探針情況,隨后對于樣本進行標準化處理及數據整理,由圖1的箱式圖可見3組數據標準化后數值分布較好,然后使用Limma包對標準化后的數據進行差異分析發現3組數據分別有881,935,2526個,DEGs表達火山圖見圖2,由圖可知這些差異基因對于膿毒癥和健康對照區分良好。隨后這些DEGs進行聚類分析,聚類熱圖見圖3。三組數據都能明顯區分膿毒癥組和健康對照組,通過采用RobustRankAggreg法對于三組數據進行篩選共獲得DEGs 281個,其中上調基因181個,下調100個。DEGs前20個基因見圖4。

圖1 三組數據的標準化,藍圖為原始數據的箱圖,紅圖為中位數標準化后的箱圖

圖2 三組數據的火山圖,紅色部分為上調基因,綠色部分為下調基因

圖3 三組數據的聚類熱圖

圖4 三組數據差異基因根據RRA分析分值做的聚類分析

表2 差異基因在reactome在線網站上做的通路分析
2.2 差異基因的GO分析以及Pathway分析。采用David在線工具對于DEGs做GO分析,如圖5組圖所示,細胞組分(cellular component)中差異最顯著的依次為細胞膜,細胞外外泌體,T細胞受體復合物。生物過程(biological process)中差異最顯著的是T細胞受體信號通路,MHC-II多肽多糖抗原提呈和加工,以及固有免疫激活,免疫應答等。分子功能(Molecular function)中差異最顯著的是MHCII受體的活性,結合蛋白激酶,白介素-1受體活性,結合RAGE受體等。Pathway分析采用在DAVID在線工具中reactome通路分析如表2所示,其中差異最顯著的通路是中性粒細胞脫顆粒,免疫激活和固有免疫的激活,通路分析中還有T細胞受體瀑布通路。通過STRING在線工具繪出這差異的281個差異基因的蛋白蛋白互相作用網絡分析圖,結果如圖6所示,將蛋白蛋白互相作用結果導入Cytoscape采用MCODE對差異基因進行模塊分析,共篩選4個模塊,篩出16個關鍵基因,其包括FCER1G,CLEC4D,BST1,CKAP4,HVCN1,C3AR1,CD59,CYSTM1,MGAM,STOM,GPR84,ITGAM,CLEC5A,CEACAM1,FCAR,MCEMP1關鍵靶基因圖見圖7。

圖5 DEGs做的基因本體分析(GO分析):分別為差異基因的分子功能、細胞組分和生物過程
作為ICU患者死亡原因的首位,膿毒癥發病率高,病死率高,醫療資源消耗大,被譽為隱藏的“公共衛生災難”[10]。膿毒癥的發生源于宿主對于感染產生的免疫失調,膿毒癥的發生和發展是一個動態復雜的過程,有各種相關基因的異常表達,炎癥因子及趨化因子共同參與的。早期診斷及治療有助于降低膿毒癥的死亡率。因此探索膿毒癥發展的相關基因,以期找到新的治療靶點,提供有效治療手段有極為重要的臨床及科研意義。

圖6 差異基因蛋白-蛋白相互作用網絡圖

圖7 利用Cytoscape篩選關鍵模塊中關鍵基因,紅色為上調基因,綠色為下調基因
本研究利用基因組學分析方法對于GEO數據庫中膿毒癥和正常人的血液芯片數據作了挖掘和分析。與正常人群比較,膿毒癥患者的血液中有顯著變化,共發現281個DEGs,其中上調181個下調101個,reactome通路分析主要涉及到中性粒細胞脫顆粒,免疫激活和固有免疫的激活,通路分析中還有T細胞受體瀑布通路。發現差異顯著的通路主要集中在免疫反應方面。由此可見膿毒癥的發生與免疫異常促炎反應過度有關。通過STRING對這些基因做相互作用的網絡分析以及Cytoscape的模塊分析發現FCER1G,CLEC4D,B S T 1,C K A P 4,H V C N 1,C 3 A R 1,C D 5 9,CYSTM1,MGAM,STOM,GPR84,ITGAM,CLEC5A,CEACAM1,FCAR,MCEMP1。這16個差異基因可能是膿毒癥發生的關鍵位點。其中,FCER1G能轉導來自各種免疫受體的信號信息,并激活下游通路,能誘導ITAM磷酸化,引發SYK,CARD9以及NF-KB的活化,引發外源抗原引起的促炎反應,調節急性炎癥反應[11]。CLEC4D和CLEC5A是C型凝集素結構域家族成員,CLEC4D是一種鈣依賴的凝集素,真菌感染時,能與病原相關分子模式(PAMPs)相結合,引起下游的NF-KB的活化從而影響T細胞向Th1細胞和Th17細胞分化,促進ROS產生,參與固有免疫反應[12],CLEC5A則是巨噬細胞上的受體,在病毒感染時觸發信號轉導引起促炎因子釋放[13]。BST1是ADP-核糖基環化酶參與體液免疫的激活以及正向B細胞增殖的作用[14]。HVCN1介導質子跨膜轉運介導中性粒細胞脫顆粒[15]。CYSTM1、MGAM、STOM被富集到與中性粒細胞脫顆粒有關。GPR84是炎癥相關的G蛋白偶聯受體EX33。整合素ITGAM參與單核細胞、巨噬細胞、粒細胞的相互粘附,參與中性粒細胞吞噬作用、誘導細胞凋亡以及參與補體介導的病原體的識別[16]。CEACAM1參與病毒感染后T細胞信號通路的負性調節,IL-1的負性調節以及粒細胞分化的負調節、血小板聚集的負性調節,在炎癥瀑布發展中起到一定促進作用[17]。FCAR是免疫球蛋白FC受體,參與介導細胞因子的產生、細胞對于脂多糖及IL-6反應、中性粒細胞凋亡的正調節[18]。這些基因均在感染后宿主的免疫中起到重要作用,推測可能是膿毒癥發展中的關鍵基因之一。
綜上所述:本研究以膿毒癥為中心,通過GEO數據庫的芯片數據進行挖掘檢索,對采用RRA法對于3組膿毒癥血樣本芯片原始數據內容進行分析,并通過統計學分析方法找到膿毒癥和正常人血的差異表達基因,有望為膿毒癥發生的機制研究,膿毒癥標志物的篩選及治療靶點的選擇提供參考。但是膿毒癥的發生發展是復雜且多因素的疾病,研究中所涉及的差異基因僅部分基因,甚至可能膿毒癥發生后的部分基因,以后的研究仍然需要進一步的分子研究進行驗證。