梁 爽,凡 奎,張 燕,謝楊眉
(四川省三臺縣人民醫院 腎內科,四川 綿陽 621100)
IgA腎病(IgA Nephropathy,IgAN)是最常見的原發性腎小球腎炎,20%~40%的患者在20年內進展為終末期腎病[1]。膜性腎病(Membranous Nephropathy,MN)是腎病綜合征常見的病理類型之一。經腎臟活檢可確切診斷和鑒別IgAN和MN,但腎穿為有創檢查,存在不易操作等因素。因此,了解 IgAN 和MN的疾病發生發展機制以及尋找特異性生物標記物,能為診斷和鑒別提供簡便、可靠的依據補充。
運用傳統的研究方法和數據處理分析方式常遇見高維度、小樣本、變異大、線性等問題, 不易做到簡便的分類和有效的、系統的分析。生物信息學技術通過綜合利用生物學、計算機科學和信息技術等多學科技術、手段,能夠精確高效的運算大量、復雜的生物數據。通過下載IgAN和MN患者外周血單核細胞DNA高通量數據集,分析篩選關鍵基因和途徑,進行基因本體(Gene Ontology,GO)功能、京都基因基因組百科全書(Kyoto Encyclopedia of Gene and Genome,KEGG)和顯著富集基因蛋白質與蛋白質相互作用(Protein-Protein Interaction,PPI)分析等進一步了解差異表達基因(Differentially Expressed Genes,DEGs)。
進 入NCBI Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/),下載GSE73953數據集,該數據集包含 15個IgAN樣本和8個MN樣本。下載其矩陣文件 SOFT formatted family file(s).SOFT 以及原始數據 GSE73953_RAW.tar。通過GEO數據庫評價數據原始值分布。
1.2.1 篩選差異表達基因(DEGs)
R是集統計分析與圖形顯示于一體的一種統計分析軟件。它擁有一套完整的數據處理、計算和制圖軟件系統。其主要功能包括:數據存儲、數組運算、統計分析、統計作圖和程序編寫等。
下載安裝R軟件。加載limma包[2],對原始數據進行提取和處理,以及差異表達基因的分析(|LogFC|>2,P<0.05)。R軟件采用R/Bioconductor software version 3.5.1版本。
1.2.2 差異表達基因GO和KEGG分析
運用Cytoscape(https://cytoscape.org/),安裝bingo,將篩選出的前96個差異表達基因導入程序,根據GEO中數據研究對象,選擇Homo sapiens。
運用DAVID數據庫(Database for Annotation,Visualization and Integrated Discovery, https://david.ncifcrf.gov/)對差異表達基因進行GO富集分析和KEGG通路分析。Corrected P-Value<0.05 記為有統計學意義。
1.2.3 顯著富集差異表達基因PPI分析
STRING(Search Tool for the Rtrieval of Interacting Genes,https://string-db.org/)是已知和預測蛋白質-蛋白質相互作用的數據庫。相互作用包括直接(物理)聯系和間接(功能)聯系。它們來源于計算預測、生物體之間的知識轉移以及來自其他(主要)數據庫的相互作用。
運用STRING在線數據庫,構建蛋白質互作網絡,取combined score≥0.4,下載PPI網絡數據。通過Cytoscape軟件(version 3.6.1)將PPI網絡可視化,并通過MCODE插件聚類構建共表達模塊。最后,通過R軟件計算PPI 網絡中各個節點的連接度。運行后得到蛋白質相互作用關系圖。
數據來自GEO數據庫GSE73953數據集,下載得到15個IgA Nephropathy樣本和8個Membranous Nephropathy樣本。得到矩陣文件SOFT formatted family file(s).SOFT 以及原始數據 GSE73953_RAW.tar。通過GEO數據庫GEO2R評價數據集原始值分布(見圖1),基本以中間值為中心表明數據具有可比較性。
該數據集包含15個IgA Nephropathy樣本和8個Membranous Nephropathy樣本。通過R軟件limma包[2],根據限定條件:|LogFC|>2,P<0.05,在IgAN患者和MN患者中得到顯著差異表達基因75個,其中73個上調表達基因和2個下調表達基因。由差異表達基因所得熱圖(見圖2a)和火山圖(見圖2b)。
為進一步了解篩選得到IgAN、MN疾病相關的差異表達基因功能和通路,利用 Cytoscape和DAVID在線數據庫對分析得到的差異基因分別進行GO富集分析與KEGG通路分析。
顯著富集差異表達基因GO富集分析的生物學過程(Biological process,BP)(見圖3a)主要包括蛋白質轉運、內溶酶體到溶酶體轉運、趨化因子介導的信號通路作用和鈣介導信號的調控等。細胞學組分(Cellular components,CC)(見圖3b)主要為COPⅡ囊泡、NMDA選擇性谷氨酸受體復合物和高爾基體等。分子生物學功能(Molecular function,MF)(見圖3c)主要有NMDA谷氨酸受體激活、信號傳感器激活和鈣粘蛋白結合參與細胞與細胞的黏附等。
顯著富集差異表達基因KEGG通路分析(見圖3d)顯示具有統計學差異(P<0.05)的上調及下調差異表達基因通路,包括Endocytosis和Hepatitis B的相關信號通路。

圖1 原始數據集值分布Fig.1 Values distribution of original data set

圖2 差異表達基因熱圖和火山圖Fig.2 Heatmap and volcano map of the DEGs

圖3 GO富集分析和KEGG通路分析Fig.3 GO enrichment analysis and KEGG pathway analysis
為進一步篩選差異表達基因所編碼的蛋白質之間的相互作用關系,采用STRING工具對差異表達基因蛋白相互作用關系進行梳理,得到蛋白質相互作用關系圖(見圖4)。按照節點數關系篩選得到前10個關鍵基因,包括:EPS15、STAT4、CCL2、SUN2、SEC24C、SEC31A、GOLGB1、F2R,RAB12和PTK2B。

圖4 顯著富集差異表達基因蛋白相互作用關系Fig.4 Protein interaction of significantly enriched DEGs
IgAN目前被認為是世界上最常見的原發性腎小球腎炎之一[1]。MN是腎病綜合征常見的病理類型之一,大部分為特發性膜性腎病(Idiopathic membranous nephropathy,IMN)[3]。MN的主要病理機制為:循環的自體抗體與腎小球內的內源性抗原結合,并在腎小球毛細血管壁中形成免疫復合物的沉積,補體激活對腎小球足細胞(Podocytes)的影響和對細胞屏障的破壞,導致NS表現[4]。
探尋IgAN 和MN的疾病發生發展機制以及尋找特異性生物標記物,以便診斷和鑒別甚至發現新的治療靶點。生物信息學相關技術通過利用生物學、計算機學和信息技術揭示生物數據所蘊含的奧秘[5]。為了尋找可能有助于更好地理解IgAN和MN分子基礎并有助于診斷的活性病變的新標記物,使用外周血單核細胞(PBMCs)進行DNA分析。通過下載IgAN和MN患者外周血單核細胞DNA高通量數據集,通過篩選差異表達基因、基因富集分析及蛋白質相互作用關系分析。
分析發現,在具有明顯表達差異的250個基因中,包括226個上調的差異表達基因和24個下調的差異表達基因。其中75個顯著DEGs,包括73個上調基因,2個下調基因。GO富集分析的生物學過程(BP)主要包括蛋白質轉運、內溶酶體到溶酶體轉運、趨化因子介導的信號通路作用等。細胞學組分(CC)主要為COPⅡ囊泡、NMDA選擇性谷氨酸受體復合物和高爾基體等。分子生物學功能(MF)主要有NMDA谷氨酸受體激活、信號傳感器激活和鈣粘蛋白結合參與細胞與細胞的黏附等。顯著富集差異表達基因KEGG通路分析包括Endocytosis和Hepatitis B的相關信號通路。PPI篩選出EPS15、STAT4、CCL2、SUN2、SEC24C、SEC31A、GOLGB1、F2R,RAB12和PTK2B等關鍵基因。
EPS15為表皮生長因子受體底物基因,參與細胞生長調節[6]。可能參與細胞增殖的控制,有絲分裂信號的調節,特別是EGFR在網格蛋白涂層凹坑(CCPs)的組裝中發揮作用,可能參與IgA介導的免疫反應[7]。STAT4是一種轉錄因子,它在T細胞和單核細胞中轉導IL-12和IL-23的生成,導致單核細胞激活[8],一些證據顯示,STAT4可能在多種自身免疫性疾病的進展中發揮著關鍵的作用[9]。相關研究利用炎癥相mRNA表達譜顯示,IgAN患者體內外體趨化因子(C-C motif)配體2 (CCL2)表達上調[10],表明CCL2可能參與IgA腎臟病的發病和進展。細胞學組分(CC)分析發現主要存在COPⅡ囊泡和高爾基體的差異,研究顯示在prechylomicron運輸囊泡(PCTV)與高爾基體對接時,存在COPII蛋白,并且是需要SEC24C參與[11]。F2R基因存在功能多態性,研究顯示其啟動子多態性改變在結節病中的作用,主要導致炎癥的加重[12],IgAN和MN存在炎性改變,F2R對其是否存在具體影響,目前尚無確切研究證據。RAB12在人PMBCs磷酸化中起重要作用,在帕金森疾病表現顯著[13],而同SUN2、SEC31,GOLGB1和PTK2B在人IgAN和MN中的具體作用和機制有待進一步研究。
篩選出核心差異表達基因,特別是EPS15、STAT4、CCL2,SEC24C和F2R,為IgAN和MN的診斷和鑒別提供簡便、可靠的依據補充,甚至提供治療的新靶點。研究和掌握IgAN和MN疾病特異性的發病機制和特異性標記物,對現階段IgAN和MN的診斷和鑒別具有重要意義。探討基因表達及調控,挖掘特異性蛋白質表達和PPI,有助于尋找新治療靶點。