張 弛 董浩如 徐 騫 厲秀純 陳馬云
肺動脈高壓(pulmonary artery hypertension,PAH)是一種以肺血管收縮和重塑為特征的進展性疾病,病死率高[1]。目前PAH的發病機制尚未明確,同時,臨床上治療PAH的藥物療效不佳[2]。隨著2001 年人類基因組計劃的完成、后基因組時代高通量技術的快速發展,生物信息學技術已經成為研究疾病必不可少的一樣工具[3]。目前生物信息學技術在PAH研究中逐漸被應用,各種高通量技術、在線數據庫以及相關軟件是研究過程中必不可少的。其中GEO(Gene Expression Omnibus, http:∥www.ncbi.nlm.nih.gov/geo)數據庫是當今最大的、最全面的公共基因表達數據庫之一,通過高通量技術以及公共數據庫的挖掘,大量的研究成果被報道。本文就生物信息學技術在PAH研究中的應用現狀做一綜述,為今后對PAH發病機制及靶向治療的研究提供新思路。
當前,各種高通量組學和生物信息學技術已被廣泛的用于尋找疾病相關基因。在PAH研究中,研究人員通過挖掘公共數據庫,在mRNA、lncRNA、miRNA等水平鑒定出許多的生物學標志物。例如Wang等[4]基于PAH數據集(GSE703)進行了加權基因共表達網絡分析(weighted gene co-expression network analysis,WGCNA),篩選出與PAH相關性最強的2個模塊中前10位hub基因,其中變化最大的為YWHAB,其在肺動脈高壓患者血清中高表達,并與患者的肺動脈壓力呈正比,而后使用RT-PCR進行驗證,證實了YWHAB可作為PAH的生物學標志物和治療靶點。Sun等[5]分析了PAH小鼠數據集(GSE49114),鑒定出了77個上調和520個下調的差異表達基因,而后進行了基因本體論和信號通路富集分析,最后發現Smad9、BMPR2、Eng和IL-4參與了PAH的發展,但本研究鑒定出的PAH相關生物學標志物并未在人類樣本中得到驗證。
在lncRNA水平上,Gu等[6]利用隨機方差模型篩選出PAH患者肺組織內的差異表達基因后,通過構建共表達網絡發現NR-036693、NR-027783、NR-033766、NR-001284發生了明顯改變,從而推斷這4個lncRNA在肺動脈高壓的發生、發展過程中起到了重要的作用。Han等[7]聯合mRNA與lncRNA分析,得出2.511個差異表達的lncRNA和1169個差異表達的mRNA。其中上調的lncRNA有2004個,下調的lncRNA有507個;上調的mRNA有609個,下調的mRNA有560個。進一步通過富集分析,推斷下調的lncRNA可能參與PAH形成,此外差異表達的lncRNA可作為PAH診斷標志物。此外也有miRNA作為PAH生物學標志物的研究被報道:Zhu等[8]通過公共數據挖掘,發現PAH大鼠模型中miR-140-5p下調,進一步實驗證明上調的miR-140-5p可以通過靶向抑制TNF-α來緩解肺動脈高壓的進展,因此,miR-140-5p可以作為PAH的診斷及治療靶點。另外有研究通過對miRNA芯片數據進行差異分析及功能注釋,發現miR-1183在風濕性心臟病并發肺動脈高壓患者中過表達,并參與了肺動脈的重構[9]。以上研究結果表明生物信息學技術在尋找疾病標志物方面具有極大優勢。
由Salmena等[10]提出的競爭性內源性RNA假說闡明了編碼RNA和非編碼RNA的相互作用在疾病的產生和發展過程中起到了重要作用,并且得到了大量的實驗證明。然而,低通量的實驗方法在構建與疾病相關的ceRNA網絡時,具有成本高、效率低的缺點,而生物信息學技術恰好能彌補其不足。目前有許多通過生物信息學技術構建PAH相關ceRNA網絡的研究被報道。Wang等[11]使用高通量芯片在PAH小鼠肺組織中鑒定出12個差異表達的circRNA,選擇其中差異最大的兩個circRNA(mmu_circRNA_004592 和mmu_circRNA_018351),利用了TargetScan與miRanda在內的多種生物信息學工具預測了靶向miRNA與Mrna,使用了Cytoscape軟件構建了ceRNA網絡,結果顯示這些差異circRNA可作為PAH的診斷和治療靶點。
另有研究結合差異的miRNA與circRNA來構建ceRNA網絡,如Miao等[12]應用高通量技術,在PAH患者外周血液中檢測到了212個差異表達的miRNA和61個差異表達的circRNA,而后構建了miRNA-circRNA調控網絡,發現hsa_circ_004615可作為miR-1226-3p“海綿”來調控ATP2A2的表達,進而影響肺動脈高壓的發生、發展。此外,也有研究通過建立PAH相關的lncRNA-gene-miRNA互作網絡來闡明PAH發生、發展的潛在機制,研究結果顯示基于PDGFRB和HIF-1α的ceRNA網絡(miRNAs-PDGFRB-lncRNAs和miRNAs-HIF-1α-lncRNAs)在PAH發展過程中起到了關鍵的作用[13]。Zhuo等[14]通過分析587例PAH患者和736例健康對照組外周血的單核苷酸多態性,發現lncRNA MALAT1中rs619586A>G單核苷酸多態性與PAH形成的相關性最高,進一步分析表明,變異的MALAT1可作為miR-214的“海綿”進而影響XBP1的表達,對PAH的形成有保護作用。也有研究通過不同的算法模型來構建ceRNA網絡,如Feng等[15]構建了一種新的算法模型——ce-Subpathway,在PAH數據集(GSE33463)中確定了31個由ceRNA介導的功能子通路,進一步的分析結果發現miR-30家族在EP300和JUN、CREBBP和TCF7L2、FBXW11和EP300的ceRNA機制中有顯著的調控作用。
綜上所述,研究人員主要是通過生物信息學工具,預測RNA之間的靶向調控關系來構建ceRNA相關網絡,而后通過富集分析、生存分析、分子生物學實驗等驗證其在疾病中的調控作用,生物信息學技術在其中發揮了重要的作用。
網絡藥理學是一門用于闡述疾病發生、發展,探究藥物機體相互作用的新興學科,在闡明疾病發生機制與中藥藥理學機制發揮了巨大的作用,現如今也有許多在線數據庫被開發和應用,然而,目前網絡藥理學主要應用于癌癥等領域的研究,在PAH領域只有少數研究被報道。如Chen等[16]研究顯示,利用網絡藥理學方法,挖掘出染料木黃酮作用的靶點,通過構建蛋白互作網絡和富集分析,發現該藥物的抗PAH作用與凋亡信號通路和一氧化氮合成過程密切相關,接著通過分子對接模擬,發現染料木黃酮可與過氧化物酶體增殖物激活受體γ(PPARγ)直接作用,發揮抗肺動脈高壓的作用。也有研究結合在線數據庫cMap(Connectivity Map)與表達譜數據,進行差異分析與功能注釋,發現活性氧的形成可能參與PAH的發生、發展,隨后作者將差異基因分為上調與下調兩組,通過在線數據庫的檢索,鑒定出了許多可抑制活性氧產生的藥物[17]。但是,目前被報道的研究都缺乏體內外實驗的驗證,因此通過網絡藥理學研究獲得的藥物需要通過進一步的細胞、動物實驗以及大規模人群的隨機對照實驗來確定其臨床療效。
蛋白質組學是對一個細胞或一種組織中全部蛋白質進行大規模分析的一門新興學科,在多種疾病的研究中發揮了較大的作用。蛋白質組學在PAH領域研究已有多年,多種質譜(MS)分析方法被開發用于尋找PAH相關的生物學標志物,如在2006年便有文章報道:通過SELDI-TOF MS對PAH患者血液樣本進行分析,鑒定出234個差異蛋白,進一步通過多因素回歸分析發現質荷比為8600的離子是最有效的PAH候選生物學標志物[18]。
近年來蛋白組學方法在揭示PAH潛在發病機制中也得到了廣泛的應用,Meyrick等[19]通過2D-DIGE/MS分析PAH患者血清,得到了9個上調蛋白,7個下調蛋白,進一步的分析發現其中一個蛋白Grb2參與BMPR2受體的信號轉導,進而影響家族性肺動脈高壓的發生、發展。此外,Xu等[20]使用LC-MS/MS,取4例PAH患者及5例健康對照的肺組織,進行了全局蛋白組學及磷蛋白組學分析,結果顯示有170個蛋白和240個磷酸肽差異表達,其中45個蛋白和18個磷酸肽位于線粒體中,表明線粒體相關代謝途徑的改變參與PAH的發生、發展。至于評價藥物的治療效果,Yao等[21]通過檢測加藥動物模型相關蛋白表達,結合進一步的表型實驗,證明了osthole具有治療PAH的作用。YEAGER等[22]研究了8例經擴血管治療后預后良好患者和7例預后不良患者的血漿蛋白的差異水平,發現SAA-4在預后良好的患者中降低了4倍,在預后不良的患者中升高了2倍;paraoxonase/arylesterase-1在預后良好的患者中升高了2倍;在預后良好的患者中,SAP比治療前降低了1.3倍;預后不良患者治療后,結合珠蛋白和血凝蛋白分別降低了1.45和1.80倍。這些結果表明這些血漿蛋白可以作為評價PAH擴血管治療預后的指標。總之,蛋白質組學在PAH研究中較早便得到了應用,近年來發表的研究較少,但其涉及了PAH相關生物學標志物、PAH發病機制以及藥物療效評價等各個方面,應用較為廣泛。
當前針對表觀遺傳學的研究包括了DNA甲基化、組蛋白修飾以及染色質重塑等,在已發表的研究中,利用生物信息學技術研究PAH的表觀遺傳學主要體現在DNA甲基化。如Wang等[23]利用高通量技術在肺動脈平滑肌細胞中檢測到6829個DNA甲基化差異位點,其中高甲基化位點4246個,低甲基化位點2583個,將差異的甲基化位點進行基因功能與信號通路的富集分析,發現這些基因參與了細胞增殖、凋亡與遷移等生物學過程。篩選未被報道的3個基因(PIK3CA、HRAS和HIC1),使用焦磷酸測序來驗證其上游啟動子區甲基化水平,發現HIC1甲基化水平顯著升高,而PIK3CA和HRAS甲基化水平顯著降低,而后通過RT-PCR進一步驗證了相對應的mRNA的表達。
有研究通過檢測啟動子區CpG島,發現在不同病因PAH患者的肺動脈內皮細胞中部分基因的甲基化程度不同,通過主成分分析驗證了不同病因PAH甲基化基因譜的差別,而后作者通過對編碼轉運蛋白的46個基因進行Meta分析與富集分析,發現ABCA1甲基化水平差異最明顯,其參與調控了脂代謝,最后qPCR的結果證實了PAH患者肺組織中相應mRNA表達下調[24]。除此之外,有研究僅通過人類甲基化芯片,鑒定出風濕性心臟病并發肺動脈高壓患者血液中共有40個低甲基化位點與64個高甲基化位點,但缺少了進一步實驗的驗證,而后此研究進行了富集分析,結果顯示蛋白激酶/轉移酶活性發生了變化,這些發現可以給相關基礎研究人員提供新的思考方向[25]。總體而言,利用生物信息學對PAH表觀遺傳學研究主要集中于DNA甲基化,其他方面如乙酰化等,主要通過細胞動物實驗直接探究其在PAH發生、發展中的作用,生物信息學技術應用較少。
隨著各種高通量技術的快速發展,疾病研究已經進入了大數據整合分析的時代。通過利用各種芯片技術、測序技術以及各種在線數據庫,研究人員完成了許多關于PAH發生、發展機制的研究,也鑒定出大量PAH相關的生物學標志物。然而,目前針對PAH的分析主要集中在某一特定組學以及單個數據,存在樣本量少、可重復性差的問題,而整合多組學數據以及聯合多數據集分析在癌癥領域已經得到了廣泛的應用,雖然已經開發出許多相關的算法、工具,但是多組學數據與多數據集的集成仍存在一定的誤差。在未來,不斷優化的算法以及不斷更新的生物信息學技術可以幫助科研人員整合多維度的數據,尋找更加可靠的生物學標志物,推動相關分子機制的研究,最后可以更好地實現對PAH患者進行準確的診斷和個體化的靶向治療。