羅勇軍,陳 郁,蒲 懿,張 莉,董紅梅△
(1.陸軍軍醫大學陸軍衛勤訓練基地軍事醫學地理學教研室,重慶 400038;2.陸軍軍醫大學基礎醫學院學員五大隊十五隊,重慶 400038;3.中國人民解放軍聯勤保障部隊第941醫院心腎內科,西寧 810001)
當進入海拔超過2 500 m的高原地區后,人體會在低氧環境作用下出現明顯的生理反應,因而醫學界將海拔超過2 500 m定義為醫學高原[1]。為代償低氧環境、改善低氧血癥,紅細胞會明顯增生,這種增生在一定程度內能夠提高運氧能力和血氧水平、減輕缺氧損傷,是人體習服高原環境的重要機制。然而,當紅細胞增生超過一定范圍時,就會演變為高原紅細胞增多癥(high altitude polycythemia,HAPC)[2],其帶來的危害已經抵消了原有的有益效應。過度增生的紅細胞降低血流速度,而動脈血氧飽和度降低進一步加重低氧血癥,可造成全身多器官多系統的缺氧損傷,并伴有相應的臨床癥狀及體征,嚴重影響高原居民的身體健康,尤其在高原移居人群中更為普遍,造成的危害也更為嚴重。HAPC是高原環境和人體遺傳因素相互作用的結果,其發病機制較為復雜,也尚未完全闡明。因此,探討HAPC的發病機制是降低HAPC危害的重要研究方向。
DNA甲基化是調控基因表達的重要表觀遺傳學機制之一,能夠顯著影響疾病的發生與進展[3]。HAPC的遺傳易感因素較為復雜,多個基因參與其中,單個基因的甲基化并不能解釋HAPC的發病機制,在全基因組層面的甲基化研究也還處于初步階段。本研究通過全基因組DNA甲基化芯片技術建立高原移居漢族HAPC特異性甲基化基因表達譜,對比HAPC患者與健康者基因組水平DNA甲基化差異,并借助生物信息學的方法和技術篩選相關差異基因,分析其潛在功能和分子作用網絡,為探索HAPC的發病機制,以及可能的靶向治療和預防方案提供理論依據。
按照HAPC的診斷標準[4],在世居中國青海省西寧市的漢族男性人群中篩選了4例HAPC患者(病例組),血紅蛋白(hemoglobin,Hb)水平216~253 g/L;另選取同期體檢的5例高原漢族健康者作為對照組,Hb水平170~181 g/L,年齡、性別匹配。本研究經陸軍軍醫大學倫理委員會批準(批準編號:2020第001-02號),所有受試者均簽署知情同意書。
1.2.1血樣采集
抽取受試者晨起空腹外周靜脈血2 mL,經乙二胺四乙酸(EDTA)抗凝后,用于提取基因組DNA。
1.2.2基因組DNA提取與質檢
采用美國OMEGA生物技術有限公司的全血基因組提取試劑盒(貨號:D3392-02)提取血樣中的基因組DNA[5]。提取完成后先用分光光度計定量,并將樣品調到標準水平50 ng/μL,取20 μL,然后用0.8%的瓊脂糖凝膠電泳質檢。樣品電泳結果提示基因組DNA主帶清晰,通常相對分子質量不小于10×103,沒有明顯降解,總量5 μg以上,能夠進行下游的甲基化芯片檢測。
1.2.3基因組DNA甲基化水平檢測
采用美國Illumina公司的甲基化芯片Infinium MethylationEPIC BeadChip(850 k芯片)檢測受試者基因組DNA甲基化水平[6]。該芯片覆蓋了853 307個CpG位點,并全面覆蓋基因啟動子區、基因編碼區、CpG島、增強子區及99%的RefSeq基因。后續的亞硫酸鹽轉化,DNA擴增,DNA的片段化、沉淀和重懸,DNA與芯片的雜交,芯片清洗、單堿基延伸、染色及芯片掃描和數據提取在北京博奧晶典生物技術有限公司完成。
將處理好的芯片放入掃描儀,利用激光激發芯片上的單堿基延伸產物的熒光基團,掃描儀獲取由熒光基團發出的熒光,并生成原始數據,記錄掃描結果存放的位置。由此所得的數據直接導入GenomeStudio軟件進行分析,根據Illumina官方甲基化分析算法獲得每個位點的原始信號強度值。然后經過對不同熒光、探針類型引起的偏差校正及歸一化、位點過濾,得到高質量CpG位點的歸一化后甲基化水平,即β值,用于質控。根據β值計算樣品間Pearson相關系數(Pearson correlation coefficient,PCC),以評估受試樣品芯片信號質量的重復率(β值為0表示該位點無甲基化,β值為1表示該位點完全甲基化)。質控后的數據,采用R軟件包IMA3.1.2進行差異甲基化分析,其采用的方法為Limma中的經驗貝葉斯統計[7-8]。同時針對多重假設檢驗問題,計算錯誤發現率(false discovery rate,FDR)校正P值,以降低假陽性率。差異甲基化位點的選取標準為:校正P≤0.05(如果所有位點均校正P>0.05,或≤0.05的位點很少,則以校正之前的P≤0.05為標準)。針對差異甲基化位點,使用R腳本對樣本進行聚類分析,并使用通路富集工具KOBAS注釋這些差異位點映射到的基因,通過與京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)GENES數據庫交聯鏈接,挖掘出統計上明顯的基因本體論(gene ontology,GO)功能富集分析和KEGG信號通路分析[9],探討差異甲基化基因的潛在功能及在HAPC發病機制中可能的作用。通過上述生物信息學分析,探討差異甲基化基因及其作用網絡在高原移居漢族HAPC發病機制中可能的作用。所有檢驗為雙側,以P<0.05為差異有統計學意義。
將掃描得到的原始數據通過GenomeStudio軟件獲得每個位點的原始信號值和測量P值(DetectionP值),二者用于質控以評估數據質量和后續分析。測量P>0.05表明樣品的質量較低,需要去除。原始信號值提示所有樣品的位點檢測率均在99.9%以上,保證了檢測范圍。質控包括樣本獨立對照(sample-independent controls,SICs)、樣本非獨立對照(Sample-dependent controls,SDCs)、位點質控及個體質控。SICs用于評估操作步驟,SDSs用于評估樣品質量。位點質控要求位點在95%以上的個體中測量P<0.05,同時去除位于X、Y染色體上的位點。個體質控要求個體在95%以上位點中的測量P<0.05。在經歷嚴格的質控后,獲取了病例組和對照組的β值。PCC分析提示病例-對照β值的PCC為0.997 9,表明芯片信號質量很好,所得數據可以用于后續分析,見圖1。

圖1 病例組與對照組甲基化水平Pearson相關性分析
按照差異甲基化位點的篩選標準,共篩選得到96 360個差異甲基化位點。其中,根據位點所屬區域差異,分為CpG島(10 699,11.1%)、島灘區(23 799,24.7%)、島架區(7 370,7.6%)和其他區域(54 492,56.6%)。根據甲基化水平變化,病例組的高甲基化位點共10 564個(11.0%),低甲基化位點共85 796個(89.0%)。根據對照組與病例組對比結果顯示:對照組中大部分CpG位點呈現高甲基化狀態,而病例組大部分甲基化水平降低,與對照組相比差異甲基化基因24 054個。根據差異甲基化位點所映射的基因變化,與對照組相比,病例組的高甲基化基因共5 981個,低甲基化基因共18 073個。
在前述篩選出的差異甲基化位點所處的基因中,按照篩選標準獲取了10個最明顯的高甲基化基因,分別是含黃素單氧化酶3(flavin-containing monooxygenase 3,FMO3)、G蛋白核仁2(G protein nucleolar 2,GNL2)、鈣調磷酸酶類似EF-Hand蛋白2(calcineurin like EF-hand protein 2,CHP2)、酰基輔酶A硫酯酶2(acyl-CoA thioesterase 2,ACOT2)、染色體1開放閱讀框25(chromosome 1 open reading frame 25,C1orf25)、OCA2黑素體跨膜蛋白(OCA2 melanosomal transmembrane protein,OCA2)、肌動蛋白相關蛋白2/3復合亞基4(actin related protein 2/3 complex subunit 4,ARPC4)、錨蛋白重復域55(ankyrin repeat domain 55,ANKRD55)、GRB10交互作用GYF蛋白2(GRB10 interacting GYF protein 2,GIGYF2)、溶酶體蛋白跨膜4β(lysosomal protein transmembrane 4 beta,LAPTM4B),見表1。篩選的10個最明顯低甲基化基因分別是黏附蛋白偶聯受體B1(adhesion G protein-coupled receptor B1,ADGRB1)、Rab親和蛋白3A類似物(不含C2結構域)[rabphilin 3A Like (without C2 domains),RPH3AL]、酰輔酶A硫酯酶1(acyl-CoA thioesterase 2,ACOT1)、ATP結合盒亞家族C成員13(ATP binding cassette subfamily C member 13,ABCC13)、鈣粘蛋白22(cadherin 22,CDH22)、染色體1開放閱讀框109(chromosome 1 open reading frame 109,C1orf109)、防御素β128(defensin beta 128,DEFB128)、錨蛋白重復域23(ankyrin repeat domain 23,ANKRD23)、酰基輔酶A合成酶家族成員3(Acyl-CoA synthetase family member 3,ACSF3)、鈣/鈣調蛋白依賴性蛋白激酶1D(calcium/calmodulin dependent protein kinase 1D,CAMK1D),見表2。

表1 篩選出的10個最明顯高甲基化基因(病例組 vs. 對照組)

表2 篩選出的10個最明顯低甲基化基因(病例組 vs.對照組)
2.4.1GO功能富集分析
按照篩選標準,病例組與對照組的差異甲基化位點所在基因相關的GO條目共19 585個,根據P值篩選了前10個最明顯的GO條目。其中,主要富集于生物過程的物質定位、生物過程和細胞過程的正向調控及細胞發育等,以及細胞組分的細胞質及分子功能的結合,見表3。

表3 差異甲基化位點所在基因的GO分析
2.4.2KEGG信號通路分析
病例組與對照組的差異甲基化位點所在基因相關的KEGG信號通路共305個,符合篩選條件的信號通路共42條(P<0.05),并根據P值篩選了前10個最明顯的信號通路,見表4。結果提示,差異甲基化位點所在基因涉及的信號通路主要包括代謝通路、癌癥通路及絲裂原活化蛋白激酶(MAPK)信號通路。

表4 差異甲基化位點所在基因的KEGG通路分析
HAPC是高原地區的常見疾病,海拔4 000 m以上地區患病率高達24.0%[10],而在海拔超過5 000 m的喀喇昆侖山脈地區則更高,移居人群如漢族人群可達80%以上[11],嚴重威脅著高原地區人群的健康。因此,探索HAPC的發病機制是維護高原人群生命安全的重要研究方向。HAPC的發生是高原環境和人體相互作用的結果,涉及多個系統和多個環節,其分子機制不僅與核基因序列、線粒體DNA(mtDNA)序列改變相關,還涵蓋表觀遺傳學的變化,包括DNA甲基化、組蛋白修飾(如乙酰化、蘇木化和磷酸化)及非編碼RNA調控等多種機制。PENG等[12]發現了缺氧誘導因子(hypoxia inducible factor,HIF)途徑的內皮含PAS結構域蛋白1(EPAS1)和脯氨酰羥化酶蛋白(EGLN1)基因可能是高海拔遺傳適應的候選基因。FAN等[13]通過全外顯子測序發現,在西藏世居人群中磷脂酰肌醇-3激酶催化亞基δ(PIK3CD)和Ⅳ型膠原蛋白α3鏈(COL4A3)基因上存在差異單核苷酸多態性(SNP)位點。ZHOU等[14]通過全基因組關聯研究,發現紅細胞生成調節基因小泛素相關修飾蛋白特異性蛋白酶1(SENP1)和癌基因酸性富含亮氨酸的核磷蛋白32家族成員D(ANP32D)在患有慢性高原疾病的患者中表達上調。陳輝等[15]發現,白細胞介素-12受體B1(IL12RB1)基因的SNPsrs393548、rs436857 和rs845380與西藏世居人群HAPC的發生有關。
目前,關于HAPC遺傳易感機制的研究多為DNA水平,表觀遺傳機制研究較少。本研究借助高通量基因芯片技術,首次從全基因組層面分析了中國漢族HAPC患者的基因組DNA甲基化水平,發現HAPC患者基因組DNA大部分呈低甲基化狀態,并篩選了以FMO3為代表的高甲基化基因和以ADGRB1為代表的低甲基化基因,借助生物信息學分析富集了相關的信號通路,提示基因組DNA的異常甲基化也是HAPC發生的重要機制。
除了基因本身的變化外,表觀遺傳學的改變也是人體適應高原的重要機制[16]。DNA甲基化作為表觀遺傳的主要機制之一,其核心是由S-腺苷甲硫氨酸作為甲基供體,在DNA甲基化轉移酶的催化下,提供的甲基被轉移到相應堿基的一種DNA共價修飾方式,并不涉及DNA序列的改變[17]。已有研究提示,作為高原適應的主要候選基因EGLN1,其啟動子區域的高甲基化與安第斯山印第安人HAPC有關[16];而另一個高原適應候選基因EPAS1,其甲基化水平與安第斯山印第安人的早期發育和終生高海拔暴露及高海拔適應性表型有關[18-19],而血管緊張素Ⅱ 1型受體相關蛋白的配體(Apelin)基因的高甲基化也在高原肺水腫的發生中發揮著重要作用[20]。在本研究中,發現HAPC患者的基因組DNA多呈低甲基化狀態,提示其基因表達較為活躍。在長期的低氧環境刺激下,作為低氧反應重要的調控因子HIFs,在與特異的順式作用元件相結合后,啟動了一系列基因的轉錄,并以此形成信號轉導的級聯放大效應,建構復雜的分子作用網絡,涵蓋人體對缺氧的感知和反應,從造血干細胞分化成紅系祖細胞再到成熟紅細胞的形成,骨髓造血微環境的調節,促紅細胞生成素的分泌與反饋,Hb合成所需的鐵、維生素B12等原料的吸收合成與利用。上述過程中不可避免的涉及多種表觀遺傳學變化,而本研究發現了HAPC患者和高原健康對照在多個基因的甲基化有著不同程度的變化,提示異常的甲基化改變在上述過程中發揮著重要的調節作用。
在大鼠的HAPC模型中,EGLN1基因的甲基化水平與正常對照并無明顯差異[21],而von Hippel-Lindau(VHL)基因啟動子的高甲基化會降低VHL基因表達,進而促進HIF-2α和促紅細胞生成素(EPO)的表達,誘導HAPC的發生[22]。本研究提示,HAPC患者的FMO3呈現高甲基化狀態,而抑制FMO3的表達能夠降低全血中膠原依賴的血小板與基質的黏附性,對血栓形成有抑制作用[23]。在HAPC患者中,由于紅細胞過度增生易并發血栓,尤其是誘導微循環障礙,加重全身缺氧損傷。因此,推測HAPC患者的高甲基化FMO3狀態可能是功能代償,從血小板角度抑制血栓形成。在低甲基化基因方面,本研究提示HAPC患者的ADGRB1基因差異最為明顯。ADGRB1基因主要在腦部表達,在吞噬、炎癥、突觸形成、抑制血管生成和成肌細胞融合等方面發揮著重要作用[24]。研究發現,ADGRB1基因的高表達能夠抑制腦血管生成,與腦部腫瘤發生和腫瘤周圍腦水腫呈負相關[25]。此外,研究提示HAPC患者出現了不同程度的腦水腫[26],而本研究中發現的低甲基化ADGRB1基因可能也是通過提高其表達水平以拮抗腦水腫的發生。
在本研究中,借助多種生物信息學分析方式探討了差異甲基化基因的功能及其潛在的作用網絡,探尋其在HAPC發生中的作用。綜合分析兩組差異甲基化位點,提示病例組和對照組基因組DNA甲基化水平差異明顯,而且病例組絕大部分CpG差異甲基化位點數目低于對照組。基因組DNA的高甲基化位點意味著基因表達水平下降,而HAPC患者的高甲基化位點數目較健康者明顯下降,表明在長期的低氧環境刺激下,人體內部分基因被激活,其形成的信號放大機制和分子相互作用網絡在HAPC的發生、發展中發揮了重要作用。GO分析提示,差異甲基化基因參與了生物過程的正向調控、細胞質、解剖結構發展和解剖結構形態發生等過程。上述富集的功能均可能涉及HAPC的發病機制,如紅細胞生成與細胞發育和正向調控有關,細胞質的變化是紅細胞在成熟過程中的必然反應,而結合既包含了轉錄因子和DNA的結合,也包括了蛋白和蛋白之間的結合與相互作用,在紅細胞生成和成熟過程中均發揮了重要作用。KEGG通路分析提示,包括代謝通路、癌癥通路和MAPK信號通路等在HAPC對照組中呈現高富集。紅細胞增生過程中涵蓋了代謝通路的調整,也必然涉及能量代謝的改變,而MAPK信號通路在能量代謝過程中發揮著重要作用。此外,紅細胞的過度增生,在生物學過程方面類似于癌細胞的過度增殖,故在信號通路富集過程中也涉及癌癥通路的變化。上述結果進一步提示,HAPC的發生是機體在應對低氧環境刺激時調控網絡失衡的結果,低氧感知、紅細胞發育分化與成熟、造血微環境如炎癥狀態、紅細胞生成原料攝取等相關信號通路依然是探索HAPC發病機制的重要方向,如FMO3可影響血栓形成,ADGRB1在炎癥免疫、血管生成和腫瘤發生中均發揮著不同程度的效應,這也進一步提示甲基化在HAPC的發生中發揮了重要的調控作用。
綜上所述,本研究借助高通量基因芯片技術,從基因組甲基化角度探索了HAPC可能的發生機制,并發現了甲基化異常與HAPC發生有關。雖然納入的樣本量較小,生物學重復也未完成,在結果解釋方面有一定的局限性,但是目前Infinium MethylationEPIC BeadChip(850 k芯片)的應用越來越廣,研究方法和技術穩定,研究結果仍有一定的借鑒意義,提示甲基化改變也在HAPC發生中發揮著重要作用,異常的甲基化位點可能是HAPC發生的診斷標志物。本研究在基因組層面檢測了甲基化水平,并未對某個具體部位或某個基因的具體位置再檢測,針對差異甲基化基因,后期還需要借助甲基化特異性PCR進一步擴大樣本驗證結果。此外,雖然本研究只是甲基化改變在HAPC發生機制研究的開端,但是其中也提供了大量證據,提示HAPC的發病機制研究也要注意炎癥免疫、血管生成和血栓形成等信號通路,其相關的表觀遺傳學調控機制是HAPC早期治療和預警的客觀依據。