付利娟,夏映曦,何俊琳,劉學慶,陳雪梅,王應雄,丁裕斌△
(重慶醫科大學:1.公共衛生學院;2.中醫藥學院 400016;3.重慶江陵醫院 400021)
DNA甲基化作為一種重要的表觀修飾方式,它可在不改變基因序列的情況,調控基因的轉錄,近年來已成為生命研究的熱點之一[1]。DNA甲基化一旦發生紊亂,可導致包括腫瘤、胚胎發育、老年化進程以及自身免疫性在內的多種疾病狀態[2]。由于CpG島甲基化所致的抑癌基因轉錄失活是一個可逆轉的基因修飾過程,且該逆轉過程(CpG島去甲基化)可直接恢復抑癌基因功能,因此,DNA去甲基化調控抑癌基因功能的研究已成為腫瘤基因治療的新型手段之一[3]。DNA甲基化的研究手段多樣,其中,DNA甲基化芯片屬高通量、高效率的研究手段之一[4],在DNA甲基化研究中應用非常廣泛,對研究者的要求亦較高。從DNA甲基化基因芯片設計、芯片數據的質量控制、后期的數據分析、數據的DNA甲基化特異性PCR、COBRA、BSP測序等驗證方法到數據的可視化顯示,需要研究者熟悉諸多軟件的使用。本研究將DNA甲基化研究中的質量控制、數據分析過程以及常用的軟件使用予以介紹,并探討這些數據分析過程中應注意的地方。
1.1 材料 DNA甲基化原始芯片數據,甲基化測序PCR(bisulfite sequence PCR,BSP)數據,分析所需各種在線、本地安裝軟件,如 Signal Map、UCSC Genome Browser、Methyprimer、Methyl Primer Express等。
1.2 方法 采用文獻學習及軟件學習法,分析實驗過程中質量控制的必要方法,統計分析各種實驗數據,進行引物設計以及研究數據的可視化處理等。
2.1 芯片的設計與質量控制 目前常用的商業DNA甲基化芯片主要由Roche-nimblegen和Agilent兩個公司生產。芯片包括Chip-on-Chip和 MeDIP-Chip芯片,根據實驗設計的需要,可選擇不同的類型。這兩種較常用的甲基化芯片類型包括多種不同分辨率的芯片,芯片雜交的探針既可囊括基因組CpG區和啟動子區,亦可專門針對啟動子區的DNA甲基化。以MeDIP-Chip芯片為例,整個DNA甲基化芯片實驗應包括如下質控步驟:(1)超聲打斷基因組產生的片段應在200~1 000bp范圍內;(2)甲基免疫共沉淀過程質控應選擇明確的甲基化區域,如印記基因Xist做陽性對照,同時選擇如Actb,Aprt等基因作為非甲基化區域的對照;(3)通過對基因芯片掃描的原始數據進行分析,校正異常雜交信號,去除噪音信號,并通過對信號點(MA-plot)的分布明確信號值的均一性,進一步采用相關分析判斷重復實驗的再現性和配對樣本間的相關性;(4)數據分析過程質量控制,首先要進行數據的均一化處理以判斷出不同芯片間的DNA甲基化差異,其次是對明確的區域和整個基因組的差異甲基化區域進行判別,這一過程在Roche-Nimblegen中主要由 NimbleScan v2.5軟件完成[5]。

表1 MethyPrimer設計的ALKBH3甲基化PCR引物

表2 Methyl Primer Express設計的ALKBH3甲基化PCR引物
2.2 甲基化數據分析 DNA甲基化芯片數據結果,除了可進一步進行統計學分析外,差異甲基化基因啟動子或CpG島的可視化,如Roche-Nimblegen公司的數據可采用Signal Map進行閱讀,即導入注釋數據和GFF格式的Peak數據和log2IP/input數據后,可根據NimbleScan輸出的統計結果,查找差異DNA甲基化基因的位置、大小、轉錄起始與終止區域、TSS點以及 Log2IP/input值(圖1)[6]。

圖1 甲基化數據分析圖

圖2 Methyprimer預測出ALKBH3基因的兩個CpG島圖
2.3 MSP引物設計
2.3.1 基因的外顯子區查找 可在University of California,
Santa Cruz分校的 UCSC Genome Browser數據庫(http://ge-nome.ucsc.edu/cgi-bin/hgGateway)搜索[7]。除了搜索啟動子區,研究者還可以根據目的基因甲基化所在位置,選擇5′-UTR和外顯子區。具體搜索的方法及限制,可使用搜索引擎搜索如下關鍵詞“UCSC啟動子查找”。應注意的是,UCSC Genome Browser注釋數據庫有hg16、17、18和19版,在搜索時,應注意選擇搜索的數據庫版本與DNA甲基化芯片數據的注釋數據庫版本相對應。除了UCSC數據庫外,NCBI的Mapview(http://www.ncbi.nlm.nih.gov/mapview/index.html)亦可以搜索啟動子區。搜索引擎的選擇,通常是根據芯片結果注釋時所采用的數據庫來決定的。更多的情況下,芯片注釋使用的數據庫是UCSC Genome Browser。
2.3.2 引物設計軟件 甲基化芯片結果驗證最常用的方法是甲基化PCR(methylation specific PCR,MSP)和硫化測序PCR(bisfulfite sequencing PCR,BSP)。甲基化引物設計是MSP和BSP中的關鍵。研究者最常用的甲基化引物設計軟件是在線Methyprimer(http://www.urogene.org/methprimer/index1.html)[8]。研究者可將已知的啟動子區拷貝到該軟件的窗口后,選擇CpG島的大小、限制GC含量等限制條件后,即可自行設計MSP或BSP引物。通常情況下Methyprimer會在CpG島區域設計引物,但有些基因的引物設計結果卻并不在軟件預測的CpG島區(圖2),如Alkylation Repair Homolog 3(ALKBH3)基因。將該基因啟動子區、5′UTR區和CDs區序列后拷貝到Methyprimer后,軟件預測出了兩個CpG島,分別位于672~996區域和1 001~1 131區域,設計出的5對MSP引物均全部位于325~542區域內,而非CpG島區域。因此,這類基因引物的設計就需要研究者先根據自己的知識經驗來限定CpG島區,再依據甲基化引物設計的要求自行設計。DNA甲基化引物設計的原則主要有:(1)引物擴增區域最好位于轉錄起始位點(transcription start site,TSS)250bp以內;(2)引物至少應包括3個以上(多數情況下4個或更多)CpG;(3)預測的退火溫度大于55℃[9]。根據上述要求,設計的ALKBH3基因引物見表1。令一款由Applied Biosystems公司開發的免費軟件 Methyl Primer Express(https://products.appliedbiosystems.com/ab/en/US/adirect/ab?cmd=catNavigate2&catID=602121&tab=Overview)[10],可本地安裝后使用。該軟件進行CpG島預測后,能夠準確地設計出位于CpG島區域內的引物及其擴增區(圖3)。引物設計時,軟件還會提醒使用者選擇哪個CpG島來設計引物,設計出的引物與Methprimer人工設定的區域很接近。這個軟件比較簡單易用,推薦初學者使用這一軟件。熟練者,可將二者結合使用。利用Methyl Primer Express設計ALKBH3MSP引物(表1、2)。設 計 好 的 甲 基 化 引 物 可 通 過 Blast (http://medgen.ugent.be/methBLAST/)進一步驗證,確保其目標擴增序列的特異性。此外,Ugent網站http://medgen.ugent.be/methprimerdb/search_primers.php為研究者提供了部分基因甲基化啟動子序列,這些序列均是被研究者實驗過程所驗證的引物。

圖3 Methyl Primer Express預測CpG島和設計的甲基化引物起始位點圖
2.4 BSP結果的可視化 目前,多款軟件被用于BSP結果的可視化和CpG甲基化位點的統計分析,包括BiQ analyzer,BISMA(Bisulfite Sequencing DNA Methylation Analysis)和QUMA Quantification Tool for Methylation Analysis。BiQ analyzer可視化分析CpG位點功能較強,但是在CpG甲基化與非甲基化的模式作圖和甲基化數據分析上有明顯不足[11]。BISMA和QUMA在CpG差異甲基化作圖與數據分析上各具優勢。
2.4.1 QUMA (http://quma.cdb.riken.jp/) QUMA 是 一款使用方便、集成多個分析功能、基于網絡的CpG甲基化測序結果分析軟件,它可以整齊地排列測序的原始結果,分析甲基化圖譜,并進行統計學比較,檢驗測序質量以及現實可視化的甲基化模式[6]。利用該網站提供樣本數據,分析結果見圖4。

圖4 QUMA圖示分析甲基化測序結果
2.4.2 BISMA(http://biochem.jacobs-university.de/BDPC/BISMA/) BISMA是一款目前功能更為全面,可視化效果和統計學數據分析,最優秀的DNA甲基化測序數據可視化分析軟件。它可快速抽取上傳的txt或ABI測序格式的原始數據文件,輔助分析序列方向,高度自動化的進行復雜計算,去除載體序列,結果分析快速準確。同時還可判別測序結果的質量、亞硫酸鹽轉化效率、檢測堿基缺失或丟失和過濾N位的甲基化。在質量控制和數據處理能力較高的情況下,分析并展示CpG甲基化模式,并首次在同類軟件中支持重復序列的分析[7],見圖5。

圖5 BISMA分析甲基化測序數據統計結果
DNA甲基化是生命活動過程中常見的表觀遺傳修飾方式之一[12-14]。DNA甲基化異常分兩種類型,一種是CpG島超甲基化(hypermethylation),另一種是低甲基化(hypomethylation)[15]。DNA甲基化異常與許多種類型的疾病發生相關,營養、環境因素同樣可影響DNA甲基化狀態[2]。此外,由于DNA甲基化的異常狀態是一種可逆轉的生物學行為,因此,DNA甲基化研究成為目前各中疾病發生研究領域的熱點之一[16]。DNA甲基化研究,無論是針對某個生理過程還是疾病發生的機制探索,均是系統工作,需從甲基化芯片設計開始,到MSP、BSP等驗證,甚至還包括功能實驗驗證等方面,進行周詳的設計與計劃。尤其是在芯片實驗過程中,多個涉及的質量控制過程的步驟尤為重要,事關整個實驗的成敗,因此,應在芯片實驗的整個過程執行嚴格的質量控制工作[5]。DNA甲基化芯片的驗證過程主要包括MSP和BSP,引物的設計亦是實驗中的關鍵,選擇更好的軟件進行引物的設計,并優化設計好的引物和PCR反應條件是實驗成功的前提。BSP結果的可視化,有助于讀者更直觀地了解甲基化測序驗證結果。因此,DNA甲基化研究,應從多角度控制實驗的設計和數據的產生及結果的分析。
[1] Feng S,Jacobsen SE,Reik W.Epigenetic reprogramming in plant and animal development[J].Science,2010,330(6004):622-627.
[2] Morgan HD,Santos F,Green K,et al.Epigenetic reprogramming in mammals[J].Human Molecular Genetics,2005,14(1):R47-58.
[3] Rodenhiser D,Mann M.Epigenetics and human disease:translating basic biology into clinical applications[J].Canadian Medical Association journal,2006,174(3):341-348.
[4] Dunwell T,Hesson L,Rauch TA,et al.A Genome-wide screen identifies frequently methylated genes in haematological and epithelial cancers[J].Molecular Cancer,2010,9:44.
[5] P?lmke N,Santacruz D,Walter J.Comprehensive analysis of DNA-methylation in mammalian tissues using MeDIP-chip[J].Methods,2010,53(2):175-184.
[6] S?rensen AL,Jacobsen BM,Reiner AH,et al.Promoter DNA Methylation Patterns of Differentiated Cells Are Largely Programmed at the Progenitor Stage[J].Molecular Biology of the Cell,2010,21:2066-2077.
[7] Zhu JC,Sanborn JZ,Benz S,et al.The UCSC Cancer Genomics Browser[J].Nature Methods,2009,6:239-240.
[8] Li J,Gao F,Li N,et al.An improved method for genome wide DNA methylation profiling correlated to transcription and genomic instability in two breast cancer cell lines[J].BMC Genomics,2009,10:223.
[9] Shames DS,Girard L,Gao B,et al.A Genome-Wide Screen for Promoter Methylation in Lung Cancer Identifies Novel Methylation Markers for Multiple Malignancies[J].PLoS Med,2006,3(12):2244-2263.
[10]Okamoto J,Hirata T,Chen Z,et al.EMX2is epigenetically silenced and suppresses growth in human lung cancer[J].Oncogene,2010,29(44):5969-5975.
[11]Bock C,Reither S,Mikeska T,et al.BiQ Analyzer:visual-ization and quality control for DNA methylation data from bisulfite sequencing[J].Bioinformatics,2005,21(21):4067-4068.
[12]Kumaki Y,Oda M,Okano M.QUMA:quantification tool for methylation analysis[J].Nucleic Acids Research,2008,36:W170-175.
[13]Rohde C,Zhang YY,Reinhardt R,et al.BISMA-Fast and accurate bisulfite sequencing data analysis of individual clones from unique and repetitive sequences[J].BMC Bioinformatics,2010,11:230.
[14]Pulukuri SM,Patibandla S,Patel J,et al.Epigenetic inactivation of the tissue inhibitor of metalloproteinase-2(TIMP-2)gene in human prostate tumors[J].Oncogene,2007,26:5229-5237.
[15]Cindy D,Davis,Eric O,et al.DNA Methylation,Cancer Susceptibility,and Nutrient Interactions[J].Exp Biol Med,2004,229:988-995.
[16]Ramchandani S,Bhattacharya SK,Cervoni N,et al.DNA methylation is a reversible biological signal[J].Proc Natl Acad Sci USA,1999,96(11):6107-6112.