999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

CpG島識別算法綜述

2018-09-04 09:37:16李夢琪黃嵐翟光超翟文豪吳環
軟件導刊 2018年6期

李夢琪 黃嵐 翟光超 翟文豪 吳環

摘 要:DNA甲基化是一種常見的表觀遺傳過程,普遍存在于動植物等各種真核生物中,具有調控基因表達等功能,并影響遺傳物質的穩定性。非甲基化的CpG雙核苷酸在基因組中一般呈現局部聚集模式,被稱為CpG島(CpGIsland,簡稱CGI)。CGI的非正常甲基化常與癌癥、生長異常等現象關聯。因此,準確識別CGI并預測其甲基化狀態具有重要意義。綜述了目前主流的CGI計算識別方法,分析其優缺點,并討論了CGI識別算法研究的未來方向。

關鍵詞:CpG島識別;生物信息;表觀遺傳

DOI:10.11907/rjdk.173059

中圖分類號:TP312

文獻標識碼:A 文章編號:1672-7800(2018)006-0005-03

Abstract:DNA methylation is a common epigenetic process that exists ubiquitously in eukaryotes. DNA methylation can regulate gene expression and destabilize genetic materials. While the majority of the CpGdinucleotides is methylated, the unmethylateddinucleotides tends to gather together and form dense groups locally, which are called CpG islands (i.e. CGIs). The abnormal methylation of CGIs were found related to cancer and growth abnormality. Therefore, accurate identification of CGIs and prediction of their methylation status bears great biological importance. This article reviewed the mainstream computational CGI detection algorithms, analyzed their strengths and limitations, and discussed future research directions of CGI detection algorithms.

Key Words:CpG island detection; bioinformatics; Epigenetics

0 引言

DNA甲基化是一種重要的表觀遺傳過程,且廣泛存在于動物、植物等各種真核生物中。在DNA甲基化轉移酶(DNA Methyltransferase,DNMT)的作用下,甲基基團合成到5′-CpG-3′中胞嘧啶的第5位碳原子上,形成DNA甲基化。近年來,隨著全基因組甲基化測序技術的發展和普及,DNA甲基化的生物意義逐步揭示出來。研究表明,DNA甲基化現象廣泛存在于基因組各元件中,包括啟動子、基因本體、增強子、沉默子和轉座子,可影響遺傳物質穩定、基因表達、染色體活性、轉座子沉默、組蛋白修飾等生物過程。

在人類基因組中,70%~80%的CpG雙核苷酸都處于甲基化狀態,且散布于基因組的各個位置。相反,非甲基化CpG則呈現出局部聚集的模式,稱為CpG島(CpGIsland,以下簡稱CGI)[1]。在正常生物過程中,CGI是不易被甲基化的,而其非正常的甲基化狀態往往影響基因表達[1],進而與癌癥[2]、植物生長異常[3]等表觀遺傳學現象相關聯。因此,識別基因組中的CGI并預測其甲基化狀態有著重要的生物學意義。此外,由于CGI與啟動子區域的強關聯,CGI也被認為是能有效預測啟動子元件的基因組標記[4]。

目前,用于識別CGI的方法主要分為實驗檢測法和計算識別法兩類。實驗檢測法主要包括亞硫酸氫鈉法(Sodium Bisulfite,BS-seq)和免疫沉淀反應法(MeDIP-seq)[5]。這些方法利用不同的實驗手段將甲基化和非甲基化的胞嘧啶分離,再對分離后的DNA序列進行高通量測序或芯片檢測。其優點是準確率高且無歧義,缺點是代價大。近年來,多種CGI計算識別法被陸續提出,這些方法通過建立CGI的計算模型進而對給定DNA序列中的CGI進行識別。CGI甲基化模式分析已成為生物信息分析中的重要組成部分。本文綜述目前主流的CGI計算識別方法,重點從計算模型、適用物種兩方面進行分析和比較。

1 CGI計算識別方法分類

雖然CGI有著重要的生物學意義,然而目前仍缺乏嚴格定義。Gardiner-Garden和Frommer[6]在1989年首次以脊椎動物的測序數據為基礎開展了CGI的大規模計算分析,并提出CGI的3個量化條件:長度大于200bp、GC含量高于50%、觀測CpG與期望CpG的比率(Obs-CpG/Exp-CpG)不低于0.6(本文稱之為GGF定義)。這些條件對后續CpG島識別算法的研究產生了深遠影響。實際上,目前主流CGI檢測算法大都融合了這3個因素中的1個或多個部分。

根據這些因素的組合方式,CGI檢測算法可分為兩類:基于規則的方法和基于統計特征的方法。基于規則的方法利用人為設定的閾值過濾并發現CGI區域,具有知識表示清晰且易于理解的優點。不足之處是比較依賴于專家知識,泛化能力有限。比如,基于單一閾值的識別算法很難區分CGI和人類基因組中的Alus元件,因為Alus元件一般長度為280bp,其GC含量和Obs-CpG/Exp-CpG比率也較高,符合CGI的量化條件[6];基于統計特征的CGI識別方法大多應用機器學習技術挖掘CGI片段區別于其它DNA序列片段的特征,進而構建CGI識別模型,再應用模型對新序列中的CGI片段進行預測和識別。該方法的特點是泛化能力較強。根據所采用的機器學習模型類型,CGI識別方法可進一步分為基于監督式學習和基于非監督式學習兩類,下面依次進行分析。

2 典型的基于規則的CGI識別方法

基于規則的CGI識別方法也稱為滑窗(Sliding Window)方法,即根據預先設定的閾值對DNA序列進行滑窗式掃描和過濾,符合閾值的DNA片段即被認為是CGI。此類算法的代表有GGF[6]、CpGIS[7-8]、CpGProD[9]等。其中,Takai和Jones[7]在分析人類第21和22號染色體后,在Gardiner-Garden和Frommer方法基礎上提出更嚴格的標準:%GC≥55%,長度≥500bp并且Obs-CpG/Exp-CpG≥0.65。實驗結果表明,新閾值能有效過濾絕大多數Alus和未知序列,而基因5'端CGI的數量僅略有減少。

CpGProD仍采用基于閾值的滑窗方法,其特點是側重于識別哺乳動物基因組中與啟動子區域和轉錄起始位點(TSS)關聯的CGI。

滑窗方法的優點是規則直觀、易于理解,不足之處是識別精度容易受閾值和滑窗大小影響,且對專家知識的依賴程度較高。因此,隨著測序技術發展和測序成本的降低,甲基化DNA序列數據日益增多,使基于統計分析和統計特征的預測方法逐漸成為CGI識別算法的主流。

3 典型的非監督式CGI識別方法

非監督式識別方法是指以非監督式(Unsupervsied)機器學習模型為基礎構建的CGI識別算法。該方法通常包含兩個步驟:①采用聚類算法將相鄰CpG位點聚集形成CpG聚簇(即CpGClusters);②依據GC含量、統計顯著性、分布差異等條件篩選CpG聚簇,符合條件的聚簇即被認為是CpG島。

CpGCluster算法[10]是典型的無監督式CGI識別算法?;贑GI中的CpG分布比在非CGI中分布更加緊湊的假設,CpGCluster首先使用聚類算法將相鄰CpG位點聚集形成CpG簇(CpGClusters),再根據統計顯著性從中篩選出CGI。其聚類過程類似于基于密度的聚類:從5端到3端掃描基因組,若兩個連續CpG位點間距離小于閾值,則要么將其合并形成一個新的CpG聚簇,要么將其合并加入一個已有的CpG聚簇中。

CpGCluster算法有兩個主要參數:相鄰CpG位點聚集形成CpG聚簇的最短距離,以及CpG聚簇的統計顯著值,只有超過該閾值的CpG聚簇才被認定是CpG島。由于不再限定CGI的最短長度,CpGCluster往往能發現非常短的CGI。因此,CpG聚簇的最短距離閾值參數起著決定性作用。在人類基因組上的實驗表明,可以選擇基因組中所有相鄰CpG間距離的中位值作為閾值,這也是該算法推薦的缺省設置。

ClusterPSO[11]將CpGCluster算法與Gardiner-Garden和Frommer(GGF)定義相結合。首先應用CpGCluster算法生成CpG聚簇,再對每個CpG聚簇向上游和下游分別擴展200bp,形成符合GGF定義的候選CGI。同時,將GGF定義轉換為粒子群優化(PSO)算法的目標函數,通過搜索找到能使目標函數值最大化的CGI區域劃分。

此外,Kakumani等[12]基于CGI中核苷酸C后連接核苷酸G的概率往往大于其在非CGI中的概率,設計了基于最大化信噪比的CGI識別算法;GaussianCpG[13]在基于距離聚類形成CpG聚簇后,采用高斯模型和GC含量兩個參數篩選CpG聚簇中的CpG島。CpG_MI[14]則通過計算相鄰CpG距離的互信息發現CGI。

由此可見,基于非監督式學習模型的CGI識別方法有兩個關鍵因素:一是CpG位點間的距離計算方法,其決定了CpG聚簇形態;二是CpG聚簇篩選條件,其決定了CGI的最終構成。在基于規則的識別方法基礎上,此類方法能融入更多描述CGI區域的統計特征,表達力更強,也更加靈活。

4 典型的監督式CGI識別方法

監督式CGI識別方法是指利用監督式(Supervised)機器學習算法構建CGI識別模型。與非監督式學習相比,監督式學習需要有標注數據,即已知是CGI和不是CGI的DNA片段。學習算法根據標注數據建立識別模型,確定模型參數。在CGI識別問題上,目前主要采用的監督式學習算法有兩種:分類和序列預測。

CGI分類是指將DNA序列片段分為CGI和非CGI兩類。比如,Bock等[15]以人類21號和22號染色體中的CGI為訓練數據,應用支持向量機模型(SVM)構建了CGI分類器,同時對眾多CGI關聯特征進行評估,涵蓋DNA序列模式、重復性分布模式、DNA螺旋結構、轉錄因子結合點信息等6個方面,進而使用這些屬性預測全基因組中CGI的表觀遺傳狀態。利用監督式學習模型的優勢之一是能夠進行特征評估和選擇,比如與典型表觀遺傳功能和遺傳狀態相結合,往往比單純基于序列的預測模型更能揭示CGI的表觀遺傳學意義和基因表達調控機制。

近年來,隨著計算性能的提升和大數據的發展,深層神經網絡模型被廣泛用于各類機器學習任務。在CGI識別問題上,Wang等[16]將染色體間交互作為特征之一,以堆疊去噪自編碼器為基礎,設計了針對人類基因組CpG位點甲基化狀態的預測算法,并重點驗證了算法在非編碼長RNA(lncRNA)中CpG位點甲基化狀態預測的有效性。該算法從甲基化測序數據中生成訓練數據集,采用留一交叉驗證法訓練并驗證算法有效性。

基于序列學習的監督式CGI識別方法主要運用隱馬爾可夫(HMM)、條件隨機場(CRF)等序列學習算法,對DNA序列進行預測。Wu[17-18]、Spontaneo[19]先后提出基于隱馬爾可夫模型的CGI識別算法;Wu等以無脊椎動物基因組為基礎進行測試,發現基于規則的方法并不適用于無脊椎動物基因組;Spontaneo等仍以人類基因組為基礎進行測試,并通過提供圖形界面,簡化了人工查驗CGI的過程;劉維和陳崚[20]提出一種基于CRF的CGI識別算法。

與非監督式學習模型相比,監督式學習方法往往能更好地針對特定物種或組織,發現代表性更強的CGI特征,從而更好地揭示甲基化模式及其表觀遺傳學意義。此外,監督式學習模型的擴展性更好,比如可通過使用不同訓練數據集將同一模型擴展到不同物種的DNA序列。

5 結語

DNA甲基化是一種廣泛存在于各類真核生物中的重要的表觀遺傳過程。CpG島的準確識別及其甲基化狀態預測有助于準確定位啟動子、識別基因,揭示甲基化與癌癥、生長異常等表觀遺傳現象的關聯機制,有著重要的生物學意義。本文綜述了目前主流的CpG島計算識別方法,對其機制、適用物種進行了分析和比較。分析發現目前CpG島的研究對象仍主要集中于脊椎動物,適用于其它物種的CpG島識別算法還有待研究。在3類方法中,監督式CGI識別方法能更好地揭示CGI的表觀遺傳學意義,而隨著測序技術的普及應用,產生了大量甲基化測序數據,為監督式CGI識別模型提供了數據基礎,因此也可能是未來CGI研究的主要方向。

參考文獻:

[1] DEATON A M, BIRD A.CpG islands and the regulation of transcription[J]. Genes & Development,25(10):1010-1022.

[2] ISSA, J-P.CpG island methylator phenotype in cancer[J].Nature Reviews Cancer,2004,4:988-993.

[3] FINNEGAN E J, PEACOCK W J, DENNIS E S. DNA methylation, a key regulator of plant development and other processes[J]. Current Opinion in Genetics & Development,2000,10(2):217-223.

[4] LARSEN F, GUNDERSEN G, LOPEZ R,et al.CpG islands as gene markers in the human genome[J]. Genomics,1992,13(4):1095-1107.

[5] WEBER M, DAVIES J, WITTIG D, et al. Chromosome-wide and promoter-specific analyses identify sites of differential DNA methylation in normal and transformed human cells[J]. Nature Genetics,2005,37:853-862.

[6] GARDINER-GARDEN M, FROMMER M. CpG islands in vertebrate genomes[J]. Journal of Molecular Biology,1989,196(2):261-282.

[7] TAKAI D, JONES P A. Comprehensive analysis of CpG islands in human chromosomes 21 and 22[J]. PNAS, 2002, 99(6): 3740-3745.

[8] TAKAI D, JONES P. The CpG island searcher: a new WWW resource[J]. Silico Biology,2003,3(3):235-240.

[9] PONGER L, MOUCHIROUD D.CpGProD: identifying CpG islands associated with transcription start sites in large genomic mammalian sequences[J]. Bioinformatics,2002, 18(4):631-633.

[10] HACKENBERG M, PREVITI C, LUQUE-ESCAMILLA P L, et al. CpGcluster: a distance-based algorithm for CpG-island detection[J]. BMC Bioinformatics,2006,7:446.

[11] YANG C H, LIN Y D, CHIANG Y C, et al. A hybrid approach for CpG island detection in the human genome[J].PLoS ONE,2016,11(1):e0144748.

[12] KAKUMANI R, AHMAD O, DEVABHAKTUNI V.Identification of CpG islands in DNA sequences using statistically optimal null filters[J]. EURASIP Journal on Bioinformatics and Systems Biology,2012(1):12.

[13] YU N, GUO X, ZELIKOVSKY A,et al.GaussianCpG: a Gaussian model for detection of CpGisland in human genome sequences[J]. BMC Genomics,2017,18(Suppl 4):392.

[14] SU J, ZHANG Y, LV J,et al.CpG_MI: a novel approach for identifying functional CpG islands in mammalian genomes[J]. Nucleic Acids Research,2010,38(1): e6.

[15] BOCK C, WALTER J, PAULSEN M,et al.CpGisland mapping by epigenome prediction[J]. PLoS Computational Biology,2007,3(6): e110.

[16] WANG Y, LIU T, SHI H, et al.Predicting DNA methylation state of CpGdinucleotide using genome topological features and deep networks [J]. Scientific Reports,2016,6:19598.

[17] IRIZARRY R A, WU H, FEINBERG A P. A species-generalized probabilistic model-based definition of CpG islands[J]. Mammalian Genome: Official Journal of the International Mammalian Genome Society,2009,20(9-10):674-680.

[18] WU H, CAFFO B, JAFFEE H A,et al.Redefining CpG islands using hidden Markov models[J]. Biostatistics (Oxford, England),2010,11(3):499-514.

[19] SPONTANEO L, CERCONE N.Correlating CpG islands, motifs, and sequence variants in human chromosome 21[J]. BMC Genomics,2011,12(Suppl 2):S10.

[20] 劉維,陳崚.一種新的CpG島的位置識別算法 [J].小型微型計算機系統,2012(7):1557-1563.

(責任編輯:黃 健)

主站蜘蛛池模板: 国产高潮流白浆视频| 亚洲AV免费一区二区三区| 国产天天色| 啪啪免费视频一区二区| 色综合综合网| 综合色88| 国产成人免费| 久久久久亚洲AV成人网站软件| 欧美在线三级| 国产毛片基地| 欧美 亚洲 日韩 国产| 日韩在线1| 国产日本欧美在线观看| 永久免费av网站可以直接看的| 亚洲最猛黑人xxxx黑人猛交| 成人免费网站在线观看| 亚洲欧美另类专区| 亚洲三级电影在线播放| 在线a视频免费观看| 看国产一级毛片| 日本免费a视频| 色屁屁一区二区三区视频国产| 在线观看91精品国产剧情免费| 欧美日韩国产精品va| 永久免费无码日韩视频| 国产肉感大码AV无码| A级全黄试看30分钟小视频| 天天干天天色综合网| 亚洲综合九九| 欧美性精品不卡在线观看| 91精品国产91欠久久久久| 亚洲精品国产综合99| 久久久国产精品无码专区| 欧美另类图片视频无弹跳第一页| 91po国产在线精品免费观看| 中国一级特黄大片在线观看| 亚洲无码在线午夜电影| 欧美特黄一免在线观看| 婷婷六月综合网| 五月天久久综合国产一区二区| 中文字幕天无码久久精品视频免费 | 日韩精品一区二区三区中文无码| 国产三级国产精品国产普男人 | 四虎AV麻豆| 性欧美精品xxxx| 久久久精品久久久久三级| 制服丝袜一区| 在线观看亚洲精品福利片| 一级在线毛片| 亚洲中文无码av永久伊人| 欧美人与性动交a欧美精品| 国产毛片基地| 久久成人18免费| 国产在线观看一区精品| 农村乱人伦一区二区| 熟女日韩精品2区| 中国黄色一级视频| 日韩东京热无码人妻| 日本亚洲国产一区二区三区| 精品久久久久久中文字幕女| 国产丝袜91| 国产毛片片精品天天看视频| 青青草欧美| 亚洲欧美精品日韩欧美| 性色在线视频精品| 男女猛烈无遮挡午夜视频| 久久久久久高潮白浆| 在线日韩一区二区| 无码人妻热线精品视频| 55夜色66夜色国产精品视频| 亚洲中文字幕久久无码精品A| 国内精品久久久久久久久久影视| 午夜福利网址| 日本黄色不卡视频| 香蕉eeww99国产精选播放| 亚洲国产成人精品一二区| 露脸一二三区国语对白| 91色在线观看| 日本一区二区三区精品视频| 一区二区三区国产精品视频| 中文字幕丝袜一区二区| 国产精品视频导航|