999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于廣義拓撲熵的片段復制分析方法研究

2017-11-08 14:11:12譚仁杰靳水林蔣慶華王亞東
智能計算機與應用 2017年5期

譚仁杰+靳水林+蔣慶華+王亞東

摘要: 片段復制(Segmental Duplication)是一種重要的遺傳學現象,在生命進化及基因組變異的形成過程中發揮著重要作用。對片段復制區域的序列分析具有重要的研究意義。然而,通過傳統的生物學實驗方法對片段復制序列進行分析存在分析成本高、速度慢等缺點。為此,本研究提出基于廣義拓撲熵的片段復制分析方法,利用信息熵的理論對這一生物學現象進行分析研究。通過對人類參考基因組數據的實驗結果表明,廣義拓撲熵的方法可以較好地將片段復制區域與其它隨機選取區域進行區分。

關鍵詞:片段復制; 熵; 廣義拓撲熵; 人類參考基因組

中圖分類號:TP391

文獻標志碼:A

文章編號:2095-2163(2017)05-0001-04

Research on segmental duplication analysis method based

on generalized topological entrop

TAN Renjie1, JIN Shuilin2, JIANG Qinghua3, WANG Yadong1

(1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;

2 School of Science, Harbin Institute of Technology, Harbin 150001, China;

3 School of Life Science and Technology, Harbin Institute of Technology, Harbin 150001, China)

Abstract:

Segmental Duplication (SD) is an important genetic phenomenon It plays an important role in the evolution of life and the formation of genome variationAnalyzing the sequence of SD regions has the important research significance However, analyzing SD regions by traditional methods of biological experiment has many disadvantages, such as high cost and low speed etc Hence, the paper proposes a new generalized topological entropy based segmental duplication analysis method and employs the entropy theory to analyze this biological phenomenon The experimental results of analyzing human reference genome data show that generalized topological entropy can preferably differentiate SD regions from other random selected region

Keywords: segmental duplication; entropy; generalized topological entropy; human reference genome

作者簡介:

引言

片段復制(Segmental Duplication,SD)又稱低拷貝重復(Low Copy Repeat,LCR),是指DNA序列中的某一段序列在基因組中出現2次及以上的現象[1]。片段復制廣泛地分布于基因組的各個區域。同一片段復制的不同拷貝可成串聯或分散跳躍形式分布于基因組中。已有研究表明,基因組片段復制與拷貝數多態(Copy Number Polymorphism,CNP)存在緊密的連鎖關系[2]。目前,片段復制一般是通過全基因組拼接比較(Whole genome assembly comparison,WGAC)或全基因組鳥槍測序檢測(Whole genome shotgun sequence detection,WSSD)等生物學實驗方法進行識別和分析,這些傳統方法成本高、測序周期長、研究效率較低。

熵是衡量信息復雜程度的一種度量,于1948年由Shannon首次提出。隨后,熵的多種形式如度規熵(metric entropy)[3]、拓撲熵(topological entropy)[4]、Kolmogorov-Sinai熵[5]以及Rényi熵[6]等被相繼提出。利用信息熵的理論,人們可以根據信息本身的復雜程度進行分類,可以定量描述給定字符序列的復雜性。近年來,Rényi連續熵[7]、Shannon公制熵[8-9]、特殊因子[10]以及語言學復雜度[11-12]等基于熵的基因組DNA序列分析方法取得了一系列的研究成果,但卻在實際分析效果以及計算復雜度方面均存在較大的局限。2011年,Koslicki提出了基于拓撲熵的基因組DNA序列分析方法[13],該方法成功地解決了拓撲熵只適用于對無限長度序列分析的局限。2014年,Jin等人提出了廣義拓撲熵的概念[14]。廣義拓撲熵充分考慮了子串序列對DNA序列整體的影響,可以將人類基因組啟動子、外顯子和內含子等基因組元件進行了很好的區分[14-15]。在此基礎上,本研究利用廣義拓撲熵對人類參考基因組片段復制區域的序列進行分析。endprint

1廣義拓撲熵的概念及近似計算方法

設ω為無限長度序列,Pωn表示序列ω中長度為n的不同子串個數,則其廣義拓撲熵的定義如下:

HGTω=limk→

SymboleB@ αkilog4Pωii[JY](1)

其中,αki=aii≤k0i>k,且∑ki=1ai=1,ai≥0[JY](2)

滿足對任意的ε> 0及任意I,存在K使得所有k≥K,滿足∑

SymboleB@ i=I+1αki>1-ε。鑒于基因組數據是有限長度的序列,為了能夠計算基因組序列的熵,Jin等人提出了基于有限序列長度的廣義拓撲熵近似計算方法[14]:

設ω是一個長度為|ω|的有限序列,令nω為正整數且滿足4n+n-1≤|ω|≤4n+1+(n+1)-1。用ω4n+n-11表示序列ω的前4n+n-1個字符并且k≤nω,廣義拓撲熵的近似計算公式如下:

H(K)nωω=1k∑nωi=nω-k+1log4Pωii[JY](3)

根據公式(3)可知廣義拓撲熵具有下列性質:

1)0≤H(k)nωω≤1。

2)當且僅當序列ω高度重復時,H(k)nωω≈0。

3)當且僅當序列ω高度復雜時,H(k)nωω≈1。

4)對不同的長度序列ω,v及k≤min{nω,nv},可以通過廣義拓撲熵H(k)nωω和H(k)nvv來進行比較。

無限序列H(k)nωω是廣義拓撲熵HGTω的一種特殊表現形式。而且,通過上面的算法改進,可截取序列ω的一部分ω1來對序列整體進行近似計算。這使得廣義拓撲熵具有一個重要性質,即對于不同長度的序列ω和v,k≤min{nω,nv},H(k)nωω與H(k)nvv之間具有可比性。

[BT4]2實驗結果與分析

本研究利用廣義拓撲熵對人類參考基因組數據進行分析。通過UCSC基因組瀏覽器獲取人類參考基因組序列相似度不小于099的片段復制區域,其長度約占參考基因組總長度的三分之一。鑒于基因組片段復制區域的序列長度長短不一,本研究對所有片段復制區域進行計算,并對每一個片段復制區域隨機選取與之長度相同的基因組區域用于對照計算,其結果如圖1所示。

實驗結果表明,各染色體片段復制區域的廣義拓撲熵均比隨機選取等長區域的廣義拓撲熵要小,這說明片段復制區域序列具有較強的規律性。對24條染色體的片段復制區域及隨機選取區域進行方差分析,結果顯示,在各染色體的方差分析P值均小于005,具有統計學意義,如表1所示。

片段復制區域具有明顯的序列結構規律性。同時為檢驗廣義拓撲熵與其他信息熵的實際效果,本研究利用Shannon熵對上述片段復制區域和隨機選取區域進行計算。如圖2所示,Shannon熵不能將片段復制區域和隨機選取區域進行很好的區分。

通過對24條染色體進行的方差分析結果顯示(可見表2),廣義拓撲熵在每個染色體片段復制區域與隨機選取區域的方差分析p值均小于Shannon熵的方差分析p值,具有更好的統計顯著性,如圖3所示。這表明廣義拓撲熵可以更好地將片段復制區域與隨機選取區域進行區分。[FL)]

3結束語

本文首次將廣義拓撲熵應用于人類參考基因組片段復制的研究中。實驗結果表明,片段復制區域序列的廣義拓撲熵低于參考基因組中隨機選取區域的廣義拓撲熵,這說明廣義拓撲熵可以有效地將片段復制區域與其他DNA序列區域區分開來。廣義拓撲熵可為參考基因組的片段復制區域識別及個人基因組拷貝數復制的精準識別奠定基礎并提供新的解決思路。

廣義拓撲熵有2個顯著的優勢:

1)理論上,可以證明廣義拓撲熵是拓撲熵的推廣,是拓撲熵的完整表達形式。廣義拓撲熵可以全面繼承拓撲熵在DNA序列分析上的各項優勢。

2)廣義拓撲熵充分考慮了子串本身的序列復雜度,可以更加全面地分析DNA序列的復雜性。通過廣義拓撲熵在人類參考基因組片段復制區域及隨機選取區域上的序列對照研究,實驗結果表明:廣義拓撲熵可以將片段復制區域與隨機選取區域進行較好的區分,取得了顯著的實驗效果。

理論上,基因組拼接方法可以實現個人基因組變異的精準識別。然而,拼接方法目前在拷貝數復制區域尚未取得突破性的進展。雖然廣義拓撲熵在參考基因組片段復制的分類方面取得理想效果,但仍然期待更為成熟的測序技術以及更為先進的基因組拼接算法來實現個人基因組在拷貝數復制區域的成功拼接[16-17]。屆時,隨著高通量測序技術的逐漸成熟以及拼接算法的不斷完善,利用廣義拓撲熵對個人基因組拷貝數復制進行精準識別和預測將具有廣闊的應用前景。

參考文獻:

BAILEY J A, EICHLER E E Primate segmental duplications: Crucibles of evolution, diversity and disease[J] Nature reviews Genetics, 2006, 7(7): 552-564

[2] GIRIRAJAN S, CAMPBELL C D, EICHLER E E Human copy number variation and complex genetic disease[J] Annu Rev Genet, 2011, 45:203-226

[3] LORENTZ G G Metric entropy and approximation[J] Bulletin of the American Mathematical Society,1966,72: 903-937

[4] ADLER R L, KONHEIM A G, MCANDREW M H Topological Entropy[J] Transactions of the American Mathematical Society, 1965, 114(2): 309-319endprint

[5] YAKOV S Kolmogorov-Sinai entropy[J] Scholarpedia, 2009,4(3):2034

[6] RENYI A On measures of entropy and information[C]// Procfourth Berkeley Sympon Mathstatist & Probunivof Calif Berkeley, Calif: California Press, 1961: 547-561

[7] [JP3]VINGA S, ALMEIDA J S R[KG-8]e[DD(-1]′[DD)]nyi continuous entropy of DNA sequences[J] Journal of theoretical biology, 2004, 231(3): 377-388[JP]

[8] KIRILLOVA O V Entropy concepts and DNA investigations[J] Physics Letters A, 2000, 274(5/6): 247-253

[9] FARACH M, NOORDEWIER M, SAVARI S, et al On the entropy of DNA: Algorithms and measurements based on memory and rapid convergence[J] Proceedings of the Sixth Annual Acm-Siam Symposium on Discrete AlgorithmsSan Francisco, California, USA:ACM, 1995: 48-57

[10]COLOSIMO A, DE LUCA A Special factors in biological strings[J] Journal of theoretical biology, 2000, 204(1): 29-46

[11]TROYANSKAYA O G, ARBELL O, KOREN Y, et al Sequence complexity profiles of prokaryotic genomic sequences: A fast algorithm for calculating linguistic complexity[J] Bioinformatics, 2002, 18(5): 679-688

[12]GABRIELIAN A, BOLSHOY A Sequence complexity and DNA curvature[J] Computers & chemistry, 1999, 23(3/4): 263-274

[13]KOSLICKI D Topological entropy of DNA sequences[J] Bioinformatics, 2011, 27(8): 1061-1067

[14]JIN S, TAN R, JIANG Q, et al A generalized topological entropy for analyzing the complexity of DNA sequences[J] PloS One, 2014, 9(2): e88519

[15]JIN Shuilin, WANG Zhou, LIN Junyu, et al The complexity of promoter regions based on a vector topological entropy[J] Current Bioinformatics, 2016, 11:1-4

[16]MAGI A, TATTINI L, PIPPUCCI T, et al Read count approach for DNA copy number variants detection[J] Bioinformatics, 2012, 28(4): 470-478

[17]ALKAN C, COE B P, EICHLER E E Genome structural variation discovery and genotyping[J] Nature reviews Genetics, 2011, 12(5): 363-376endprint

主站蜘蛛池模板: 91久久偷偷做嫩草影院精品| 国产另类视频| 97精品伊人久久大香线蕉| 欧美三级视频网站| 米奇精品一区二区三区| 国产精品美乳| 2021国产精品自拍| 久久久久人妻一区精品色奶水| 香蕉视频国产精品人| 亚洲欧洲日韩综合色天使| 国产va视频| 婷婷色在线视频| 四虎成人精品| 99er精品视频| 在线综合亚洲欧美网站| 亚洲首页在线观看| 国产丝袜精品| 亚洲永久视频| 久久国产乱子伦视频无卡顿| 亚洲无码高清免费视频亚洲| 国产精品主播| 亚洲成A人V欧美综合天堂| 夜夜爽免费视频| 一级毛片在线直接观看| 天堂在线视频精品| 美美女高清毛片视频免费观看| 人人爱天天做夜夜爽| 久久久久无码精品国产免费| 一级成人a毛片免费播放| 久青草网站| 亚洲国产精品一区二区第一页免 | 亚洲人精品亚洲人成在线| 国产精品久久久久婷婷五月| 国产中文一区a级毛片视频| 国产黄色片在线看| 色综合天天操| 最新精品久久精品| 国产一级特黄aa级特黄裸毛片| 国产欧美日韩视频怡春院| 欧美激情,国产精品| 午夜欧美理论2019理论| 亚洲浓毛av| 国产一区二区三区免费观看| 国产91线观看| www.99精品视频在线播放| 国产精品手机在线播放| 日本精品αv中文字幕| 国模粉嫩小泬视频在线观看| 国内黄色精品| 久久精品最新免费国产成人| 一区二区三区国产精品视频| 成人字幕网视频在线观看| 中国毛片网| 国产成人精品视频一区视频二区| www.亚洲色图.com| 国产 日韩 欧美 第二页| 免费xxxxx在线观看网站| 国产91麻豆免费观看| 囯产av无码片毛片一级| 欧美区一区| 99在线视频网站| 日韩天堂视频| 日韩成人午夜| 又大又硬又爽免费视频| 成年人免费国产视频| 怡红院美国分院一区二区| 亚洲中文在线看视频一区| 亚洲男人在线天堂| 精品無碼一區在線觀看 | 青青草原国产一区二区| 黄色网页在线播放| 无码福利日韩神码福利片| 国产情侣一区| 天天综合天天综合| 亚洲中文字幕在线一区播放| 亚洲一区二区成人| 国产幂在线无码精品| 亚洲人成日本在线观看| 国产最新无码专区在线| 亚洲无码在线午夜电影| 99中文字幕亚洲一区二区| 久久综合色天堂av|