999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因組裝配中存在重復序列疊加時重疊群計數的推廣的Lander-Waterman定理

2012-12-26 06:58:34黃海云
河北科技大學學報 2012年5期

黃海云,張 屹

(1.河北科技大學圖書館,河北石家莊 050018;2.河北科技大學理學院,河北石家莊 050018)

基因組裝配中存在重復序列疊加時重疊群計數的推廣的Lander-Waterman定理

黃海云1,張 屹2

(1.河北科技大學圖書館,河北石家莊 050018;2.河北科技大學理學院,河北石家莊 050018)

針對基因組組裝算法理論進行了改進,該研究對于經典的Lander-Waterman定理在repeat collapse存在的情況下進行了推廣,對于判斷基因組組裝的contig的個數是否合理,組裝質量是否可靠有重要的參考價值。

Lander-Waterman公式;重復序列;基因組組裝;重疊群

第二代測序技術為人們提供了基因組測序的新思路。從數學上說,就是通過把基因組打成多重的小片段,然后用算法把它們組裝在一起來得到全基因組序列。但是由于重復序列和雜合現象的存在,使得生成的de-Brujin圖巨大復雜,難以壓成一條序列[1-2]。更嚴重的是,重復序列會使contig的數量虛高,以至于無法估計真正的contig數量是多少[3-4]。

1 存在repeat疊加時重疊群個數的數學期望

基于2000年Science的刊文[3]中關于A-statistics的論述,筆者假設建立的某個生物的全基因組測序片段庫中共有F個片段需要組裝,基因組的大小已被事先用k-mer方法估計為G個AGCT字符。通過組裝,得到若干個無法再通過重疊操作來加長的大片段,這些大片段叫做重疊群(contig)。設一個由k個片段組成的contig長為r個AGCT字符,即從這個contig的第一個組裝片段的第一個字符到最后一個組裝片段的最后一個字符之間的距離是r個字符。假設這個contig沒有被重復取樣(可按blast去冗余來保證這一點),則按照概率論的知識,在長為r的序列中發現k-1個片段起點的概率為[(r F/G)k/k?。輊-rF/G。

但是,如圖1所示,當2個片段R1,R2為重復片段時,這2個重復片段將被所有的算法(soapdenovo算法也一樣)當成同一段序列的不同拷貝而被以高分組裝成一個片段,而他們之間原來的片段會因為blast分值較低被擠走,成為單獨的一個contig。這樣,由于repeat的存在會使得組裝之后的contig的個數與原來公式估計的不一樣了。依據文獻[3]中的結果,如果某個contig是2個repeat疊加的結果,則在長為r的序列中發現k-1個片段起點的概率為[(2r F/G)k/k?。輊-2rF/G。按這樣計算,如果這個contig是x個repeat片段疊加的結果,則這個概率應該是[(xrF/G)k/k?。輊-xrF/G。同時,每次repeat的疊加都可以擠出一個contig[4],則x個不可區分的重復片段將產生x-1個多余的contig。筆者所在研究組的飛蝗基因組的重復片段占整個基因組的1/2以上,repeat對于contig計數的影響是巨大的和不可忽視的。

圖1 在組裝時,重復片段R1與R2的疊加會引起contig個數的增加Fig.1 Repeat collapse of R1 and R2 increases a contig in assembly

2 Lander-Waterman的原定理

1988年,LANDER和WATERMAN給出了基因組組裝時contig的分布定理[6]。他們假設2個片段之間至少要有全長的θ比例的片段重疊才能連接在一起,而且這個標準要足夠嚴格以保證較小的假陽性出現。另外,假設基因組被打斷后形成的片段集是完備的,覆蓋整個基因組的。定理中所用的變量如下:

3 筆者推廣的Lander-Waterman定理1

在Lander-Waterman定理[6]中有幾個公式,其他的幾個公式都可以據此推廣到有重復片段疊加的一般情況,由于篇幅限制,本文只給出第一個公式的推廣。

4 在基因組中的應用說明

基于給出的式(1)和式(2),可以計算出正確的contig的個數,可與實際組裝生成的contig的個數相比較,來評價組裝的質量以及受repeat疊加影響的嚴重程度。

[1]LI R,FAN W,TIAN G,et al.The sequence and de novo assembly of the giant panda genome[J].Nature,2010,463:311-317.

[2]PEVZNER P A,TANG H,WATERMAN M S.An Eulerian path approach to DNA fragment assembly[J].Proc Natl Acad Sci,2001,98:9 748-9 753.

[3]EUGENE W,MYER S.A whole-genome assembly of drosophila[J].Science,2000,287:2 196.

[4]STEVEN L,SALZBERG J A.Beware of mis-assembled genomes[J].Bioinformatics,2005,21:4 320-4 321.

[5]PAUL A P,HAIXU T,GLENN T.De novo repeat classification and fragment assembly[J].Genome Research,2004,14:1 786-1 796.

[6]ERIC L,MICHAEL S W.Genomic mapping by fingerprinting random clones:A mathematical analysis[J].Genomics,1988,2:231-239.

Generalized Lander-Waterman theorem under repeat collapse in genome assembly

HUANG Hai-yun1,ZHANG Yi2
(1.Library,Hebei University of Science and Technology,Shijiazhuang Hebei 050018,China;2.College of Sciences,Hebei University of Science and Technology,Shijiazhuang Hebei 050018,China)

We improved the theory of algorithm of genome assembly which is a generalized Lander-waterman theorem under repeat collapse.It is important for appraising the rationality of the number of contig and the quality of genome assembly.

Lander-Waterman formula;repeat sequence;genome assembly;contig

O29 MSC(2010)主題分類號:60A10

A

1008-1542(2012)05-0384-02

2012-09-02;責任編輯:張士瑩

國家自然科學基金資助項目(11171088);河北省自然科學基金資助項目(A2011208002)

黃海云(1969-),女,內蒙古通遼人,館員,主要從事生物信息學方面的研究。

張 屹副教授。E-mail:zhaqi1972@163.com

主站蜘蛛池模板: 91蝌蚪视频在线观看| 黄片一区二区三区| 欧美成人aⅴ| 国产福利在线观看精品| 91福利一区二区三区| 四虎影视永久在线精品| AV熟女乱| 激情视频综合网| 19国产精品麻豆免费观看| 九九免费观看全部免费视频| 亚洲无码免费黄色网址| 国产亚洲第一页| 亚洲欧美国产高清va在线播放| 久久亚洲高清国产| 亚洲国产成人精品无码区性色| 妇女自拍偷自拍亚洲精品| 亚洲无码日韩一区| 亚洲国产精品国自产拍A| 狠狠综合久久| 欧美中文字幕在线视频 | 中文字幕在线播放不卡| 麻豆国产在线观看一区二区 | 久久鸭综合久久国产| 99爱视频精品免视看| 色婷婷狠狠干| 国产精品理论片| 精品无码国产一区二区三区AV| 91系列在线观看| 欧美日韩另类国产| 久久午夜夜伦鲁鲁片不卡| 国产第八页| 国产精品亚洲va在线观看| 99精品一区二区免费视频| 国产免费一级精品视频| 国产成人AV男人的天堂| 国产h视频在线观看视频| 亚洲天堂视频在线播放| 国产一二三区在线| 欧美区国产区| 国产香蕉在线| 亚洲欧美h| 一级毛片不卡片免费观看| 四虎永久免费网站| 久久a毛片| 亚洲最大福利网站| 国产在线精彩视频二区| 欧美高清视频一区二区三区| 欧美中文字幕在线视频| 欧美v在线| 91久久偷偷做嫩草影院| 婷婷丁香在线观看| 综合社区亚洲熟妇p| 久久久噜噜噜久久中文字幕色伊伊 | 青青极品在线| 九九热视频精品在线| 成人无码区免费视频网站蜜臀| 国产在线视频二区| 日韩欧美中文| 久久 午夜福利 张柏芝| 国产欧美日本在线观看| 亚洲精品无码高潮喷水A| 91在线播放免费不卡无毒| 永久免费无码日韩视频| 国产嫩草在线观看| 亚洲精品手机在线| 爆乳熟妇一区二区三区| 国产成人精品2021欧美日韩| 999精品色在线观看| 美女国产在线| 狠狠躁天天躁夜夜躁婷婷| 免费激情网站| av大片在线无码免费| 青青操国产| 国产日韩欧美在线播放| 国产一区二区三区日韩精品| 成人91在线| 国产精品女熟高潮视频| 激情乱人伦| 国产免费精彩视频| 午夜综合网| 成人午夜视频网站| 精品日韩亚洲欧美高清a|