999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

三代測序數(shù)據(jù)的糾錯(cuò)方法研究

2022-09-29 14:13:44戴道成
中阿科技論壇(中英文) 2022年9期
關(guān)鍵詞:精確度方法

戴道成

(西安歐亞學(xué)院金融學(xué)院,陜西 西安 710065)

目前,癌癥是導(dǎo)致人類死亡的主要原因之一,也是亟待解決的全球性醫(yī)學(xué)難題。癌癥基因組學(xué)的發(fā)展促使人類從基因水平上分析癌癥的發(fā)病機(jī)制,尋求解決靶向治療的依據(jù),從而在遺傳基因研究上取得新的突破。因此,通過高效的測序技術(shù)捕獲腫瘤基因組的序列信息顯得尤為重要[1-2]。

眾所周知,桑格測序法(Sanger sequencing)[3]是人類歷史上第一代DNA測序技術(shù),其測序所得的read長度可達(dá)1 000 bp,但其成本高、通量低,因而不能滿足實(shí)驗(yàn)研究和市場應(yīng)用的需求。后繼以Roche公司的454測序技術(shù)、Illumina公司的Solexa測序技術(shù)和ABI公司的SOLiD測序技術(shù)為代表的第二代測序技術(shù)[4](next-generation sequencing,NGS)得到發(fā)展,NGS相比Sanger測序的成本大大降低,同時(shí)保持了高效的測序精度,但read長度的極大縮短限制了NGS的廣泛應(yīng)用,因而人們又在探尋新一代的測序技術(shù)和方法。以Pacific Biosciences公司的SMRT技術(shù)[5]和Oxford Nanopore Technologies公司的納米孔單分子測序技術(shù)[6]為代表的第三代測序技術(shù)(third generation sequencing techniques,TGS),不僅繼承了NGS的優(yōu)點(diǎn),而且能產(chǎn)生長度大于10 kbp的長read,從而在序列組裝、基因突變鑒定以及疾病診斷等許多領(lǐng)域產(chǎn)生巨大的推動(dòng)作用。

高讀長的TGS使基因組學(xué)研究發(fā)生了革命性的變化,但是15%的測序錯(cuò)誤率和錯(cuò)誤隨機(jī)分布的特性是限制其進(jìn)一步應(yīng)用的瓶頸,由此產(chǎn)生了一系列針對(duì)三代測序數(shù)據(jù)進(jìn)行錯(cuò)誤校正的方法。

1 第三代測序技術(shù)

第三代測序技術(shù)(TGS)是指高通量、單分子測序,不需要經(jīng)過聚合酶鏈反應(yīng)(PCR)擴(kuò)增一種可使DNA片段大量增殖的技術(shù),實(shí)現(xiàn)對(duì)每一條DNA分子的單獨(dú)測序。目前的TGS主要包括PacBio公司的SMRT技術(shù)和Oxford Nanopore Technologies公司的納米孔單分子測序技術(shù)。

SMRT技術(shù)依據(jù)邊合成邊測序的思想,使用DNA聚合酶、標(biāo)記四種堿基的不同顏色的熒光、作為測序載體的SMRT芯片和DNA模板進(jìn)行測序。在進(jìn)行堿基檢測時(shí),使用零模波導(dǎo)孔原理,使得發(fā)生反應(yīng)的信號(hào)從周圍游離堿基的熒光背景中區(qū)別出來,從而根據(jù)不同熒光的波長與峰值來判斷待測基因序列的不同堿基類型。由于四種熒光分別標(biāo)記核苷酸的磷酸鏈,因此當(dāng)核苷酸進(jìn)入新生的DNA鏈中時(shí),相關(guān)標(biāo)記基團(tuán)就會(huì)自動(dòng)脫落,減少了DNA合成的空間位阻,從而使得DNA鏈持續(xù)合成并增加測序讀長。但是,由于DNA聚合酶隨機(jī)進(jìn)行堿基的選擇,使得相關(guān)核苷酸進(jìn)入DNA鏈的過程存在一定的問題,從而產(chǎn)生15%的測序錯(cuò)誤率。

納米孔單分子測序技術(shù)是實(shí)時(shí)測序的另一種方法,其基于電信號(hào)而不是光信號(hào),設(shè)計(jì)一種內(nèi)部共價(jià)結(jié)合有分子接頭的納米孔。當(dāng)DNA堿基通過納米孔時(shí),將使其中感應(yīng)到的電荷發(fā)生變化,從而使流過納米孔的電流強(qiáng)度發(fā)生短暫的變化。由于堿基的特質(zhì)性,每種堿基所影響的電流變化幅度是不一樣的,從而通過靈敏的電子設(shè)備鑒定不同的堿基類型。雖然納米孔單分子測序技術(shù)的優(yōu)點(diǎn)十分明顯,但DNA堿基通過納米孔的速度難以控制,其會(huì)誤將當(dāng)前核苷酸識(shí)別為缺失或插入,因而不可避免地產(chǎn)生一定的測序錯(cuò)誤。

綜上所述,第三代測序技術(shù)在測序速度、測序成本和測序讀長上均具有一定的優(yōu)勢,但在測序準(zhǔn)確度上亟待提高。與此同時(shí),錯(cuò)誤隨機(jī)分布的特性亦增加了三代測序數(shù)據(jù)的糾錯(cuò)成本[7]。因此,有效的三代測序數(shù)據(jù)的糾錯(cuò)方法是獲得高效基因序列的關(guān)鍵。

2 現(xiàn)有糾錯(cuò)方法

目前對(duì)于TGS的糾錯(cuò)方法主要分為兩類:第一類是自校正方法,第二類是混合校正方法。

2.1 自校正方法

自校正方法,即通過比較三代測序數(shù)據(jù)(long reads,LRs)之間的相互關(guān)系,計(jì)算每一組長reads之間的重疊片段,然后根據(jù)多個(gè)序列的一致性評(píng)估結(jié)果進(jìn)行相應(yīng)的錯(cuò)誤校正,常見的自校正方法包括HGAP[8]和LoRMA[9]等。

2.1.1 HGAP

HGAP是由DOE JGI、PacBio公司和華盛頓大學(xué)共同于2013年在Nature Methods上所發(fā)表的一種基于LRs的高質(zhì)量的分層基因組裝方法。

HGAP是PacBio公司的基因組裝pipeline,其將LRs中最長的read作為參考序列(reference),而將其他LRs作為待比對(duì)序列。首先,將reference作為種子,通過基于有向無環(huán)圖的一致性過程和其他LRs共同完成預(yù)組裝。其次,利用待比對(duì)序列比對(duì)到reference上的結(jié)果去推斷比對(duì)區(qū)域的重疊片段。最后,根據(jù)多個(gè)比對(duì)的一致性評(píng)估結(jié)果進(jìn)行LRs的校正。圖 1為HGAP的比對(duì)過程。

圖1 HGAP的比對(duì)過程

研究團(tuán)隊(duì)通過比較微生物的參考序列進(jìn)行從頭組裝后的結(jié)果發(fā)現(xiàn),HGAP的精確度大于99.99%。同時(shí),對(duì)于HGAP,其最佳校正效果的reads測序覆蓋度范圍為60×~80×。

2.1.2 LoRMA

LoRMA是由Leena Salmela等于2016年在Bioinformatics上所提出的一種基于德布魯因圖(de Brujin graph,DBG)和多重比對(duì)的LRs的自校正方法。LoRMA包括如下三個(gè)過程。

(1)構(gòu)建k=4的LRs的DBG,如圖 2所示。

圖2 k=4的LRs的DBG

(2)如圖3所示,通過逐步增加k-mer中k的大小,從超過指定頻率閾值的LRs中迭代構(gòu)造新的k-mars的DBG,并依據(jù)LoREDC中的方法來校正相應(yīng)的LRs。

圖3 lorna的校正方法

(3)考慮到LRs間的相互比對(duì),通過使用多個(gè)比對(duì)所發(fā)現(xiàn)的長距離依賴關(guān)系,對(duì)校正后的LRs進(jìn)一步優(yōu)化。

大腸桿菌和酵母菌的實(shí)驗(yàn)結(jié)果表明,與其他自校正方法相比,LoRMA的精確度更高,并且當(dāng)LRs的測序覆蓋度為75×?xí)r,此方法的測序通量將提高20%以上。

2.1.3 小結(jié)

基于以上,自校正方法在提高三代測序數(shù)據(jù)精確度的同時(shí),也需要較高水平的測序覆蓋度來確保校正質(zhì)量。當(dāng)對(duì)較小的基因進(jìn)行糾錯(cuò)時(shí),這可能不是問題,但對(duì)于較大的基因組來講,意味著將需要測序數(shù)百乃至數(shù)千個(gè)SMRT細(xì)胞,顯然這大大增加了基因組計(jì)劃的成本。

2.2 混合校正方法

混合校正方法,即在比較LRs和高精度的二代測序數(shù)據(jù)(short reads,SRs)的基礎(chǔ)上,對(duì)LRs進(jìn)行校正操作,這些算法包括Proovread[10]、LoRDEC[11]和Jabba[12]等。

2.2.1 Proovread

Proovread是由Thomas Hackl等于2014年在Bioinformatics上所提出的一種通過迭代SRs的一致性(consensus)序列來進(jìn)行大規(guī)模的LRs糾錯(cuò)的混合校正方法。

Proovread的校正過程如下。首先,將SRs比對(duì)到LRs上,由于測序數(shù)據(jù)的特點(diǎn),在生成consensus的過程中,大部分的錯(cuò)誤位點(diǎn)會(huì)被替換,潛在的嵌合位點(diǎn)也能被檢測到。其次,通過SRs-LRs間的比對(duì)信息和投票策略來計(jì)算consensus,同時(shí),新的堿基質(zhì)量分?jǐn)?shù)由SRs的測序覆蓋度以及consensus的組成得到。并且,為了減少運(yùn)行時(shí)間,采用迭代校正策略,即使用增加的SRs樣本執(zhí)行三個(gè)預(yù)校正步驟。最后,保證所有的SRs都被比對(duì)到unmask區(qū)域,從而完成LRs的校正。

在覆蓋大腸桿菌、擬南芥和人類的基因組實(shí)驗(yàn)中,Proovread的校正準(zhǔn)確度高達(dá)99.9%,優(yōu)于其他混合校正方法。此外,Proovread的校正序列更長,吞吐量更高。

2.2.2 LoRDEC

LoRDEC是由Leena Salmela等于2014年在Bioinformatics上所提出的一種基于遍歷SRs的DBG來實(shí)現(xiàn)LRs糾錯(cuò)的混合校正方法。具體的實(shí)現(xiàn)原理如下。

(1)與LoRMA類似,首先構(gòu)建SRs的DBG。

(2)參照所構(gòu)建的DBG將LRs分為準(zhǔn)確度弱(weak)的k-mer和準(zhǔn)確度強(qiáng)(SOLiD)的k-mer,在圖4中,直線代表weak部分,以矩形代表SOLiD部分。

圖4 根據(jù)準(zhǔn)確度劃分的LRs

(3)通過遍歷圖1中的路徑而尋找圖2中相鄰兩個(gè)矩形間的直線的校正序列。如圖5所示,由于s1和t1之間的橋接路徑在DBG中被找到,因此用來校正相應(yīng)的weak序列;而s2和t2之間的橋接路徑在DBG中未被找到,所以無法校正相應(yīng)的weak序列。類似地,完成LRs的整體校正過程。

圖5 LRs的校正方法

在大腸桿菌等基因序列上的實(shí)驗(yàn)表明,在實(shí)現(xiàn)相同的精確度情況下,LoRDEC比其他工具的速度快6倍,同時(shí)可以減少93%的內(nèi)存占用率。

2.2.3 Jabba

Jabba是由Giles Miclotte等于2016年在Algorithms for Molecular Biology上所提出的一種基于最大精確匹配的LRs的混合校正方法。

Jabba采用了與LoRDEC類似的策略,并且也構(gòu)建SRs的DBG,然后將LRs比對(duì)到DBG中來校正LRs。不同于LoRDEC的是,Jabba使用最大精確匹配(Maximal Exact Matches,MEMs)作為種子來加速整個(gè)比對(duì)過程,即當(dāng)LoRDEC在LRs所對(duì)應(yīng)的DBG中找到完整k-mers的匹配時(shí),Jabba繼續(xù)搜索其中的最大精確匹配。圖6為使用MEMs的LRs和DBG的一次比對(duì)過程。

圖6 使用MEMs的LRs和DBG的一次比對(duì)過程

在大腸桿菌等基因序列實(shí)驗(yàn)中,Jabba較LoRDEC具有更好的校正性能,同時(shí),Jabba使用更少的CPU時(shí)間來完成LRs的校正。

2.2.4 小結(jié)

綜上所述,現(xiàn)有的混合校正方法可以實(shí)現(xiàn)LRs的精準(zhǔn)校正,但是,將LRs與SRs進(jìn)行比對(duì)處理和構(gòu)建DBG的組裝步驟在混合校正方法中需要經(jīng)常使用。例如,對(duì)于Proovread的使用,需要計(jì)算和處理數(shù)百萬個(gè)SR到LR的比對(duì)結(jié)果,而在實(shí)際分析中,這將是一個(gè)艱巨的計(jì)算挑戰(zhàn),需要消耗較大的資源和內(nèi)存。另外,LoRDEC和Jabba算法雖然在運(yùn)行內(nèi)存上有很大的改進(jìn),但這些算法的校正精確度卻不是很高,仍存在一定的問題。

3 總結(jié)

針對(duì)測序數(shù)據(jù)進(jìn)行有效校正,是提高測序精確度從而獲得用于癌癥基因組學(xué)研究的高效基因序列的關(guān)鍵技術(shù)。隨著第三代測序技術(shù)的發(fā)展,生物信息學(xué)研究者逐漸將研究重點(diǎn)放在通過糾錯(cuò)算法來校正測序錯(cuò)誤上,并且出現(xiàn)了一系列測序校正算法。現(xiàn)有三代測序數(shù)據(jù)的兩類糾錯(cuò)方法雖然可以有效地提高測序數(shù)據(jù)的精確度,但均在測序數(shù)據(jù)損失、測序覆蓋度占用和測序內(nèi)存消耗等方面存在不足。在下一步研究中,在避免已有糾錯(cuò)方法問題的同時(shí),通過結(jié)合自身校正方法和混合校正方法的優(yōu)勢,研究提高三代測序數(shù)據(jù)的糾錯(cuò)性能的方法,從而獲取高精度的測序數(shù)據(jù),以實(shí)現(xiàn)后續(xù)的基因分析乃至疾病的精準(zhǔn)治療。

猜你喜歡
精確度方法
研究核心素養(yǎng)呈現(xiàn)特征提高復(fù)習(xí)教學(xué)精確度
“硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計(jì)算
學(xué)習(xí)方法
放縮法在遞推數(shù)列中的再探究
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
易錯(cuò)題突破:提高語言精確度
主站蜘蛛池模板: 91免费在线看| 一级毛片免费观看不卡视频| 欧美不卡在线视频| 国产尹人香蕉综合在线电影| 中文字幕自拍偷拍| 综合五月天网| 欧美日在线观看| 真实国产精品vr专区| 在线国产资源| 欧美精品H在线播放| 美女视频黄频a免费高清不卡| 国产精品深爱在线| 免费无码一区二区| 精品视频一区在线观看| 91麻豆精品视频| 色综合天天综合中文网| 青青草原国产av福利网站| 色香蕉影院| 国产成人综合亚洲欧美在| 久久公开视频| 久久综合九色综合97婷婷| 久久久久九九精品影院| 亚洲无线国产观看| 国产高清国内精品福利| 久久精品国产在热久久2019| 好吊色妇女免费视频免费| 国产精品亚欧美一区二区| 亚洲国产看片基地久久1024| 免费aa毛片| 国内熟女少妇一线天| 色亚洲成人| 国产在线一区二区视频| 欧美三级不卡在线观看视频| 97久久精品人人| 伊人成人在线| 国产精品永久在线| 国产一二视频| 亚洲国产日韩一区| 国产精品露脸视频| AV熟女乱| 国产成人综合亚洲欧洲色就色| 亚洲精品国产综合99久久夜夜嗨| 亚洲精品自在线拍| 亚洲a级在线观看| 成年人国产网站| 国产精品无码制服丝袜| 在线视频一区二区三区不卡| 伊人91在线| 成人综合网址| 日韩高清欧美| 久久成人免费| 欧美成人二区| 91一级片| 四虎影视无码永久免费观看| 欧美日韩综合网| 丝袜国产一区| 国产主播在线一区| 国产激情无码一区二区三区免费| 亚洲综合色区在线播放2019| 国产亚洲欧美日韩在线观看一区二区| 国产亚洲一区二区三区在线| 国产成人综合日韩精品无码不卡 | 国产日韩精品欧美一区喷| 免费中文字幕在在线不卡| 国产成人资源| 中文字幕在线看视频一区二区三区| 黄色一及毛片| 999精品在线视频| 国产精品太粉嫩高中在线观看| 亚洲第一福利视频导航| 国产成人免费| 免费A级毛片无码免费视频| 四虎精品黑人视频| 亚洲欧美成人综合| 亚洲永久视频| 欧美在线精品一区二区三区| 免费观看国产小粉嫩喷水| 国产精品亚洲片在线va| 又猛又黄又爽无遮挡的视频网站| 久久精品无码专区免费| 啦啦啦网站在线观看a毛片| 国产精品毛片一区视频播|