三代測序數(shù)據(jù)的糾錯(cuò)方法研究

2022-09-29 14:13:44戴道成

中阿科技論壇(中英文) 2022年9期

戴道成

（西安歐亞學(xué)院金融學(xué)院,陜西西安 710065）

目前，癌癥是導(dǎo)致人類死亡的主要原因之一，也是亟待解決的全球性醫(yī)學(xué)難題。癌癥基因組學(xué)的發(fā)展促使人類從基因水平上分析癌癥的發(fā)病機(jī)制，尋求解決靶向治療的依據(jù)，從而在遺傳基因研究上取得新的突破。因此，通過高效的測序技術(shù)捕獲腫瘤基因組的序列信息顯得尤為重要[1-2]。

眾所周知，桑格測序法（Sanger sequencing）[3]是人類歷史上第一代DNA測序技術(shù)，其測序所得的read長度可達(dá)1 000 bp，但其成本高、通量低，因而不能滿足實(shí)驗(yàn)研究和市場應(yīng)用的需求。后繼以Roche公司的454測序技術(shù)、Illumina公司的Solexa測序技術(shù)和ABI公司的SOLiD測序技術(shù)為代表的第二代測序技術(shù)[4]（next-generation sequencing，NGS）得到發(fā)展，NGS相比Sanger測序的成本大大降低，同時(shí)保持了高效的測序精度，但read長度的極大縮短限制了NGS的廣泛應(yīng)用，因而人們又在探尋新一代的測序技術(shù)和方法。以Pacific Biosciences公司的SMRT技術(shù)[5]和Oxford Nanopore Technologies公司的納米孔單分子測序技術(shù)[6]為代表的第三代測序技術(shù)（third generation sequencing techniques，TGS），不僅繼承了NGS的優(yōu)點(diǎn)，而且能產(chǎn)生長度大于10 kbp的長read，從而在序列組裝、基因突變鑒定以及疾病診斷等許多領(lǐng)域產(chǎn)生巨大的推動(dòng)作用。

高讀長的TGS使基因組學(xué)研究發(fā)生了革命性的變化，但是15%的測序錯(cuò)誤率和錯(cuò)誤隨機(jī)分布的特性是限制其進(jìn)一步應(yīng)用的瓶頸，由此產(chǎn)生了一系列針對(duì)三代測序數(shù)據(jù)進(jìn)行錯(cuò)誤校正的方法。

1 第三代測序技術(shù)

第三代測序技術(shù)（TGS）是指高通量、單分子測序，不需要經(jīng)過聚合酶鏈反應(yīng)（PCR）擴(kuò)增一種可使DNA片段大量增殖的技術(shù)，實(shí)現(xiàn)對(duì)每一條DNA分子的單獨(dú)測序。目前的TGS主要包括PacBio公司的SMRT技術(shù)和Oxford Nanopore Technologies公司的納米孔單分子測序技術(shù)。

SMRT技術(shù)依據(jù)邊合成邊測序的思想，使用DNA聚合酶、標(biāo)記四種堿基的不同顏色的熒光、作為測序載體的SMRT芯片和DNA模板進(jìn)行測序。在進(jìn)行堿基檢測時(shí)，使用零模波導(dǎo)孔原理，使得發(fā)生反應(yīng)的信號(hào)從周圍游離堿基的熒光背景中區(qū)別出來，從而根據(jù)不同熒光的波長與峰值來判斷待測基因序列的不同堿基類型。由于四種熒光分別標(biāo)記核苷酸的磷酸鏈，因此當(dāng)核苷酸進(jìn)入新生的DNA鏈中時(shí)，相關(guān)標(biāo)記基團(tuán)就會(huì)自動(dòng)脫落，減少了DNA合成的空間位阻，從而使得DNA鏈持續(xù)合成并增加測序讀長。但是，由于DNA聚合酶隨機(jī)進(jìn)行堿基的選擇，使得相關(guān)核苷酸進(jìn)入DNA鏈的過程存在一定的問題，從而產(chǎn)生15%的測序錯(cuò)誤率。

納米孔單分子測序技術(shù)是實(shí)時(shí)測序的另一種方法，其基于電信號(hào)而不是光信號(hào)，設(shè)計(jì)一種內(nèi)部共價(jià)結(jié)合有分子接頭的納米孔。當(dāng)DNA堿基通過納米孔時(shí)，將使其中感應(yīng)到的電荷發(fā)生變化，從而使流過納米孔的電流強(qiáng)度發(fā)生短暫的變化。由于堿基的特質(zhì)性，每種堿基所影響的電流變化幅度是不一樣的，從而通過靈敏的電子設(shè)備鑒定不同的堿基類型。雖然納米孔單分子測序技術(shù)的優(yōu)點(diǎn)十分明顯，但DNA堿基通過納米孔的速度難以控制，其會(huì)誤將當(dāng)前核苷酸識(shí)別為缺失或插入，因而不可避免地產(chǎn)生一定的測序錯(cuò)誤。

綜上所述，第三代測序技術(shù)在測序速度、測序成本和測序讀長上均具有一定的優(yōu)勢，但在測序準(zhǔn)確度上亟待提高。與此同時(shí)，錯(cuò)誤隨機(jī)分布的特性亦增加了三代測序數(shù)據(jù)的糾錯(cuò)成本[7]。因此，有效的三代測序數(shù)據(jù)的糾錯(cuò)方法是獲得高效基因序列的關(guān)鍵。

2 現(xiàn)有糾錯(cuò)方法

目前對(duì)于TGS的糾錯(cuò)方法主要分為兩類：第一類是自校正方法，第二類是混合校正方法。

2.1 自校正方法

自校正方法，即通過比較三代測序數(shù)據(jù)（long reads，LRs）之間的相互關(guān)系，計(jì)算每一組長reads之間的重疊片段，然后根據(jù)多個(gè)序列的一致性評(píng)估結(jié)果進(jìn)行相應(yīng)的錯(cuò)誤校正，常見的自校正方法包括HGAP[8]和LoRMA[9]等。

2.1.1 HGAP

HGAP是由DOE JGI、PacBio公司和華盛頓大學(xué)共同于2013年在Nature Methods上所發(fā)表的一種基于LRs的高質(zhì)量的分層基因組裝方法。

HGAP是PacBio公司的基因組裝pipeline，其將LRs中最長的read作為參考序列（reference），而將其他LRs作為待比對(duì)序列。首先，將reference作為種子，通過基于有向無環(huán)圖的一致性過程和其他LRs共同完成預(yù)組裝。其次，利用待比對(duì)序列比對(duì)到reference上的結(jié)果去推斷比對(duì)區(qū)域的重疊片段。最后，根據(jù)多個(gè)比對(duì)的一致性評(píng)估結(jié)果進(jìn)行LRs的校正。圖 1為HGAP的比對(duì)過程。

圖1 HGAP的比對(duì)過程

研究團(tuán)隊(duì)通過比較微生物的參考序列進(jìn)行從頭組裝后的結(jié)果發(fā)現(xiàn)，HGAP的精確度大于99.99%。同時(shí)，對(duì)于HGAP，其最佳校正效果的reads測序覆蓋度范圍為60×～80×。

2.1.2 LoRMA

LoRMA是由Leena Salmela等于2016年在Bioinformatics上所提出的一種基于德布魯因圖（de Brujin graph，DBG）和多重比對(duì)的LRs的自校正方法。LoRMA包括如下三個(gè)過程。

（1）構(gòu)建k=4的LRs的DBG，如圖 2所示。

圖2 k=4的LRs的DBG

（2）如圖3所示，通過逐步增加k-mer中k的大小，從超過指定頻率閾值的LRs中迭代構(gòu)造新的k-mars的DBG，并依據(jù)LoREDC中的方法來校正相應(yīng)的LRs。

圖3 lorna的校正方法

（3）考慮到LRs間的相互比對(duì)，通過使用多個(gè)比對(duì)所發(fā)現(xiàn)的長距離依賴關(guān)系，對(duì)校正后的LRs進(jìn)一步優(yōu)化。

大腸桿菌和酵母菌的實(shí)驗(yàn)結(jié)果表明，與其他自校正方法相比，LoRMA的精確度更高，并且當(dāng)LRs的測序覆蓋度為75×?xí)r，此方法的測序通量將提高20%以上。

2.1.3 小結(jié)

基于以上，自校正方法在提高三代測序數(shù)據(jù)精確度的同時(shí)，也需要較高水平的測序覆蓋度來確保校正質(zhì)量。當(dāng)對(duì)較小的基因進(jìn)行糾錯(cuò)時(shí)，這可能不是問題，但對(duì)于較大的基因組來講，意味著將需要測序數(shù)百乃至數(shù)千個(gè)SMRT細(xì)胞，顯然這大大增加了基因組計(jì)劃的成本。

2.2 混合校正方法

混合校正方法，即在比較LRs和高精度的二代測序數(shù)據(jù)（short reads，SRs）的基礎(chǔ)上，對(duì)LRs進(jìn)行校正操作，這些算法包括Proovread[10]、LoRDEC[11]和Jabba[12]等。

2.2.1 Proovread

Proovread是由Thomas Hackl等于2014年在Bioinformatics上所提出的一種通過迭代SRs的一致性（consensus）序列來進(jìn)行大規(guī)模的LRs糾錯(cuò)的混合校正方法。

Proovread的校正過程如下。首先，將SRs比對(duì)到LRs上，由于測序數(shù)據(jù)的特點(diǎn)，在生成consensus的過程中，大部分的錯(cuò)誤位點(diǎn)會(huì)被替換，潛在的嵌合位點(diǎn)也能被檢測到。其次，通過SRs-LRs間的比對(duì)信息和投票策略來計(jì)算consensus，同時(shí)，新的堿基質(zhì)量分?jǐn)?shù)由SRs的測序覆蓋度以及consensus的組成得到。并且，為了減少運(yùn)行時(shí)間，采用迭代校正策略，即使用增加的SRs樣本執(zhí)行三個(gè)預(yù)校正步驟。最后，保證所有的SRs都被比對(duì)到unmask區(qū)域，從而完成LRs的校正。

在覆蓋大腸桿菌、擬南芥和人類的基因組實(shí)驗(yàn)中，Proovread的校正準(zhǔn)確度高達(dá)99.9%，優(yōu)于其他混合校正方法。此外，Proovread的校正序列更長，吞吐量更高。

2.2.2 LoRDEC

LoRDEC是由Leena Salmela等于2014年在Bioinformatics上所提出的一種基于遍歷SRs的DBG來實(shí)現(xiàn)LRs糾錯(cuò)的混合校正方法。具體的實(shí)現(xiàn)原理如下。

（1）與LoRMA類似，首先構(gòu)建SRs的DBG。

（2）參照所構(gòu)建的DBG將LRs分為準(zhǔn)確度弱（weak）的k-mer和準(zhǔn)確度強(qiáng)（SOLiD）的k-mer，在圖4中，直線代表weak部分，以矩形代表SOLiD部分。

圖4 根據(jù)準(zhǔn)確度劃分的LRs

（3）通過遍歷圖1中的路徑而尋找圖2中相鄰兩個(gè)矩形間的直線的校正序列。如圖5所示，由于s1和t1之間的橋接路徑在DBG中被找到，因此用來校正相應(yīng)的weak序列；而s2和t2之間的橋接路徑在DBG中未被找到，所以無法校正相應(yīng)的weak序列。類似地，完成LRs的整體校正過程。

圖5 LRs的校正方法

在大腸桿菌等基因序列上的實(shí)驗(yàn)表明，在實(shí)現(xiàn)相同的精確度情況下，LoRDEC比其他工具的速度快6倍，同時(shí)可以減少93%的內(nèi)存占用率。

2.2.3 Jabba

Jabba是由Giles Miclotte等于2016年在Algorithms for Molecular Biology上所提出的一種基于最大精確匹配的LRs的混合校正方法。

Jabba采用了與LoRDEC類似的策略，并且也構(gòu)建SRs的DBG，然后將LRs比對(duì)到DBG中來校正LRs。不同于LoRDEC的是，Jabba使用最大精確匹配（Maximal Exact Matches，MEMs）作為種子來加速整個(gè)比對(duì)過程，即當(dāng)LoRDEC在LRs所對(duì)應(yīng)的DBG中找到完整k-mers的匹配時(shí)，Jabba繼續(xù)搜索其中的最大精確匹配。圖6為使用MEMs的LRs和DBG的一次比對(duì)過程。

圖6 使用MEMs的LRs和DBG的一次比對(duì)過程

在大腸桿菌等基因序列實(shí)驗(yàn)中，Jabba較LoRDEC具有更好的校正性能，同時(shí)，Jabba使用更少的CPU時(shí)間來完成LRs的校正。

2.2.4 小結(jié)

綜上所述，現(xiàn)有的混合校正方法可以實(shí)現(xiàn)LRs的精準(zhǔn)校正，但是，將LRs與SRs進(jìn)行比對(duì)處理和構(gòu)建DBG的組裝步驟在混合校正方法中需要經(jīng)常使用。例如，對(duì)于Proovread的使用，需要計(jì)算和處理數(shù)百萬個(gè)SR到LR的比對(duì)結(jié)果，而在實(shí)際分析中，這將是一個(gè)艱巨的計(jì)算挑戰(zhàn)，需要消耗較大的資源和內(nèi)存。另外，LoRDEC和Jabba算法雖然在運(yùn)行內(nèi)存上有很大的改進(jìn)，但這些算法的校正精確度卻不是很高，仍存在一定的問題。

3 總結(jié)

針對(duì)測序數(shù)據(jù)進(jìn)行有效校正，是提高測序精確度從而獲得用于癌癥基因組學(xué)研究的高效基因序列的關(guān)鍵技術(shù)。隨著第三代測序技術(shù)的發(fā)展，生物信息學(xué)研究者逐漸將研究重點(diǎn)放在通過糾錯(cuò)算法來校正測序錯(cuò)誤上，并且出現(xiàn)了一系列測序校正算法。現(xiàn)有三代測序數(shù)據(jù)的兩類糾錯(cuò)方法雖然可以有效地提高測序數(shù)據(jù)的精確度，但均在測序數(shù)據(jù)損失、測序覆蓋度占用和測序內(nèi)存消耗等方面存在不足。在下一步研究中，在避免已有糾錯(cuò)方法問題的同時(shí)，通過結(jié)合自身校正方法和混合校正方法的優(yōu)勢，研究提高三代測序數(shù)據(jù)的糾錯(cuò)性能的方法，從而獲取高精度的測序數(shù)據(jù)，以實(shí)現(xiàn)后續(xù)的基因分析乃至疾病的精準(zhǔn)治療。