韓娜, 黃蕾, 強裕俊, 彭賢慧, 張婷婷, 李秀文, 張雯
(1. 中國疾病預(yù)防控制中心傳染病預(yù)防控制所, 傳染病溯源預(yù)警與智能決策全國重點實驗室, 北京 102206; 2. 成都齊碳科技有限公司, 四川 成都 610000)
脫氧核糖核酸(DNA)存儲是一種以人工合成的生物大分子DNA作為信息載體的新型存儲技術(shù)。有別于傳統(tǒng)的以固體介質(zhì)(如硬盤、光盤、可移動磁盤等)為媒介的存儲方式,利用DNA的核苷酸序列(A、T、C、G組合)編碼進而進行信息的存儲和解讀,具有并行性、高存儲密度及低能耗等優(yōu)點,近年來引起越來越多科學(xué)家的關(guān)注[1]。1996年,Davis[2]成功地將一段編碼35 bit的黑白圖像的DNA序列存儲在細胞載體中,首次從實驗上證實了信息可以在DNA中進行存儲[2]。此后科學(xué)家們不斷嘗試將越來越多的信息存儲在DNA中。2012年,美國哈佛大學(xué)Church等[3]將5.27 Mb的一本書的信息(包含53 426個單詞、11個HPG圖像文件和1個JavaScript程序)完整存儲在DNA中。除圖片[4]和書籍外,也有科學(xué)家成功地將其他類型的信息,如數(shù)字[5]、詩歌[6]、歌曲[7]等寫入DNA并進行數(shù)據(jù)讀取。隨著DNA合成技術(shù)(數(shù)據(jù)寫入)和DNA測序技術(shù)(數(shù)據(jù)讀取)的突破性發(fā)展,DNA存儲已成為下一代存儲技術(shù)的熱點。
相較于DNA數(shù)據(jù)存儲技術(shù)的飛速發(fā)展,目前數(shù)據(jù)讀取技術(shù)仍依賴于二代測序技術(shù),雖然二代測序技術(shù)具有精度高、通量大等優(yōu)點,然而仍存在操作復(fù)雜、耗時長且成本高的缺點[8]。常規(guī)的二代測序?qū)嶒炦^程,包含文庫構(gòu)建(4~8 h)、測序(12~80 h)、數(shù)據(jù)分析(2~24 h)等多個步驟,步驟多、時間長,因此不能實現(xiàn)對存儲信息的即時、快速提取。
隨著測序技術(shù)的成熟和發(fā)展,新出現(xiàn)的三代測序技術(shù)[9-10]具有測序長度更長的優(yōu)點。三代測序技術(shù)中的納米孔測序儀具有便攜性、實時讀取信息的優(yōu)點,更適宜于DNA存儲信息的數(shù)據(jù)讀取。為驗證新出現(xiàn)的便攜式國產(chǎn)測序平臺是否可用于開展DNA存儲信息的即時讀取,本研究設(shè)計并進行了實驗驗證。
基于perl語言開發(fā)文本信息轉(zhuǎn)核酸編碼器,將中國古詩詞《將進酒》中的179個漢字信息依次轉(zhuǎn)換為機內(nèi)碼、0和1數(shù)字串,再根據(jù)A和0、C和1的對應(yīng)關(guān)系,將文本信息轉(zhuǎn)換為核酸序列(圖1)。

圖1 DNA存儲、樣本準備、測序和信息解碼流程圖
人工設(shè)計用于信息存儲的DNA存儲介質(zhì)。設(shè)計含有插入序列的pGH質(zhì)粒作為信息載體(圖1)。插入序列結(jié)構(gòu)為起始標記序列+信息序列+終止標記序列。信息序列采用A、C、G、T堿基分別代表0、1、空格和回車符號。每條插入序列的長度在400~1 000 bp內(nèi)。序列合成委托生物公司完成。
使用限制性內(nèi)切酶HindⅢ對含有插入序列的pGH質(zhì)粒進行酶切,得到線性化質(zhì)粒樣本。使用Qeagen-8測序試劑盒和國產(chǎn)納米孔測序儀QNome-9604的Qcell-3841芯片對樣本進行文庫構(gòu)建和測序。QNome-9604測序儀的測序原理為人工合成一種具有跨膜通道蛋白的多聚合物膜,通過在膜兩側(cè)施加不同的電壓產(chǎn)生電壓差,使DNA鏈在馬達蛋白的牽引下解螺旋并通過納米孔蛋白。由于不同的堿基跨膜時會形成特征性離子電流變化信號,根據(jù)電流信號可識別堿基信息,記錄DNA鏈跨膜時的電流變化,從而讀取到每條DNA鏈上的堿基信息,獲得fastq格式的測序數(shù)據(jù)。
Fastq格式的下機測序數(shù)據(jù)采用filtlong過濾掉小于400 bp和大于1 000 bp的序列后,采用minimap2[11]方法比對,將測序reads進行分組。基于分組結(jié)果,進行組內(nèi)reads的錯誤糾正,并生成最終的consensus序列,再將ATCG堿基解碼成相應(yīng)的字節(jié)和符號,利用自開發(fā)的解碼器將轉(zhuǎn)換所得的0和1字符串轉(zhuǎn)化為文字信息。
本研究選用了詩仙李白的《將進酒》作為待存儲的信息,將詩中的179個中文字符利用方法中描述的文本信息轉(zhuǎn)核酸編碼器轉(zhuǎn)化為核酸序列進行加密,最終獲得3 843個堿基,分為6條序列(表1),長度范圍為433~845 bp。將人工構(gòu)造的6條序列分別合成后插入克隆載體pGH,形成可在大腸埃希菌中穩(wěn)定傳代的質(zhì)粒。攜帶人工合成信息的甘油菌及其所包含的質(zhì)粒可于-80 ℃冰箱中長期保存(如圖1所示)。將6種質(zhì)粒按照等摩爾比混合,制作成待讀取信息的核酸存儲物質(zhì),該物質(zhì)可存儲于-20 ℃冰箱短期保存。

表1 合成的6條序列信息
相較于二代測序儀,國產(chǎn)納米孔測序平臺QNome-9604具有便攜性和實時產(chǎn)生數(shù)據(jù)的優(yōu)點。采用該平臺的Qeagen-8測序試劑盒和Qcell-3841芯片對本次實驗設(shè)計的核酸存儲物質(zhì)進行測序,在4 h內(nèi)持續(xù)產(chǎn)出數(shù)據(jù),累計共獲得38 210條測序序列,總堿基數(shù)98 510 636 bp,平均reads長度2 578 bp。
基于fastq格式的原始測序數(shù)據(jù),利用自開發(fā)的測序轉(zhuǎn)文本信息解碼器進行信息的轉(zhuǎn)碼,解碼過程中基于read多重比對實現(xiàn)測序序列的矯正,最終實時獲得的解碼結(jié)果如圖2所示,成功實現(xiàn)了《將進酒》詩中的179個中文字符的134個字符的正確破譯,破譯成功率為74.9%。由于測序過程產(chǎn)生的部分插入或缺失堿基未能通過解碼過程中的序列比對實現(xiàn)自我矯正,仍有45個字符未能成功破譯。

圖2 原始信息和解碼信息對應(yīng)圖
DNA信息存儲在信息數(shù)據(jù)存儲方面具有極大潛力,早在20世紀80年代后期就已有科學(xué)家證明了DNA作為數(shù)據(jù)存儲介質(zhì)具備存儲密度高、存儲時間長、損耗率低等方面的能力和優(yōu)勢[12]。近幾十年來,該領(lǐng)域的研究在存儲的數(shù)據(jù)量和存儲密度的最大化方面取得了重大進步。2018年,美國發(fā)布的《半導(dǎo)體合成生物學(xué)路線圖》預(yù)測基于DNA分子的數(shù)據(jù)存儲將有望解決海量數(shù)據(jù)存儲、數(shù)據(jù)中心規(guī)模與能耗方面的挑戰(zhàn)。2019年7月,《科學(xué)美國人》將DNA存儲列為年度十大突破性技術(shù)之一。相較于DNA合成技術(shù)和DNA存儲技術(shù)的快速發(fā)展,近年來測序技術(shù)的飛速發(fā)展使快速準確讀取DNA中存儲的信息成為可能。然而二代測序仍有著耗時較長的缺點,其技術(shù)原理決定了必須整個實驗結(jié)束后才能讀取測序信息,實驗流程短則十幾個小時,長則幾天,目前尚未能實現(xiàn)對于二代測序?qū)嶒炦^程中的數(shù)據(jù)實時讀取。國產(chǎn)納米孔測序平臺QNome的出現(xiàn),因其具備實時讀取核酸信息的特點,使從存儲于核酸介質(zhì)中的信息即時讀取成為了可能。本研究通過制作模擬樣本,利用納米孔測序平臺實時讀取信息,成功地從存儲了一首中文詩歌《將進酒》的核酸樣本中破譯信息,耗時4 h,破譯成功率為74.9%。
測序技術(shù)不僅在讀取DNA存儲方面發(fā)揮讀取信息的作用,近年來在臨床醫(yī)學(xué)、公共衛(wèi)生領(lǐng)域也發(fā)揮著重要作用,例如未知病原的檢測等等。除華大智造BGIseq/MGIseq測序儀外,目前主流的測序儀器(如Illumina、Ion、Nanopore)仍為國際壟斷,而華大智造的BGIseq/MGIseq測序儀為二代測序技術(shù),目前仍不具備實時讀取信息的能力。此前,國際上僅有Nanopore測序儀具備測序時實時產(chǎn)生數(shù)據(jù)的能力,該品牌為英國產(chǎn)品,目前已被證明可應(yīng)用于DNA存儲數(shù)據(jù)(如1.67 Mb的圖畫)的準確解碼和實時讀取[13]。國產(chǎn)測序品牌QNome為目前國內(nèi)第一款商業(yè)化的納米孔測序儀,具有實時測序的能力,本研究實踐驗證了其從存儲DNA信息的介質(zhì)中即時讀取信息的能力。在成本方面,國產(chǎn)QNome-9604測序儀單次運行成本約9 000元,相較于國際品牌有一定的成本優(yōu)勢,也提示了未來在國內(nèi)DNA存儲信息領(lǐng)域獲得實際應(yīng)用的可能性。然而,本研究雖然揭示了納米孔測序技術(shù)在DNA存儲信息即時讀取方面的可能性,但同時國產(chǎn)QNome測序儀在準確度方面仍待進一步提高。本次實驗測序數(shù)據(jù)量較低且數(shù)據(jù)矯正方法有待提升,目前本次解碼實踐僅實現(xiàn)了74.9%信息的即時讀取,仍有待在測序通量、測序芯片信號讀取的準確度和電信號轉(zhuǎn)碼過程中的矯正算法等多個方面做進一步的改進。隨著DNA合成和國內(nèi)各品牌測序平臺的進一步發(fā)展,DNA存儲和基于測序技術(shù)的信息讀取技術(shù)有望徹底改變未來數(shù)據(jù)訪問和計算領(lǐng)域。