999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

核酸分子數字信息存儲技術的研究進展

2024-12-01 00:00:00徐懷勝徐苗苗
電腦知識與技術 2024年32期

摘要:DNA數據存儲已成為一種利用脫氧核糖核苷酸作為存儲介質來存儲大量數據的解決方案。與閃存和硬盤驅動器等傳統存儲介質相比,DNA具有極高的存儲密度、較長的保存壽命和較低的維護成本。DNA數據存儲包括以下步驟:編碼、DNA合成(即寫入)、保存、檢索、DNA測序(即讀取)和解碼。在過去的十年來,利用DNA材料存儲數據取得了快速發展,在本篇綜述中,提供了DNA數據存儲的整個過程,介紹了每個步驟的最新進展,最后,對DNA數據存儲未來發展方向進行了展望。

關鍵詞:DNA存儲;DNA納米技術;DNA合成;DNA序列

中圖分類號:Q819 文獻標識碼:A

文章編號:1009-3044(2024)32-0077-03 開放科學(資源服務)標識碼(OSID) :

0 引言

隨著數據生成速度的不斷加快,預計到2025年全球數字數據量將達到175澤字節 (ZB)[1],在不斷變化的數據存儲需求的驅動下,到目前為止,已經開發了從磁帶到閃存的幾代存儲介質,目的是在控制成本的同時提高性能、可靠性、耐用性和存儲容量[2]。由于當前存儲介質的最大密度為103 GB/mm3,傳統存儲方法難以跟上步伐。脫氧核糖核酸(DNA)正在成為一種新的替代存儲技術。

DNA作為天然的信息載體,由四種堿基組成,分別是腺嘌呤(A) 、鳥嘌呤(G) 、胞嘧啶(C) 和胸腺嘧啶(T) 。堿基通過氫鍵配對,形成雙螺旋結構中的堿基對,其中,A與T配對,C與G配對。DNA數據存儲有許多優點,比如,存儲密度較高、存儲壽命長、維護成本低等。早在2013 年,理論估計就表明每克單鏈DNA可以存儲0.455ZB的數據[3],因此1千克 DNA可以存儲世界上所有的數據[4]。此外,研究表明,在合適的存儲介質中,DNA可以保存高達200萬年[5]。隨著測序技術的爆炸式增長,目前可以以最快的速度讀取DNA序列,這使得DNA成為理想的存儲介質。

1 DNA 存儲流程

DNA數據存儲按保存方式可以分為體內存儲和體外存儲,體內存儲是將數據編碼到活細胞的DNA 中,通過轉基因技術將合成的DNA片段插入到生物體(如細菌、酵母或植物等)內,這樣生物體就可以攜帶和復制這些數據。體外存儲是將數據編碼到合成的DNA片段中,并在實驗室條件下保存這些DNA序列。與體內存儲不同,體外存儲不依賴于活細胞,而是利用合成和純化的DNA分子進行數據存儲。而如果按數據的存儲策略分,DNA數據存儲可以分為基于DNA 序列的方案和基于DNA納米技術的方案,基于DNA 序列的方案是將數字數據直接編碼到DNA的堿基序列中,通過合成和測序技術實現數據的存儲和讀取。基于DNA納米技術的方案是利用DNA的納米結構和自組裝特性,將數據存儲在復雜的DNA納米結構中,通過控制DNA分子的空間排列和相互作用來實現數據存儲和讀取。

1.1 編碼

編碼是DNA數據存儲最初的步驟,是指利用計算機編碼算法,將數字信息映射到DNA中的過程,不同的編碼方式直接影響DNA 數據存儲的編碼容量。2012年,Church等人提出了一種二進制轉換方法[6],將每位數據用一個堿基表示(A或C代表0,G或T代表1) ,他們的編碼方式為DNA數據存儲技術打下了堅實的基礎,并推動了該領域的應用和研究。2013年歐洲Goldman 團隊提出了三進制霍夫曼編碼[3],編碼后的文件還原率超過99.99%。2017年,哥倫比亞大學Erlich等人采用了DNA噴泉編碼方案[7],該方案可以從給定的一組源數據包中生成無限的編碼符號序列,理想情況下只需要比原始文件液滴總量稍多一點就可以恢復源數據信息,該方案實現了每克 DNA0.215EB極高的存儲密度。2019年,Anavy等人提出了一種使用復合DNA字母的編碼方案[8],該方案利用合成和測序信息的冗余來編碼和減少DNA合成周期,通過使用復合DNA 字母增加了DNA 存儲的邏輯密度。2020年,Yi Zhang等人開發了一種優化后的Base64方案[9],該方案通過將一些隨機數據信息編碼成一個DNA序列,然后合成對應的DNA分子,在轉碼過程中有效地解決了GC含量和連續堿基問題,該方案存儲密度高達1.77位/堿基。Zhi Ping等人提出了陰陽編碼方案[10],該方案使用特定的規則將2個二進制位編碼為一個堿基,實驗表明,該方案對多種數據類型都有較高的魯棒性。

DNA數據存儲在編碼的同時需要滿足生物化學約束,通常,合成DNA鏈長不超過150-300 nts長度,可以有效降低錯誤率,對于更長的序列,合成誤差呈指數增長。因此,為了減少出錯的可能性,需要將要合成的DNA序列切成短片。因此,任何DNA數據存儲編碼算法都應當遵循生物化學約束限制,這樣可以盡可能地減少測序過程出現錯誤的可能。除此之外,為了實現可靠的解碼,還需要在編碼數據中引入一些冗余,以便進行錯誤檢測和糾正。

1.2 寫入

將數據編碼完成后,需要采用適當的方法將編碼后的數據存儲到DNA中,目前有兩種寫入方案,一種是基于DNA序列的寫入,另外一種是基于DNA納米技術的寫入[11]。近年來,隨著DNA納米技術的快速發展,如體外DNA修飾和DNA折紙技術,使得將數據存儲到DNA納米結構中變得越來越可行。將信息寫入DNA序列可以通過DNA的合成來實現,其中化學合成是體外最常用的方法[12]。1981年,Caruthers首次描述了寡核苷酸合成的固相亞磷酰胺方法[13]。在這種方法中,每個攜帶堿基的亞磷酰胺單體被用作合成單元,單體經歷一系列化學反應,通過受控方式延長核苷酸鏈。到目前為止,這仍然是DNA化學合成的標準方案。

1.3 DNA 保存

數據長期存儲的可靠性與存儲介質的壽命息息相關,目前的存儲介質,包括磁性、光學和電氣存儲設備,使用壽命通常有限,從幾十年到150年不等。在理想條件下,DNA的穩定性比傳統的存儲介質高,但是,在特定因素下,DNA極易受到影響,如電離輻射、紫外線照射、DNA酶等因素,這些因素主要通過導致鏈斷裂、水解損傷和核堿基修飾來改變DNA的完整性。因此,設計相應的保存方法來延長DNA 的壽命非常重要。

目前,保存DNA的方法主要有三種,脫水、封裝和體內保存。水會加速DNA的水解,進而損害DNA的穩定性,因此脫水會使DNA延長壽命,有研究表明,干燥下的DNA比在溶液中的DNA更穩定[14],并且在室溫下可以穩定保存數年[15]。然而長期存儲所需高昂成本遠遠超過了其所帶來的好處。在其他脫水方法中,比如將DNA存儲在乙醇中[10],也被證明可以長期保存DNA樣本。將DNA封裝在無機基質中也是長期保存DNA樣本的方式之一,二氧化硅是封裝DNA最常用的材料,有研究表明,二氧化硅可以保護DNA避免受熱和氧化等環境因素影響,從而提高DNA的穩定性,在9.4攝氏度下將帶有編碼數據的DNA封裝到二氧化硅下,DNA的壽命可延長至2000年[16]。然而,封裝對于DNA存儲也有明顯的缺點,將DNA封裝到無機基質中,存儲密度會顯著降低。迄今為止,通過優化組合的方式,通過二氧化硅封裝最佳的存儲密度為3.4wt%[17]。除此之外,把帶有編碼數據的DNA保存到生物體內也是一種可行的DNA保存策略,可以將包含數據的DNA片段組裝成人工染色體,或加載到質粒中,然后將其存儲到酵母或細菌中。由于在生物體內具有高保真度的DNA復制,存儲有數字數據的DNA 在生物體內擴增比其他體外擴增方法更準確、更高效。最初,在2003年,人們證明數字數據可以存儲在細菌中,盡管當時存儲的數據量比較少[18]。隨著DNA 合成技術的高速發展,有研究表明利用CIRSPR/Cas 技術,可以將帶有編碼數據的DNA直接存儲在細菌群體的基因組中[19]。總而言之,用于保存帶有數字信息DNA的方法多種多樣,目前體內信息存儲對于DNA 存儲來說是可行的。

1.4 隨機訪問

隨機訪問是指從大型存儲池中高效、快速地檢索請求的數據,從DNA池中選擇特定DNA數據集的步驟,是存儲的系統的關鍵要素,在傳統的存儲介質中使用尋址方案和數據索引的方式實現隨機訪問相對比較簡單,但是在DNA存儲系統中,要實現隨機訪問面臨著巨大的挑戰,當在存儲系統中頻繁訪問數據時,隨機訪問尤為重要。目前,在DNA數據存儲系統中隨機訪問已取得了重大進展,對于基于DNA序列的數據存儲,已經證明使用PCR擴增的方法可以實現隨機訪問。相比之下,對于基于DNA納米技術的數據存儲,隨機訪問尚未取得很好的發展。

PCR是DNA序列存儲中隨機訪問的主要方法,通過引入正交引物對,可以方便、多路復用的方式提取具有獨特引物的數據集,使用與目標序列側翼區域結合的引物,PCR只能擴增所需的目標區域,從而能夠更準確地檢索編碼數據,從而減少數字信息解碼過程中的錯誤。Kashiwamura等人引入嵌套引物分子記憶(NPMM)[20],將數據分成特定的DNA序列,稱為使用引物地址位點尋址的數據塊,通過指定地址引物的順序,實現特定的數據訪問。SM Yazdi等人使用兩側為地址塊的1 000 bps數據塊[21],通過使用PCR選擇性的檢索信息,該方案能夠隨機訪問數據塊并重寫存儲在塊內任意位置的信息。Organick L等人在超過1.3×107個DNA 寡核苷酸中編碼并存儲了35 個不同的文件[22],使用隨機訪問方法可以單獨恢復每一個文件,數據量超過了200 MB。

1.5 DNA 測序

數據被檢索后,就可以準確、完整地讀取。讀取技術的可靠性對于確保數據恢復得準確無誤至關重要。對于基于 DNA 序列的存儲,通常使用測序方法(包括所有三代測序技術)來讀取數據。對于使用DNA納米技術存儲的數據,通常采用直接可視化技術(例如熒光顯微鏡、原子力顯微鏡、電子顯微鏡和凝膠電泳)以及先進的納米孔技術,根據所選的寫入策略來讀取數據。

1.6 解碼

解碼是編碼的逆過程,通過使用相應的算法將上一步地讀出數據轉換回原始文件。理想的編解碼算法還應包含糾錯功能,因為在DNA存儲過程中不可避免會出現錯誤,尤其是在寫入和讀取的過程中。為了開發糾錯方案,添加邏輯冗余是最常用的策略之一。隨著技術的不斷進步,DNA存儲每個步驟中的錯誤率可能會進一步下降。這些進步將改變開發合適的編碼/解碼算法方案。判斷好的算法的一個基本標準是確保數據準確性的同時,最大化數據存儲密度。

2 研究展望

DNA已經成為下一代數據存儲最有潛力的材料之一,由于具有超高存儲密度、可復制性、在適宜環境下壽命長等特點,DNA分子作為新一代數字數據存儲的代表被廣泛研究。本篇綜述總結了目前的DNA存儲方法。這些方法不僅增加了DNA信息分子的穩定性,還賦予DNA信息多種功能,如磁場信息集中、圖形索引等。

隨著高通量DNA合成與測序技術的發展,未來DNA數據存儲平臺的存儲密度和讀取速度將得到提升,數據寫入和讀取的處理時間將大大縮短。盡管過去十年來,DNA存儲取得了重大的成就,但DNA存儲領域仍然面臨著許多挑戰,與傳統的存儲技術相比,DNA數據存儲在成本、速度和隨機訪問能力方面存在相當大的不足,這些不足阻礙了DNA數據存儲的實際商業應用。其次,缺乏自動化,與傳統的存儲方法不同,DNA數據存儲所涉及的各個步驟相對脫節。例如,在基于DNA序列的數據存儲中,使用DNA合成的方法將數據信息寫入,在適當的條件下保存,通過測序技術檢索數據,最終解碼獲取原始信息,對于復雜且昂貴的儀器的需求進一步限制了DNA數據存儲在日常生活中的廣泛應用。最后,對于存儲在DNA中的數據進行大規模計算仍然面臨著挑戰,由于缺乏相關的軟件設備,因此需要進行DNA測序、計算機計算然后合成新的DNA,這種方法既耗時也非常昂貴。總體而言,DNA數據存儲仍面臨重大的挑戰,需要解決這些挑戰才能使DNA數據存儲得到廣泛應用。

參考文獻:

[1] GU M,LI X P,CAO Y Y.Optical storage arrays:a perspective for future big data storage[J].Light:Science & Applications,2014,3(5):e177.

[2] AN?EL A,HEIDER D,HATTAB G.The visual story of data stor?age:from storage properties to user interfaces[J].Computational and Structural Biotechnology Journal,2021,19:4904-4918.

[3] GOLDMAN N,BERTONE P,CHEN S Y,et al.Towards practical,high-capacity,low-maintenance information storage in synthe?sized DNA[J].Nature,2013,494(7435):77-80.

[4] EXTANCE A.How DNA could store all the world’s data[J].Na?ture,2016,537(7618):22-24.

[5] KJ?R K H, PEDERSEN M W, DE SANCTIS B, et al. A 2-million-year-old ecosystem in Greenland uncovered by envi?ronmental DNA[J].Nature,2022,612(7939):283-291.

[6] CHURCH G M,GAO Y,KOSURI S.Next-generation digital in?formation storage in DNA[J].Science,2012,337(6102):1628.

[7] ERLICH Y,ZIELINSKI D.DNA Fountain enables a robust and efficient storage architecture[J].Science,2017,355(6328):950-954.

[8] ANAVY L,VAKNIN I,ATAR O,et al.Data storage in DNA with fewer synthesis cycles using composite DNA letters[J].Nature Biotechnology,2019,37(10):1229-1236.

[9] ZHANG Y,KONG L L,WANG F,et al.Information stored in na?noscale:Encoding data in a single DNA strand with Base64[J].Nano Today,2020,33:100871.

[10] PING Z,CHEN S H,ZHOU G Y,et al.Towards practical and ro?bust DNA-based data archiving using the Yin-Yang codec system[J].Nature Computational Science,2022,2(4):234-242.

[11] CEZE L,NIVALA J,STRAUSS K.Molecular digital data stor?age using DNA[J].Nature Reviews Genetics,2019,20(8):456-466.

[12] HOOSE A,VELLACOTT R,STORCH M,et al.DNA synthesis technologies to close the gene writing gap[J].Nature Reviews Chemistry,2023,7(3):144-161.

[13] BEAUCAGE S L,CARUTHERS M H.Deoxynucleoside phos?phoramidites—a new class of key intermediates for deoxypoly?nucleotide synthesis[J]. Tetrahedron Letters, 1981, 22(20):1859-1862.

[14] ORGANICK L,NGUYEN B H,MCAMIS R,et al.An empirical comparison of preservation methods for synthetic DNA data storage[J].Small Methods,2021,5(5):e2001094.

[15] BONNET J,COLOTTE M,COUDY D,et al.Chain and confor?mation stability of solid-state DNA:implications for room tem?perature storage[J].Nucleic Acids Research,2010,38(5):1531-1546.

[16] GRASS R N,HECKEL R,PUDDU M,et al.Robust chemical preservation of digital information on DNA in silica with error-correcting codes[J]. Angewandte Chemie (International Ed in English),2015,54(8):2552-2555.

[17] CHEN W D,KOHLL A X,NGUYEN B H,et al.Combining data longevity with high storage capacity—layer-by-layer DNA encapsulated in magnetic nanoparticles[J]. Advanced Func?tional Materials,2019,29(28):1901672.

[18] WONG P C,WONG K K,FOOTE H.Organic data memory us?ing the DNA approach[J].Communications of the ACM,2003,46(1):95-98.

[19] SHIPMAN S L,NIVALA J,MACKLIS J D,et al.CRISPR-Cas encoding of a digital movie into the genomes of a population of living bacteria[J].Nature,2017,547(7663):345-349.

[20] KASHIWAMURA S,YAMAMOTO M,KAMEDA A,et al.Hier?archical DNA memory based on nested PCR[M]//Lecture Notes in Computer Science.Berlin,Heidelberg:Springer Berlin Heidelberg,2003:112-123.

[21] YAZDI S M,YUAN Y B,MA J,et al.A rewritable,randomaccess DNA-based storage system[J].Scientific Reports,2015,5:14138.

[22] ORGANICK L,ANG S D,CHEN Y J,et al.Random access in large-scale DNA data storage[J].Nature Biotechnology,2018,36(3):242-248.

【通聯編輯:李雅琪】

主站蜘蛛池模板: 福利在线不卡一区| 欧美一级高清视频在线播放| аv天堂最新中文在线| 一级毛片在线免费看| 午夜日b视频| 91精品国产91久无码网站| 亚洲国产精品无码AV| 毛片三级在线观看| 99热精品久久| 国产高颜值露脸在线观看| 午夜福利网址| 超清无码一区二区三区| 亚洲日本在线免费观看| 天天色综网| 中文字幕中文字字幕码一二区| 国产中文一区二区苍井空| 天堂成人av| 视频二区欧美| 91精品人妻互换| 伊人AV天堂| 人妻丰满熟妇AV无码区| 国产SUV精品一区二区| 国产微拍一区二区三区四区| 国产爽爽视频| 99久久婷婷国产综合精| 久久精品女人天堂aaa| 波多野结衣无码中文字幕在线观看一区二区 | 四虎影视国产精品| 久久五月天综合| 欧美亚洲国产视频| 国产精品久久自在自2021| 日韩无码一二三区| 亚洲欧洲自拍拍偷午夜色无码| 天堂中文在线资源| 亚洲高清无码精品| 亚洲综合经典在线一区二区| 欧美日韩资源| 亚洲精品视频免费看| 中文字幕在线看视频一区二区三区| 色婷婷狠狠干| 五月婷婷亚洲综合| 夜夜高潮夜夜爽国产伦精品| 亚洲视频欧美不卡| 伊人久综合| 综合色天天| 无码免费视频| 日韩小视频网站hq| 国产亚洲精品va在线| 高清色本在线www| 国产xxxxx免费视频| 天天躁夜夜躁狠狠躁躁88| 国产综合另类小说色区色噜噜| 久久久久久国产精品mv| 亚洲va欧美va国产综合下载| 制服丝袜一区二区三区在线| 亚洲Av激情网五月天| 狠狠色丁香婷婷综合| 99re66精品视频在线观看| 亚洲欧美日韩视频一区| 久久久噜噜噜久久中文字幕色伊伊| 国产极品粉嫩小泬免费看| 区国产精品搜索视频| 国产无码制服丝袜| 老司国产精品视频91| 久久中文字幕av不卡一区二区| 欧美第一页在线| 久久久久亚洲精品成人网| 日韩精品免费一线在线观看| 亚洲AV无码乱码在线观看代蜜桃| 国产高清在线精品一区二区三区 | 国产v欧美v日韩v综合精品| 91亚洲精品第一| 国产玖玖视频| 久久一本精品久久久ー99| 婷婷综合亚洲| 亚洲人人视频| 国产免费一级精品视频| 久久久久亚洲AV成人网站软件| 中美日韩在线网免费毛片视频| 欧美国产成人在线| 久久亚洲美女精品国产精品| 人妻精品久久无码区|