DNA是一種非常穩定的分子,半衰期超過500年,低溫條件下可以保存成千上萬年。而目前的磁或光數據存儲系統保存數據一般不能超過一個世紀。除了穩定性,DNA存儲數據的另一大優點是存儲密度。DNA信息存儲密度的數量級是已知任何存儲技術的若干倍。例如,1千克DNA可以存儲2x 1024bits;相同數量的閃存需要多于109千克的硅。幾十千克的DNA就可以滿足全世界幾個世紀的需求。
不過,目前利用DNA進行信息存儲還不夠靈活,被認為更適用于存儲重要且無需經常訪問、調用的“冷數據”。這是因為,與硅質存儲芯片的毫秒級讀寫速度相比,DNA存儲從編碼寫入到讀取,整個過程都比較慢;另一方面,對存儲在細胞內DNA中的數字數據進行目標特異性重寫仍然是一個巨大的挑戰。
研究表明,在大腸桿菌活細胞內,文字、密碼表、圖片等信息可以被長期穩定地存儲、修改和復制,研究人員開發了一種雙質粒編輯系統用于準確處理微生物載體中的數字信息。


“細胞內存在各種酶,這決定了DNA在活細胞內有它獨特的存在形態,與其在體外進行信息存儲的方式不一樣。我們設想,利用目前熱門的基因編輯技術,實現在活細胞內對DNA進行編碼和寫入,同時通過Cas酶對存儲在細胞內DNA中的數字數據靈活地進行修改。最終在活細胞內將DNA的寫入、保存、修改、讀取快速地結合起來。”本文的通訊作者之一、清華大學化學系的劉凱教授說。
劉凱博士畢業于荷蘭格羅寧根大學,之后在哈佛大學開展博士后研究工作。回國后,團隊于2018年承擔科技部的重點研發計劃之一,利用DNA作為基元進行編碼信息存儲。這也是目前劉凱課題組主要開展的研究工作之一。
DNA數據存儲技術一般有兩種模式,即“體外硬盤模式”和“體內CD模式”。體內模式的主要優點是其通過細胞復制低成本、可靠地復制染色體DNA。由于這個特性,它可以用于快速和低成本的數據復制傳播。然而,由于某些信息的編碼DNA序列包含大量重復和均聚物的出現,因此這些信息只能“寫入”和“讀取”,而不能準確地“重寫”。

研究團隊建立的活細胞DNA信息存儲與改寫系統
“在傳統的存儲介質如電腦、硬盤中,信息可以直接進行修改,例如,在Word文件上,我們可以輕易地修改任何一個字,且準確率能夠達到100%。但是想要在細胞內實現這種定點、精確的修改,涉及的技術非常重要。利用雙質粒編輯系統對DNA存儲進行優化和設計,幫助其從冷存儲轉向熱存儲,是我們整個研究團隊的初衷。”劉凱表示。
團隊通過利用CRISPR/Cas基因編輯技術,在活細胞中構建了集存儲與改寫功能于一體的雙質粒信息存儲體系,與已有的DNA信息存儲方式相比,在降低寫入信息冗余度、提高活細胞信息存儲能力、簡化信息讀取流程、提升信息保存安全性上都有顯著提升。該研究充分探索了DNA序列的編碼能力,不需要任何尋址索引和備份序列,并兼容多種編碼算法,最高的編碼效率可達每個核苷酸4.0位。
例如:在進行小學數學的有關幾何圖形相關知識的學習過程中,老師就要對學生積極進行提問,促進學生的合作學習。比如,在為學生進行了幾何圖形的初步講解之后,老師就要對學生進行提問:“學生們進行幾何圖形的學習對我們會有什么樣的幫助?在我們的生活中又有什么樣的用處呢?”然后讓學生以小組的形式進行討論,注意每一組中都要保證組員之間的成績以及性格都有所不同。然后老師在組織學生進行幾何圖形的制作,讓他們進一步掌握相關內容。這樣的學習方式,促進學生的個性化發展,也有利于學生的共同進步,有利于小學數學高效課堂的構建。
值得注意的是,該研究設計的信息存儲與定點修改技術,不僅可以利用活細胞對外源數字信息實現高密度存儲和穩定拷貝,還能利用活細胞內的蛋白質工具實現靈活的信息處理。
利用預設并優化的CRISPR-Cas12a體系導向crRNA結合序列,可以實現與現有基因編輯相媲美的編輯成功率,并完成在分子水平精準靶向多種類型復雜信息的修改處理目標。另外,創新性引入熒光蛋白作為“報告器”進一步使信息改寫可視化,極大地提高了改寫信息的讀取魯棒性,使分子水平信息存儲和修改的狀態直觀可見。這一研究解決了DNA作為存儲介質無法對大數據信息進行精準改寫的難點,克服了DNA基質只能作為冷數據存儲的弊端,提升了DNA作為信息熱存儲介質的能力。
“目前,通過這一系統我們能夠實現90%以上的重寫準確率,雖然沒有達到100%,但是已經很高了。”

在活細胞內對編碼的密碼表、圖片等DNA信息的存儲與改寫
“我們相信這種策略也可以應用于具有更大基因組的活宿主,例如酵母,這將進一步為大數據存儲的實際應用鋪平道路。”劉凱說。
他進一步解釋道,這項研究選擇大腸桿菌細胞進行操作,是因為與真核細胞和人源細胞相比較,大腸桿菌的基因組非常小,相當于做了一個小的存儲體系的數據修改和概念驗證。不過,利用大腸桿菌能夠存儲的數據量有限,針對和大數據、超大數據匹配性更強的酵母系列或者人源細胞進行研究,可能更有意義。
“而如何實現在更高級的活細胞的基礎上進行精確的數據刪除和修改,是需要進一步研究的。”
劉凱還表示,這一研究繼續展開來非常有前景且能夠真正朝著產業化的方向推動,對于整個領域的發展非常重要。
他也透露,DNA信息存儲這一部分的研究接下來可能在長三角布局。
談及不久前我國發布的國內首部DNA 存儲行研報告《DNA 存儲藍皮書》,劉凱表示,BT和IT融合是近10年興起的新領域,這方面中國與西方國家的差距本來就很小,尤其是針對信息存儲這一塊。此次整個研究路線圖的發布,對于促進中國國內BT和IT融合的快速發展非常重要。
他繼續說道,我國非常重視這一新興交叉領域的發展。國家科技部早在2021年就正式成立了BTIT專項,即生物技術和信息技術交叉融合專項。另外國家自然科學基金委交叉學部也支持了上海交大樊春海院士承擔的核酸信息材料的基礎科學中心項目。
劉凱說:“在我看來,未來的存儲形態會發生一個質的變化,而且,我認為這也并不是一個新的學科,DNA本就是生命世界的信息存儲材料,DNA存儲不過是將外源性的大數據存儲的思路應用于內源性的作為遺傳物質的信息載體的基礎之上。這是一脈相承的,其發展非常有價值。”
除了DNA存儲的研究,劉凱的另一個主要研究方向是稀土生物合成系統的創建和應用,利用開發的底盤細胞進行上游的稀土尾礦綠色處理到下游的稀土高性能生物材料的設計和制備,滿足不同的應用場景的應用需求,這些高性能材料主要包括高性能稀土生物纖維、粘附的蛋白膠水、稀土診療材料等。
劉凱表示,團隊已經開發出了一種針對大動脈或者說緊急救治的材料,可以實現在一秒內的快速止血,該項工作尚未發表。
截至目前,團隊已經有專利申請50項,授權24項,多項正在落地轉化。
接下來,團隊仍將重點發展合成生物學技術,一方面是圍繞DNA存儲領域,另一方面將繼續為制備快速救治和裝備的高性能材料服務。