

將來大概4g重的DNA就能存得下全世界約18億兆字節的信息量。
研究人員已想出了通過DNA存儲數據的一種辦法,而DNA可以持續上萬年的時間。
研究人員在近日發表于《自然》雜志的一篇論文中稱,這種編碼方法有望用大概一杯DNA就能存儲至少1億小時的高清視頻。
這些研究人員來自位于英國的歐洲分子生物學實驗室——歐洲生物信息研究所(EMBL-EBI),他們稱已經用DNA存儲了經過編碼的馬丁·路德·金的《我有一個夢想》演講的MP3文件,以及EMBL-EBI的jpg照片和幾個文本文件。
EMBL-EBI這篇研究報告的撰寫者之一尼克·戈德曼(Nick Goldman)在聲明中說:“我們已經知道,DNA是存儲信息的一種有效方法,因為我們能夠從數萬年前的長毛猛犸象骨頭中提取DNA,并且解讀DNA密碼。DNA還非常小、非常密集,不需要電力就能用于存儲數據,所以運輸和保存起來很容易。”
讀取DNA非常簡單,但寫入DNA是一大障礙。目前面臨兩大挑戰:首先,如果使用現有方法,只能制造短串的DNA。其次,讀取和寫入DNA容易出錯,相同的DNA字母重復時更是容易出錯。
尼克和另一位撰寫者——EMBL-EBI副所長伊萬·伯尼(Ewan Birney)著手編寫克服這兩個問題的編碼。這種新方法需要合成來自編碼信息的DNA。EMBL-EBI與總部位于加利福尼亞州的安捷倫科技公司(Agilent Technologies)合作,傳輸數據,然后用DNA對數據進行編碼。安捷倫公司專門生產電子和生物分析測量儀器,比如示波器和信號發生器。
安捷倫公司從網上下載了文件,然后合成了數十萬個代表數據的DNA片段。安捷倫的艾米麗·勒普勞斯特(Emily Leproust)說:“結果看起來像是一粒小小的灰塵。”
隨后,安捷倫把樣本寄給了EMBL-EBI。那里的研究人員能夠測定DNA的序列,并對文件進行了解碼,沒有出現任何錯誤。
這不是第一次證明DNA是一種卓有成效的數據存儲方法。去年秋天,哈佛大學的研究人員演示了通過DNA二進制代碼,以HTML的格式存儲700億本書(書是同一本書)的功能。
研究人員通過DNA標記(DNA marker),創建了二進制代碼,以保存這本書的文本,這本書名為《復活:合成生物學將如何通過DNA改造自然和我們人類自己?》。
戈德曼說:“我們發明了一種ECC,這種ECC專門用來處理測序技術——合成(寫入)和測序(讀取)——往往會出現的那些類型的錯誤。我們的試驗完美無缺,這點很重要;哈佛大學的研究團隊遇到了錯誤,即信息出現了丟失。”
戈德曼特別指出,EMBL-EBI演示了其編碼方法可用于存儲比那次試驗多得多的信息。他說:“從理論上來說,我們可以把世界上的所有數字信息存儲起來。”
戈德曼的團隊還分析了這項技術的成本效益。預測表明,DNA存儲介質實際上適用于不遠的將來。比如說,用于存儲全球和全國有歷史價值的重要信息,以及對你想保存好幾代的具有重要個人價值的信息進行長期存檔,比如給子孫看的結婚視頻。由于存入數據的過程很緩慢,研究人員認為DNA存儲介質目前只適用于數據存檔。
由于數據大幅增長,研究人員們正在尋求用越來越小的數據包存儲數據的方法。
據市場研究公司IDC最新發布的《數字宇宙》研究報告聲稱,在未來8年,生成的數字數據量將超過40億兆字節,這相當于地球上每個男人、女人和孩子有5200GB數據。
從現在到2020年,絕大部分數據不是人類生成的,而是機器生成的,許多機器通過數據網絡進行聯系。比如說,這將包括與其他設備聯系的機器傳感器以及智能設備。
尼克說:“我們開發了使用分子形式的一種容錯編碼,我們知道它在合適的條件下可以持續1萬年或更長的時間。只要有人知道這編碼是什么,要是有能夠讀取DNA的機器,那么就能把它讀取出來。”
研究人員表示,開發過程的下一步是完善編碼方法,并且探索實用性,從而為商業上可行的DNA存儲模式鋪平道路。
-沈建苗編譯