DNA不日或用于存儲海量數據

2013-12-31 00:00:00

微電腦世界 2013年11期

將來大概4g重的DNA就能存得下全世界約18億兆字節的信息量。

研究人員已想出了通過DNA存儲數據的一種辦法，而DNA可以持續上萬年的時間。

研究人員在近日發表于《自然》雜志的一篇論文中稱，這種編碼方法有望用大概一杯DNA就能存儲至少1億小時的高清視頻。

這些研究人員來自位于英國的歐洲分子生物學實驗室——歐洲生物信息研究所（EMBL-EBI），他們稱已經用DNA存儲了經過編碼的馬丁·路德·金的《我有一個夢想》演講的MP3文件，以及EMBL-EBI的jpg照片和幾個文本文件。

EMBL-EBI這篇研究報告的撰寫者之一尼克·戈德曼（Nick Goldman）在聲明中說：“我們已經知道，DNA是存儲信息的一種有效方法，因為我們能夠從數萬年前的長毛猛犸象骨頭中提取DNA，并且解讀DNA密碼。DNA還非常小、非常密集，不需要電力就能用于存儲數據，所以運輸和保存起來很容易。”

讀取DNA非常簡單，但寫入DNA是一大障礙。目前面臨兩大挑戰：首先，如果使用現有方法，只能制造短串的DNA。其次，讀取和寫入DNA容易出錯，相同的DNA字母重復時更是容易出錯。

尼克和另一位撰寫者——EMBL-EBI副所長伊萬·伯尼（Ewan Birney）著手編寫克服這兩個問題的編碼。這種新方法需要合成來自編碼信息的DNA。EMBL-EBI與總部位于加利福尼亞州的安捷倫科技公司（Agilent Technologies）合作，傳輸數據，然后用DNA對數據進行編碼。安捷倫公司專門生產電子和生物分析測量儀器，比如示波器和信號發生器。

安捷倫公司從網上下載了文件，然后合成了數十萬個代表數據的DNA片段。安捷倫的艾米麗·勒普勞斯特（Emily Leproust）說：“結果看起來像是一粒小小的灰塵。”

隨后，安捷倫把樣本寄給了EMBL-EBI。那里的研究人員能夠測定DNA的序列，并對文件進行了解碼，沒有出現任何錯誤。

這不是第一次證明DNA是一種卓有成效的數據存儲方法。去年秋天，哈佛大學的研究人員演示了通過DNA二進制代碼，以HTML的格式存儲700億本書（書是同一本書）的功能。

研究人員通過DNA標記（DNA marker），創建了二進制代碼，以保存這本書的文本，這本書名為《復活：合成生物學將如何通過DNA改造自然和我們人類自己？》。

戈德曼說：“我們發明了一種ECC，這種ECC專門用來處理測序技術——合成（寫入）和測序（讀取）——往往會出現的那些類型的錯誤。我們的試驗完美無缺，這點很重要；哈佛大學的研究團隊遇到了錯誤，即信息出現了丟失。”

戈德曼特別指出，EMBL-EBI演示了其編碼方法可用于存儲比那次試驗多得多的信息。他說：“從理論上來說，我們可以把世界上的所有數字信息存儲起來。”

戈德曼的團隊還分析了這項技術的成本效益。預測表明，DNA存儲介質實際上適用于不遠的將來。比如說，用于存儲全球和全國有歷史價值的重要信息，以及對你想保存好幾代的具有重要個人價值的信息進行長期存檔，比如給子孫看的結婚視頻。由于存入數據的過程很緩慢，研究人員認為DNA存儲介質目前只適用于數據存檔。

由于數據大幅增長，研究人員們正在尋求用越來越小的數據包存儲數據的方法。

據市場研究公司IDC最新發布的《數字宇宙》研究報告聲稱，在未來8年，生成的數字數據量將超過40億兆字節，這相當于地球上每個男人、女人和孩子有5200GB數據。

從現在到2020年，絕大部分數據不是人類生成的，而是機器生成的，許多機器通過數據網絡進行聯系。比如說，這將包括與其他設備聯系的機器傳感器以及智能設備。

尼克說：“我們開發了使用分子形式的一種容錯編碼，我們知道它在合適的條件下可以持續1萬年或更長的時間。只要有人知道這編碼是什么，要是有能夠讀取DNA的機器，那么就能把它讀取出來。”

研究人員表示，開發過程的下一步是完善編碼方法，并且探索實用性，從而為商業上可行的DNA存儲模式鋪平道路。

-沈建苗編譯

微電腦世界2013年11期

微電腦世界的其它文章: 智能電視; 更靈活、更可靠; 可單手操控的大屏手機; 迎合眾多方案; 家庭視聽盛宴; 傳承經典再創新“寬”