一個咖啡杯裝下全世界的數據,DNA存儲芯片神奇在哪?
我們正處于數據爆炸的時代,全球數據量呈指數級增長!
國際數據機構IDC預測,2025年,全球數據量將達到175ZB,5年平均復合增長率8%。1ZB等于1萬億GB,如果175ZB數據用容量1GB的移動硬盤來裝,至少需要175萬億個硬盤。在未來,數據存儲問題將成為互聯網發展的痛點。
為了解決數據存儲這一難題,受生物學的啟發,研究人員瞄準了人體內的DNA。
最大的人類染色體含有近2.5億個堿基對,如果每個堿基對上都能存儲數據,理論上,麻省理工學院生物工程教授Mark Bathe說,一個裝滿DNA的咖啡杯就可以存儲世界上所有的數據。這樣看來,存儲175ZB的數據也就不在話下了。
這樣一個前景可觀的新興存儲技術,在今年3月被寫進“十四五”規劃綱要草案中。不僅如此,2021年層出不窮的相關研究及落地進展,令DNA存儲技術愈發受到關注。
例如1月11日,Nature子刊上發表了哥倫比亞大學將hello world翻譯成堿基語言錄入大腸桿菌DNA的相關論文;5月26日,由中科院深圳先進技術研究院孵化的中科碳元成立,專注于推進DNA數據存儲研發及商業化;11月12日,東南大學劉宏團隊將校訓“止于至善”寫進DNA的論文發表于Science Advances;11月24日,微軟公布首個納米級DNA存儲寫入器……
需要注意的是,廣義上的DNA芯片是基因組學和遺傳學研究的工具,指在固相支持物上原位合成寡核苷酸或者直接將大量預先制備的DNA探針以顯微打印的方式有序地固化于支持物表面,然后與標記的樣品雜交。因為其支持物表面常是計算機芯片,因此稱其為DNA芯片。
DNA芯片類型多樣,包括檢測基因、染色體或用于臨床診斷用的芯片,而其中模仿DNA分子結構進行數據存儲的是我們今天討論的重點,也就是DNA存儲芯片。
01堿基與二進制對應,人手長的DNA鏈可存儲10億G數據
從遠古石墻上刻的圖案到文字的出現,再到最重要的信息載體書籍的產生,我們產生的信息其實并不多。但自從進入信息時代,人類在過去50年里記錄的信息已經遠遠超過過去2000年的信息。
我們處在信息爆炸的大數據時代,所有互聯網中的信息都作為數據保存下來,從網頁、應用程序到安防、衛星領域應有盡有。
根據國際數據組織IDC的數據,2013年至2015年全球大數據存儲量分別為4.3ZB、6.6ZB、8.6ZB,增速維持在40%左右,而到2016年全球大數據存儲量達到16.1ZB,增長率達到87.21%。2017年至2019年全球大數據存儲量分別為21.6ZB、33ZB、41ZB,2020年全球數據量達到了60ZB。在大數據領域不斷發展的同時,為了滿足海量的數據存儲需求,存儲方式也在不斷發生變化。
▲IDC監測2015-2020年全球數據量變化趨勢以及2025年預測
DNA是儲存遺傳信息的載體,攜帶有合成RNA和蛋白質所必需的遺傳信息,它可以對生物的所有信息進行編碼。
上世紀50年代,就有研究人員發現了生物特征和人造物體的關系。DNA分子由四種堿基組成,數據由二進制0和1組成;DNA用來儲存遺傳信息,數據正好需要一個介質存儲,由此蘇聯物理學家米哈伊爾·薩莫伊洛維奇·內曼(Mikhail Samoilovich Neiman)想到,是否可以參考DNA結構來存儲數據?
與傳統的存儲介質不同,DNA存儲技術有如下顯著優勢。
首先是DNA存儲密度高。一個DNA分子可以保留一個物種的全部遺傳信息,最大的人類染色體含有近2.5億個堿基對,那么就意味著一條和人手差不多長的DNA鏈,就可以存儲1EB(1EB=10.74億G)數據。
與硬盤和閃存的數據存儲密度相比,硬盤存儲每立方厘米約為1013位,閃存存儲約為1016位,而DNA存儲的密度約為1019位。
其次是DNA分子存儲具有穩定性。今年2月,國際頂級學術期刊Nature上的一篇論文稱古生物學家在西伯利亞東北部的永久凍土層中提取到距今120萬年猛犸象的遺傳物質,并對其DNA進行了解析,這也進一步刷新了DNA分子的保存年代紀錄。
據悉,DNA至少可保留上百年的數據,相比之下,硬盤、磁帶的數據最多只能保留約10年。
最后,DNA存儲維護成本低。以DNA形式存儲的數據易于維護,和傳統的數據中心不同,不需要大量的人力、財力投入,僅需要保存在低溫環境中。
在能耗方面,1GB的數據硬盤存儲能耗約為0.04W,而DNA存儲的能耗則小于10-10W。
02低成本擴大規模,可放置數百萬個DNA序列
上個世紀50年代,科學家已經提出創建人造物體與微觀世界的生物特征相似的想法,并且認為該人造物體將具有更加廣泛的能力。不到十年,蘇聯物理學家米哈伊爾·薩莫伊洛維奇·內曼(Mikhail Samoilovich Neiman)就獨立提出了可以利用DNA和RNA分子來進行信息記錄、存儲和檢索的可能性。
DNA進行數據存儲的應用真正開始于1988年,藝術家喬戴維斯和哈佛大學的研究人員合作,在大腸桿菌的DNA序列中,將一張代表生命和女性地球的古代日耳曼符文圖片,通過5x7的矩陣存儲到DNA序列中。他們用二進制中的1代表圖片中的暗像素,0代表圖片中的亮像素。
在之后的研究中,研究人員提出了多種DNA存儲的編碼方式。2011年,研究團隊對一本659KB的書籍進行編碼,通過一對一對應,由腺嘌呤或胞嘧啶表示二進制中的0,鳥嘌呤或胸腺嘧啶表示1。然而,最后研究人員檢查數據存儲結果時發現,在DNA中出現了22個錯誤。這種一一對應的編碼方式的精度較低。
DNA是由四種堿基結合成堿基對,并組成螺旋結構。四種堿基分別是腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)、胞嘧啶(C),然后依據堿基互補配對原則,來排列DNA分子儲存遺傳信息。這四個代碼也為DNA存儲芯片提供了一個合適的編碼環境。
▲DNA分子結構示意圖
DNA存儲技術包括信息編碼、存儲、檢索、解碼四個步驟。在計算機中,數據存儲需要用二進制0和1來表示,使用DNA來存儲數據首先需要將0和1轉化為DNA中的四個堿基A、C、T、G,創建具有正確堿基序列的DNA螺旋結構。合成DNA后在體內或體外進行存儲。在解碼時,DNA測序儀會轉錄該DNA結構中的堿基序列,通過解碼軟件將其轉化為0和1,還原數據信息。
2012年,哈佛大學的研究團隊證實,DNA可以作為一種和硬盤驅動器、磁帶類似的存儲介質。他們通過DNA對數字信息進行編碼,包括53400字節的HTML草稿,11張JPG圖片和一個JavaScript程序,利用位與堿基一對一映射,但這種方式會使得相同堿基長時間運行,測序過程容易出錯。
這種簡單的一對一編碼形式,在2013年得到了突破。歐洲生物信息學研究所(EBI)的研究人員在論文中稱,他們已經實現了超過500萬位數據的存儲、檢索和復制,并且所有DNA文件都以99.99%到100%的準確度再現了信息。在編碼過程中,研究小組加入了糾錯編碼方案,并采用了可通過序列識別的重疊短寡核苷酸的編碼方式。
此后,哥倫比亞大學、華盛頓大學、帝國理工學院等研究團隊都開展了一系列研究。
為了證明DNA編碼數據的長期穩定性,2015年2月4日,蘇黎世聯邦理工學院的研究人員在國際頂級期刊Angewandte Chemie International Edition上發表了相關論文,研究人員通過Reed-Solomon糾錯編碼和溶膠、凝膠將DNA封裝在二氧化硅玻璃球中來增加冗余,而這可能是DNA存儲芯片的最早期形態。
2021年11月起,多個研究團隊公布了DNA存儲芯片研究的新進展,包括我國東南大學、微軟研究院、伊利亞諾州西北大學以及佐治亞理工學院的研究小組。
11月12日,我國東南大學生物科學與醫學工程學院、生物電子學國家重點實驗室的劉宏團隊成功將校訓 “止于至善” 存入一段DNA序列中,該論文發表于Science Advances。
為了實現DNA存儲的微型化、集成化、自動化,該研究小組對測序過程進行了優化。基于電化學的單電極DNA合成和測序方法,通過電化學脫保護技術改進傳統亞磷酰胺化學合成方法,并基于電荷震蕩現象對電極表面的DNA分子進行測序,成功將校訓進行編碼和解碼。
▲劉宏團隊基于電化學DNA合成與測序的DNA數據存儲系統流程圖(圖片來源為東南大學官網)
11月24日,微軟研究院與華盛頓大學分子信息系統實驗室(MISL)合作在DNA存儲上取得突破的論文發表于Science Advances上,該研究小組公布首個納米級DNA存儲寫入器,DNA芯片上的分子控制器和DNA寫入配有PCIe接口,可以一次性構建四股合成DNA,產生包含100個堿基的DNA鏈。
微軟研究院稱,更長的DNA鏈會容易出現錯誤,但隨著硬件的發展,這都會得到改進。該項實驗證明了DNA螺旋結構擴大存儲規模的可能性。
今年11月29日,伊利諾伊州西北大學合成生物學中心提出了將信息記錄到DNA的新方法發布于《基因組學研究(Technology Networks)》期刊中,在編碼環節他們試圖通過DNA本身具有的能力來創建一種新的數據存儲解決方案。
在實驗過程中,他們使用一種新的酶促系統來合成DNA,將快速變化的環境信號直接記錄到DNA序列中。西北大學工程學教授Keith EJ Tyo稱,通過直接控制合成DNA的酶,可以實現提前表達和連續存儲信息。
為了使DNA數據存儲在擴大存儲規模的同時能降低成本,12月1日,佐治亞理工學院(GTRI)高級研究科學家尼古拉斯·吉斯(Nicholas Guise)在接受外媒英國廣播公司(BBC)采訪時說:“我們新芯片上的功能密度大約比當前的商業設備高出100倍。”
他們設計的芯片可以以極低的成本,通過超密集格式使DNA鏈實現增長,獲得大規格的存儲容量。這個微芯片配備了10組幾百納米深的“微孔”,使得DNA分子在這中間平行生長,最終在芯片上積壓了數百萬個DNA序列。相比于傳統的合成DNA制造過程,這種方法采用電化學局部激活合成,成本更加低廉。
▲佐治亞理工學院(GTRI)研究小組實驗編碼解碼過程(圖片來源為論文插圖)
03合成2MB需要7000美元,讀取需要2000美元
不斷的研究表明,DNA存儲技術將成為跨時代的存儲方式。但從上世紀50年代提出至今,其發展一直沒有重大的實質性進展。微軟研究院作為DNA數據存儲的早期入局者,2015年開始進行相關研究,直到2019年才有研發進展,他們展示了一個全自動系統來編碼和解碼DNA中的數據信息。
DNA存儲芯片能夠實現高密度、長時間的存儲特性,但目前該項技術還不能廣泛運用于計算機領域,目前主要針對一些不常用但需要保存的內容。DNA存儲芯片無法商業化,大概有以下幾點原因。
首先,DNA存儲數據的寫入和讀取成本高昂。2017年哥倫比亞大學的實驗顯示,合成2MB的DNA數據需要7000美元,而讀取數據需要2000美元,盡管這相比于2013年每兆12400美元的成本已經大大降低,但如果用戶需要以DNA形式儲存1GB的電影,編碼大約需要花費358萬美元,而讀取數據還需要102萬美元。
其次,DNA存儲數據的解碼過程需要大型工具。目前DNA存儲技術的解碼過程,還需要依賴測序儀對DNA分子進行排序,市面上量產的測序儀大多都用于小型實驗室、臨床應用等時效性要求較高的場景,距日常使用還很遠。
▲測序服務供應商Illumina的測序儀產品iSeq 100(圖片來源為Illumina官網)
此外,DNA存儲技術的讀寫速度慢。2021年12月初,佐治亞理工學院的研究將DNA存儲速度提升到了每天寫入20GB數據,目前固態硬盤的讀寫速度大約為每秒500MB。IDC《數據時代2025》的報告顯示,全球每年產生的數據在2025年將達到175ZB,相當于每天產生491EB的數據。即使DNA存儲芯片的密度足夠大,其實時讀取速度也無法滿足當前的數據存儲需求。
DNA存儲芯片是未來大容量存儲較為理想的介質,目前的研究進展大部分都處于概念驗證階段,其硬件設備的落地還需要很長一段時間。
04結語:DNA存儲商業化的關鍵,實現低成本、高密度
DNA存儲芯片存儲密度高、穩定性高、易于維護的優勢決定了它成為下一代存儲設備的可能。不過該項技術的進一步商業化還有很多限制,例如成本高昂、存儲環境限制較多、實時讀取速度慢等,這些都表明其變成主流存儲設備還有很長一段路要走。
我們處于數字時代,從智能手機、平板、PC到可穿戴設備每天都會產生大量信息,因此這個現實條件決定,找到性能要求更高且更加低成本的存儲設備迫在眉睫。
DNA的半衰期為521年,在一個冰冷或合適的條件下,DNA可以持續存在數十萬年,甚至幾百萬年,如果DNA存儲技術真正實現商用,在未來,我們的數據檔案可能將變成“化石”留存下來。
參考資料:《DNA存儲技術國際發展態勢分析》宋琪、丁陳君、吳曉燕、陳方
本文來自微信公眾號 “芯東西”(ID:aichip001),作者:程茜,編輯:Panken,36氪經授權發布。