我們對於數位資訊儲存媒體的容量需求一直不斷地增加. 以硬碟容量而言, 從30年前一顆數十MB, 到今日一顆數TB的硬碟, 儲存的密度可以說增加了數十萬倍. 即使有如此大的進步, 我們對於更大容量的儲存設備還是有需求.
自從1988年, 開始有人提出利用DNA作為儲存媒體的想法. 目前為止, 將資訊儲存於DNA上的資料量僅止於7,920位元(990位元組, bytes). 近年來由於NGS技術的發展, 使得DNA儲存媒體的技術也相對有很大的進步. 在最近一期的科學期刊, Church等人結合了NGS的技術, 將資料的儲存量提高到5.27百萬位元(相當於66萬位元組, 660 Kbytes), 約上一代技術660倍的增加.
圖一是將資訊儲存於DNA上的流程圖. 整個流程分為兩部分, 儲存與讀取. 儲存就是合成特定的DNA序列, 並將其固定於微晶片(microchips)上. 讀取是逆向的動作, 將微晶片上的DNA序列讀出, 目前可以利用NGS的技術達到快速讀取的目的.
將文字儲存於DNA上的一個問題, 就是一般的字母符號, 要如何對應到DNA的序列. 我們知道, 英文字母有26個, 但DNA組成只有4種鹼基A, T, C, G, 若是將一個英文字母對應一種鹼基, 這樣一對一的對照是無法儲存所有的英文字母. 解決的方法之一, 就是多個DNA鹼基對應一個英文字母. 現在同時以3個DNA鹼基作為一種對應到英文字母的編碼, 那我們可用的編碼種類就是43=64, 所以我們不只可以儲存大寫的26個字母, 也可以儲存小寫的26個字母, 還剩下64 - 26 - 26 = 12種編碼可以儲存其他的符號.
以上的例子我們可以將DNA視為一種四進位的儲存系統. 但由於DNA本身的的化學特性, 使得我們要對這一個系統做一些修改. 高GC%或是DNA二級結構都會使定序的品質下降. 為了避免出現GGGCCC這樣的序列使定序品質下降, 所以改用二進位的表達方式. 用0代表A或C, 1代表, G或T. 所以, 在二進位的表示上, GGGCCC這樣的序列也等同於GTTCAC, 但好處是GC%卻下降50%.
既然使用二進位系統, 其中一個優點是可將要儲存的文字, 轉為ASCII碼. ASCII碼是在電腦上用於顯示英文字母和符號的電腦編碼, 一共定義了128個字元. 每個字元有相對應的十進位數字, 例如f的代碼就是102.
圖一 次世代數位儲存示意圖. 藍色字串: 我們想要儲存的資訊(文字). 紅色字串: 條碼序列, 用於決定每條藍色字串的相對位置. 藍色字串和紅色字串分別為19和96個核苷酸長.
最後, 這項新技術的潛力有多大?圖二列出目前已商用化和理論性產品的比較圖. 以理論來說, 一公克DNA可以儲存4.5x1020位元組, 相當於4億5千萬T! 所以一公克的DNA相當於一億個4T硬碟的量! 但這是高估了實際上儲存的密度. 作者假設, 一公克的DNA可以儲存於一毫升的水裡. 每摩耳的DNA約330公克. 由此估算, 96位元組的資料僅只需要1.7x10-13毫升的水. 在這樣的假設下, 這種新技術的儲存密度是最大的.
圖二 儲存媒體的比較. X軸: 目前可儲存容量的最大值, 單位位元, 以對數尺度表示. Y軸: 儲存密度, 以每立方毫米可儲存位元數表示(對數尺度)
雖然目前的DNA合成與讀取的速度仍較慢, 作者估計合成的速度必須增加一千萬倍, 定序的速度增加一百萬倍, 才會有實用的價值性.
Reference:
Church, G.M., Gao Y., and Kosuri, S., Next-Generation Digital Information Storage in DNA, Science, 2012
留言列表