close

我們對於數位資訊儲存媒體的容量需求一直不斷地增加. 以硬碟容量而言, 30年前一顆數十MB, 到今日一顆數TB的硬碟, 儲存的密度可以說增加了數十萬倍. 即使有如此大的進步, 我們對於更大容量的儲存設備還是有需求.

 

自從1988, 開始有人提出利用DNA作為儲存媒體的想法. 目前為止, 將資訊儲存於DNA上的資料量僅止於7,920位元(990位元組, bytes).  近年來由於NGS技術的發展, 使得DNA儲存媒體的技術也相對有很大的進步. 在最近一期的科學期刊, Church等人結合了NGS的技術, 將資料的儲存量提高到5.27百萬位元(相當於66萬位元組, 660 Kbytes), 約上一代技術660倍的增加.

 

圖一是將資訊儲存於DNA上的流程圖. 整個流程分為兩部分, 儲存與讀取. 儲存就是合成特定的DNA序列, 並將其固定於微晶片(microchips). 讀取是逆向的動作, 將微晶片上的DNA序列讀出, 目前可以利用NGS的技術達到快速讀取的目的.

 

將文字儲存於DNA上的一個問題, 就是一般的字母符號, 要如何對應到DNA的序列. 我們知道, 英文字母有26, DNA組成只有4種鹼基A, T, C, G, 若是將一個英文字母對應一種鹼基, 這樣一對一的對照是無法儲存所有的英文字母. 解決的方法之一, 就是多個DNA鹼基對應一個英文字母. 現在同時以3DNA鹼基作為一種對應到英文字母的編碼, 那我們可用的編碼種類就是43=64,  所以我們不只可以儲存大寫的26個字母, 也可以儲存小寫的26個字母, 還剩下64 - 26 - 26 = 12種編碼可以儲存其他的符號.

 

以上的例子我們可以將DNA視為一種四進位的儲存系統. 但由於DNA本身的的化學特性, 使得我們要對這一個系統做一些修改. GC%或是DNA二級結構都會使定序的品質下降. 為了避免出現GGGCCC這樣的序列使定序品質下降, 所以改用二進位的表達方式. 0代表AC, 1代表, GT. 所以, 在二進位的表示上, GGGCCC這樣的序列也等同於GTTCAC, 但好處是GC%卻下降50%.

 

既然使用二進位系統, 其中一個優點是可將要儲存的文字, 轉為ASCII. ASCII碼是在電腦上用於顯示英文字母和符號的電腦編碼, 一共定義了128個字元. 每個字元有相對應的十進位數字, 例如f的代碼就是102. 

20121005_pic1圖一  次世代數位儲存示意圖. 藍色字串: 我們想要儲存的資訊(文字). 紅色字串: 條碼序列, 用於決定每條藍色字串的相對位置. 藍色字串和紅色字串分別為1996個核苷酸長.

 

最後, 這項新技術的潛力有多大?圖二列出目前已商用化和理論性產品的比較圖. 以理論來說, 一公克DNA可以儲存4.5x1020位元組, 相當於45千萬T! 所以一公克的DNA相當於一億個4T硬碟的量! 但這是高估了實際上儲存的密度. 作者假設, 一公克的DNA可以儲存於一毫升的水裡. 每摩耳的DNA330公克. 由此估算, 96位元組的資料僅只需要1.7x10-13毫升的水. 在這樣的假設下, 這種新技術的儲存密度是最大的.


20121005_pic2 圖二  儲存媒體的比較. X: 目前可儲存容量的最大值, 單位位元, 以對數尺度表示. Y: 儲存密度, 以每立方毫米可儲存位元數表示(對數尺度)

 

雖然目前的DNA合成與讀取的速度仍較慢, 作者估計合成的速度必須增加一千萬倍, 定序的速度增加一百萬倍, 才會有實用的價值性.

 

Reference:

Church, G.M., Gao Y., and Kosuri, S., Next-Generation Digital Information Storage in DNA, Science, 2012




Yourgene Bioscience  

arrow
arrow
    全站熱搜

    Yourgene Health 發表在 痞客邦 留言(0) 人氣()