知道转换规则,就能从排列中读取信息。DNA 存储就是通过把碱基看成固定数字,将数字化的数据转换成碱基序列的方式。
把 A,G 视为 0 ,C,T 视为 1 ,排列后合成。简单粗暴,这就是最早的 DNA 存储。
为了存储更多数据,人们尝试了把 A ,T ,C,G 看成 0 ,1,2,3 的四进制。
虽然四进制能缩短数据长度,但同一碱基连续出现,会让序列不稳定,影响数据的准确。
更高的进制,四种碱基又不够用,为了解决这个问题,人们用了一种三进制的方案。这种方案里从第二位开始编码,以前一位碱基来决定后一位。前一位碱基是 A ,下一位就把 A 排除,用 C,G,T 来代表 0,1,2 。
我们可以试一试。刚才的数字用三进制表达是 211101 。假设碱基序列第一位是 A ,转换结果就是 ATCTCGA 。
这个结果是怎么得来的呢?第一个字母是 A 时,按照表格,代表 2 的字母是 T,T 后面代表 1 的字母是 C,C 后面代表 1 的是 T,依此类推。
解决了编码问题,大家玩嗨了,动图、音频、电影先后被存入 DNA 。
哈佛大学存入大肠杆菌 DNA 的.gif
2017 年,纽约基因组中心将电影火车进站存入 DNA 。