1895年12月28日,来自法国的摄影师卢米埃尔兄弟在巴黎卡布辛路大咖啡馆的地下室里,用活动电影机放映了世界上第一部电影——《火车进站》(the arrival of a train)。这段时长仅有50s左右的短片描绘了秋冬之交时的巴黎萧达车站。当观众们看到火车远远驶来,好像要冲破银幕,都大吃一惊,甚至起身逃离……如今,122多年过去了,《火车进站》再次开创先河——它在不久前刚刚成为世界上第一部被储存于DNA中的电影。
来自纽约基因组中心和哥伦比亚大学的Yaniv Erlich和Dina Zielinski将六份文件:计算机操作系统、电影、照片、科学论文、计算机病毒和亚马逊礼物卡编码进这个大名鼎鼎的双螺旋分子中,这些文件总共2.14×106字节。
在这项发表于Science期刊上的研究中,研究人员使用了一种基于互联网流媒体的新方案,将信息高效地储存进DNA。通过这种方式,他们将数字文件打包成极少量的DNA——一个1TB的DNA“硬盘”仅重150克。理论上,你可以把世界上所有的数据都储存在一卡车DNA中。
事实上,将信息储存在DNA中并不新鲜。只要生命存在,这一过程就一直在进行。DNA分子看上去像一个螺旋梯,它们的阶梯由四种碱基——A、T、C、G构成。这些“阶梯”排列的顺序编码着构建一切生物的指令。如果你可以将数字数据——0或1转化成这四个字母,那么你就可以用DNA编码任何东西。
1
DNA储存的优势
为何会想到用DNA来做“硬盘”呢?当然是因为DNA具有其他存储媒介所不具备的优点:它占据极少的空间。并且非常耐用,只要保持低温干燥和黑暗的环境。来自数千年前灭绝的猛犸象或是几十万年前尼安德特人头骨化石中的DNA仍然可以被提取并测序。软盘、VHS、压缩盘、激光盘,盒式磁带……任何一种现有的媒体格式最终都变被淘汰,每种新格式的出现都会迫使人们去购买新的读取设备并更新自己的数字档案。但是,DNA永远不会过时。它在生命中具有如此重要的地位,以至于生物学家永远会去研究它。测序仪虽然在不断改进,但它们总会存在,不会面临被淘汰的风险。
2
此前的研究
哈佛大学的George Church早在2011年就进行过DNA存储,他将自己新出版的一本书,一些图像和一个Javascript程序编码进DNA中。一年后,来自欧洲生物信息学研究所的Nick Goldman和Ewan Birney使用更复杂的编码改进了他的尝试。他们在一颗DNA微粒中编码了莎士比亚所有的十四行诗,马丁?路德?金的“我有一个梦想”演讲的剪辑以及一份来自James Watson和Francis Crick的PDF格式论文(文中详细地描述了DNA结构以及他们研究所的照片),这颗DNA“硬盘”极小,当以至于当它被送到实验室时,Goldman看到的只是一个空管。
不过,最大问题是,我们只能创造或测序一小段的DNA,大概只有几百个字母长度。因此,如果你想编码一大块数据,你必须将其分解开来,并把它们合并成为一个杂乱的DNA片段。这样做很难确保所有数据都被均匀地表示,所以有丢失数据位的风险。
Goldman和Birney通过创建重叠代码来应对这一点,使得每一比特数据由至少四个DNA片段表示。如果其中一个片段丢失,那么同一信息还存在于另外三个片段中。这确实是个好方法,不过不怎么高效。并且,这种策略也存在缺陷,在团队试图恢复DNA中的数据文件时仍然遇到了一些错误。Erlich说,我想我们可以用一些更有效更准确的方法来实现这一过程。”
工作中的Yaniv Erlich和Zielinski
3
DNA喷泉码
无独有偶,Netflix和Spotify等在线流媒体服务也面临着类似的问题。他们使用喷泉码解决了这个问题——一种将数据分割成小数据包(或“水滴”)的编码方式,通过这种方式你可以恢复整个数据,即使你只能捕获一个随机子集。无需担心错过了哪些信息,只要能捕获足够的“水滴”,你就可以重建整个数据流。 Erlich将这种方式比喻成做一个巨大的数独谜题:如果一些方块被填充进去,那么你可以推断出其他方块。
通过使用喷泉码,研究人员将平均1.6比特数据编码到每个DNA碱基中,这种方法比以前的研究高效了60%,并接近DNA所能包含的信息密度的极限——每个碱基编码1.8比特数据。 “我们非常接近一个最佳配置。”Erlich说。
他们使用这个名为DNA喷泉的系统编码了:《火车进站》;最小的计算机操作系统KolibriOS;在Pioneer 10和11探测器上发送的图像;一份论述媒体对信息容纳能力的科学论文;一种名为Zipbomb的病毒(它会在你的硬盘里填满垃圾);和一张50美元的亚马逊礼品卡。
Erlich和他的同事最终得到72,000个DNA片段文库,然后对它们进行测序,解码和重新装配。在这个过程中,他们丢失了2000多个碎片,但他们最后仍然完美地重建文件。
不过,DNA存储还有另一个缺点。对片段进行测序这一过程本身也会破坏它们,所以这种存储介质被读取得越多,它就消失得越快。 “我的女儿喜欢《冰雪奇缘》,”Erlich说,“如果要编码《Let it go》这首歌,恐怕几周内DNA就被耗尽了。” 幸运的是,DNA的特性决定它很容易被复制,所以将DNA编码的数据缓存翻倍不是什么难事儿。但是,每次你这样做,都可能存在引入错误的风险:副本的副本很少与原始版本完全一致。好在DNA喷泉码能够抵抗错误的干扰,即使Zielinski复制数据缓存十次,她仍然可以完全恢复文件。
“这项工作是伟大的,”Birney表示,并证明了DNA存储“是一个非常厉害的想法。”据说,他和Goldman正在开发他们自己的新编码方案,他们希望在不久的将来能够测试及发布。微软也在采取行动。去年7月,微软研究员Karin Strauss和华盛顿大学的计算机科学家Luis Henrique Ceze在DNA中存储了200兆字节的数据。 “我们相信DNA作为存储媒介所具备的密度优势,并正在努力提高容量和系统设计,使其在储存中更加实用。”他们表示。
4
成本问题
如果想要DNA存储成为主流,成本显然是个大问题。DNA测序仍然不便宜,不过真正昂贵的是DNA合成过程。好在这两者成本都在下降。当Birney和Goldman在2012年发表他们的研究时,编码一兆字节的数据花费了12,400美金。而现在,只需要3,500美元。但即使这些成本进一步下降,合成DNA仍然是一个利基活动。目前世界上还没有哪种储存媒介的容量能够编码拍字节(petabyte)的数据。
但是,Erlich相信,随着他和另一些科学家证明DNA能够成为未来的储存格式,成本昂贵的局面或许会逐渐转变。 “第一台硬盘驱动器需要四个人来扛,”他说, “经过数十年的广泛的研究和开发,我们现在有拇指大小的驱动器。目前投入到DNA合成中的钱只是冰山一角。我希望,通过优化方案可以实现DNA存储的潜力。”
最后,笔者就这一研究咨询了基因测序的业内人士。他们表示,这一研究虽然十分具有创新性,但DNA要作为储存媒介广泛应用还有很长的路要走。抛开成本不谈,最明显的问题就是写入和读取数据的过程需要耗费许多时间。因此,DNA硬盘要想发挥实用价值还需依赖于DNA合成技术和测序技术的发展与革新。
本文地址:http://www.dadaojiayuan.com/jiankang/276078.html.
声明: 我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本站部分文字与图片资源来自于网络,转载是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:602607956@qq.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
下一篇: 干呕、肚子疼,但不是来姨妈,怎么办