元DNA ?- - - - - -

一个有文件和元数据的dna存储系统

查询可能需要几天时间,但可以提取特定的文件。

荧光标记DNA是一种新的存储系统的关键。
扩大 /荧光标记DNA是一种新的存储系统的关键。

基于dna的数据存储似乎为人类不断增长的创造数据的能力所带来的一些问题提供了解决方案。与大多数其他媒介相比,DNA提供了惊人的数据密度。如果储存在合适的条件下,DNA不需要任何能量来维持数个世纪的数据。由于DNA在生物学中的中心地位,我们总是有可能保持阅读它的能力。

但DNA也不是没有缺点。目前,还没有一种标准的方法来对DNA链的碱基进行编码。合成特定的序列仍然很昂贵。而使用当前的方法获取数据是缓慢的,并且会耗尽用于存储的DNA。如果试图多次访问数据,则必须以某种方式恢复数据——这一过程可能会导致错误。

来自麻省理工学院(MIT)和布罗德研究所(Broad Institute)的一个团队决定解决其中一些问题。在这个过程中,研究人员创造了一个基于dna的图像存储系统,它介于文件系统和基于元数据的数据库之间。

的问题

在DNA中存储数据的最新系统(例如一个我们讨论了)涉及在包含数据的DNA片段上添加特定的序列标签。要得到你想要的数据,你只需简单地添加一些DNA片段,这些片段可以与正确的标签进行碱基对,然后用它们来放大整个序列。可以把它想象成给集合中的每一张图片贴上一个ID标签,然后设置一些东西,以便只有一个特定的ID被放大。

这种方法是有效的,但它在两方面有局限性。一、放大步骤,完成使用一个叫做PCR的过程,对可以被放大的序列的大小有限制。每个标记都会占用一些有限的空间,因此添加更详细的标记(对于复杂的文件系统可能需要)会减少用于数据的空间量。

另一个限制是,PCR反应放大了包含特定数据的DNA片段,消耗了一些原始的DNA库。换句话说,每次提取一些数据时,都会破坏一堆不相关的数据。如果访问数据的频率足够高,最终就会烧毁整个存储库。虽然有方法可以重新放大所有内容,但每次这样做都会增加引入错误的机会。

这项新研究将标签信息从数据存储中分离出来。此外,研究人员还创建了一个系统,可以只访问你感兴趣的DNA数据,而不触及其他数据,从而延长数据存储的寿命。

骗局

这项基本技术是基于DNA会附着在二氧化硅玻璃珠上这一事实。这种吸引力与DNA的大小无关,所以你可以使用这个系统存储任意大的数据块(在这种情况下,片段的大小超过过去使用的典型DNA数据块的10倍)。同样重要的是,数据中没有存储DNA中的标签,因此数据存储和文件系统信息之间没有竞争。

一旦DNA出现在这些珠子的表面,研究人员在上面聚合了一些额外的二氧化硅。这一过程覆盖了DNA,并保护它不受环境影响。通过使用荧光标记,研究人员证实该系统是有效的;基本上,所有以这种方式产生的粒子都含有DNA。

只有当这个外壳就位后,研究人员才添加标签,这些标签与外壳有化学联系。这些标签是由单链DNA构成的,并且有可能在一个单一的玻璃外壳上附着几个不同的标签。

研究人员分别处理每个数据块的过程,一旦一切就绪,标记玻璃球可以混合到一个单一的数据库。虽然不像纯DNA那样紧凑,但文库仍具有长期稳定和不需要能量维护的优点。

找到文件

但有趣的是访问数据。研究人员在DNA中存储了一组与关键字相关的图像,每个关键字都编码在附在玻璃外壳上的DNA中。以他们的例子为例,橙色的宠物猫的图像将与关键词“橘”、“猫”和“驯养的”相关联,而老虎的图像将只有“橘”和“猫”。

因为这些标签是单链的,所以有可能设计一个匹配的序列,将碱基对与它形成一个双螺旋。这些标签与不同颜色的荧光分子相连,因此任何与正确标签相连的玻璃外壳都会发出特定的颜色。我们已经有了利用激光根据发光颜色来分离物体的机器(通常,这种机器被用来对荧光标记的细胞进行分类)。在这台机器中,橙色的家猫珠子会发出与橙色的猫珠子不同的波长的光,所以家猫可以被带出图书馆。

库的其余部分将保持不变,因此每次发生这个过程时都不会有重大的数据丢失。而且由于珠子比水的密度大,只需使用离心机将文库中未使用的部分旋转到试管的底部,就很容易再次集中数据存储。

研究人员使用玻璃蚀刻溶液释放DNA,然后将其插入细菌中。用于存储的DNA被设置为允许细菌复制许多副本来读取数据。

DNA数据库,不,不是那种

有趣的是,系统允许使用多个词进行布尔搜索。通过逐个选择支持或反对不同的标签,您可以建立相当复杂的条件:true表示猫,false表示驯化,true表示黑色,等等。如果你抓取任何带有相同颜色的东西,用相同的荧光颜色标记两个标签会给你等价的逻辑或。

因为每个标签都可以被看作是DNA存储的图像的元数据,所以珠子的集合最终充当了元数据驱动的图像数据库。

虽然这项研究代表了基于dna的存储复杂性的重大飞跃,但它仍然只是基于dna的存储。这意味着它的速度慢得连磁带机都显得快了。研究人员计算出,即使他们在每个玻璃珠中塞入更多的数据,搜索量也会达到每秒1GB左右。这意味着搜索一拍字节的数据需要两周多一点的时间。

而这只是找到合适的玻璃珠。将它们敲开,将DNA放入细菌中,然后进行所需的测序,以确定珠子中存储的是什么,这可能需要几天的时间。

但当然,没有人建议我们使用DNA存储,因为它很快;正如我们上面提到的,它的有用性质是在能源使用和数据稳定性方面。只有当我们确信自己不想经常接触到某些东西时,我们才会将其储存在DNA中。因此,任何使访问更具功能性和灵活性的方法都有潜在的价值。

自然材料,2021年。DOI:10.1038 / s41563 - 021 - 01021 - 3对必须).

你必须置评。

通道Ars Technica