科学家开发标记和检索 DNA 数据文件新技术

这篇文章内容给诸位网民产生的新闻资讯是:生物学家开发设计标识和查找 DNA 数据文件新技术应用,DNA 数据储存有希望如愿以偿 敬请赏析下面

中国北京时间 6 月 15 日信息,据海外新闻媒体,在最近的一项新研究中,美国麻省理工学院的生物学家开发设计了一种标识和查找 DNA 数据文件的技术性,这也许能让 DNA 数据储存变成 很有可能。

科学家开发标记和检索 DNA 数据文件新技术

此刻,地球上大概有 10 万亿元吉字节(GB)的数据量,而每一天,人们生产制造出去的电子邮箱、相片、社交网络动态性和别的数据文件加起來,又有 250 万吉字节的数据。这种数据中的绝大多数都储存在名叫“艾字节(exabyte,通称 EB)数据管理中心”的极大设备中(1EB 等同于 10 亿 GB),其经营规模很有可能几个足球场地那么大,修建和维护保养成本费约为 10 亿美金

很多生物学家觉得,处理巨量数据储存难题的另一种方法取决于包括大家基因遗传信息的分子伴侣:核糖核酸(DNA)。从地球生命问世迄今,DNA 早已演变到能够 以非常高的相对密度储存很多信息,基础理论上一个放满 DNA 的星巴克马克杯就可以储存全世界全部的数据。

大家必须新的解决方法,来储存全球正持续累积的很多数据,尤其是档案资料数据,DNA 的相对密度乃至是闪存芯片的 1000 倍。另一个有意思的特点是,DNA 高聚物一旦生产制造出去,它就不容易再耗费一切动能。你能把数据载入 DNA,随后永久性储存起來。

生物学家早已证实,图象和文字能够 编号为 DNA,但大家还必须一种从很多 DNA 精彩片段化合物中筛出所需文件的简易方式 。在新研究中,生物学家展现了一种方式 ,能将每一个数据文件封裝到一个 6 μm的二氧化硅球型“胶襄”中,并应用 DNA 短序列做为标识,以表明其文件內容。

运用这类方式 ,研究工作人员从包括 20 张图象的 DNA 文件中精确获取出了以 DNA 序列方式储存的单独图象。充分考虑能够 采用的标识总数,这类方式 数最多能拓展到 10^20 个文件。

平稳的移动存储设备

科学家开发标记和检索 DNA 数据文件新技术

这种由二氧化硅做成的圆球就是 DNA“文件”,每一个圆球上都包括编号特殊图象的 DNA 序列,其外界遮盖有叙述图象內容的多肽链条码

数据分布式存储将文字、相片和其他类型的信息都编号为一系列的 0 和 1,一样的信息还可以用组成遗传密码的 4 种多肽链(A、T、G 和 C,即腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶)编号在 DNA 中。比如,G 和 C 能够 意味着 0,而 A 和 T 意味着 1。

做为移动存储设备,DNA 还具备别的好多个特性。最先,它十分平稳,并且生成和转录组测序都非常非常容易(但现阶段还十分价格昂贵)。次之,它具备十分高的存取时间 ——1 个多肽链等同于 2 个比特犬,大概为 1 立方米纳米技术。因而,以 DNA 方式储存的数据彻底能够 放到大家的手掌心中。

这类储存数据的新方式 遭遇着众多阻碍,最先便是生成这般很多 DNA 必须消耗的成本费。现阶段,载入 1 拍字节(100 万 GB)的数据必须耗费 1 亿美元。为了更好地与录音带(一般用以储存档案资料数据)市场竞争,可能 DNA 生成的成本费必须减少约 6 个量级,这一总体目标很有可能会在 10 年或 20 年之内完成,如同以往几十年来闪存芯片储存信息的成本费大幅度降低一样。

除开成本费以外,应用 DNA 储存数据的另一个关键短板是,大家难以从全部文件中筛出要想的文件。

假定载入 DNA 的技术性早已很优秀,能够 完成在 DNA 中载入 1 艾字节或 1 泽字节(zettabyte,通称 ZB,1ZB=1000EB)数据的成本效益,会产生哪些?你能有一大堆的 DNA,也就是成千上万的文件、图象或影片和别的物品,但你需要在这其中寻找要想的某一张图片或某一部电影,这如同海底捞针。

现阶段,DNA 文件一般应用 PCR(聚合酶链反应)方式 来查找。每一个 DNA 数据文件都包括一个与特殊 PCR 引物设计融合的序列。为了更好地载入某一特殊的文件,必须将该引物设计加上到试品中,寻找并变大所要想的序列。殊不知,这类方式 的一个缺陷是,引物设计与总体目标序列之外的 DNA 序列中间很有可能存有串扰,造成 多余的文件輸出。除此之外,PCR 的查找全过程必须采用酶,最后会耗费库文件的绝大多数 DNA,这有些像在干草堆里找一根针,由于别的全部 DNA 也没有被变大,因而大部分他们都被丢掉了。

处理 DNA 文件查找难点

科学家开发标记和检索 DNA 数据文件新技术

研究工作人员将那样的图象存储在 DNA 中

麻省理工大学的研究工作组开发设计了一种新的查找技术性,期待替代 PCR 方式 。她们将每一个 DNA 文件封裝到一个细微的二氧化硅胶襄中,每一个胶襄都贴到了由多肽链 DNA 构成的“条码”,与文件內容相对性应。为了更好地证实这类方式 的成本效益,研究工作人员将 20 个不一样的图像压缩到大概长短为 3000 个多肽链的 DNA 精彩片段中,这大概等同于 100 个字节(她们的研究还表明,这种胶襄能够 容下达到 1GB 的 DNA 文件)。

研究中的每一个文件都是有相对应的条码标签,如“猫”或“飞机场”等。当研究工作人员要想获取一个特殊的图象时,她们会取下一个 DNA 样版,添加与总体目标标识相对性应的引物设计。比如,老虎狮子的图象相匹配的标识是“猫”“橘黄色”和“天然的”,而家猫的图象相匹配“猫”“橘黄色”和“家里养”。

这种引物设计用莹光或带磁颗粒物标识,有利于从样版中获取并鉴别配对精彩片段。根据这类方式 ,研究工作人员能够 将必须的文件移出来,剩余的 DNA 则详细地方回来,再次储存数据。她们的查找全过程容许布尔逻辑句子,如“美国总统和 18 新世纪”会转化成“乔冶・美国华盛顿”的結果,这很相近Google的图像检索。

在现阶段的定义认证环节,检索速率是每秒钟 1000 字节(1KB)。文件系统软件的检索速率是由每一个胶襄的数据量尺寸决策的,而现阶段限定数据量尺寸的要素便是在 DNA 上载入 100 兆字节(MB)数据需要的昂贵成本费,及其能够 并行处理应用的支持向量机的总数。假如 DNA 生成越来越充足划算,就可以用这类方式 将每一个文件储存的数据量利润最大化。

研究工作人员所应用的条码 —— 多肽链 DNA 序列 —— 源自哈佛大学医学院细胞生物学和医学教授杰夫・埃利奇开发设计的序列库,在其中包括了 10 万只序列。假如给每一个文件贴上2个那样的标识,就可以唯一地标识 100 亿(10^10)个不一样的文件;假如每一个文件上面有 4 个标识,就可以唯一地标识 10^20 个文件。

在 DNA 中载入、拷贝、载入,及其用 DNA 开展节能型的档案资料数据储存层面,大家获得了迅速发展,但这也促使从极大的数据库(10^21 字节,泽字节经营规模)中精准查找数据文件越来越极其艰难,此项新研究引人注意的地区取决于,它应用一个彻底单独的 DNA 表层解决了这个问题,拓展了 DNA 的不一样特性(混种杂交并非转录组测序),并且应用的是目前的仪器设备和化学药品。

生物学家构想这类 DNA 封裝技术性能够 用以储存“冷”数据,即储存在档案资料中但不常常浏览的数据。现阶段,研究试验室早已创立了一家名叫 Cache DNA 的新成立公司,已经开发设计 DNA 的长期性存储系统,既能够 用以长期性的 DNA 数据储存,也可以用以短期内的临床医学和别的目前的 DNA 试品储存。

尽管大家很有可能还必须一段时间才可以将 DNA 做为数据移动存储设备,但现阶段在 Covid-19 检验、人们基因组测序和别的分子生物学行业中,针对 DNA 和 RNA 试品的成本低和规模性储存的解决方法都是有很急迫的要求。

© 版权声明
好牛新坐标
版权声明:
1、IT大王遵守相关法律法规,由于本站资源全部来源于网络程序/投稿,故资源量太大无法一一准确核实资源侵权的真实性;
2、出于传递信息之目的,故IT大王可能会误刊发损害或影响您的合法权益,请您积极与我们联系处理(所有内容不代表本站观点与立场);
3、因时间、精力有限,我们无法一一核实每一条消息的真实性,但我们会在发布之前尽最大努力来核实这些信息;
4、无论出于何种目的要求本站删除内容,您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》:https://itdw.cn/ziliao/sfgs.pdf,
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明: http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理;请按照此通知格式填写发至本站的邮箱 wl6@163.com

相关文章