哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

IT资讯4年前发布 IT资讯

本篇文章给各位网友带来的资讯是：哈佛与牛津开发基因致病性预测模型，现已成功预测 3600 万个致命基因突变详情请欣赏下文

直接从基因层面预测疾病，这一直是近现代医学研究的主要方向之一。

然而，全体人类的基因变异体数量远超现有的探测技术，甚至仅仅是不同个体的蛋白质区编码也会展现出巨大的差异性。

因此，超过 98% 的基因变异给人体带来的影响依旧是未知且无法预测的。

但最近，来自哈佛医学院和牛津大学的科学家合作开发了一种 AI 模型，成功预测了 3219 个疾病基因中超过 3600 万个变体的致病性，并将超过 25 万个未知变体进行了归类。

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

这项研究现已登上 Nature。

“从进化中预测致病性”

其实，现在临床上已有用于预测基因变异影响的模型。

但这些模型往往是在经过标注的临床数据集上进行有监督学习，一旦进入现实场景，标签偏差、标签稀疏以及噪音就会造成其准确率的下降，并不能作为基因变异体分类的可靠依据。

而这次的研究团队提出了一个叫做 EVE（Evolutionary model of Variant Effect）的模型。

这是一个仅根据进化序列训练的无监督生成模型。

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

模型预测变异基因的致病性主要分为两步：

第一步，使用变型自动编码器 VAE 来学习蛋白质的氨基酸序列分布。

学习了多个领域的复杂高维分布之后，模型就捕捉到了进化过程中的自然序列约束，包括各种位置之间的复杂依赖关系。

再从得到的近似后验分布（Approximate Posterior Distribution）中取样，评估每个单一氨基酸变体相对于野生型的相对可能性。

这种相对可能性被称为“进化指数”，与临床标签进行比较后发现，区分致病性和良性标签的数值在不同的蛋白质中是一致的，这说明无监督的方法能够有效推断致病性。

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

第二步，在所有单一氨基酸变体的进化指数分布上拟合了一个双组分（two-component）的全局-局部高斯混合模型。

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

这一步的输出是在区间 [0，1] 内定义的连续致病性值，0 代表良性，1 代表致病性。

然后将 EVE 模型运用于 ClinVar 数据库中的 3219 个人类基因上，得到的结果图中的平均曲线面积（AUC）为 0.91，说明 EVE 模型对绝大多数的基因变异都能做到具有临床意义的预测：

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

优于已知模型，与实验预测效果一致

研究团队也将 EVE 模型与已知的模型进行了对比，可以看到，在预先确定已知的已标注临床数据的预测上，其效果优于同类计算模型：

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

那么这样一个 AI 计算模型与用于预测致病性的经典方法 —— 深度突变扫描实验（Deep Mutational Scan Experiment）相比效果又如何呢？

对比实验后可以看到，EVE 模型在临床预测方面的总体表现与经典方法效果基本一致：

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

而当从 ClinVar 数据库中选择一组数量规模更大，但高质量标注较小的数据时，EVE 模型的表现甚至更好：

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

哈佛 & 牛津合作出品

这篇论文有三位共同一作，其中 Jonathan Frazer 和 Mafalda Dias 都来自哈佛大学的系统生物学，他们同时也是 Marks Group 实验室中的一员。

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

而 Pascal Notin 则是来自牛津大学的计算机科学专业的博士生，主要研究领域包括贝叶斯深度学习、生成模型、因果推理和计算生物学的交叉领域。

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

论文链接：

https://www.nature.com/articles/s41586-021-04043-8

文章版权归作者所有，未经允许请勿转载。

版权声明：
1、IT大王遵守相关法律法规，由于本站资源全部来源于网络程序/投稿，故资源量太大无法一一准确核实资源侵权的真实性；
2、出于传递信息之目的，故IT大王可能会误刊发损害或影响您的合法权益，请您积极与我们联系处理(所有内容不代表本站观点与立场)；
3、因时间、精力有限，我们无法一一核实每一条消息的真实性，但我们会在发布之前尽最大努力来核实这些信息；
4、无论出于何种目的要求本站删除内容，您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》：https://itdw.cn/ziliao/sfgs.pdf，
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明： http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理；请按照此通知格式填写发至本站的邮箱 wl6@163.com

哈佛与牛津开发基因致病性预测模型,现已成功预测 3600 万

“从进化中预测致病性”

优于已知模型，与实验预测效果一致

哈佛 & 牛津合作出品

卡普空宣布《生化危机:村庄》全球销量突破 500 万

工信部启动新能源汽车换电模式应用试点工作

相关文章

害怕被机器人抢工作?教师、律师和物理学家是“最安全的职业”

AI公司格灵深瞳冲刺科创板:近三年亏损 5企业不仅需要比拼技术的持续突破,更重要的是找到适合自身的落地

智源“抄袭门”最新通报:2 处抄袭 4 处引用不规范,相关责

Stable Diffusion 背后公司估值攀升至 69