DeepVariant:利用深度神经网络重构高度精确的基因组

Shawnny
3个月前 阅读 37 点赞 1

在许多科学领域,特别是基因组学领域,重大突破通常都是由新技术带来的。从让人类基因组测序成为可能的 Sanger 测序到实现首批大规模全基因组实验的微阵列技术,新的仪器和工具使我们能够更深入地了解基因组,并将研究成果广泛应用于医疗、农业和生态学等领域。


基因组学中最具变革性的新技术之一是高通量测序技术 (HTS),这项技术在 21 世纪初首次实现商业化应用。HTS 让科学家和临床医生能够以较低成本快速地大规模生成测序数据。不过,HTS 仪器的输出并不是被分析个体的基因组序列 - 对于人类来说,这意味着 30 亿个碱基对(鸟嘌呤、胞嘧啶、腺嘌呤和胸腺嘧啶)组成的 23 对染色体。相反,这些仪器产生的是大约 10 亿个短序列,称为 read。每个 read 仅代表 30 亿个碱基中的 100 个,每个碱基的错误率在 0.1-10% 的范围内。将 HTS 输出处理成单一、准确且完整的基因组序列是一项主要的突出挑战。


这个问题在生物医学应用领域尤其重要,这促使瓶中基因组联盟 (GIAB) 等组织不断努力,GIAB 发布了可用于验证和基准测试的高可信度人类参考基因组,还组织了 precisionFDA 社区挑战赛,这项比赛旨在促进创新,提高基于 HTS 的基因组检测的质量和准确性。



对于基因组中的任何给定位置,在大约 10 亿个 read 中有多个 read 包含该位置的一个碱基。每个 read 与一个参考碱基对齐,然后将 read 中的每个碱基与该位置的参考碱基进行比较。当 read 包含一个与参考碱基不同的碱基时,它可能表示一个变异(真实序列的差异),也可能是错误。 今天,我们宣布 DeepVariant 的开放源代码版本,它是一种深度学习技术,可以从 HTS 测序仪数据中重构真实的基因组序列,与以前的经典方法相比,准确性显著提高。这项工作是 Google Brain 团队与 Verily Life Sciences 合作进行两年多研究的成果。DeepVariant 将变异识别任务(即基因组中的重构问题)转化为适合 Google 现有技术和专业知识的图像分类问题。



以上 4 个图像都是与参考基因组对齐的实际测序仪 read 的可视化。一个关键的问题是如何使用这些 read 来确定变异存在于两条染色体上,仅存在于一条染色体上,还是在两条染色体上都不存在。有不只一种类型的变异,其中 SNP 和插入/缺失变异最常见。


A:一对染色体上真实的 SNP;

B:在一条染色体上缺失;

C:在两条染色体上缺失;

D:由于错误引起的假变异。


使用这种方式进行可视化时,很容易看出这些变异的差别。 我们从 GIAB 参考基因组开始,因为它提供了高质量的真实值(或者当前可能的最接近近似值)。使用这些基因组的多个重复,我们以编码 HTS 仪器数据的多通道张量形式生成了数千万个训练样本,然后训练基于 TensorFlow 的图像分类模型,以便从仪器生成的实验数据中识别出真实的基因组序列。


尽管由此产生的深度学习模型 DeepVariant 没有关于基因组学或 HTS 的专业知识,但在一年时间内,它已经赢得了 precisionFDA Truth Challenge 挑战赛的最高 SNP 准确率奖,超越了最先进的方法。自那以后,我们进一步将错误率降低了 50% 以上。


DeepVariant 现在作为开放源代码软件发布,旨在鼓励协作和加速使用这项技术来解决现实世界的问题。为了进一步实现这个目标,我们与 Google Cloud Platform (GCP) 合作,在 GCP 上部署了当前可供使用的 DeepVariant 工作流程,利用可扩展的 GCP 技术(如 Pipelines API)优化配置,降低成本并缩短周期。这一发布让用户可以在当前的计算环境中顺利地探索和评估 DeepVariant 的功能,同时我们还提供了可扩展的云解决方案,以满足最大基因组数据集的需求。 DeepVariant 将率先利用 Google 的计算基础设施和机器学习专业知识来更好地理解基因组,以及为研究社区提供基于深度学习的基因组学工具。我们希望将 Google 技术应用于医疗保健和其他科学应用,并让更多人利用这些工作成果,目前的工作是这一宏伟目标的一部分。


| 1
评论 ( {{ comments.total }} )

还没有人发表评论...

{{ o.content }}
赞 {{ o.likes_count ? o.likes_count : '' }} 回复 {{ o.created_at }}