一次解析百万碱基DNA：Google DeepMind 推出可统一预测 11 种基因组过程的 AI「AlphaGenome」

AI 2026-02-02 Google DeepMind, AlphaGenome, 基因组学, AI 生物医药, Nature 54 次浏览

图片来源：由 Gemini 生成，ledge.ai 提供

Google DeepMind 研究团队发布了全新的基因组 AI 模型「AlphaGenome」。该模型可以一次性输入最长约 100 万个碱基（约 100 万字符）的 DNA 序列，并高精度预测包括基因表达、剪接在内的 11 种主要基因组过程。相关成果已于 2026 年 1 月 28 日发表在《Nature》期刊上，同时面向研究社区公开了源代码和模型权重。

在《Nature》的介绍中，AlphaGenome 被定位为“帮助理解 DNA 序列，并在分子层面预测遗传变异影响”的基础模型。

deepmind x.jpg

图片来源：Google DeepMind 在 X 上的发布

一次处理最长 100 万碱基，把 DNA 当作“长文本语境”来解析

在以往的基因组 AI 模型中，可作为输入的 DNA 序列长度通常被限制在数万到数十万碱基。AlphaGenome 大幅突破了这一上限，能够将最长约 100 万碱基（1M bp）的 DNA 片段作为单一输入整体进行建模。

更重要的是，AlphaGenome 采用统一的模型架构，却可以同时完成多种不同类型的预测任务。除了基因表达（如 RNA-seq、CAGE、PRO-cap 等）和剪接之外，它还能预测染色质可及性、组蛋白修饰、转录因子结合情况，以及三维染色质接触模式等，共计 11 类关键基因组过程，并在这些任务上都实现了较高精度。

性能达到或超过现有 SOTA，长距离调控建模尤为突出

根据《Nature》论文中的评估结果，在基因表达量预测、剪接预测等核心任务上，AlphaGenome 的表现与当前最先进（SOTA）的模型相当，甚至在部分指标上略有超越。

其优势尤其体现在对 DNA 上“长距离调控”现象的解析能力上。由于模型可以在多达 100 万碱基的范围内建立上下文，AlphaGenome 能够捕捉到传统短序列输入模型难以覆盖的远程调控信息，例如远距离增强子（enhancer）与启动子（promoter）之间的相互作用，从而更好地刻画复杂的基因调控网络。

多维度评估“非编码区”变异的功能影响

在人类基因组中，占据绝大多数比例的其实是难以直接解读功能的“非编码区域（non-coding region）”。AlphaGenome 的一个重要应用方向，就是评估这些非编码区域中单碱基变异对细胞内多种分子过程的潜在影响。

具体来说，模型可以同时预测某个变异会如何改变基因表达、剪接模式以及染色质状态等多个层面的特征，并为这些影响给出量化评分。论文中还展示了若干临床相关的已知变异案例，表明 AlphaGenome 在跨多个分子层面的预测结果，与既有实验发现具有较高一致性。

从一维序列推断三维染色质接触图谱

AlphaGenome 的另一项亮点，是能够仅基于一维 DNA 序列信息，预测类似 Hi-C 实验所观测到的“三维染色质接触模式（contact map）”。

基因表达调控与 DNA 在细胞核内的折叠方式和空间构象密切相关。通过从序列直接推断染色质在空间中的接触倾向，AlphaGenome 为理解基因组三维结构与功能之间的关系提供了新的计算工具，有望帮助研究者更系统地解析基因调控机制。

随《Nature》论文同步开放代码与模型权重（限研究用途）

在论文发表的同时，Google DeepMind 已通过 GitHub 向研究者公开了 AlphaGenome 的源代码以及训练完成的模型权重，目前使用范围限定为非商业科研用途。

这意味着全球的研究团队都可以在本地复现实验、验证方法，或结合自身数据进行再训练与扩展，将 AlphaGenome 纳入各类基因组分析与预测流程中。研究团队希望，通过论文发表与开放资源的方式，推动这一模型在基因组学与生物医学研究社区中的广泛应用与迭代。

发表评论

登录后才可评论。去登录