智东西(公众号:zhidxcom)
作者 | 江宇
编辑 | 云鹏

智东西1月29日报道,今日凌晨,2024年诺贝尔化学奖得主、谷歌DeepMind CEO Demis Hassabis带领团队研发的AI基因组模型——AlphaGenome,登上了顶级期刊Nature(自然)最新一期封面。这是继AlphaFold之后,DeepMind又一项重磅生命科学研究登上Nature。

历史性一刻!人类基因密码被谷歌AI破解,DeepMind新作登Nature

AlphaGenome旨在解决生物学中一个长期未解的难题:人类基因组中约98%的非编码区域虽然不直接产生蛋白质,却调控着基因的开启、剪接与表达,其变异常常与疾病风险密切相关,但难以用传统手段解析。

为此,DeepMind研究团队构建了一个全新AI架构,可输入百万碱基长度的DNA序列,并以单碱基分辨率,预测RNA表达量、剪接结构、染色质可及性、转录因子结合位点乃至三维结构等近6000项调控特征

该项目论文题为《Advancing regulatory variant effect prediction with AlphaGenome(借助AlphaGenome技术提升调控变异的效应预测能力)》,也是次有AI模型实现了对人类基因调控“从序列到功能”的统一建模

历史性一刻!人类基因密码被谷歌AI破解,DeepMind新作登Nature

过去40亿年积淀的生命遗传密码,如今正被AI工具以“统一建模”的方式重新解码。

DeepMind在2025年6月曾通过博客预告此项目,彼时AlphaGenome已向科研界开放预览API,重点在于构建一个更具解释力和泛化能力的DNA序列模型,作为一种“通用型变异解读引擎”投入研究使用。

此次正式发表在Nature的版本中,DeepMind团队不仅完成了全模态性能评估,更在多个疾病变异机制中展示了AlphaGenome的推理能力,包括如何准确预测TAL1致癌突变的激活机制,全面验证了AlphaGenome在剪接、表达、染色质状态等关键通路上的预测能力。

研究者认为,这一模型将为罕见病致因定位、新型治疗靶点发掘、以及合成生物学设计等方向提供强有力的通用工具。

论文链接:https://www.nature.com/articles/s41586-025-10014-0

一、百万级DNA输入和碱基级预测,突破“长序列”与“高分辨率”难题

AlphaGenome的核心创新之一,是首次将输入DNA序列长度提升至100万碱基(1Mb),同时在输出层保持了碱基级别的预测精度。

这打破了以往模型在“长序列”与“高分辨率”之间的权衡。例如,以往的SpliceAI等模型虽然具备高分辨率,但受限于只能处理1万碱基以内的短序列,难以捕捉远距离调控。

而Enformer等模型虽能处理20万至50万碱基的长序列,却需牺牲精度,用128bp等为单位分箱预测,无法精准描摹剪接位点、增强子与启动子的细粒度结构。

在训练流程上,AlphaGenome采取了“预训练+蒸馏”的两阶段架构,通过多个TPU并行处理、序列平行化、U-Net结构和Transformer结合,既保留了细节,又扩大了上下文范围。

历史性一刻!人类基因密码被谷歌AI破解,DeepMind新作登Nature

▲AlphaGenome模型架构、训练方案和综合评估性能

跨24项基因组轨迹任务中,AlphaGenome在22项上超越当前最佳模型;在26项变异效应预测中,有25项达到或超过当前SOTA模型的表现。

历史性一刻!人类基因密码被谷歌AI破解,DeepMind新作登Nature

▲研究团队基因组轨道上的预测性能进行了逐项评估

二、统一预测机制,变异影响“一键总览”

与传统模型需要分别针对不同任务(如剪接、表达、染色质结构)训练不同网络不同,AlphaGenome是第一个可在单次推理中同时输出11类模态(modality)预测结果的统一模型

它支持从一段DNA序列中,直接推断出RNA表达水平、剪接位点及使用情况、染色质可达性、转录因子结合位点、组蛋白修饰模式、三维接触图谱等调控特征,且适用于人类与小鼠细胞在数千种不同细胞或组织类型中的表现。

这种“多模态联合”结构为突变解析带来了全新视角。

研究人员可以对任意一个DNA变异,通过模型快速预测它在多个调控层级的影响,并比较参考与突变版本的差异,进而推断该变异是否会导致表达上调、剪接改变,或染色质状态变化。

论文中特别展示了模型如何成功预测致癌突变激活TAL1基因的路径机制,验证了其在非编码区变异解释中的实际价值。

历史性一刻!人类基因密码被谷歌AI破解,DeepMind新作登Nature

▲AlphaGenome对T-ALL中TAL1致癌突变的多模态预测示例

三、剪接预测能力升级,有望推动罕见病研究

RNA剪接异常是诸多罕见病(如脊髓性肌萎缩症、囊性纤维化)的致病根源,但传统AI模型往往只能识别剪接位点本身,而难以全面解析剪接使用率及剪接连接模式(splice junction)。

AlphaGenome首次在模型中引入了剪接连接点的直接预测能力(splice junction modeling),结合位点预测与使用率分析,构建出更完整的剪接调控图谱。

在GTEx等数据集中,该模型成功预测多个已知致病突变对剪接的影响,在ClinVar和MPRA等数据集上亦得当前最优的评估成绩,在7个剪接效应任务中,AlphaGenome在6个上表现最佳。

历史性一刻!人类基因密码被谷歌AI破解,DeepMind新作登Nature

▲AlphaGenome在剪接变异效应预测任务中达到SOTA水平

这项能力对于理解非编码变异如何引发病理剪接、用于新型诊断方法开发具有重要推动作用。

结语:继AlphaFold之后,DeepMind用AI再解“生命之书”

AlphaGenome的出现不仅为DNA序列建模设立了一个全新技术基线,也为生命科学研究者打开了一扇观察遗传调控全貌的新窗口。

其覆盖广泛模态、支持长序列输入、具备单碱基预测精度的能力,使其在解码基因调控代码、理解变异影响路径、指导合成DNA设计等领域具备广泛前景,下一代疾病机制研究、罕见病诊断及合成生物学提供了通用工具基础。

随着模型向学术界开放,AlphaGenome或将成为“基因版AlphaFold”的有力继任者。