生物史最全“证件照”!DeepMind开放35万种蛋白质结构,超人类知识2倍

智东西(公众号:zhidxcom)
编译 | 韦世玮 徐珊
编辑 | 漠影

今天将成为人类生物学历史上具有重大意义的一天!

智东西7月23日消息,今日,人工智能研究实验室DeepMind与欧洲生物信息学研究所EMBL-EBI(European Bioinformatics Institute)合作,推出了AlphaFold蛋白质结构数据库,该数据库提供了迄今为止人类蛋白质组最完整、最准确的图像,是人类积累的高精度人类蛋白质结构知识的两倍多。

除了人类蛋白质组(人类基因组表达的所有蛋白质约2万种)之外,他们还将提供其他20种具有生物学意义的生物蛋白质组的开放访问,总计超过35万种蛋白质结构,包括从果蝇到小鼠等动物,以及从大肠杆菌到酵母等细菌。

发布第一批数据后,DeepMind计划继续增加蛋白质库,几乎覆盖所有科学已知的已测序蛋白质,共超过1亿种结构,该库将由EMBL维护。在EMBL总干事Edith Heard看来:“这些数据集将改变我们对生命运作方式的理解。”

“我认为这是DeepMind整个10年多生命周期的顶峰。”DeepMind联合创始人兼CEO Demis Hassabis谈道,从成立之初,DeepMind就打算将AI方面取得的突破在围棋、雅达利等游戏上进行测试,并将其应用于现实世界的问题,以加速科学突破并造福人类。

Demis Hassabis称,这些数据对科学和商业研究人员来说都将永久免费开放。“任何人都可以将它用于任何事情,他们只需要归功于参与引用的人。”他说。

生物史最全“证件照”!DeepMind开放35万种蛋白质结构,超人类知识2倍

▲长期以来,人源中介体复合物(Mediator Complex)一直是结构生物学家最具挑战性的多蛋白系统之一。(图源:Nature)

一、AlphaFold预测蛋白质结构,缓解多领域生物研究瓶颈

21世纪是生物的世纪,更是计算机的世纪。

早在去年12月,DeepMind就推出了AlphaFold 2系统,可通过AI软件对蛋白质结构进行准确预测,该解决方案被认为能解决困扰科学家们50年的蛋白质折叠(protein folding)问题。

直到上周,DeepMind还发表了相关科学论文和源代码,以解释如何创建这个高度创新的系统,允许其他人通过AlphaFold来完成相关研究工作。

AlphaFold系统的诞生,证明了AI可以在几分钟内准确预测蛋白质的3D结构,精确到原子精度。而AlphaFold蛋白质结构数据库的开放,也将促进世界各地的科学家们加速对人类蛋白质的研究。

那么,何为蛋白质折叠问题?

简单来说,许多生物过程都是围绕蛋白质来进行的,而蛋白质是由氨基酸序列组成的大型复杂分子,其真正的作用取决于自身独特的3D结构,也就是蛋白质中氨基酸序列的折叠方式。

了解蛋白质结构能增进人类对生命组成部分的理解,从而推动科学家们在各个领域的研究。

例如,英国朴茨茅斯大学(CEI)正在利用AlphaFold来设计一种新型酶,以快速分解污染严重的一次性塑料等废物;美国科罗拉多大学博尔德分校通过AlphaFold预测,来研究抗生素耐药性的前景;美国加利福尼亚大学旧金山分校则使用AlphaFold来研究新型冠状病毒的工作原理……

生物史最全“证件照”!DeepMind开放35万种蛋白质结构,超人类知识2倍

▲AlphaFold预测的蛋白质结构的两个例子(蓝色)与实验结果(绿色)的比较(图源:DeepMind)

这些都是科学家们利用科技带来的大量生物数据信息,一步步转换为未来人类的进步。

但科学家们指出,这些信息转换到现实世界并产生结果的过程,仍需要大量时间。“我认为这不会在一年内改变患者的治疗方式,但它肯定会对科学界产生巨大影响。”科罗拉多大学生物化学系教授Marcelo C. Sousa说。

需要注意的是,AlphaFold软件生成的是蛋白质结构的预测,而不是实验确定的模型,这意味着在某些情况下,科学家还需要进一步的工作来验证结构。

DeepMind对此表示,他们花了许多时间在AlphaFold软件中构建准确度指标,让它能对每个预测的可信度进行排名。

不过,蛋白质结构的预测仍对科学研究带来了巨大帮助。以往科学家们确定蛋白质结构的实验过程既耗时又昂贵,还要依赖大量反复试验,而蛋白质结构预测即便置信度低,也可以为科学家指明正确的研究方向,为他们节省多年的工作。

英国格拉斯哥大学(University of Glasgow)结构生物学教授Helen Walden认为,DeepMind的数据将“显著缓解研究瓶颈”,但“进行生物化学和生物学评估的费力、耗费资源的工作”将继续存在,例如药物功能研究。

Sousa也提到,他曾在工作中使用过AlphaFold的数据,“科学家们能快速地感受到它带来的影响。”他说,在他们与DeepMind的合作中,他们有一个包含蛋白质样本的数据集,但10年来都还没开发出一个合适的模型,直到DeepMind同意为他们提供一个结构,在15分钟内就解决了这个问题。

生物史最全“证件照”!DeepMind开放35万种蛋白质结构,超人类知识2倍

二、蛋白质折叠难题背后,AlphaFold分析速度已提升16倍

AlphaFold只需15分钟就能解决的问题,为何困扰了这些科学家10年?蛋白质折叠问题究竟难在哪?

如我们前面所说,蛋白质由氨基酸链构成,人体中共含有20种不同的氨基酸,任何一个蛋白质都可以由数百个氨基酸组成,且每个氨基酸都有不同的折叠和扭曲结构。

这些都意味着,哪怕是一个常见的蛋白质分子,它的最终结构都有许多种可能构型。一个估计是,典型的蛋白质可以以10^300种方式折叠。不用数了,就是“1”后面跟着300个“0”的可能性。

不过由于蛋白质的样本太小,科学家们难以用显微镜检查,不得不使用成本昂贵且复杂的方法来间接确定蛋白质结构,比如核磁共振和X射线晶体学(X-ray crystallography)。

但实际上,简单地通过氨基酸序列来确定蛋白质结构的构想,在理论上一直是难以实现的。因此,分析蛋白质结构也成为了人们攻克生物学领域的一大难关。

直到近年来,人们发现可以利用AI的方法来分析蛋白质结构。借助这些技术,AI系统可以通过在已知蛋白质结构的数据集上进行训练,并最终利用这些信息来预测蛋白质结构。

多年来,很多团队都参与到这项AI研究中,其中DeepMind基于深厚的AI人才库和大量计算资源基础,一直走在该领域的前沿。

去年,DeepMind在一项名为CASP的国际蛋白质折叠比赛中脱颖而出,其AlphaFold软件对蛋白质结构的预测结果非常准确。对此,CASP联合创始人之一的计算生物学家John Moult说:“在某种意义上,蛋白质折叠的难题已经有了解决方案。”

生物史最全“证件照”!DeepMind开放35万种蛋白质结构,超人类知识2倍

▲DeepMind的AlphaFold软件显着提高了计算蛋白质折叠的准确性(图源:DeepMind)

自去年CASP竞赛以来,AlphaFold系统也实现了升级,现在它分析蛋白质结构的速度已提高了16倍。“我们可以在几分钟内折叠一个普通蛋白质,多数情况下只要几秒钟。”Hassabis谈道。

英国雷丁大学教授Liam McGuffin曾开发出一些蛋白质折叠软件,他肯定了AlphaFold的技术,但也指出,AlphaFold的成功主要归功于科学家们数十年的先前研究和公开数据。

“DeepMind拥有大量研究资源来保持数据库的更新,他们比任何一个学术团体都更有能力做到这一点。”McGuffin认为,尽管科学家们最终也会走到这一步,但速度会更慢,因为他们没有足够的资源。

三、持续推进AI发展,年底数据库结构将增至1.3亿个

尽管DeepMind每年都处于大量亏损的状态,但这次开放蛋白质结构数据库是免费的。

实际上,DeepMind归属于Google母公司Alphabet,该公司一直在商业医疗保健领域投入大量资源。还有许多报道称,DeepMind与Alphabet在研究自主性和商业可行性等问题上存在分歧。

不过Hassabis谈道,公司一直在计划免费提供这些信息,这样做是对DeepMind创始精神的体现。“我们在被收购时与Alphabet达成的协议是,DeepMind主要的研究目的是推进AGI(通用人工智能)和AI技术的发展,然后利用它们来攻克科学领域的难题。”他说。

他认为,Alphabet有许多部门都专注于盈利,但DeepMind对研究的关注能够“为科学界带来各种各样的好处,包括声望和信誉,从而通过多种方法实现价值。”

Hassabis还强调,虽然DeepMind的主要研究目标是一些基础领域,但其技术已广泛应用于谷歌的其他业务中。“几乎你使用的任何谷歌产品,其中一部分技术都有我们的参与。”他透露。

与此同时,Hassabis预测AlphaFold将成为未来的标志,因为它展示了AI在处理人类生物学等复杂问题上的巨大潜力。

“我认为我们正处于一个非常激动人心的时刻。”Hassabis提到:“在接下来的十年中,我们和AI领域的其他人都希望能取得突破性进展,真正加速解决我们在地球上面临的真正重大问题。”

对于接下来的计划,EMBL-EBI的结构生物信息学Sameer Velankar谈道,到今年年底,本周提交的大约36.5万个蛋白质结构预测将增加至1.3亿个,几乎是所有已知蛋白质的一半。

此外,随着DeepMind的继续投资,以及未来对AlphaFold的改进,系统和数据库也将定期更新。

结语:站在巨人肩膀上看未来,以AI实现多领域多点开花

对DeepMind而言,从AlphaFold系统的更新迭代到蛋白质结构数据库的开放,研究团队在五年里不仅必须要创造性地克服许多技术难题,还要面临许多复杂算法的创新挑战,这些都是推动人工智能和生物学领域发展的必经之路。

不能忽视的是,DeepMind乃至未来研究团队的创新,都是建立在先前几代科学家的研究发现上。从蛋白质成像和晶体学的早起先驱,到数以千计的预测专家和结构生物学家,他们一路披荆斩棘,花了多年时间对蛋白质展开深入研究。

我们也期待,站在巨人的肩膀上的他们,未来能开辟更多创新的科学研究途径,推动更多领域的发展和进步。

来源:DeepMind、TheVerge、Nature