人工智能预测蛋白质进展
本文是笔者《软物质与硬科学》课程的小报告(2022.6)。
1 背景介绍
蛋白质是大部分生命过程的核心。由于结构决定功能,对于蛋白质结构的理解几十年来一直是生物学上的重要挑战。虽然实验方法(如冷冻电镜)取得了很多进展,但仍是耗时费力、成本高昂的。而且已知的蛋白质数目以十亿计,是实验方法难以穷尽的。而另一方面,人们又迫切地希望知道氨基酸序列和蛋白质结构的对应关系,以此理解生命过程与疾病、设计小分子药物、设计蛋白质等。因此,数十年来的理论工作一直希望从给定的氨基酸序列通过计算预测出蛋白质的空间结构。
这一蛋白质结构预测问题具有重大意义。CASP 是两年一度的蛋白质结构预测比赛,用来衡量这一领域的进展。在其20多年的历程中,蛋白质预测的准确度进展比较缓慢。而在 2018 年的 CASP13 中,来自 DeepMind 的人工智能 AlphaFold 取得了突破性的成果,使得这一领域得到了空前的关注。
2 AlphaFold简介
在 CSAP 比赛中,需预测的蛋白质按照有无类似序列的已知结构(是否适合基于模板预测)划分为不同类别的区段。AlphaFold 在 Free Modelling(FM, 即没有同源结构的情况)区段类别中,得到了远超其他系统的预测准确度——得到 52.8 的总分,而第二名是 36.6。在其他类别也有较高的得分。它的准确性主要来自于距离预测的准确性。
2.1 AlphaFold 预测流程简介
近年来,共进化信息的使用(得益于 PDB 蛋白质数据库的发展),提高了蛋白质结构预测的准确性。这一信息也是 AlphaFold 的关键。通过在大型数据集中搜索和目前氨基酸序列相似的序列、并进行对齐,得到MSA(多序列比对)信息。MSA信息可以用来推断残基的接触情况,已有包括神经网络在内的方法应用于这项工作。接触预测加入到之后的结构预测中,引导出有更多满足“预测中的接触”的结构。
AlphaFold 的核心在于一个卷积神经网络(CNN),在 PDB 蛋白质结构数据库上训练。对它输入序列信息 \(S\) 和对应的 MSA 信息 \(MSA(S)\) ,输出残基对的距离预测,即每个 \(ij\) 配对之间的距离的(离散)概率分布 \(P(d_{ij}|S,MSA(S))\) 。由此得到一个距离矩阵(或接触矩阵),将原始输入转化为了二维表示。这一结果和实际情况比较接近。
预测出距离矩阵,跟据空间几何关系也得到了扭转角分布的预测。接下来构建用于结构预测的“势能面”。它包含等权重的三项:距离的概率分布导出的 \(V_\text{distance}\) 、扭转角的概率分布导出的 \(V_{\mathrm{torsion}}\) 、和通过 Rosetta 软件计算的 \(V_\text{score2\_smooth}\) ——包含一个范德华项。蛋白质立体结构是用残基骨架的扭转角\((\phi,\psi)\)进行参数化的(距离通过一个映射得到),总势能写为 \(V_\text{total}(\phi,\psi)\) 。
最后,通过梯度下降法找到势能极小点,得到最优的 \(\phi\) 、\(\psi\) 取值,以此输出结构预测。
2.2 对于 AlphaFold 的评价
值得注意的是,AlphaFold 并非首先应用深度学习预测蛋白质结构的。如前所述,在对MSA处理得到接触矩阵的步骤中,深度学习方法已经得到很多应用。而在CASP13中排名靠前的小组基本都用到了神经网络。
从共进化信息先预测接触矩阵,后间接预测蛋白质结构,这是一种传统方法,因为接触矩阵作为已知的约束使得预测过程相对简化。AlphaFold 还利用了 Rosseta 这一成熟的蛋白质建模软件来帮助预测。从这一点考虑,AlphaFold 没有在方法上做出重大的革新,而在方法的整合与实现上取得了进展。
但 AlphaFold 的成功是不容小觑的,在两年后的 CASP14 中,很多小组因为学习了 AlphaFold 而显著提高了准确度,DeepMind 也推出了更强大的 AlphaFold2。
3 AlphaFold2 与 RoseTTA-fold
在 2021 年 Science 公布的年度科学突破中,AlphaFold2 与 RoseTTA-fold 这两种基于人工智能预测蛋白质结构的系统位列榜首。这两个程序都已开源,为科学界提供了有力工具。
3.1 AlphaFold2 的突破性进展
2020 年的 CASP14 中,DeepMind 的 AlphaFold2 系统得到了接近 90 的平均得分,接近实验测量的精度(90分)。预测的平均误差约 \(1 \text{Å}\) ,即达到了原子精度内。研究团队声称解决了“蛋白质折叠问题”中的结构预测问题。
研究团队在传统方法的改进中遇到了瓶颈,选择改变策略。AlphaFold2 不再使用预测接触矩阵的方法,而是改为“端对端”预测——输入氨基酸序列和同源比对序列,输出目标蛋白质的空间结构,是一个更复杂、更强大的系统。它的网络分为两个部分: Evoformer 模块和结构模块。
称为 Evoformer 的模块的工作原则是将蛋白质结构预测视为三维空间中的图推理问题,其中图的边由相邻残基信息定义。输入为配对特征信息和 MSA 信息。经过48个模块的更新,输出处理后的配对信息和 MSA 信息。在其中广泛引入了注意力(Attention)机制,以及建立了“三角乘法更新”机制(受距离的三角不等式的启发)等。
接下来结构模块利用 MSA 信息和配对信息预测结构。将蛋白质结构用相对位置表示,记录残基相对于周边环境的欧几里得变换。平移向量和旋转矩阵用于主干的参数化,以更新主干结构;在残基内部,扭转角作为参数,以确定具体的原子坐标。此模块中建立了称为“不变点注意力”(Invariant point attention; IPA)的机制。
Attention 机制是从人类视觉注意力机制中获得的灵感,与 CNN 相比更善于考虑全局信息。AlphaFold2 包含了很多方法上的创新,为这个领域带来了突破性进展。在 2021 年 7 月发布的开源版本中,又将运算速度提高至 16 倍,成为更有力的工具。
3.2 RoseTTA-Fold
RoseTTA-Fold 是由华盛顿大学的研究者开发的蛋白质预测系统,同在 2021 年 7 月开源发布。受到 AlphaFold2 架构的启发,建立了一个“三轨”网络:同时考虑氨基酸一维序列的模式、氨基酸之间如何相互作用(二维距离图)和蛋白质可能的三维结构,三种水平的信息被连续转换和整合。这个网络的结构预测精度接近 CASP14 中 AlphaFold2 的表现,而且可以高效预测蛋白复合物的结构。而且运行快速、对计算资源要求较低,更适合一般研究者使用,“在一台游戏电脑上可以在短短十分钟内计算出一个蛋白质结构”。
4 工作意义与展望
4.1 蛋白质结构预测与生物科学
2021 年,DeepMind 报道了利用 AlphaFold2 显著扩大了蛋白质组的结构覆盖范围,其规模几乎涵盖了整个人类蛋白质组(98.5%的人类蛋白质)。这一预测数据集免费提供给社区,研究者预计常规的大规模和高精确度的结构预测将成为一个重要的工具,使新生命的问题能够从结构角度得到解决。
AlphaFold 预测帮助确定了 Lupas 的实验室多年来一直试图破解的一种细菌蛋白质的结构,此前所有方法都没能成功。Lupas 称它在半小时中解决了。2020 年初,DeepMind 发布了对少数 SARS-CoV-2 蛋白质结构的预测,而这些蛋白质尚未通过实验确定。至今 AlphaFold 帮助了许多生物科学课题,它可能意味着易于得到的实验数据将足够预测出准确的蛋白质结构。随着大量基因组数据将可靠地转化为结构信息,可预测很多新的领域,如蛋白质进化研究,将蓬勃发展。Lupas 评价称,这将使新一代的分子生物学家能够提出更高级的问题。它为科学提供了一种工具,使科学家从重复工作中解放。
站在人工智能的角度,AlphaFold 的成功也代表着它对于科学能产生的影响。如今更多的公司,包括微软、腾讯的AI部门也参与了 CASP,人工智能对于科学研究的推动是值得期待的。
4.2 “蛋白质折叠问题”
虽然 AlphaFold 基本解决了“蛋白质折叠问题”中的结构预测部分,但它还有提升准确度、可信度的空间。另外因为蛋白质有柔性,它在溶液环境中构象也会发生改变。这时的构象未必是所预测出的晶体中的结构能完全决定的。
而“蛋白质折叠”——21 世纪生物物理的重大课题,还远未解决。氨基酸序列与蛋白质结构的一一对应关系并不包含折叠过程的信息。而这其中的动力学问题,不论是对于生命过程的研究、还是药物开发,往往是很受关注的。也应注意到取得了成就的是基于“信息学”的方法,而非更加“物理”的分子动力学模拟,后者目前即便是处理中等大小的蛋白质都颇有挑战。综上,这不但说明了 AI 不能取代研究者(而是成为优秀的工具),也表明了我们对这一生命的基本过程的研究还有很长的录要走。
References
Minkyung Baek et al. “Accurate prediction of protein structures and interactions using a three-track neural network”. In: SCIENCE 373.6557 (2021), pp. 871+. DOI: 10.1126/science.abj8754.
Ewen Callaway. “‘IT WILL CHANGE EVERYTHING’: DEEPMIND’S AI MAKES GIGANTIC LEAP IN SOLVING PROTEIN STRUCTURES”. In: NATURE 588.7837 (2020), pp. 203–204. DOI: 10.1038/d41586-020-03348-4.
John Jumper et al. “Highly accurate protein structure prediction with AlphaFold”. In: NATURE 596.7873 (2021), pp. 583+. DOI: 10.1038/s41586-021-038192.
Andrew W. Senior et al. “Improved protein structure prediction using potentials from deep learning”. In: NATURE 577.7792 (2020), pp. 706+. DOI: 10.1038/s41586-019-1923-7.
H. Holden Thorp. “Proteins, proteins everywhere”. In: SCIENCE 374.6574, SI (2021), p. 1415. ISSN: 0036-8075. DOI:10.1126/science.abn5795.
Kathryn Tunyasuvunakool et al. “Highly accurate protein structure prediction for the human proteome”. In: NATURE 596.7873 (2021), pp. 590+. ISSN: 0028-0836. DOI: 10.1038/s41586-021-03828-1.