关于人工智能:AIScience基于飞桨的AlphaFold2带你入门蛋白质结构预测

1958年F.H.C. 克里克提出了生物学中重要的中心法则，DNA->RNA->蛋白质，中心法则阐明，DNA能够转录造成RNA，RNA再翻译成一个个氨基酸，最初组合造成蛋白质。

通过中心法则不难看出，如果把DNA比喻为进行工业生产的设计蓝图，那么蛋白质就像实现这个蓝图的工具，所以说蛋白质是所有生命流动的根底，它简直参加了所有的生物学过程，如遗传、发育、滋生等等。对蛋白质进行深刻地钻研，能让咱们从更深层次诠释生命体的形成和运作变化规律，进而全面揭示生命运行、倒退的机制，激发生物科学、药物研发、合成生物学、酶迷信等畛域的倒退。

因探索生物体内各种蛋白质的性能及其机制等是目前蛋白质钻研的次要内容，同时也是后基因组时代生命科学畛域的次要钻研热点之一。蛋白质的性能很大水平上取决于蛋白质的构造，因而如何破解蛋白质的三维构造成为了科学家钻研的重点。

AlphaFold2的诞生

近些年来，随着人工智能技术的倒退，深度学习等相干技术也被利用在蛋白质构造预测畛域。2018年的CASP 13（国内权威的蛋白质构造预测比赛，每2年举办一次）上，谷歌DeepMind团队的AlphaFold拿下了70多分，战胜泛滥钻研团队，获得人工组第一，在该畛域获得了里程碑式的停顿。在2020年的CASP 14上，谷歌DeepMind团队的AlphaFold2以惊人的92.4分登顶第一[1]，这一后果也被认为是根本解决了“困扰了生物学家50年”的问题，取得重大突破。92.4分，指的是对比赛指标蛋白的预测精度GDT_TS分数达到92.4，个别认为该分数超过90分，根本能够代替试验形式啦，这也意味着AlphaFold2预测的后果与试验失去的蛋白质构造基本一致。

2021年7月15日， DeepMind团队在国内顶级期刊《Nature》上发表论文，详细描述了AlphaFold2的设计思路，并提供了可供运行的基于JAX的模型和代码[2]。思考到JAX受众偏差业余的AI科学计算钻研人员，且飞桨社区尚没有蛋白质构造预测相干的开源我的项目，百度螺旋桨PaddleHelix生物计算团队，基于飞桨深度学习框架，复现了AlphaFold2模型，提供给宽广飞桨开发者应用，帮忙大家疾速入门蛋白质构造预测。

https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/paddlefold

AlphaFold2算法的

设计思路

AlphaFold2通过独特的神经网络和训练过程设计，第一次端到端地学习蛋白质构造。整个算法框架通过协同学习蛋白质的多序列比对（MSA）和氨基酸对（pairwise）的表征，将蛋白质序列的进化信息、蛋白质构造的物理和几何束缚信息联合到深度学习网络中。咱们将从数据预处理、Evoformer和Structure Module三个模块剖析AlphaFold2算法的设计思维。

来自：AlphaFold2论文

数据处理

预测蛋白构造时，AlphaFold2会利用氨基酸序列信息在蛋白质库中搜寻多序列比对（MSA）。MSA能够反映氨基酸序列中的激进性区域（即不容易产生渐变），这些激进性区域和蛋白质的构造非亲非故，比方可能被折叠在蛋白质内层，不容易和外界产生相互作用，进而不易受影响产生渐变。在AlphaFold2的数据预处理中，为了缩小模型运算量，会先对MSA中的序列进行聚类，取每个类别核心的序列作为main MSA特色。除了MSA，AlphaFold2的另一个重要输出是氨基酸对（pairwise）的特色。作为main MSA的补充，Alphafold2会随机采样非聚类核心的序列作为extra MSA输出一个4层的网络提取pairwise特色，而后和模版提取的pairwise特色相加后失去最终pairwise特色。main MSA特色和pairwise特色通过48层Evoformer进行表征交融。

Evoformer

Evoformer网络的设计动机是想利用Self-Attention机制学习蛋白质的三角几何束缚信息，同时让MSA表征带来的共进化信息和pairwise表征的构造束缚信息相互影响，使得模型能直接推理出空间信息和进化信息的分割。

来自：AlphaFold2论文

Structure Module

Structure Module承当着把Evoformer失去的表征解码成蛋白质中每个重原子(C,N,O,S)坐标的工作。为了简化从神经网络预测值到原子坐标的转换，AlphaFold2联合蛋白质中20类氨基酸的构造个性，将重原子分成不同二面角转角决定的组，这样就能够依据给定的起始地位，利用二面角和氨基酸已知的键长键角信息解码出原子坐标。这种构造编码方法相比间接预测坐标(x,y,z)大大降低了神经网络的预测空间，使得端到端构造学习成为可能。

赖氨酸的转角编码方式示例：蓝色立体（C,Cα,Cβ）确定后，依据预测的蓝色-紫色立体的二面角χ1和已知的C-C键长，Cγ-Cβ-N键角即可确定Cγ的空间坐标，反复相似步骤，能够失去Cδ,Cε, N等重原子坐标。

基于飞桨框架的

AlphaFold2（AF2）应用

目前曾经基于飞桨框架复现了残缺的AlphaFold2的inference局部，现已正式在螺旋桨PaddleHelix平台开源：https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/paddlefold

感兴趣的小伙伴们能够装置应用，并基于此，优化本人的蛋白构造预测模型。

1. 装置

在requirements.txt中提供了通过pip可装置的Python依赖项。另外，（基于飞桨框架的AF2还依赖于两个只能通过conda装置的工具包：openmm==7.5.1和 pdbfixer。为了失去多序列比对MSA，还须要装置kalign, HH-suite 和 jackhmmer。下载数据的脚本须要aria2c。

提供一个能够设置conda环境并装置所有依赖项的脚本setup_env。运行：

sh setup_env
conda activate paddlefold # activate the conda environment

也能够在 setup_env中更改环境名称和CUDA版本。

2. 用法

为了运行基于飞桨框架的AF2，还须要蛋白序列数据库和模型参数。基于飞桨框架的AF2应用和AlphaFold2一样的模型参数。

你能够应用脚本scripts/download_all_data.sh来下载和设置所有数据库和模型参数。

运行:

scripts/download_all_data.sh <DOWNLOAD_DIR>

将下载残缺的数据库。残缺数据库的总下载大小约为415 GB，解压后的总大小为2.2 TB。

运行：

scripts/download_all_data.sh <DOWNLOAD_DIR> reduced_dbs

将下载一个缩小版本的数据库，能够用于在reduced_ dbs的设置下运行。缩小的数据库的总下载大小约为190GB，解压缩后的总下载大小约为530GB。

3. 运行基于飞桨框架的AF2进行推理

要应用DeepMind曾经训练好的参数对一个序列或多个序列进行推理，运行例如:

fasta_file="target.fasta" # path to the target protein
model_name="model_1" # the alphafold model name
DATA_DIR="data" # path to the databases
OUTPUT_DIR="paddlefold_output" # path to save the outputs

python3 run_paddlefold.py \
  --fasta_paths=${fasta_file} \
  --data_dir=${DATA_DIR} \
  --small_bfd_database_path=${DATA_DIR}/small_bfd/bfd-first_non_consensus_sequences.fasta \
  --uniref90_database_path=${DATA_DIR}/uniref90/uniref90.fasta \
  --mgnify_database_path=${DATA_DIR}/mgnify/mgy_clusters_2018_12.fa \
  --pdb70_database_path=${DATA_DIR}/pdb70/pdb70 \
  --template_mmcif_dir=${DATA_DIR}/pdb_mmcif/mmcif_files \
  --obsolete_pdbs_path=${DATA_DIR}/pdb_mmcif/obsolete.dat \
  --max_template_date=2020-05-14 \
  --model_names=${model_name} \
  --output_dir=${OUTPUT_DIR} \
  --preset='reduced_dbs' \
  --jackhmmer_binary_path /opt/conda/envs/paddlefold/bin/jackhmmer \
  --hhblits_binary_path /opt/conda/envs/paddlefold/bin/hhblits \
  --hhsearch_binary_path /opt/conda/envs/paddlefold/bin/hhsearch \
  --kalign_binary_path /opt/conda/envs/paddlefold/bin/kalign \
  --random_seed=0

你能够应用python3 run_paddlefold.py -h来查找参数的形容。

保留与AlphaFold2雷同的输入，输入将位于output_dir的子文件夹中。它们包含计算的MSAs、模型预测的蛋白构造、OpenMM优化后的构造、模型打分排序、原始模型输入、预测元数据和模型运行计时。output_dir目录将具备以下构造:

<target_name>/
    features.pkl
    ranked_{0,1,2,3,4}.pdb
    ranking_debug.json
    relaxed_model_{1,2,3,4,5}.pdb
    result_model_{1,2,3,4,5}.pkl
    timings.json
    unrelaxed_model_{1,2,3,4,5}.pdb
    msas/
        bfd_uniclust_hits.a3m
        mgnify_hits.sto
        uniref90_hits.sto

每个输入文件的内容如下:

features.pkl\
一个 pickle 文件，其中蕴含模型用于生成构造的输出个性 NumPy 数组。
unrelaxed_model_.pdb*\
一个PDB 格局的文本文件，其中蕴含预测的构造，与模型输入的构造齐全一样。
relaxed_model_.pdb*\
一个PDB格局的文本文件，是调用OpenMM失去的优化结构，修复了模型预测构造中的抵触，并增加H原子的坐标地位。
ranked_.pdb*\
一个 PDB 格局的文本文件，是对OpenMM失去的优化结构依照模型置信度的从新排序。这里应用预测的LDDT分数 (pLDDT)作为置信度评估。
ranking_debug.json\
一个JSON格局的文本文件，蕴含用于执行模型排名的pLDDT值及其对应的模型名称。
timings.json\
一个JSON格局的文本文件，蕴含运行AlphaFold2模型的每个局部所破费的工夫。
msas/\
该目录中蕴含不同MSA搜寻工具的输入文件。
result_model_.pkl*一个pickle文件，其中蕴含一个由模型间接生成的各种 NumPy 数组的字典，除了构造模块的输入外，还包含辅助输入。\

最初，能够应用pymol[3]等工具对预测构造和试验构造对齐。值得阐明的是，因为输出特色存在采样操作，基于飞桨框架复现的AlphaFold2和JAX版本的预测构造可能会有稍微差别，有时候会和试验构造更靠近，也可能差异稍大。

近期开发计划

AlphaFold2尽管在单体蛋白上体现优异，但对复合体，预测的准确度还有待晋升。为此，DeepMind团队上线了AlphaFold-Multimer模型，一款针对复合物进行从新训练的神经网络模型，心愿能动员飞桨社区开发者们的积极性，一起开发优化基于AlphaFold-Multimer的模型，之后也开源奉献到飞桨平台，让更宽广的生信畛域研究者们应用基于飞桨框架齐全自主可控的蛋白构造预测模型。

参考文献[1] https://predictioncenter.org/casp14/zscores_final.cgi.[2]Jumper, J.; Evans, R.; Pritzel, A.; Green, T.; Figurnov, M.; Ronneberger, O.; Tunyasuvunakool, K.; Bates, R.; Zidek, A.; Potapenko, A.; Bridgland, A.; Meyer, C.; Kohl, S. A. A.; Ballard, A. J.; Cowie, A.; Romera-Paredes, B.; Nikolov, S.; Jain, R.; Adler, J.; Back, T.; Petersen, S.; Reiman, D.; Clancy, E.; Zielinski, M.; Steinegger, M.; Pacholska, M.; Berghammer, T.; Bodenstein, S.; Silver, D.; Vinyals, O.; Senior, A. W.; Kavukcuoglu, K.; Kohli, P.; Hassabis, D., Highly accurate protein structure prediction with AlphaFold. Nature 2021, 596, 583-589.[3] https://pymol.org

关于人工智能:AIScience基于飞桨的AlphaFold2带你入门蛋白质结构预测

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:AIScience基于飞桨的AlphaFold2带你入门蛋白质结构预测

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复