关于人工智能:深势科技联手阿里云AI蛋白质预测再下一城

35次阅读

共计 1926 个字符,预计需要花费 5 分钟才能阅读完成。

近日,深势科技与阿里云机器学习 PAI 团队联手,通过全新的蛋白质构造预测推理减速计划 FoldAcc,联合深势 Uni-Fold 最新模型代码和参数,将单次预测能反对的最大氨基酸序列长度晋升至 6.6k,笼罩 99.992% 已知的蛋白序列 ,同时推理速度显著晋升,达到目前已知的最佳推理优化成果,将为 AI 预测蛋白质构造落地利用提供重要助力。
以新冠病毒钻研重点之一——具备三聚体构造的刺突蛋白为例,其氨基酸序列典型总长度靠近 4k,原版 AlphaFold 会因为超出显存限度(OOM)而无奈进行预测计算,应用 Uni-Fold + FoldAcc 则能在 10 分钟左右实现 AI 推理计算。

自 2020 年 DeepMind 推出基于深度学习模型的 AlphaFold2 以来,AI 技术辅助蛋白质构造准确预测的相干钻研备受关注,产学研界不断涌现翻新成绩。然而,在推动 AI 蛋白质构造预测规模化、产业化落地过程中,基础设施及工具欠缺性、AI 模型开发与部署效率等问题,依然是横亘在研究者背后的难题。

2022 年 8 月,深势科技降级并开源 Uni-Fold 我的项目,胜利复现了 AlphaFold2、AlphaFold-Multimer 模型的全尺寸从头训练,并通过多项效率优化,并将 AlphaFold 训练速度晋升 220%,超过 OpenFold、FastFold 等计划,惠及更多研究者。

其中,针对困扰业界已久的 Evoformer 神经网络构造推理性能瓶颈问题,深势科技与阿里云 PAI 团队,基于在 AI 模型系统优化畛域的长期积攒,交融多卡并行、混合精度、编译优化等多项推理优化技术,使 Uni-Fold 训练的模型能进行多卡推理减速,并反对计算更长的氨基酸序列。

典型减速成果的测试后果如下(基于 A100-80G GPU,并启用 bf16)

Uni-Fold 降级开源,反对复合物训练

作为生命科学畛域重要的根底问题,蛋白质构造钻研关系到癌症预警、靶向药物钻研、苍老等临床医学和生命科学课题。传统的蛋白质构造钻研伎俩,如:X 射线晶体学、冷冻电镜等,须要耗费大量工夫和资源。如何疾速高效并且可能规模化地预测蛋白质构造,始终是研究者们探寻求解的重要问题。

2021 年 12 月,深势科技推出 Uni-Fold v1.0.0,国内首次复现了 AlphaFold2 官网代码的全尺寸从头训练,并开源了训练与推理代码;2022 年 8 月,Uni-Fold 降级并开源了最新代码与模型参数,残缺反对蛋白质单体、复合物构造预测模型的推理与训练。

此次开源的 Uni-Fold 基于 PyTorch 复现并改良的 AlphaFold (-Multimer) 模型,反对从头训练和推理部署,并且在 Protein Data Bank(PDB)最新颁布的、模板类似度小于 40% 的单体与复合物测试集上,都获得了与同类开源我的项目统一或更优的准确率。

此外 Uni-Fold 也进行了多项效率优化,将训练工夫由 11 天缩短至约 4 天,显著优于其余同类开源我的项目。

机器学习平台 PAI 提供全链路 AI 工程撑持

阿里云机器学习平台 PAI 为 Uni-Fold 我的项目提供了欠缺的 AI 工程能力。PAI 是国内惟一间断入选 Gartner 数据迷信与机器学习平台报告的机器学习 / 深度学习平台,面向 AI 开发及利用全链路提供全面的工程化服务,并具备丰盛的场景化落地实际。

针对模型推理优化场景,PAI 自研的通用推理加速器 PAI-Blade 能在不同业务场景下,通过模型零碎联结优化,使模型达到最优推理性能,兼容支流机器学习框架,适配 GPU、CPU、端侧设施等多类型减速设施。

其中,PAI-Blade 外围组件 BladeDISC 具备业界当先的动静尺寸模型优化、大颗粒度算子交融等编译优化技术,在阿里巴巴团体内外客户的理论生产场景广泛应用,助力实现高性价比的 AI 利用部署。2022 年 2 月,BladeDISC 我的项目正式开源。

将来,为前沿科研提供更好用的 AI 基础设施

以 AI 蛋白质构造预测为典型代表,AI for Science 的科学研究新范式正获得越来越多冲破,人工智能与生命科学、物理、化学等畛域的技术交错,将为科学研究和产业提高带来极大推动,也对 AI 根底技术与平台利用提出了新挑战。

深势科技是 AI for Science 科学研究范式的先行者,阿里云机器学习平台 PAI 是国内利用最宽泛的机器学习平台之一,咱们将继续为生物医药、能源、资料等畛域的钻研与产业利用提供更好用的 AI 基础设施,独特推动 AI for Science 畛域的技术生态建设。

附录

  • 深势科技开源我的项目 Uni-Fold:https://github.com/dptech-cor…
  • 阿里云开源 AI 编译器 BladeDISC:https://github.com/alibaba/Bl…
正文完
 0