关于代码规范:昇思MindSpore再突破蛋白质结构预测训练推理全流程开源助力生物医药发展

3次阅读

共计 1330 个字符,预计需要花费 4 分钟才能阅读完成。

近日, 昇思 MindSpore 与昌平实验室、北京大学生物医学前沿翻新核心 (BIOPIC) 和化学与分子工程学院、深圳湾实验室高毅勤传授课题组及鹏城实验室陈杰团队基于全场景 AI 框架昇思 MindSpore 实现 AlphaFold2 蛋白质构造训练。继 2021 年 11 月公布推理工具后, 本次训练意味着国产 AI 框架具备了弱小的 AI for Science 底层软件能力, 同时也为相干科研工作者提供新的抉择。该联结工作依靠鹏城云脑 II 昇腾 AI 集群进行, 单步迭代性能晋升超过 60%,TM-score 达 85 分 (国内权威评测数据集 CASP14)。相干训练代码已在昇思 MindSpore 社区开源, 后续也会在 Openl 启智社区进行开源并定期扩大与保护。

图.1 T1052-D1 预测结构图 (左)CASP14 87 targets TM-score 比照(右)
蛋白质构造预测是取得蛋白质性能构造和构象的过程, 近半个世纪以来, 这一问题始终被誉为“21 世纪的生物物理学”最重要的课题之一。在过来, 因蛋白质构象数量微小, 计算过程简单, 通过 AI 来对蛋白质构造进行预测始终未能获得实质性冲破, 获取蛋白质空间结构的办法依然以冷冻电镜、X-ray 等试验技术为主, 单个蛋白质的观测老本高达数月及数百万人民币。直至 AlphaFold2 的呈现, 使得这一问题迎来新的曙光。AlphaFold2 凭借其靠近试验精度的问题获得 CASP14 蛋白质空间结构预测较量的榜首, 这一成就也被 Nature 誉为“前所未有的提高”。
2021 年 7 月 DeepMind 发表对 AlphaFold2 的推理代码进行开源, 昇思与高毅勤课题组第一工夫对其进行了复现及优化, 并于同年 11 月开源了基于昇思 MindSpore 的推理工具, 效率同比晋升 2 - 3 倍。因为开源范畴仅限推理, 相干从业者无奈基于此进行优化, 因而许多团队踊跃地投入训练过程的复现。AlphaFold2 模型自身存在内存需要大, 数据处理繁琐, 管制编译简单等特点, 对根底 AI 框架存在着微小挑战。
近期, 昇思 MindSpore 联结高毅勤课题组、鹏城实验室陈杰团队全面买通 AlphaFold2 的训练。采纳昇腾根底软硬件平台后, 在混合精度下, 单步迭代工夫由 20 秒缩短到 12 秒, 性能晋升超过 60%。依靠昇思 MindSpore 内存复用能力, 训练序列长度由 384 晋升至 512。
为了尽可能主观地评估训练后果, 昇思 MindSpore 选取了 AlphaFold2 论文附录中提到的 87 条验证集进行验证, 均匀 TM-score 达到 85 分, 根本持平 AlphaFold2。
昇思 MindSpore 对蛋白质构造预测训练推理的反对填补了国产 AI 软硬件的空白。在训练精度靠近 AlphaFold2 的根底上, 昇思 MindSpore 将在算法、规模和软硬件反对等方向上继续改良, 并打算凋谢共享训练数据集供同仁应用。昇思 MindSpore 也冀望与更多学术界和工业界搭档单干, 进一步晋升模型精度、扩大利用场景。
代码开源门路:
https://gitee.com/mindspore/m…
昇思 MindSpore:
Gitee:https://gitee.com/mindspore/m…
Github:https://github.com/mindspore-…

正文完
 0