近日,昇思MindSpore与昌平实验室、北京大学生物医学前沿翻新核心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤传授课题组及鹏城实验室陈杰团队基于全场景AI框架昇思MindSpore实现AlphaFold2蛋白质构造训练。继2021年11月公布推理工具后,本次训练意味着国产AI框架具备了弱小的AI for Science底层软件能力,同时也为相干科研工作者提供新的抉择。该联结工作依靠鹏城云脑II 昇腾AI 集群进行,单步迭代性能晋升超过60%,TM-score达85分(国内权威评测数据集CASP14)。相干训练代码已在昇思MindSpore社区开源,后续也会在Openl启智社区进行开源并定期扩大与保护。
图.1 T1052-D1 预测结构图(左)CASP14 87 targets TM-score 比照(右)
蛋白质构造预测是取得蛋白质性能构造和构象的过程,近半个世纪以来,这一问题始终被誉为“21世纪的生物物理学”最重要的课题之一。在过来,因蛋白质构象数量微小,计算过程简单,通过AI来对蛋白质构造进行预测始终未能获得实质性冲破,获取蛋白质空间结构的办法依然以冷冻电镜、X-ray等试验技术为主,单个蛋白质的观测老本高达数月及数百万人民币。直至AlphaFold2的呈现,使得这一问题迎来新的曙光。AlphaFold2凭借其靠近试验精度的问题获得CASP14蛋白质空间结构预测较量的榜首,这一成就也被Nature誉为“前所未有的提高”。
2021年7月DeepMind发表对AlphaFold2的推理代码进行开源,昇思与高毅勤课题组第一工夫对其进行了复现及优化,并于同年11月开源了基于昇思MindSpore的推理工具,效率同比晋升2-3倍。因为开源范畴仅限推理,相干从业者无奈基于此进行优化,因而许多团队踊跃地投入训练过程的复现。AlphaFold2模型自身存在内存需要大,数据处理繁琐,管制编译简单等特点,对根底AI框架存在着微小挑战。
近期,昇思MindSpore联结高毅勤课题组、鹏城实验室陈杰团队全面买通AlphaFold2的训练。采纳昇腾根底软硬件平台后,在混合精度下,单步迭代工夫由20秒缩短到12秒,性能晋升超过60%。依靠昇思MindSpore内存复用能力, 训练序列长度由384晋升至512。
为了尽可能主观地评估训练后果,昇思MindSpore选取了AlphaFold2论文附录中提到的87条验证集进行验证,均匀TM-score达到85分,根本持平AlphaFold2。
昇思MindSpore对蛋白质构造预测训练推理的反对填补了国产AI软硬件的空白。在训练精度靠近AlphaFold2的根底上,昇思MindSpore将在算法、规模和软硬件反对等方向上继续改良,并打算凋谢共享训练数据集供同仁应用。昇思MindSpore也冀望与更多学术界和工业界搭档单干,进一步晋升模型精度、扩大利用场景。
代码开源门路:
https://gitee.com/mindspore/m...
昇思MindSpore:
Gitee:https://gitee.com/mindspore/m...
Github:https://github.com/mindspore-...