乐趣区

关于生物信息学:UniMol基于三维结构的分子表征预训练模型及其案例

预训练模型正在席卷多个畛域。从大规模无标注数据中提取表征信息,再在小范畴标注的上游工作上进行监督学习,正在成为很多畛域的事实解决方案。药物与资料设计畛域的预训练模型如何构建与利用?让咱们从 Uni-Mol@Notebooks 独特登程。

定量构效关系(QSAR)模型

定量构效关系 (Quantitative Structure-Activity Relationship,QSAR) 是一种钻研化合物的化学构造与生物活性之间定量关系的办法,是计算机辅助药物设计 (Computer-Aided Drug Design, CADD) 中最为重要的工具之一。QSAR 旨在建设数学模型,构建分子结构与其生化、物化性质关系,帮忙药物科学家对新的药物分子的性质发展正当预测。

构建一个无效的 QSAR 模型波及到若干步骤:
构建正当的 分子表征 (Molecular Representation),将分子结构转化为计算机可读的数值示意;
抉择适宜分子表征的机器学习模型,并应用已有的分子 - 性质数据 训练模型
应用训练好的机器学习模型,对未测定性质的分子进行 性质预测

QSAR 模型的倒退也正是随着分子表征的演进,以及对应机器学习模型的降级而一直变动。


基于三维构造的分子表征预训练模型「Uni-Mol」

在药物研发畛域中,QSAR 建模面临的一个次要挑战是数据量无限。因为药物活性数据的获取老本高且试验难度大,这导致了 标签数据有余 的状况。数据量有余会影响模型的预测能力,因为模型可能难以捕捉到足够的信息来形容化合物构造和生物活性之间的关系。面临这种有标签数据有余的状况,在机器学习倒退地更为成熟的畛域,例如自然语言解决 (NLP) 和计算机视觉 (CV) 中,预训练 - 微调 (Pretrain-Finetune) 模式曾经成为了通用的解决方案。预训练是指在大量无标签数据对模型通过自监督学习进行事后训练,使模型取得一些根本信息和通用能力,而后再在无限的有标签数据上进行监督学习来微调模型,使模型在具体问题上具备特定问题的推理能力。

例如,我想进行猫狗的图片辨认,然而我没有很多猫狗的有标签数据。于是我能够先用大量的没有标签的图片预训练模型,先让模型学到点线面轮廓的基本知识,而后再把猫狗图片给模型做有监督训练,这时候,模型可能就能基于轮廓信息,疾速学习到什么是猫什么是狗的信息了。

预训练方法能够充分利用大量容易获取的无标签数据的信息,进步模型的泛化能力和预测性能。在 QSAR 建模中,咱们同样能够借鉴预训练的思维来解决数据数量和数据品质问题。

2022 年 5 月,一款开源的 [1] 基于分子三维构造的 通用分子表征学习框架 Uni-Mol 正式发表,论文被机器学习顶会 ICLR 2023 接管[2]。与过往的基于一维序列或二维图构造的分子表征框架不同的是,Uni-Mol 间接利用分子三维构造作为模型输出。Uni-Mol 性能优越、模型泛化能力强,在小分子性质预测、蛋白靶点预测、蛋白 - 配体复合物构象预测、量子化学性质预测、MOF 资料吸附性能预测、OLED 发光资料性能预测等工作上都超过了现有的解决方案。

                图|Uni-Mol 在上游工作上与原先 SOTA 的比对

Uni-Mol 案例 Collections

Uni-Mol 是一个基于 Transformer 开发的深度学习模型,装置环境和部署利用并不容易,这对于想要发展 Uni-Mol 的疾速实际,尝试和利用 Uni-Mol 的使用者来说无疑有着很大的门槛。在这里,我想分享一个 Notebook 案例,带大家“手把手”的利用 Uni-Mol 这一弱小的工具:「定量构效关系 (QSAR) 模型从 0 到 1 & Uni-Mol 入门实际」:https://nb.bohrium.dp.tech/detail/1032

因为 Notebook 较多,咱们整顿了 Uni-Mol Notebooks Collection 并上传至了 Notebook 案例广场 https://nb.bohrium.dp.tech,你能够在案例广场通过搜寻「Uni-Mol」来疾速找到 Uni-Mol 系列 Notebooks。

欢送关注咱们的公众号 NBHub,感兴趣的童鞋能够查看原文:https://mp.weixin.qq.com/s?__biz=Mzg5NTk3Nzk3MQ==&mid=2247484…


Reference

[1] Uni-Mol Github: https://github.com/dptech-corp/Uni-Mol
[2] Zhou, G., Gao, Z., Ding, Q., Zheng, H., Xu, H., Wei, Z., … & Ke, G. (2023). Uni-mol: A universal 3d molecular representation learning framework. https://openreview.net/forum?id=6K2RM6wVqKu
[3] Wang, J., Liu, J., Wang, H., Ke, G., Zhang, L., Wu, J., … & Lu, D. (2023). Metal-organic frameworks meet Uni-MOF: a revolutionary gas adsorption detector. https://chemrxiv.org/engage/chemrxiv/article-details/6447d756…
[4] Cheng, Z., Liu, J., Jiang, T., Chen, M., Dai, F., Gao, Z., … & Ou, Q. (2023). Automatic Screen-out of Ir (III) Complex Emitters by Combined Machine Learning and Computational Analysis.

退出移动版