乐趣区

关于人工智能:几何构象增强AI算法百度生物计算最新研究成果登上Nature子刊

近日,百度在国内顶级期刊《Nature》旗下子刊《Nature Machine Intelligence》(Impact score 16.65)上发表了 AI+ 生物计算的最新研究成果《Geometry Enhanced Molecular Representation Learning for Property Prediction》,提出“基于空间结构的化合物表征学习办法”,即“几何构象加强 AI 算法”(Geometry Enhanced Molecular Representation Learning,GEM 模型),揭示了一种基于三维空间构造信息的化合物建模办法,以及在药物研发中的利用。

论文链接:https://www.nature.com/articles/s42256-021-00438-4

公开材料显示,《Machine Intelligence》是《Nature》旗下专一于机器学习畛域的顶级期刊,过来两年该期刊的影响因子已超过 16。在该项钻研中,百度螺旋桨 PaddleHelix 团队首次将化合物的几何构造信息引入自监督学习和分子示意模型,并在上游十多项的属性预测工作中获得 SOTA,成为百度在 AI 赋能药物研发畛域对外公开的又一项重磅成绩。飞桨 PaddlePaddle

药研畛域求变,AI+ 生物计算成最佳抉择 家喻户晓,药物研发的老本高、周期长、危险高。据美国塔夫茨大学 2014 年的钻研,新药进入市场的均匀老本约为 26 亿美元,从首次合成到进入临床试验的均匀耗时为 31.2 个月,从一期临床到上市长达 96.8 个月。另一方面,随着寰球迈入老龄化社会,对新药的需要也在逐年减少,到 2024 年寰球医药市场总规模将超过 11 万亿。与之相同,制药公司每 10 亿美元投资所取得的上市新药数量却在逐年降落。如何通过新的技术手段,疾速找到有后劲的候选药物,升高进入临床试验失败的危险,就成为药物研发畛域最亟需解决的问题。

在计算方法呈现之前,药物研发根本通过生物试验的办法来寻找药物,老本昂扬且耗时长,随着计算化学和计算生物学的倒退,也有通过传统机器学习办法辅助进行药物设计的,但这些办法或多或少在成果和效率层面有有余,以小分子为例,要找到一个候选药物,筛选(搜寻)的数量级达到 10 的 60 次方,传统计算方法很难高效实现。另一方面,随着 AI 技术的倒退和遍及,药物研发也逐步进入到 AI 时代,天生善于解决大数据的 AI 深度学习技术,就成为近年来大家关注的焦点,心愿通过 AI 新技术晋升药物研发效率,缩小前期失败概率,升高药物研发老本。

化合物的性质预测的次要目标在于及时发现理化性质不达标的化合物,以升高候选化合物进入临床实验失败的危险,晋升药物研发的成功率。传统的化合物性质预测剖析个别采取试验形式,老本昂扬且耗时长。业内也有一些基于 AI 算法的工作,但大多是应用化合物的二维信息,没有纳入化合物的三维空间构造信息。而百度首次提出,将化合物的空间结构信息引入到化合物预训练中,通过几何加强的自监督学习,对化合物分子进行表征,通过化合物的表征自主推断出空间结构信息,进而预测化合物分子的性质属性,以辅助进行药物研发,晋升效率,降低成本。

值得一提的是,该钻研由百度螺旋桨 PaddleHelix 生物计算团队独立实现,并曾经在药物研发畛域,携手合作伙伴在晚期药物研发管线中落地。

百度 GEM 模型减速药物研发过程 很多的钻研工作都证实了机器学习技术,特地是深度学习在化合物性质预测方面的微小后劲,这些工作应用序列(SMILES 表达式)或是图(原子为节点,化学键为边)来示意化合物,用序列建模或者图神经网络(GNN)去预测化合物的属性。有些钻研间接把每个化合物看作一个图,利用基于图拓扑构造的自监督学习办法进行分子表征,比方,遮蔽并还原化合物图中的原子,化学键或子结构。然而,这些办法都只把化合物视为拓扑图,没有充分利用化合物的几何构造信息。而化合物的几何构造,即三维空间构造,对化合物的物理,化学,生物等性质都起着关键性的作用,具备雷同拓扑构造的两个化合物的空间结构可能齐全不同。另一方面,因为生物试验简单的操作和昂扬的老本,化合物的标注数据非常稀少且宝贵。稠密的数据让深度神经网络极易过拟合,难以施展弱小的建模能力,如何从海量的无标注化合物中学习高质量的化合物表征成为化合物建模和属性预测的要害。

鉴于此,百度提出一种全新的基于空间结构的化合物建模办法——几何构象加强 AI 算法 GEM,并设计了多个几何级别的自我监督学习策略,用于学习化合物的空间结构常识,使得化合物的表征能自主推断出空间结构信息。这项技术在十多个基准的化合物属性预测数据集上均获得杰出问题,并胜利利用到候选化合物的 ADMET 成药性预测工作上,获得良好收益。

解读几何构象加强 AI 算法 GEM 模型 几何构象加强 AI 算法 GEM 模型蕴含两个次要局部:基于空间结构的图神经网络(a)和多个几何级别的自监督学习工作(b)。

图 1: GEM 的整体框架

1. 基于空间结构的图神经网络 因为化合物的汇合构造能够齐全被原子-化学键键长-键角确定。GEM 提出了一种基于空间结构的图网络,同时对原子-化学键-键角的关系建模空间结构信息。每个化合物由两个图组成:原子-化学键的图 G 和化学键-键角的图 H。相似于过往的工作,原子-化学键的图 G 以原子作为图的节点,化学键作为连贯原子的边。而化学键-键角的图 H 则为首次引入,以化学键作为图的节点,两个化学键所造成的键角为图的边。图神经网络蕴含多轮迭代,而化学键作为每一轮迭代中图 G 和图 H 的桥梁进行信息互通。最初一轮迭代的表征被用于化合物属性预测。

2. 基于空间结构的自监督学习 为了使模型更好学习到化学空间常识,GEM 不单单只是将几何信息作为输出,更进一步地设计了基于几何信息的学习工作(指标):预测化学键的长度;预测化学键组成的键角;预测两两原子之间的间隔。其中,键长和键角形容化合物的部分构造,而两两原子之间的间隔更关注化合物的全局构造。形容部分构造的自监督学习工作随机筛选化合物中以某个原子为核心的子图并进行遮蔽,预测被遮蔽的子图中的化学键的键长和化学键间造成的键角。形容全局构造的自监督学习工作则预估原子间隔矩阵中的元素。通过这些基于空间结构的自监督学习工作,图神经网络可能无效推断出化合物的空间信息,从而对化合物的表征带来正向影响。

3. 试验后果GEM 在 14 个化合物属性的基准数据集中获得了最佳体现,这些数据集都是目前学术界公认的化合物属性预测数据集。例如,在毒性相干的数据集(tox21、toxcast)和 HIV(艾滋病)病毒数据集上,GEM 预测后果远优于其余 baseline 模型。总体而言,百度的 GEM 模型,在 ESOL、FreeSolv 等回归工作上绝对当初办法晋升 8.8%,在 BACE、BBBP、SIDER 等分类工作上绝对晋升 4.7%。此外,在自监督学习办法上的融化试验也证实了基于空间结构的自监督学习办法的有效性。

落地 ADMET 成药性预测和药物筛选等场景 几何构象加强 AI 算法 GEM,能很好的学习化合物的空间结构常识,自主推断出空间结构信息,从而精确地预测候选化合物的 ADMET 性质——排汇(Absorption)、散布(Distribution)、代谢(Metabolism)、排泄(Excretion)和毒性(Toxicity),帮忙在药物研发晚期疾速筛选潜在成功率更高的化合物。据理解,百度的该项钻研曾经利用于药物研发畛域,在合作伙伴的晚期药物筛选管线中实现了商业化落地。

此外,几何构象加强 AI 算法 GEM 还在药物虚构筛选和药物联用方面,也起到关键作用。药物虚构筛选是药物研发的重要一环,旨在通过从大规模的虚构化合物库中找到与指标靶点有强亲和力的候选化合物。药物联用是通过预测两个药物在不同细胞系中的协同效用,以帮忙找出给定药物在某一细胞系内中具备最佳协同作用。使得两种有协同效用的药物可能在保障医治成果的同时,缩小抗药性的产生。并通过升高应用剂量晋升药物的安全性。

对于百度螺旋桨 PaddleHelix螺旋桨 PaddleHelix 是基于百度飞桨深度学习框架打造,面向新药研发、疫苗设计、精准医疗等场景的生物计算平台,为生物医药畛域的研究者提供全面的 AI+ 生物计算的模型工具和技术计划。目前,螺旋桨 PaddleHelix 平台已凋谢多个模型,涵盖分子生成、虚构筛选、ADMET 预测、蛋白 /RNA 构造预测、mRNA 序列设计、双药联用等方面。

除此之外,在 PPI 蛋白-蛋白相互作用,组学的表征和精准用药等方面,螺旋桨 PaddleHelix 团队也发展了相干的工作,并在多个国内比赛中获得佳绩,相干研究成果也将陆续凋谢给大家体验试用。将来,螺旋桨 PaddleHelix 生物计算平台,还将持续秉持开源凋谢的态度,持续携手合作伙伴赋能生物计算行业,共建 AI+ 生物计算的生态和服务。

基于空间结构的化合物表征学习办法 GEM 已通过螺旋桨 PaddleHelix 平台对外开放,欢送大家应用。GitHub 地址: https://github.com/PaddlePaddle/PaddleHelix平台地址: https://paddlehelix.baidu.com/单干洽谈: baidubio_cooperate@baidu.com

退出移动版