百度飞桨凭借图学习框架(PGL)和生物计算平台螺旋桨(PaddleHelix),登顶权威榜单 OGB 多项分子性质预测工作,在 AI 药物发现畛域获得新的技术冲破。
化合物的生物活性筛选是古代药物研发中要害的一环,其次要目标是在大量候选化合物中发现针对某种药物靶点具备活性的分子。传统的活性筛选办法须要合成大量化合物用以进行生物试验,整个流程的老本高、周期长、成功率低。而通过 AI 技术进行药物的虚构筛选无望代替传统的活性筛选办法,减速两头步骤从而大幅度降低研发老本。
国内权威榜单 Open Graph Benchmark(OGB)上的 HIV 和 PCBA 数据集包含多种生物活性试验。其中,HIV 数据集关注不同化合物是否可能克制 HIV 病毒在细胞内的复制,PCBA 数据集关注不同化合物针对 100 多种疾病靶点的有效性。以其中能加强功能性 SMN2 蛋白表白的化合物为例,这些化合物可能改善因 SMN1 蛋白渐变生效引起的脊髓肌肉萎缩。胜利预测化合物这类性质对于发现针对多种疾病的无效药物具备重要意义。
近日,飞桨在 OGB 该两项分子性质预测榜单登上榜首,在 AI 药物发现畛域获得了新的技术冲破。
▲ 飞桨登顶 OGB 分子性质预测数据集 HIV 和 PCBA
基于飞桨能力实现分子性质预测
飞桨基于图学习框架 PGL,应用深度图神经网络(GNN),配合生物计算平台螺旋桨 PaddleHelix 对药物发现畛域的了解,设计自监督学习工作学习化合物分子示意,并利用到分子性质预测中。核心技术包含:
分子示意学习
为了将化合物分子作为图神经网络办法的输出,须要首先将化合物分子特色化。OGB 曾经针对每个化合物提供了一系列基于图构造的结点和边的特色,能够对应到化合物的原子和化学键,但这些特色都较为宏观,无奈示意化合物分子的宏观化学个性。飞桨通过示意学习的办法,首次将分子的宏观化学个性(官能团、分子指纹等信息)和图神经网络相结合,获得了交融宏观化学特色的分子示意,并利用这个分子示意获得了 ogbg-molhiv 的榜首。
图学习技术
APPNP 是基于个性化 PageRank 改良的特色流传算法,通过迭代的形式来近似 Personal PageRank 的解析。APPNP 算法不引入额定的模型参数,可能很好地调节部分信息和多阶街坊关系。飞桨通过联合 GINE plus 和 APPNP 技术,在不引入额定的模型参数下,取得更好的模型表达能力,并获得 ogbg-molpcba 榜首。
飞桨图学习框架 PGL
百度深度学习平台飞桨 PaddlePaddle 开源图学习框架 PGL v2.0 版本,全面反对动态图机制,可反对百亿规模大图,用户能够通过 PGL 实现高效而又满足工业利用需要的图神经网络。PGL 反对的百度内外部业务也是遍地开花,全面笼罩举荐零碎、搜索引擎、智慧金融、智能地图、平安风控、生物医药等场景。
生物计算螺旋桨 PaddleHelix
螺旋桨 PaddleHelix 是基于百度深度学习平台飞桨的生物计算平台。提供了包含 RNA 二级构造预测、大规模分子和蛋白质示意学习、药物靶点亲和力预测、ADMET 成药性预测等,在新药研发和疫苗设计环节具备广大利用前景的技术能力。
螺旋桨 PaddleHelix 能够帮忙生物学、药物化学、计算机交叉学科背景的学习者、研究者和合作伙伴更便当地构建 AI 算法模型。螺旋桨 PaddleHelix 生物计算平台将放弃开源凋谢准则,与合作伙伴共建共享,将来造成一套残缺的面向行业的生物计算生态和服务。
想获取更多算法的技术细节,欢送关注 PGL 和 PaddleHelix,较量相干代码已同步凋谢。
PGL 代码链接:
http://github.com/PaddlePaddle/PGL
PaddleHelix 代码链接:
http://github.com/PaddlePaddle/PaddleHelix