在数字化浪潮中,AI 正在成为生物医药行业高质量倒退的重要推动力。3 月 23 日,百度深圳研发核心自然语言解决部技术总监、螺旋桨 PaddleHelix 生物计算平台负责人何径舟在机器之心 AI 科技年会 AI for Science 论坛上发表了 《飞桨螺旋桨 PaddleHelix 赋能生物医药:AI 技术在药物研发畛域的摸索和利用》 主题演讲,介绍了螺旋桨 PaddleHelix 在生物医药畛域的布局与技术停顿,以及在利用落地方面的成绩。
传统药研瓶颈待解
预训练或成行业摸索新方向
目前,随同寰球生物医药市场规模继续上涨,新药研发的投入产出比却继续下滑,药物研发面临的长周期、高投入、高风险等问题凸显。传统药物研发在尝试了生物试验、传统机器学习等办法后,面对大量无标注的数据,高要求的泛化能力,以及生物计算畛域的个性,终于迈向领有自监督和多任务学习交融能力,又思考生物畛域钻研对象个性的预训练模型。
反观以化合物、DNA 与 RNA、蛋白质为次要钻研对象的生物计算,何径舟示意,在此之前,预训练模型在 NLP、CV、跨模态等 AI 畛域已相继展现出通用的 AI 能力、优良的图像分类成果,以及弱小的生成能力,构建基于预训练技术的分子表征模型、蛋白表征模型、组学表征模型,使之成为生物计算的底座,将有助于解决传统机器学习利用在生物畛域的问题。
预训练模型发力
开释多维技术劣势
基于预训练技术,螺旋桨 PaddleHelix 曾经在化合物表征和蛋白质表征等钻研方向上获得重大进展。
在化合物畛域,螺旋桨 PaddleHelix 团队揭示了一种基于三维空间构造信息的化合物建模办法,即“几何构象加强 AI 算法”(Geometry Enhanced Molecular Representation Learning,GEM 模型),首次在寰球范畴内将化合物的几何构造信息引入自监督学习和分子示意模型,并在上游十多项的属性预测工作中获得 SOTA,成为百度在 AI 赋能药物研发畛域对外公开的又一项重磅成绩。
业界之前的预训练方法没有思考化合物的三维空间构造,而空间结构对于化合物性质至关重要。凭借化合物表征模型 GEM 在基于空间结构的图神经网络和多个几何级别的自监督学习工作上的技术创新,该钻研于往年 2 月登上了国内顶级学术期刊《Nature》子刊《Nature Machine Intelligence》。
在蛋白质畛域,蛋白的建模技术可能无效表征蛋白,对预测蛋白构造和预测蛋白 - 蛋白相互作用(PPI)来说至关重要。螺旋桨 PaddleHelix 团队以“蛋白 PPI 表征模型 S2F”为例分享了相干停顿。蛋白 - 蛋白相互作用问题与蛋白的构造和性能密切相关,独自应用蛋白质序列很难形容蛋白质的构造和性能。螺旋桨创新性地提出,通过构建多模态的蛋白预训练技术,利用在 PPI 工作上。该模型在跨物种蛋白 PPI、抗体 - 抗原亲和力预测、SARS-CoV-2 的抗体中和预测,以及渐变驱动的蛋白联合亲和力变动的预测上,获得 SOTA 后果,相比于其余蛋白质示意模型有 5%-10% 的晋升。
在本次科技年会上,螺旋桨 PaddleHelix 团队还走漏,螺旋桨基于飞桨框架,联合国内多家超算核心,在国产的软硬件上,残缺适配并跑通了 AlphaFold2 的训练和推理代码,实现千万级别的蛋白质 initial training 训练工夫从 AlphaFold2 的 7 天压缩到 2.6 天。相干代码也将于 3 月底在螺旋桨 PaddleHelix 平台开源,为国内相干科研工作者提供更多的抉择。
AI+ 生物计算成绩涌动
螺旋桨全面赋能生物医药产业
除了技术上的不断创新,螺旋桨 PaddleHelix 在药物研发等利用场景畛域获得了多项落地停顿,全面赋能生物医药产业。
在药物研发畛域,基于螺旋桨打造的“ADMET 成药性预测模型”曾经在 biotech 公司理论业务管线中实现商业化落地;药物虚构筛选 pipeline 在 first in class 的单干管线中利用,并胜利筛选到活性在微摩尔级别的苗头化合物。相干的算法模型也被收录在 KDD 2021 和 BIBM 2021 等会议上。
在蛋白畛域,螺旋桨 PaddleHelix 团队使用多模态的蛋白 PPI 表征模型 S2F,联结合作伙伴,独特推动在新冠变异病毒奥密克戎上的钻研。通过百度的算法,预测新冠变异病毒奥密克戎的线性抗原表位,帮忙合作伙伴研发变异毒株奥密克戎的疫苗,还能疾速应答潜在的新型变异,后续也无望携手合作伙伴,在常见病、癌症、免疫与代谢等疾病畛域创始翻新药物研发计划。
据悉,螺旋桨 PaddleHelix 是基于百度飞桨深度学习框架打造,通过螺旋桨生物计算开源工具集,搭建了生物计算和服务平台,为药物研发、疫苗设计和精准医疗三大场景提供强有力的撑持,同时也为生物信息学、计算机交叉学科背景的学习者、研究者和合作伙伴提供了 AI 算法模型,赋能生物医药产业。
百度在生物医药方面造成的外围能力已在 GitHub 开源,提供包含虚构筛选、ADMET、DTI、PPI、蛋白构造预测等 9 大能力模块,为生物医药行业内的钻研人员提供业余服务。
将来,螺旋桨 PaddleHelix 生物计算平台,将持续秉持开源凋谢的态度,冀望与更多学术界和生物医药产业搭档单干,减速 AI 与生物计算的交融翻新,独特推动生物医药行业高质量倒退。