摘要:2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举办,深势科技创始人 & 首席科学家、北京迷信智能研究院研究员张林峰,带来了题为《AI+ 分子模仿,赋能药物发现新源头》的分享,以下是他的演讲内容整顿,供大家阅览:
深势科技创始人 & 首席科学家、北京迷信智能研究院研究员 张林峰
01 当 AI 能力深刻流向千行百业
AI 带给咱们的能力,不只是解决大规模的生存数据,也包含迷信数据,其本质是表白高维简单的函数,可能让咱们更好地利用迷信法则,利用量子力学方程、分子力学方程,可能更高效、更精确地求解物理方程做模仿。比方在药物或资料的设计过程中,在制作飞机、大坝、桥梁等大型工程的过程中,能够先进行计算模仿,在计算机仿真过程中确保没问题再真正进行试验和实体的设计。
而这一系列新技术的冲破,将为微观世界工业化的设计和生产带来新的冲破。这样一个底层范式驱动的一系列微观世界计算与设计新工具,将为药物研发、资料研发以及很多行业的方方面面带来更多不同。
当今计算生物或药物设计、资料设计、化工设计等场景中,往往冀望用计算模仿解决一些问题,然而实现起来十分艰难。起因在于解决这些问题的实质,须要无效地形容微观粒子之间的简单多体作用,最终对应的是求解一些高维简单的微分方程。而这些方程可能在 100 多年前就曾经存在,但始终以来都不足无效的计算工具和算法工具来克服维数劫难。
维数劫难指求解曾经熟知的方程所须要的计算复杂度指数依赖于输出的个数。比方蛋白质体系的输出为几十万起步,而计算的算力需要指数依赖于输出,这也意味着齐全不可解。因而咱们真正利用计算仿真做进一步计算的时候,须要引入大量的人为近似和人为建模。
建模过程使得仿真的精度难以达到事实的需要,这是长期以来咱们面临的最大难题。而 AI 的作用是无效地示意电子、分子、原子的相互作用,从而可能克服维数劫难,更高效、更精确地进行模仿,使模仿的准确性可能合乎事实要求,可能真正领导试验。
AI for Industry 是将行业倒退积攒下来的海量数据进行间接的模型训练,并期待它可能解决理论问题。但此处存在数据稀缺的问题,很多行业的数据往往具备一些不利于 AI 应用的特点,比方数据样本量非常少,比方数据 label 十分杂,比方数据里的信息与指标之间的依赖关系非常复杂。
而 AI for Science 带来的机会远不只是对迷信数据的间接拟合。迷信行业的倒退是将迷信原理表述为熟知的一系列物理定律和迷信方程,AI 可能带来的可能性是学习一些迷信原理或物理模型,从而无效地求解物理方程,进一步可用于解决理论问题,可能克服很多数据稀缺导致的问题。在生物医药行业,往往越有价值的靶点、体系,其数据的稀缺水平越高。
因而,计算模仿可能带来很多新的可能性,而 AI 则可能让计算模仿变得更快、更准。
02 生物医药拥抱 AI,为畛域发明更多可能
基于 AI 为迷信利用尤其药物设计畛域带来的能力,也逐渐倒退出了一系列新工具。药物研发须要的并不是一两个外围的计算工具或一两个重磅性能,而是一个解决方案体系。同时通过一直地迭代,能力真正造成面向行业的可落地解决方案。
蛋白构造预测是药物钻研畛域的常见场景。目前在药物设计畛域,一些较为少见的比方 RNA 相干的药物研发等数据丰盛水平不高,因此模型成果不够好。一方面,咱们须要继续地改良模型,另一方面也须要一些解决方案可能更好地将理论的模仿以及试验相结合。
Uni-Fold 重现了整个蛋白构造预测从 training 到 prediction 到产品化的过程,并在某些 metric 之下获得了更好的成绩。此外,咱们曾经将聚合物、很多简单状况下所须要的训练代码以及须要的数据和相应的模型都已开释到开源社区,冀望进一步地推动药物钻研畛域的倒退。
此外,位点也是药物设计比较关心的维度。只管整体从 AI 模型预测失去的后果曾经十分不错,然而一些部分仍然存在一些有余。因而须要联合模仿的伎俩来进一步 refine,而模仿最常面临的问题是时间尺度。
蛋白的大的构象变化往往须要很长的模仿工夫,因而咱们通过 RiD 办法,用神经网络示意高维的汇合变量所对应的自在能,而后用自在能来减速模仿,再联合 AI 的预测,能够进一步对蛋白的构象进行 refine 并失去更好的构造。
药物设计很多状况下须要思考别构,AI 的模型预测可能为咱们提供正构的构象,而咱们还须要加强的采样来帮忙发现别构的位点。比方在某个案例中,别构的位点位于左下角。而传统的模仿伎俩因为 barrier 十分高,因而在比方 50 个纳秒的模仿工夫里,大多时候体系的 confirmation 卡在正构的位点下。然而联合 AI 的加强采样,可能很快大范畴采集到体系的别构位点。
在药物研发的案例中,咱们发现体系正构位点下有共价联合的药物,但共价药物往往选择性比拟差,因为它比拟活跃,常常容易位移到不同类型的其余不相干位点上。针对该问题,咱们找到了比拟适合的别构位点,并且针对别构位点进行非共价的药物设计,活性更强。以上实现同样须要无效地联合 AI 的构造预测以及进一步加强采样的模仿。
冷冻电镜构造的解析除了 AI 的模型联合之外,与模仿伎俩相结合也十分要害。比方给定电镜密度图,它对于最初确定蛋白体系的构造而言,就是一个电子的 constrain。再联合模仿达到的成果,该体系即可很好地贴合到密度图的 constrain。间接的 Uni-Fold 构造预测是构造确定的 initial condition,再联合试验数据,最终失去的 constrain 下的 MD 可能带给咱们最现实的构造。
确定构造和靶点之后,须要大规模的虚构筛选。Docking 计划在过来的十几年前被泛滥畛域频繁应用。但在现在在高性能的计算背景之下,须要对它进行极致的优化——将所有局部都搬到 GPU 上。利用 GPU 的特点对 docking 构象进行 global 搜寻,加上局域的优化,能够进行进一步调整,比方 global 的摸索参数能够更大,局域的优化能够更并行。
通过一系列针对 GPU 特点的优化,同样精度下的性能失去了微小晋升。并行调度 100 卡 NVDIA V100 GPU 状况下,实现 38million 分子数据库的多级分子对接仅需 11.3 小时。
血脑屏障等类型的疾病须要的分子比拟小。而对于一些特定的疾病类型,分子的可能性曾经无需尝试,根本能够枚举地做筛选,这也是极致算力和相应算法的联合带来的新的可能。
实现大规模的筛选以及活性的确认后,须要对药物进行进一步革新,以使其合乎 ADME/T 等方面的优化需要,同时须要放弃其活性。
Uni-FEP 的解决方案可能为药物变动前后联合自在能的扭转做定量计算。该计算能力目前曾经可能达到化学精度以内的规范,因而大幅节约了合成分子所需的试验老本和工夫老本。
03 AI+ 算力场景需要叠加,上云是大势所趋
药物研发的各个环节曾经造成了一整套的计算解决方案。计算的解决方案随着利用场景的深刻,会呈现很多简单场景,而场景的复杂度使得解决方案最初的工业化水平上有了新要求。与此同时,算力的基础设施在疾速变动,底层的性能特点、是否抉择性能优化、是否抉择迁徙等,在大规模需要之下也会是老本上十分重要的思考。
基于一些解决方案,药物研发畛域造成了 pipeline,它是从构造到动力学、药物的发现、高效关系的建设等一系列环节上造成的计算解决方案。其逻辑也非常简单,次要分为 data driven 和 simulation driven。
一系列解决方案都有高弹性的需要。在高弹性的根底之上,不同的计划对于数据的应用需要十分不一样。比方大部分时候模仿须要的是高算力,而冷冻电镜的数据十分大,这样的灵活性和弹性是过来的计算解决方案难以实现的。因而,上云是大势所趋。
随着深度的业务倒退,比方客户应用深势科技的药物研发平台时,私有化的需要十分典型且极具规模。而联合计算巢的计划,使得用户可能更加聚焦于业务须要的软件解决方案,而将私有化部署等交给云来实现。
算力和数据算法的倒退催生了 AI,而随同着 AI 的逐渐倒退,它须要可能真正无效地利用物理法则带来更多来自底层的可能性。
以上就是我明天的分享,谢谢大家。
点击这里,观看嘉宾在本次峰会的精彩演讲视频。