关于高性能计算:圆壹智慧创始人兼CEO-潘麓蓉AI制药工业落地的痛点与前进方向

31次阅读

共计 5480 个字符,预计需要花费 14 分钟才能阅读完成。

摘要 :2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举办,圆壹智慧创始人兼首席执行官潘麓蓉博士,带来了题为《The Challenges and Future Directions of AI in pharmaceutical industry》的分享,以下是她的演讲内容整顿,供大家阅览:

圆壹智慧创始人兼 CEO 潘麓蓉

美国 NIH 的 4D map 是寰球制药行业的行业金规范。以小分子为例,从靶点的辨认到先导化合物的发现、优化,从 early discovery 到 development 再到最终的 clinical trial,两头的每一步都曾经有十分成熟的方法论、试验平台、理论指导以及监管规范。

然而,该零碎的数字化水平非常低,制药行业也是所有行业中数字化水平绝对较低的行业。

转化医学、生物标记化合物相干的数据、临床数据、监管数据、医保数据以及临床采样和体外采样的信号数据,都须要由不同的机构和科研人员负责。基于此,制药工业想要在零碎上提效,只有两个办法:第一,将整个零碎进行从新定义;第二,从过来的历史数据中去掉杂音、找到信号,并用最先进的方法论取代过期的方法论。

上图为药筛流程。从第一步到最初一步须要进行的试验数量决定了最终的零碎效率。传统流程根本须要从 2 万个分子筛至一个分子,盲筛则根本须要 200 万个分子作为终点。而如果能实现以 100 个分子作为终点,则整个行业的投入和耗时将失去 80% 以上的节俭。

以上筛选流程曾经沿用多年,但过来 10 年的投入产出比在逐年降落。因而咱们须要思考:如何冲破现有的筛选流程?是否通过 AI 帮忙晋升效率?

严格意义上来说,AI 并不是一种工具,因为工具须要人来应用,而 AI 能够进行自优化,不须要人类帮忙也能实现目标。在 AI 的学科定义里,它须要具备像人一样的思考和行为能力,最初还需通过图灵测试等形式的确认。

但将 AI 利用于制药行业,最大的难点在于如何为 AI 定义指标。比方制药问题上,指标能够是优化选择性,也能够是优化整体的体内药效,还能够是优化最终的实用病人群体。如果给予 AI 足够的数据,实际上它能够通过本人的方法实现目标。

因而,人须要做两件事:首先明确指标,其次明确须要喂给 AI 什么样的数据和规定,最终由 AI 负责实现目标。

人工智能自身是一个交叉学科,而制药也是波及到生物化学、细胞生物学、生理学等多维度信息的学科。如何将泛滥宏大的学科体系进行高效地交融,是咱们面临的最大挑战。

上图涵盖的数据根本涵盖了制药行业所有计算的输出。QM(量子力学)、DFT(Density Functional Theory,密度泛函实践)、Molecular Mechanics(分子力学) 和 Molecular dynamics(分子动力学) 是纯物理的办法,DFT 和 Molecular Mechanics 里也存在一些试验参数用于进行校准,而 QM 齐全只取决于输出的分子的原子组成。他们在不同的精度进行计算,但精度和准度是齐全两个不同的统计学参数,咱们不肯定须要最高的精度,然而须要最高的准确度,这样对于下一步的判断能力更残缺。

而此前的方法论或多或少存在局限。比方 QM 计算的是电子精度,只能在资料和一些小型溶液化学体系里进行计算。想要扩到生物体,则须要做更多的近似和就义肯定的精度,因而有了 DFT 办法。分子动力学办法相当于借用一些经典力学和教训参数,模仿量子力学的输入,能够将计算尺度拉到单蛋白的水平,精度从电子省略到了原子。

然而,后续须要对蛋白之间的相互作用进行计算,以及更高的体系比方细胞里有 4200 万个蛋白,如果应用 MD 进行计算,则全世界的计算机加起来都无奈实现。人体须要计算生理学的后果,如果从原子开始,须要进行 4200 万 * 30 万亿的计算能力真正从分子层面映射到人体。受限于计算能力,从分子动力学之后,基于原子为单位对生物学的模仿随即陷入困境,且不论基于原子为根底的 3D 构造自身解析的精准水平。而随着信息学的染指,咱们又看到了心愿的曙光。

信息学是基于信号的读取,信号能够分为两层:一层是分子实质的信号,比方蛋白质、DNA、小分子等都是序列,序列是确定的、没有任何乐音的;另一层是宏观层面,将分子放到体系里,能够观测到电信号、荧光信号失去各种对生物事件间接的了解。

得益于信息学的伎俩,过来 40 年前,化学信息学和生物信息学失去了长足发展。在此之前,咱们只能用一些简略的统计学办法来实现从宏观到宏观的映射。而尔后的多组学可能将所有物种的 DNA 进行解析,失去多层面的数据。QM 的计算复杂度大概为 O(N)4-O(N)7,N 为电子最大的体系约几百个原子;Molecular Mechanics 的计算复杂度降至 23,最大的体系约 100 万个原子,即靠近一个单病毒。然而计算复杂度在统计学或机器学习的预测场景下靠近于线性,因而相当于又将计算效率节俭了 10 6 -10 7 倍。以后深度学习大行其道,根本原因是咱们无奈通过物理学模型计算更大的生物体系,须要通过历史数据的学习来换取产生这一部分数据层投入的算力和试验资源。

DNA 是动态的,因为 DNA 的序列个别不会有太多变动。而生物是动静的,RNA、蛋白质和代谢的测量会随同人的年纪、饮食、身体状况而动态变化。此外,以后对生命的过程模仿,从单原子角度而言大略只能达到微秒级,酶反馈也大概为微秒到毫秒级,因而无奈实现真正的过程模仿。而借助信息学,咱们能够实现端到端的黑盒子模仿,即端到端模仿。

物理学家一直地简化物理公式和计算复杂度,使得最小的药物分子到体系观、不同的实践根底都能够从物理层面进行模仿。但这也意味着须要从新计算试验条件,从新倒退独自的工具和物理范式,而这是一种比拟蠢笨的办法。咱们冀望可能找到精度可调、通用的模型,能够用同一个模型来解决所有问题。

深度学习就是咱们的第一次尝试。只须要每个维度的数据足够多,即可用黑盒子来预测每个维度的问题,不须要思考底层的物理原理。深度学习也在过来的实际中被证实十分无效,但它仍然不是最完满的,因为它对数据过于依赖。

咱们更冀望的完满形式是找到一个通用型的、动静的、跨多尺度的数学公式,可能从根本上察看生物学,并且不依赖任何数据。

上图为具体的数据公式。传统的一个小分子在 QM 计算一个 GPU 大略破费几个小时至几天(取决于具体任务),FEP 大略为一天,Docking 为几分钟。而机器学习场景下,在一个 CPU 上计算几千到几百万分子只需一分钟。

上图为阿里云上测试的若干算力。QM 计算几个氨基酸的相互作用,一个 CPU 大略需破费半小时。MD 预测大型的膜蛋白每纳秒的行为需几个小时,而微秒或毫秒级所需工夫则需乘以 103 或 106。深度学习模型经过训练,预测所需工夫更短,一个小时即可实现百万级的筛选。

机器学习曾经广泛应用于制药畛域,比方蛋白质的构造预测、性能预测、基因编辑、零碎生物学以及更大生理性多组学等。而最终的瓶颈在于对生物大数据的了解和荡涤。

药物畛域的 AI 倒退次要分为上图四个阶段,到目前曾经领有欠缺的数据驱动办法。始终以来,咱们都心愿可能将整个流程里的所有数据全副买通,失去最高效的办法。

那么,从学科层面还值得持续冲破的方面有哪些?

咱们利用 AI,并不是只心愿它做得更快,而是心愿它做得更好,能实现一些人类无奈冲破的挑战。AI 能超过人的两个方面在于:

第一,它不须要劳动,而且能够有几千个 AI agent 同时做一项工作,这是能力上的冲破。
第二,AI 对于世界的认知是多维的,人只能从 3D 维度以及工夫维度来认知世界,而 AI 能够在几千个维度或一维、零维这样人类无奈认知的维度下意识世界,而后取得更好的答案。

制药畛域存在一个很有意思的景象:二维的认知与一维的认知齐全相同。如上图,PK 是影响生理指标的重要因素,不同状况下它会存在微小反差,从人的角度看它们可能十分类似,但 AI 能够从二维以外的一些维度辨认到更大的区别。

此外,专家进行优化,往往一次只能在一个维度上优化一个问题,因而一个我的项目会产生有限多的迭代。而如果采取人工智能最典型的 Multiobjective optimization 多指标优化形式,能够一次从多个维度实现多种优化。在过来的实际中咱们曾经验证,应用 AI 比方在 30 个维度里同时打分再做试验相较于人工思考再做试验的命中率要高很多。因而咱们也深信,在此畛域,AI 可能比专家做得更好。

新我的项目个别从表型筛选开始,从表型间接预测潜在的假如,将波及到黑盒子问题,而这正是 AI 善于之处。过来大部分原创新药都属于 Phenotypic Screening,而大部分 Follower drug 属于 Target-based Screening。

AI Phenotype Screening 曾经进行十分多尝试,比方咱们过来在 GHDDI 曾对 3000 个 cell based assay 逐个进行了 AI 模型的建设,而后进行 retrospective 和 prospective 两种大规模验证,最终发现过来 30 年的数据里,只有 5% 的数据可能根本靠近实在的 cell-based 后果。但这曾经是一个不错的后果,至多证实了该数字放弃着增长的趋势。

合成问题始终是小分子药物的瓶颈。而 Science 杂志的相干文章表明:AI passed the Turing test,意味着人造产物的全合成门路都已可预测。只是合成问题的瓶颈并不在于路线预测,而在于反馈条件预测。

AlphaFold 饱受关注,它被认为是划时代的壮举。但咱们须要先确认三个问题:

第一,制药畛域是否须要晓得构造?失常的 Biology discovery 能够间接在细胞上筛选或间接纯化蛋白筛。已知的只是序列和 binding affinity, 不须要过程模仿,但过程模仿的益处在于能够对一些要害位点进行革新。

第二,AlphaFold 预测的后果和传统的同源建模相比,传统的同源建模在有已知模板的状况下体现更好。其中波及 AlphaFold 里深层次算法的 flow 应用了 Multisequence alignment,是借用其余所有物种的所有蛋白质 family 的信息去预测低等生物的信息,而这在很多外围区域会呈现问题。如果是传统的同源建模个别是更靠近的物种或者同一物种的同一个蛋白组族,在已知的模型上即可间接预测,因而在实在的制药过程中,传统的同源建模置信度更高。而针对没有模板的蛋白,则须要采取其余方法。

最初,咱们采取的方法是间接从一级构造去预测生物活性,齐全跳过了 structure biology 的过程,也就防止了这一过程中的误差。

2013 年,我曾破费两个月调用了 1024 个 CPU,失去约一微秒的膜蛋白,磷脂双分子层,小分子三种组分的 simulation,过后曾经是寰球最大的可计算膜蛋白体系,波及上百万原子。而在当今的超级计算机等同硬件配置下,以上工夫破费可缩小至 2-3 天,但这也仅仅是 30 倍的增长,意味着真正系统性地计算动静过程仍然十分艰难。

因而,咱们必须全方位利用 Data Driven AI 模型。通过上面这一链接,可查看这一篇滚动更新的 review 相干内容,外面提供了解决 data limitation 问题以及如何建模等计划。

相干链接:http://greenelab.github.io/de…

生物大数据里的乐音十分多,如何从乐音里提取信号、集成洁净的数据集也尤为重要。业内提供了十分多方法论层面、工程层面以及算法层面的解决方案,比方 Multimodal 办法,如果一个尺度上的数据量很少,则能够从其余尺度上迁徙,比方 multi-task 办法,如果一个靶点的数据很少,则将其 family 或类似的所有 pocket 数据都找进去用于做迁徙学习,以补救其数据的限度。

最有用的 AI 模型肯定是泛化能力很强的模型,肯定可能从已知的事物预测未知的事物,这才是最有意义的 AI。因而,从根本上来说,迁徙学习(transfer learning)的办法最为无效。

如果要做 target specific 预测,专家只需反馈大量后果或几个到几十个数据,即可进行 fine-tuning,而后个别只需进行五轮以内的被动学习即可达到想要的后果,效率远远优于此前的盲筛。

另外,生成数据个别有三种办法:

第一,从现有数据里开掘,咱们已经汇总了寰球所有的商业数据库以及 100 + 开源数据库,最初淘汰掉了 95% 的数据,这也属于对历史的从新扫视。
第二,本人做试验,有针对性地补足一些数据,须要明确数据的化学、生物空间散布,以起码的数据点推动最优的模型体现。
第三,模仿数据,比方 QM 的计算最准,则先用物理的底层采样,最初用这些数据去换曾经消耗的算力,无需再从新进行计算。

以后咱们圆壹智慧的一体化解决方案如图有一个形象的展现,具体内容参见官网,从 target 序列开始,在几个小时内通过几十个 AI 模型同时打分,能够 propose 10-20 个新分子,根本只需 2-3 轮、在 100 个分子以内即可失去指标化合物。

另外,在算力方面,咱们从 training、调用、GPU 和 CPU 的调配等方面都做了非常灵活的计划,曾经是一个成熟的自动化平台。

往年 6 月, 圆壹智慧在生物国内大会(Bio International)上首次公布了多指标 AI 模型 ,对于生物药、化学药以及核酸药都提供了自动化设计的能力,并且与全世界的多家 CRO、CDMO、药企都有严密单干,公司成立一年至今已取得 300 万美金订单。

在将来,咱们也心愿化学药、生物药(核酸药,蛋白药,细胞医治)等以及各医疗产业链可能在多指标 AI 模型的加持下,更加高效地解决临床的问题。我的分享就到这里,谢谢大家。

点击这里,观看嘉宾在本次峰会的精彩演讲视频。*

正文完
 0