关于高性能计算:全球健康药物研发中心郭晋疆多元科学计算系统在药物研发管线中的搭建与实践

摘要：2022 年 8 月 5 日，2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举办，寰球衰弱药物研发核心数据科学部负责人郭晋疆博士，带来了题为《多元科学计算零碎在药物研发管线中的搭建与实际》的分享，以下是他的演讲内容整顿，供大家阅览：

寰球衰弱药物研发核心数据科学部负责人郭晋疆

下图摘自 2022 年初的 Nature Reviews，能够看到以科学计算或人工智能驱动的药物研发我的项目由 2010 年的 6 个增至 2021 年的 158 个，11 年增长超 28 倍。而传统药物研发我的项目从 705 个降至 333 个，尽管它仍然是次要的药物研发模式，但已出现降落趋势。

传统药物研发管线须要波及大量湿试验环节，且少数基于科学家的集体教训和试验后果来进行优化，优化门路长，研发老本昂扬，周期也长。与之造成比照的是以计算驱动的药物研发管线，它是一种干湿联合的模式，缩小了湿试验环节。并且很多数据驱动的办法学习了历史或寰球范畴内的试验数据，在优化化合物时更偏向于全局的优化，优化过程更快，老本更低，迭代速度也更快。

上图为寰球 24 家以科学计算 /AI 驱动的生物制药公司在研药物状况，其中有 15 款计算驱动的药物曾经进入临床实验阶段。置信在不久的未来，会有更多计算驱动的药物胜利上市，惠及更多病患。

寰球衰弱药物研发核心作为创新型的小分子药物研发机构，也在应用多种计算方法解决药物研发晚期阶段不同的问题。

药物研发晚期阶段的个别流程如下：

Stage 1：疾病生物学，即疾病的确立。疾病能够粗略地分为外源性疾病和内源性疾病，其中外源性疾病指外来生物体或非生物体侵入人体造成的一些组织性病变，比方无害微生物、病菌、病毒、疟原虫或粉尘等非生物体；内源性疾病指人体基因变异或机能失调造成的组织性病变，比方各类肿瘤、心脑血管疾病、慢性病和常见病。

寰球衰弱药物研发核心聚焦于寰球衰弱的公共畛域，咱们不仅关注外源性的传染性疾病比方结核病、冠状病毒、疟疾和寄生虫感化，也关注内源性疾病，比方一些肠道类疾病 EED 等。

Stage 2：靶标确立与验证，即与疾病强相干的蛋白或生物标记物。此阶段会面临纷纷多样的异质化数据，钻研人员须要剖析疾病机制、疾病在生物网络通路中的体现，也会蕴含一些基因变异以及表白等多组学信息。

Stage 3：苗头化合物确立，筛选或设计可能与蛋白产生相互作用的分子，即苗头化合物。指标是一方面在分子化合库中筛选可能产生活性的小分子，另一方面也须要设计创新型的活性分子。该阶段存在并能够取得大量实体或虚构的化合物库数据，数量可达亿级，例如 Chemdiv，Zinc 等。然而针对靶标蛋白的活性化合物分子比拟稀少，尤其是一些常见性疾病或人类不是特地关注的疾病。

Stage 4：苗头 - 先导化合物优化

Stage 5：临床前候选药物。这 2 个阶段须要考量的不仅仅是化合物与靶标蛋白的相互作用，也要综合药代动力学、合成工艺、可成药性，如散布、代谢、毒理等，在均衡各项性质之后，优化设计出一种真正无效且平安的药物。这是一个综合优化的过程，波及到大量 ADMET 数据的收集以及训练建模。与此同时，也会有大量研发管线我的项目的试验数据。

疾病的抉择到靶标确立阶段，数据纷纷多样且异质化。

针对内源性疾病，通常会进行多组学的剖析。通过剖析正常人和病患的代谢组学、基因组学或蛋白组学等多组学信息，找到与疾病强相干的 Hub 基因 / 蛋白或要害基因 / 蛋白，作为靶标的候选。失去蛋白序列之后，应用构造预测模型预测其 3D 构造。构造预测模型中，Alphafold 是近年的创新型深度学习办法，还有此前的传统机器学习、物理建模等办法也能够失去候选靶标构造。

针对外源性疾病，找到靶标的办法包含：

1、能够通过剖析人体免疫机制，比方交融机制来钻研人体的多组学信息，找到人的关键性靶标；
2、也能够间接剖析菌落的多组学状况，确定要害通路中的蛋白作为靶标的候选；
3、对于一些绝对比较简单的病原体，例如病毒，能够间接获取它在侵入人体交融或转录过程中的蛋白序列，进行所有相干蛋白构造预测并提供给生物学家或化学家剖析，用于确定靶标。

构造生物学将须要确定的蛋白的实在构造进行解析、并对预测的 3D 构造验证与校准，以便后续阶段的剖析与预测。

确定靶点蛋白后，接下来须要在靶点上找到可能的与分子联合的口袋，联合口袋指分子化合物能够与之产生相互作用的联合位点。通过计算来判断化合物是否与靶标产生相互作用，即是否有潜在活性，次要有两大类计算方法：

1、应用分子力学或量子力学等物理学模仿的办法；
2、应用机器学习或深度学习的办法。利用这两类办法在已知 / 虚构生成化合物库中虚构筛选出与靶标相互作用可能性较高的化合物，作为候选苗头化合物。

除了应用虚构筛选化合物库的形式，越来越多的钻研人员试图采纳端到端的形式从口袋理化性质间接设计苗头化合物，这样能够跳过物理模仿或机器学习虚构筛选化合物库的局部，用 AI 间接生成有潜在活性的苗头化合物，置信这也会成为将来的重点钻研方向之一。

获取到候选苗头化合物之后，将由生物、化学方面的专家进行湿试验验证或者构造生物学进行化合物 - 靶点共晶构造的解析验证，确认其是否合乎预测的后果，并用于下阶段的化合物优化。

对物理模仿与机器学习办法进行比拟，物理模仿是目前很多药企较常应用的一类方办法，其劣势在于 MD 对接姿势预计较为准确，FEP+ 亲和力预测较精确。且采纳 3D 建模，能够直观地看到小分子和口袋的联合状况，可解释性也较强；而劣势在于须要的算力十分高，有弹性超算的需要。此外，它基于物理假如，可能实用的范畴较窄，无奈应答一些简单的机制，比方多靶点或蛋白变构景象的预测，或更高层级的比方化合物在细胞、类器官或人体组织层级的性质预测等。

机器学习办法次要通过已知数据训练优化给定数学模型的参数，因此通过数据训练产生的模型大小是固定的，可用模型疾速筛选超大型的化合物库。其次，它基于教训数据或试验数据，不依赖于物理假如，可能应答简单机制或更高层级的性质进行数学建模和预测；其劣势在于它很大水平上依赖于数据的品质以及数据空间的散布状况。数据储量大品质高，则机器学习或深度学习的体现好，反之则可能体现较差。此外，其泛化能力也十分受限于它可能看到的数据空间，而且机器学习是一种黑箱办法，科学家很难明确其判断根据。

以虚构筛选 100 万个小分子化合物为例，应用物理模仿办法 docking 大略须要 148,600 秒，而在 v100 的 GPU 上应用深度学习办法只需 107 秒，速度相差 1000 多倍。另外，通过精度更高的分子动力学办法在机器上模仿一个化合物与靶标蛋白位点的联合，在 6 万 -9 万原子体系中模仿 200 纳秒时长，在 v100 的 GPU 上大略须要 86,400 秒，由此可见基于物理模仿的办法要求很高的算力。

在晚期苗头化合物的发现和确立过程中，钻研人员通常可能取得针对靶点的试验数据非常少。如果间接用这些数据来做深度学习算法的建模，机器只能看到十分无限的化学空间，训练出的模型的泛化能力与预测鲁棒性较差，因而咱们采纳了被动学习的形式，应用专家教训或一些物理函数校准 AI 模型，不停地增广训练集，迭代几轮之后模型即可投入使用。

此外，因为很多 AI 模型自身是黑箱模型，生物学家或化学家可能无奈齐全信赖它给出的后果。为此咱们自研了基于 self-attention 机制的深度学习算法 Ligandformer，模型可能在给出化合物的性质或活性预测分值的同时，也会给出分子片段对活性 / 性质的奉献解释，供科研人员参考和借鉴。

从苗头化合物到先导化合物，再到临床前的候选药物过程中，须要将苗头化合物进行一系列优化革新。优化过程中，计算层面个别流程是采纳大数据对不同性质的模型进行预训练，失去 pretrained model，并通过理论研发管线中的试验数据对 pretrained model 进行微调，而后用微调后的模型大批量筛选各种革新的先导化合物构造。最终在均衡多种性质之后，失去候选药物列表，提供给生物学家或化学家参考抉择并进行下一步的湿试验验证。

上图可见，计算过程贯通整个药物研发的晚期阶段。

2020 年新冠肺炎暴发初期，阿里云团队与咱们单干搭建了抗击新冠肺炎的公共信息平台，收罗来自寰球信息源的对于病毒钻研。与此同时，咱们也搭建了预测性的服务平台，这是在超算平台上搭建的对外服务，收费凋谢给科学家们应用。目前已对服务进行降级和优化，在 20 余个内外部合作项目中宽泛应用。

此外，咱们收集整理了大量来自全世界商业和非商业数据库的数据，建设了可视化构造 - 性质数据分析工具，帮忙科学家更好地进行钻研。

在此前的一次苗头化合物发现的我的项目中，过后咱们须要将 PubChem40 万化合物库的化学空间较好地进行表征与筛选。咱们应用被动学习策略训练深度学习模型并筛选化合物库，在被动学习进行 5 轮迭代后，错误率由最后的 7.98% 降落到了有余万分之一。与此同时，依附专家教训不停地增广训练数据样本，训练数据样本仅减少了 1500 余个。总共 2800 多个的训练数据量并不是很大，但它使得机器学习模型体现出比拟强的分别能力，能够分别 40 万化合物库中化学空间的状况。

同时，咱们对我的项目中 37 个试验数据进行回溯性验证。从最后的模型到第五个模型，准确率由 75% 晋升至 86%。

咱们与北京协和医院进行了常见病相干钻研工作，应用了外部自研的生物信息网络相互作用关系算法来从新校准蛋白 - 蛋白相互作用网络。通过校准后的网络再综合生物信息统计学办法找到了 ATTR 常见病的新药物，与此同时也从新定位到了一款淋巴性白血病的药物。这项工作已被某医学期刊收录。

总的来说，基于分子力学的办法次要利用于已知靶点或须要确定靶点的工作上，比方晚期的靶点确立、苗头化合物确立与苗头 - 先导化合物优化阶段；基于机器学习 / 深度学习的办法能够利用于苗头化合物确立、苗头 - 先导化合物优化阶段以及临床前候选药物优化阶段，除此之外还可利用于未知靶点的场景，比方只有一些表型数据须要通过数据驱动建模，比方药物研发前期对细胞、组织、类器官或人体层级性质的预测、可成药性剖析等。

将来，咱们将在以下几个方面进行深入研究：

第一，简单治病机制和靶点钻研。比方细菌的耐药性钻研、蛋白变构景象的预测等。
第二，靶点活性位点的渐变预测。比方冠状病毒会继续变异，药物在变异的位点的有效性，能够通过计算分析判断。
第三，翻新药物的分子设计。越来越多的钻研人员聚焦在基于蛋白靶点口袋的活性分子进行生成和设计，同样也能够基于表型数据端到端地生成和设计分子化合物。

那么，如何解决或冲破问题？首先，数据必不可少。除了分子化合物的理化性质的数据以外，能够将更多的横向数据比方生物信息网络或通路中的网络信息数据交融进来，也能够将更低层级的数据比方电子云密度数据交融进来。

而庞杂、多元化、异质化的数据须要强有力的算法可能交融不同层级、不同尺度的数据，并且可能在数据上提取出模式特色做最终工作的预测。而这所有必然离不开超算平台，因而咱们对于超算平台的需要也逐步增大，咱们须要有更大规模的数据承载以及解决能力，须要有更快的速度与进度。

置信联合数据、算法和超算平台的通力合作，再加上跨专业、跨行业畛域人才的共同努力下，药物钻研行业行将获得更大的冲破。

点击这里，观看嘉宾在本次峰会的精彩演讲视频。

关于高性能计算:全球健康药物研发中心郭晋疆多元科学计算系统在药物研发管线中的搭建与实践

01 科学计算驱动药物研发的趋势

02 药物研发管线不同阶段的特质与问题

03 多元科学计算零碎的构建

04 多元科学计算零碎 E-HPC 平台实际

05 挑战与时机