关于人工智能:横向对比-11-种算法多伦多大学推出机器学习模型加速长效注射剂新药研发

1次阅读

共计 3049 个字符,预计需要花费 8 分钟才能阅读完成。

内容一览:长效注射剂是解决慢性病的无效药物之一,不过,该药物制剂的研发耗时、费劲,颇具挑战。对此,多伦多大学钻研人员开发了一个基于机器学习的模型,该模型能预测长效注射剂药物开释速率,从而提速药物整体研发流程。

关键词:长效注射剂 机器学习 嵌套穿插验证

本文首发自 HyperAI 超神经微信公众平台~

作者 | 缓缓

编辑 | 三羊

据《中国居民养分与慢性病情况报告(2020 年)》显示,2019 年我国因慢性病导致死亡占总死亡的 88.5%,可见,慢性病已成为威逼人类衰弱的一大「杀手」。以慢性病中被学者们称为「人类最蹩脚疾病」的精神分裂症为例,患者要想齐全痊愈,就须要进行较长时间的维持医治。但这期间,患者服药可能因为各种起因中断,从而造成复发。

为解决慢性病人服药依从性差的状况,长效注射剂问世,该药是将足够剂量的药物溶解于某种制剂中,通过注射路径进入体内造成小型药物「贮存仓库」,再在体内迟缓开释药物,起到稳固的医治作用。与传统药物相比,长效注射剂有给药距离长、作用迅速、药物剂量稳固等长处。

但另一方面,这种新型药物的研发也颇具挑战,比方,为了令药物在规定工夫范畴外在体内达到最佳开释量,就需对多种候选制剂进行大量、宽泛试验。此过程繁琐且耗时长,成为长效注射剂进一步倒退的瓶颈。

近期,来自多伦多大学 (University of Toronto) 的钻研人员开发了一个机器学习模型,相干试验成绩显示该模型能精确预测长效注射剂药物开释速率,无效减速长效注射剂研发。目前该钻研已公布在《Nature Communications》期刊上,题目为「Machine learning models to accelerate the design of polymeric long-acting injectables」。

目前该成绩已公布在《Nature Communications》

论文地址:

https://www.nature.com/articles/s41467-022-35343-w#Abs1

试验概述

长效注射剂制剂品种多样,个别是脂类和合成聚合物。下图展现了传统和数据驱动的长效注射剂制剂研发办法比照。

图 1:传统和数据驱动的长效注射剂制剂研发办法示意图

a 图:美国食品及药物管理局批准的长效注射剂制剂给药路径。

b 图:传统长效注射剂制剂研发的典型试错循环。

c 图:本钻研的工作流程概览,即用训练好的机器学习模型减速长效注射剂制剂研发过程。

本试验数据集由先前发表的研究成果构建,同时还增加了由 Web of Science 引擎中搜寻进去的内部起源数据。具体来看,数据集包含了 181 种药物及 43 种药物 - 聚合物组合开释量(给定工夫内开释的药物分子数量)。同时,钻研人员将构建好的数据集分为两个子集,别离用于模型训练和测试。

长效注射剂数据集
公布机构:多伦多大学
蕴含数量:181 种药物和 43 种药物 - 聚合物组合开释量
预估大小:394.1 KB
公布工夫:2022 年
下载地址:hyper.ai/datasets/23625**

试验过程

本项钻研中,钻研人员共训练了 11 种机器学习算法,包含多元线性回归 (MLR)、最小绝对值膨胀和抉择算子 (Lasso)、偏最小二乘回归 (PLS)、决策树 (DT)、随机森林 (RF)、光梯度加强机 (LGBM)、极其梯度加强 (XGB)、天然梯度加强 (NGB)、反对向量回归 (SVR)、k 最近邻算法 (k-NN) 以及神经网络 (NN)。

模型抉择

为了评估这些机器学习模型的预测性能,钻研人员采纳了嵌套穿插验证的办法,该办法包含外部(训练和验证)和内部(测试)循环两局部。具体过程为,钻研人员先将数据集依照药物 - 聚合物组合进行分组,再别离对每个机器学习模型进行 10 次嵌套穿插验证试验。

最终,各个机器学习模型在外部和内部嵌套穿插验证循环中的预测性能总结如下表 1 和图 2 所示。表 1 为嵌套穿插验证 (n=10) 中,应用不同机器学习算法预测药物开释后失去的均匀绝对误差 (MAE) 值以及均匀标准误差 (σM,括号内显示)。从表中能够看到,基于树 (tree-based) 的机器模型整体上要比线性、基于实例和深度学习的模型更加精确 (MAE<0.16)。

表 1:各机器学习模型嵌套穿插验证中预测性能状况

图 2 为嵌套穿插验证 (n=10) 中取得的药物开释预测量的绝对误差 (AE) 值。联合表 1 和图 1 的信息,基于 LGBM 的模型在外部和内部循环中 MAE 值以及 AE 值均为 11 个模型中最小。因而,钻研人员认为基于 LGBM 的模型是预测性能最好的模型。

图 2:各算法模型整体预测性能状况

图中方框内的彩色圆圈和彩色虚线别离代表每个模型的 MAE 值和 AE 值。

模型优化

为了进一步提高机器学习模型的泛化能力,钻研人员又通过聚类分析对 17 个特色的 LGBM 模型进行了优化、改良。

这里他们采纳了最远邻聚类算法 (farthest neighbor clustering algorithm),如下图所示,将输出特色排列成一个层次结构,钻研人员发现 17 个特色中存在冗余。通过改良后,最终确定 15 个特色的 LGBM 模型体现最优。

图 3:初始 17 个输出特色的 Spearman 相关系数热力求

深蓝色示意相对 Spearman 相关系数 (依据等级材料钻研两变量间相干关系的办法) 为 1,粉色示意相对 Spearman 相关系数为 0。热力求旁边附有一个树形图,显示通过聚合档次聚类分析确定的特色集群的层次结构。

试验后果

失去上述最优模型后,钻研人员进行了两项测试,其一是应用该模型预测某一种长效注射剂药物开释曲线,其二是应用该模型预测测试集中药物 - 聚合物的药物开释曲线,并将失去的后果别离与试验药物开释曲线进行比拟,后果如下图所示。

图 4 显示了某种所选长效注射剂的预测和试验药物开释曲线的比拟,图 5 则显示了药物 - 聚合物的药物开释曲线和试验药物开释曲线比拟,能够看到在两种状况下,预测值和试验值均基本一致,因而,钻研人员认为基于 LGBM 算法的模型可能精确预测长效注射剂药物开释速率。

图 4:数据集中长效注射剂预测和试验药物开释曲线比照

图 5:药物 - 聚合物预测和相应试验药物开释曲线比照

减速联盟:助力科研新范式落地

值得注意的是,本研究成果的作者 Christine Allen 以及 Alán Aspuru-Guzik 都来自减速联盟 (The Acceleration Consortium,AC)。减速联盟诞生于 2021 年,是学术界、工业界和政府之间的一项新的全球性单干,总部位于加拿大多伦多大学,其愿景是利用 AI 和机器人技术减速发现和设计新资料和分子。

「咱们的指标是减速迷信倒退,」减速联盟主任 Alán Aspuru-Guzik 称,「为了实现这一指标,咱们意识到能够将汽车主动驾驶的思路扩大到自动化实验室,利用 AI 和自动化技术用更智能的形式进行试验。

图 6:减速联盟,一位科学家从主动固体调配机器人中取出事后调配好的试剂

值得关注的是,就在上个月减速联盟刚刚取得了加拿大首席钻研卓越基金 (Canada First Research Excellence Fund,CFREF) 2 亿美元的拨款,该笔拨款将用于反对联盟「主动驾驶实验室」(self-driving labs) 畛域的相干工作。对此,多伦多大学校长 Meric Gertler 谈道,「这些对 AI 驱动钻研和翻新方面的重大投资,无望改善加拿大乃至全世界人民的生存」。

本钻研代码地址:
https://github.com/aspuru-guzik-group/long-acting-injectables

本文首发自 HyperAI 超神经微信公众平台~

正文完
 0