关于机器学习:英国皇家植物园采用机器学习预测植物抗疟性将准确率从-046-提升至-067

内容一览：疟疾是严重危害人类生命衰弱的重大传染病，钻研人员始终在致力于寻找新的动物源性抗疟疾化合物，以研发相干药物。近期英国皇家植物园利用机器学习算法无效预测了动物抗疟性，该研究成果目前已发表在《Frontiers in Plant Science》期刊上。
关键词：植物学抗疟疾反对向量

作者 | 缓缓
编辑 | 三羊

本文首发自 HyperAI 超神经微信公众平台~

疟疾是一种肆虐寰球的寄生虫病，它通过蚊媒流传，其发病率以及致死率始终在虫媒流传疾病中居高不下。依据最新的《世界疟疾报告》，2021 年寰球疟疾风行进一步加剧，全年共有 2.47 亿例新发病例，预计死亡病例 61.9 万人。

目前寰球仍以药物医治作为次要的疟疾防治伎俩，并且很多药物的抗疟疾活性人造分子都来源于动物之中，因而，钻研人员们始终致力于寻找新的动物源性抗疟疾化合物，不过，为了达到这个目标，须要对大量的动物进行筛选和测试，这个过程十分耗时且低廉。

近期，英国皇家植物园 (Royal Botanic Gardens, Kew) 及圣安德鲁斯大学 (University of St Andrews) 的钻研人员证实了机器学习算法可能无效预测动物抗疟性，且准确率为 0.67，相较传统试验办法的 0.46，已有了显著晋升。目前，该研究成果已发表在《Frontiers in Plant Science》期刊上，题目为《Machine learning enhances prediction of plants as potential sources of antimalarials》。

该研究成果已发表在《Frontiers in Plant Science》上

数据集及抽样偏差校对

本试验重要指标之一是评估是否能够用动物特色数据训练机器学习模型来预测动物抗疟活性。首先，钻研人员提供了一个数据集，该数据集基于龙胆目标 3 个花卉动物科——夹竹桃科、马钱科和茜草科的 21,100 个动物物种。 这些动物已被发现含有许多生物碱，如抗疟生物碱奎中的奎宁以及其异构体奎尼丁等。

图 1：夹竹桃、马钱和茜草科中含有抗疟疾生物碱的实例

A：在夹竹桃科动物中发现的一种生物碱：Aspidocarpine。

B：在马钱子科动物中发现的一种生物碱：Strychnogucine。

C：在茜草科动物中发现的、现被宽泛用于抗疟药物中的生物碱：Quinine（奎宁）。

数据集具体包含动物状态特色、生物化学特色、成长环境条件以及地理位置等信息，下图展示了这份数据集中二元特色之间（只有两种取值的特色，如有毒/无毒）的关系。

图 2：数据集中二元特色间的关系

X 轴：二元特色。
Y 轴：每个特色的平均值，其中每个特色代表了不同的动物属性，如是否有毒、是否被用作传统药物等。

如图所示，所有动物物种中有 10% 被用作传统药物，而有毒动物物种有 77% 被用作传统药物，钻研人员将这种差别称为抽样偏差，并且提出抽样偏差是由民族动物法 (ethnobotanical approach) 造成的。

民族植物学是指通过寻找和钻研当地居民用于医治疾病的动物来寻找药用植物，但因为不同地区和不同文化之间存在差别， 就可能会呈现某一种或几种具备抗疟性的动物频繁地在数据集里呈现，而导致其余可能具备抗疟性的动物被疏忽，这就是所谓的抽样偏差。

为了更好地训练模型，钻研人员对抽样偏差进行了校对，具体形式是对每个动物物种进行从新加权，即应用了反向概率加权 (Inverse Probability Weighting) ，这样每个物种样本都能在模型训练中被平等看待，从而进步数据集的代表性和模型的性能。

试验成绩展现

模型训练及验证

本次试验中，钻研人员训练了基于反对向量 (SVC)、逻辑回归 (Logit)、XGBoot (XGB) 以及贝叶斯神经网络 (BNN) 的 4 种机器学习模型，并将这些模型与 2 种民族植物学办法——寻找传统抗疟动物和寻找传统药用（不特定于疟疾）动物进行比拟。

对于基于 Logit、SVC 和 XGB 的 3 个模型，钻研人员的训练方法是通过 GridSearchCV 算法对模型的超参数进行调整，并应用 F0.5 指标来评估模型性能。其中，钻研人员对基于 Logit、SVC 的两个模型调整了正则化参数 C 和 class_weight 参数；对基于 XGB 的模型，则调整了 max_depth 参数。

对于基于 BNN 的模型，钻研人员应用了两层别离有 10 个和 5 个的神经网络以及 tahn 激活函数 (activation function)，又通过 100,000 个马尔可夫链蒙特卡洛迭代 (Markov chain Monte Carlo iterations) 来训练模型。

在验证阶段，钻研人员在两种状况（没有进行抽样偏差校对和进行抽样偏差校对）下采纳 10 次迭代的 10 折分层穿插验证 (10 iterations of 10-fold stratified cross validation) 办法对模型性能进行评估。

试验后果

首先是没有进行抽样偏差校对状况下，钻研人员对筛选动物源性抗疟化合物的试验后果如下：

图 3：没有进行偏差校对状况下机器学习模型与 2 种民族动物法比照

如图所示，总体来看，机器学习模型的均匀得分比 2 种民族动物法都要高， 并且能从数据特色中预测抗疟活性 (BNN: 0.66，XGB: 0.66，Logit: 0.62，SVC：0.65，Ethno (M）: 0.57，Ethno (G): 0.50)。

进行了偏差校对状况下，钻研人员对筛选动物源性抗疟化合物的试验后果如下：

图 4：进行了偏差校对状况下机器学习模型与 2 种民族动物法比照

如图所示，尽管因为对训练和测试集减少了权重，使得模型性能的方差较高，但机器学习模型体现依然比民族植物学办法要好。 钻研人员将传统动物抉择法的准确率预计为 0.47，而机器模型的预测准确率则广泛高于这个数字 (BNN: 0.59，XGB: 0.63，Logit: 0.66，SVC: 0.67)。

不过，尽管此试验成绩展现了机器学习模型能够绝对精确地筛选出具备抗疟活性的动物，但钻研人员称，该试验仍有须要改良的局部：

减少训练数据： 目前训练数据集绝对较小，须要减少更多的动物物种数据来进一步提高模型的性能。
解决抽样偏差问题： 尽管本试验中曾经试图解决抽样偏差问题，但仍须要挖掘更多的偏差校对办法。

优化特征选择：须要进行更多的动物特征选择和优化。

进一步测试物种数量过少或样本分布不平衡的动物物种： 对于现有数据中代表性有余的物种，须要进行更多的测试，以取得更精确的后果。

英国皇家植物园：发现动物的力量

对于本项研究成果，英国皇家植物园院长示意：「咱们的钻研结果显示了动物在生产新药方面领有微小后劲。 据估计，目前已知的维管动物物种有 34,300 种，但很多并没有失去深刻的科学研究。咱们心愿机器学习办法可能利用在这方面，以寻找新的药用化合物。 并且这些成绩也凸显了爱护生物多样性和可继续倒退自然资源的重要性。」

闻名于世的英国皇家植物园 (Royal Botanic Gardens, Kew) 通常被简称为「邱园」(Kew Gardens) 。邱园是国内出名动物钻研与教育机构，由英国政府环境食品和农村事务部 (Department for Environment, Food and Rural Affairs, UK) 赞助，它是一个非政府部门性质的公立个人。邱园的指标是：「爱护生物多样性，研发基于天然的解决方案，来应答人类面临的全球性挑战。」

大概在几个月之前，有新闻报道致力于可继续倒退的基金 Greensphere Capital 打算对邱园投资 1 亿英镑，该笔投资将用于可继续农业以及招聘新的钻研人员来钻研动物和真菌迷信、栖息地爱护、农业及林业等我的项目。

本文首发自 HyperAI 超神经微信公众平台~

关于机器学习:英国皇家植物园采用机器学习预测植物抗疟性将准确率从-046-提升至-067

数据集及抽样偏差校对

试验成绩展现

模型训练及验证

试验后果

英国皇家植物园：发现动物的力量

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:英国皇家植物园采用机器学习预测植物抗疟性将准确率从-046-提升至-067

数据集及抽样偏差校对

试验成绩展现

模型训练及验证

试验后果

英国皇家植物园：发现动物的力量

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复