关于人工智能:个性化联邦学习算法框架发布赋能AI药物研发

摘要： 近期，中科院上海药物所、上海科技大学联结华为云医疗智能体团队，在 Science China Life Sciences 发表题为“Facing Small and Biased Data Dilemma in Drug Discovery with Enhanced Federated Learning Approaches”的文章。

本文分享自华为云社区《中科院上海药物所 / 上海科技大学、华为云联结团队公布个性化联邦学习算法框架，赋能 AI 药物研发》，作者：华为云头条。

文章起源：中国迷信杂志社

药物研发是一个漫长的过程，传统的药物研发须要投入大量的研发人员，并且破费十到十五年，数十亿美元的研发经费能力使一个药物走向上市。近些年来，随着 AI、大数据和云计算等技术的倒退，越来越多的制药公司和科技巨头把眼光投到这一畛域。然而 AI 药物研发面临着一系列艰难和挑战，AI 模型须要大量的数据进行建模，而药物研发数据的高壁垒、高老本、高机密性影响到了制药公司数据奉献的积极性。同时，数据孤岛景象普遍存在，很多企业外部的数据都是量少而且高度有偏的，这给高质量的 AI 药物研发模型带来很大的挑战。近年来新兴的联邦学习能够很好的解决这个问题。联邦学习实质上是一种分布式机器学习技术，其指标是在保证数据隐衷平安合规的根底上，实现独特建模。在联邦学习框架下，多家药企之间无需共享数据，仅通过共享模型权重，来实现药企之间协同训练，在保障数据安全的同时彼此加强 AI 模型的成果。

近期，中科院上海药物所、上海科技大学联结华为云医疗智能体团队，在 Science China Life Sciences 发表题为“Facing Small and Biased Data Dilemma in Drug Discovery with Enhanced Federated Learning Approaches”的文章。联结团队应用三个工作来模仿跨数据孤岛的联结学习过程：基于化学构造进行药物溶解度、激酶克制活性和 hERG 心脏毒性的预测。这些数据涵盖了不同的药物化学空间、试验测量方法、试验条件和数据大小，代表真实世界中不同制药公司的数据分布的差别。借此，来钻研联邦学习对突破数据孤岛的意义，并从剖析后果中发现，联邦学习的成果均优于独自数据起源的模型训练。

接着，为进一步晋升模型成果，联结团队引入了残差全连贯网络（RFCN），通过利用 AI 主动建模工具 AutoGenome1，对三个工作从新训练以取得更准确的模型骨架；另外，在联邦模型参数整合策略中联结团队引入了个性化联邦学习（FedAMP）2，为联邦计算参与者训练个性化模型，并且通过注意力消息传递机制增强具备类似数据分布的参与者之间的协同，使得数据奉献越多、品质越好的参与方获益也越大；在激酶克制活性预测的性能比照咱们能够看到，RFCN 和 FedAMP 的引入，在药物溶解度、激酶克制活性和 hERG 心脏毒性预测这三个 AI 工作上，均优于传统 MLP 和 FedAvg 办法。

近日，上海药物所 / 上海科技大学和华为云医疗智能体，联结公布基于华为云 ModelArts 平台的药物联邦学习服务，来帮忙药企和钻研机构更加不便的应用药物联邦学习，通过简略的四步操作，参加联邦学习的用户就能够便捷的实现联邦训练：第一步：盟主创立联盟，定义联邦工作，如药物构造预测水溶解度；第二步：盟主邀请参与者退出联邦，参与者批准退出；第三步：联邦成员部署代理，配置联邦运行环境；第四步：盟主启动联邦工作，开始联邦作业训练。

华为云医疗智能体 EIHealth 基于华为云 AI 昇腾集群服务、华为云一站式 AI 开发平台 ModelArts 的弱小 AI 能力，集成了医药畛域泛滥算法、工具、AI 模型和自动化流水线，指标是打造一个全栈、凋谢、业余的医疗行业企业级 AI 研发平台。 更多信息请拜访：https://www.huaweicloud.com/p…

Liu, D. et al. AutoGenome: An AutoML Tool for Genomic Research. bioRxiv 842526 (2019) doi:10.1101/842526.2. Huang, Y. et al. Personalized Cross-Silo Federated Learning on Non-IID Data. arXiv:2007.03797 [cs, stat] (2021).

点击关注，第一工夫理解华为云陈腐技术~

参考文献