关于人工智能:中康数字科技基于大模型的医学文本信息处理与抽取

48次阅读

共计 1943 个字符,预计需要花费 5 分钟才能阅读完成。

在医疗行为发展的过程中,存在辨明药品禁忌症、理解不良反应、明确配伍禁忌和调整用药形式等理论需要,市面现有产品的性能较为繁多、利用范畴窄、数据更新慢 无奈满足业务需要,例如:药店场景 SKU 治理(Stock Keeping Unit,库存保有单位)要求数据标准化且更新频率高;在处方流转中,医院、药房、药店有审方需要。广州中康数字科技有限公司 将这些需要转化为基于自然语言解决的药品说明书主动结构化问题,应用飞桨PaddleNLP 解决数据处理问题,并造成药品常识图谱,衍生出正当用药提醒、不良反应监测、举荐用药等利用。

中康科技通过摸索海量文本与图像常识结构化解决、剖析药品信息结构,并联合人工智能技术,造成药品常识图谱,并以此为根底进一步钻研构建泛医行业利用。应用 ERNIE-UIE 和 ERNIE-Health 进行药品说明书的信息抽取和常识图谱构建,并嵌入到中康数字科技自研的医学垂直畛域标注平台 Sinotation 中进行自动化标注和自主学习,晋升标注效率和规范品质。本我的项目还实现自动化抽取药品说明书数据并对齐到医学规范术语库,包含 SNOMED CT、UMLS 等,扩大图谱内容,造成药品常识图谱,衍生出正当用药提醒服务、不良反应监测、用药举荐助手、药品说明书结构化等利用,填补了客户需要空白,解决人工效率低下问题。

零碎上线后,晋升了信息抽取的准确性,医学知识图谱的 F1 值从 0.86 回升到 0.90 左右。基于 ERNIE-Health 预训练模型成果晋升 2~3 个点,基于 ERNIE-Health 模型初始化医学语料预测训练,可晋升 1~2 个点。

3 月 28 日晚 8:30,中康科技资深算法工程师梁锐老师将作客飞桨直播间,分享基于大模型的医学文本信息处理与抽取产业落地教训。

01 技术计划

基于飞桨生态的药品常识图谱自动化构建是医学知识工厂的其中一个局部,目前说明书主动结构化的服务以及药品常识图谱及其衍生的利用曾经上线。另外,基于医学指南的临床辅助决策工具也在投入使用当中。除此以外,针对门诊病历的文本结构化和专病数据库也在研发中,而对于临床钻研文章的医学知识图谱也正在密锣紧鼓的布局中。

广州中康数字科技有限公司构建的医学知识工厂整体架构

02 技术亮点

Part-1 基于 UIE 抽取信息,晋升数据规范品质

UIE 基于 Prompt + 预训练模型浏览了解抽取来对立信息抽取工作,它反对 few-shot 范式的训练,对于短文本抽取实体的状况,在标注大量数据状况下就能够达到不错的成果。例如:在药品说明书信息抽取时,医学专家们定义 schema,并标注了约 15 条数据,对于通用的实体取能够达到 f1 值达 0.85 以上成果。

Part-2 基于 ERNIE-Health 进行 Fine-tune,晋升上游任务模型的准确率

应用医疗畛域大模型 ERNIE-Health,基于企业积攒的医疗数据进行 fine-tune。同时在训练过程中,还输出大量的医学术语进行多任务的比照学习,大大晋升了医疗常识图谱的成果。

03 相干我的项目

  • 通用信息抽取 UIE (Universal Information Extraction)

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

  • ERNIE-Health

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-health

  • 应用医疗畛域预训练模型 Fine-tune 实现中文医疗语言了解工作

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-health/cblue

  • Unified Structure Generation for Universal Information Extraction

https://arxiv.org/pdf/2203.12277.pdf

04 技术拓展——文心大模型

随着数据井喷、算法提高和算力冲破,成果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能倒退的要害方向与人工智能产业利用的根底底座。文心大模型源于产业、服务于产业,是产业级常识加强大模型,涵盖根底大模型、工作大模型、行业大模型,大模型总量达 36 个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰盛的工具与平台层,包含大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。 百度通过大模型与国产深度学习框架交融倒退,打造了自主翻新的 AI 底座,大幅升高了 AI 开发和利用的门槛,满足实在场景中的利用需要,真正施展大模型驱动 AI 规模化利用的产业价值。

正文完
 0