乐趣区

关于paddle:Prompt范式产业实践分享基于飞桨UIEX和Intel-OpenVINO实现跨模态文档信息抽取

近期 Prompt 范式备受关注,实际上,其思维在产业界曾经有了一些胜利的利用案例。中科院软件所和百度独特提出了大一统诸多工作的通用信息抽取技术 UIE(Universal Information Extraction)。截至目前,UIE 系列模型已公布 UIE、UIE-X、UIE-senta 三大模型。基于 Prompt 思维,UIE 系列模型凭借其弱小的零样本与小样本能力、多任务对立建模能力,成为业界在信息抽取、情感剖析等工作上的首选计划。

 
UIE 系列模型(UIE、UIE-X、UIE-senta)根本信息表

本次产业实际范例基于 UIE-X 和 OpenVINO 实现医疗文档信息抽取,提供了 UIE-X 模型在 Intel x86 平台上优化部署的残缺计划,升高了产业落地门槛,可迁徙至金融等行业的信息抽取利用场景。

我的项目链接

https://aistudio.baidu.com/aistudio/projectdetail/6335929?con…

场景难点

  • 文档品种繁多、版式多样,如何无效联合文本、图片、布局信息进行建模是一大难题;
  • 传统基于序列标注的抽取计划依赖大量畛域标注数据,老本极高;
  • 同一个业务中往往存在实体、关系等多种信息抽取需要,独自建模训练老本高。

模型选型

除了纯文本内容外,企业中还存在大量须要从跨模态文档中抽取信息并进行解决的业务场景,例如目前医疗畛域有大量的医学查看报告单、病历、发票以及 CT 影像等医疗图片数据。为了满足跨模态文档信息抽取需要,PaddleNLP 基于文心 ERNIE-Layout 跨模态布局加强预训练模型,集成 PaddleOCR 的 PP-OCR、PP-Structure 版面剖析等当先能力,基于大量信息抽取标注集,训练并开源了 UIE-X——首个兼具文本及文档抽取能力、多语言、凋谢域的信息抽取模型。

本案例为 UIE-X 在医疗畛域的实战,通过大量标注 + 模型微调即可具备定制场景的端到端文档信息提取能力。为实现智能文档信息抽取,咱们采取“定义 schema”、“Taskflow 定义”、“指定进行信息抽取的文档”的计划:

  • 第一步,基于 Prompt 范式,定义信息抽取的工作及所需抽取的信息;
  • 第二步,定义 Taskflow,包含装载定制模型。通过 task_path 指定模型权重文件的门路,门路下须要蕴含训练好的模型权重文件 model_state.pdparams;
  • 第三步,指定进行信息抽取的文档所在门路 doc_path,进行信息抽取。

飞桨通过宏大、精选的模型库,可能显著升高用户在模型抉择方面的难度,升高工夫老本,实现疾速迭代。在落地阶段应用 Intel OpenVINO™ 工具套件进行模型部署,充分发挥通用 x86 平台上的网络执行效力,优化计划整体老本,晋升计划推理性能。

调优策略

  • 基于 OpenVINO 的 auto-device 中提供的多种 performance hint 策略,依据应用场景需要的不同,进行多线程配置,晋升推理吞吐量或升高提早。
  • 反对 Intel CPU 以及 GPU 上的 Dynamic Input Shape 以晋升计划在进行信息抽取时的推理性能,在保障推理时延的同时,优化计划整体老本。

模型部署

本我的项目的最终部署环境为 Intel x86 硬件平台设施。思考开发便捷性,本次示例应用 Python 部署开发环境。通过输出医疗文档图片以及定义抽取信息的 schema,利用 Taskflow 框架实现基于 UIE-X 的智能信息抽取。

该计划能够反对中文及英文的 Prompt/schema 以及跨语言抽取,同时也反对定制 OCR 后果。通过配置 layout 参数传入 OCR Bounding Box 信息,优化抽取成果。飞桨 AI Studio 也提供了残缺的应用示例与开发阐明,可参考该教程疾速学习,并针对实际我的项目进行开发和集成。

医疗文档信息抽取部署 demo 计划

为了让小伙伴们更便捷地利用范例教程,OpenVINO 布道师武卓博士将于 6 月 14 日(周三)19:00 为大家深度解析从数据筹备、方案设计到模型优化部署的开发全流程,手把手教大家进行代码实际。

飞桨 PaddlePaddle

退出移动版