金融和医疗等行业存在大量书面文档结构化分析和内容提取场景和工作,例如合同、票据、卡证辨认、纸质文本等电子化存储、文件还原与二次编辑、信息检索等。因为布局和格局的多样性和复杂性、低质量的扫描文档图像,主动、精准、疾速的信息处理和提取对企业来说是一项具备挑战性的工作。 文档智能是指通过计算机进行主动浏览、了解以及剖析商业文档的过程,是自然语言解决和计算机视觉穿插畛域的一个重要钻研方向。随着企业数字化转型过程一直减速,企业利用深度学习技术能够将非结构化的文档图片疾速地转化为结构化的字符和图表,并基于Word或Excel模式进行保留,大大提高要害信息提取的效率,升高人力老本。

文档要害信息抽取与版面复原实际

小伙伴必定好奇,如何能力疾速上手这么经典的深度学习产业利用呢?针对以上企业需要,飞桨开源了PP-StructureV2智能文档剖析零碎,反对版面剖析、表格辨认、要害信息抽取、版面还原等功能模块独立应用或灵便搭配。同时,飞桨也联结Intel建设了文档要害信息抽取与版面复原产业实际范例,基于PP-StructureV2 Pipeline详解模型训练及调优教训以及如何基于Intel OpenVINO疾速部署,优化CPU推理工作性能,极致利用Intel x86硬件资源。

我的项目链接

https://aistudio.baidu.com/aistudio/projectdetail/5666281?con...

场景难点

  • 书面文档中存在拍照、扫描、手写体等状况,辨认难度大;
  • 文档版式多种多样,且版面元素大小不对立;
  • 基于CPU的AI算法部署老本高,嵌入式芯片的开发复杂度高,算法集成难。

方案设计

本次分享次要展现的是文档要害信息抽取和版面复原工作。在该工作中,图像类的文档首先通过版面分析模型,被划分为文本、表格、图像等不同区域,随后对这些区域别离辨认,如将表格区域送入表格辨认模块进行结构化辨认,将文本区域送入PaddleOCR进行文字辨认,最初应用版面复原模块将其复原为与原始图像布局统一的Word文件。

PP-StructureV2 模型优化策略和成果

  • 版面剖析工作中应用基于PP-PicoDet的轻量级版面分析模型,速度晋升11倍,CPU上可实时推理。同时基于FGD常识蒸馏技术,在保障精度的状况下进一步压缩模型体积,预测速度比老师模型快1倍。
  • 表格辨认工作中提出了 SLANet (Structure Location Alignment Network)网络结构,其中蕴含CPU敌对型轻量级骨干网络PP-LCNet,实现更优的“精度-速度”平衡;轻量级高下层特色交融模块CSP-PAN,无效解决尺度变动较大等简单场景中的模型预测问题构造,表格辨认模型精度从0.97%晋升至75.68%预测速度晋升10% ;构造与地位信息对齐的特色解码模块SLAHead,将最终模型精度从75.68%进步至77.7%。

模型部署

  • 应用OpenVINO作为推理后端,倍数级晋升工作在CPU侧的处理速度。
  • 基于OpenVINO的performance hint策略,依据应用场景的不同需要,主动实现多线程工作配置,优化模型吞吐量或推理提早。

本我的项目的最终部署环境为Intel x86平台设施。思考开发便捷性,本次示例应用Python部署开发环境。该零碎是由版面剖析、文本检测、文本辨认、表格构造辨认等4个模型所构建的Pipeline,能够实现文档图片的疾速格式化性能。在飞桨人工智能学习与实训社区AI Studio中也提供了残缺的应用示例与开发阐明,可参考该教程疾速学习,并针对实际我的项目进行开发和集成。

为了让小伙伴们更便捷地利用范例教程,OpenVINO AI软件工程师Ethan将于3月23日(周四)20:15为大家深度解析从数据筹备、方案设计到模型优化部署的开发全流程,并手把手教大家进行代码实际。