共计 1575 个字符,预计需要花费 4 分钟才能阅读完成。
金融和医疗等行业存在大量书面文档结构化分析和内容提取场景和工作,例如合同、票据、卡证辨认、纸质文本等电子化存储、文件还原与二次编辑、信息检索等。 因为布局和格局的多样性和复杂性、低质量的扫描文档图像,主动、精准、疾速的信息处理和提取对企业来说是一项具备挑战性的工作。 文档智能是指通过计算机进行主动浏览、了解以及剖析商业文档的过程,是自然语言解决和计算机视觉穿插畛域的一个重要钻研方向。随着企业数字化转型过程一直减速, 企业利用深度学习技术能够将非结构化的文档图片疾速地转化为结构化的字符和图表,并基于 Word 或 Excel 模式进行保留,大大提高要害信息提取的效率,升高人力老本。
文档要害信息抽取与版面复原实际
小伙伴必定好奇,如何能力疾速上手这么经典的深度学习产业利用呢?针对以上企业需要,飞桨开源了 PP-StructureV2 智能文档剖析零碎,反对版面剖析、表格辨认、要害信息抽取、版面还原等功能模块独立应用或灵便搭配。同时,飞桨也联结 Intel 建设了文档要害信息抽取与版面复原产业实际范例,基于 PP-StructureV2 Pipeline 详解模型训练及调优教训以及如何基于 Intel OpenVINO 疾速部署,优化 CPU 推理工作性能,极致利用 Intel x86 硬件资源。
我的项目链接
https://aistudio.baidu.com/aistudio/projectdetail/5666281?con…
场景难点
- 书面文档中存在拍照、扫描、手写体等状况,辨认难度大;
- 文档版式多种多样,且版面元素大小不对立;
- 基于 CPU 的 AI 算法部署老本高,嵌入式芯片的开发复杂度高,算法集成难。
方案设计
本次分享次要展现的是文档要害信息抽取和版面复原工作。在该工作中,图像类的文档首先通过版面分析模型,被划分为文本、表格、图像等不同区域,随后对这些区域别离辨认,如将表格区域送入表格辨认模块进行结构化辨认,将文本区域送入 PaddleOCR 进行文字辨认,最初应用版面复原模块将其复原为与原始图像布局统一的 Word 文件。
PP-StructureV2 模型优化策略和成果
- 版面剖析工作中应用基于 PP-PicoDet 的轻量级版面分析模型, 速度晋升 11 倍,CPU 上可实时推理 。同时基于 FGD 常识蒸馏技术,在保障精度的状况下进一步压缩模型体积,预测速度比老师模型快 1 倍。
- 表格辨认工作中提出了 SLANet (Structure Location Alignment Network) 网络结构,其中蕴含 CPU 敌对型轻量级骨干网络 PP-LCNet,实现更优的“精度 - 速度”平衡;轻量级高下层特色交融模块 CSP-PAN,无效解决尺度变动较大等简单场景中的模型预测问题构造, 表格辨认模型精度从 0.97% 晋升至 75.68%, 预测速度晋升 10%;构造与地位信息对齐的特色解码模块 SLAHead, 将最终模型精度从 75.68% 进步至 77.7%。
模型部署
- 应用 OpenVINO 作为推理后端,倍数级晋升工作在 CPU 侧的处理速度。
- 基于 OpenVINO 的 performance hint 策略,依据应用场景的不同需要,主动实现多线程工作配置,优化模型吞吐量或推理提早。
本我的项目的最终部署环境为 Intel x86 平台设施。思考开发便捷性,本次示例应用 Python 部署开发环境。该零碎是由版面剖析、文本检测、文本辨认、表格构造辨认等 4 个模型所构建的 Pipeline,能够实现文档图片的疾速格式化性能。在飞桨人工智能学习与实训社区 AI Studio 中也提供了残缺的应用示例与开发阐明,可参考该教程疾速学习,并针对实际我的项目进行开发和集成。
为了让小伙伴们更便捷地利用范例教程,OpenVINO AI 软件工程师 Ethan 将于 3 月 23 日(周四)20:15 为大家深度解析从数据筹备、方案设计到模型优化部署的开发全流程,并手把手教大家进行代码实际。