乐趣区

关于ocr:OCRNLP-提取信息并分析这个开源项目火了

文字是传递信息的高效路径,利用 OCR 技术提取文本信息是各行业向数字智能化转型的第一步。
与此同时,针对 OCR 提取的海量文本信息,利用 NLP 技术进一步加工提取、剖析了解后能力最大化施展文本信息的价值。NLP 技术能够晋升 OCR 准确率,并从文本中抽取要害信息、构建常识图谱,搭建检索、举荐、问答零碎等。

尽管各行业智能化产业降级曾经在热火朝天的发展中,然而在理论利用落地中却遇到诸多困难,比方:数据样本不够、模型精度不高、预测时延大等。为此,百度飞桨针对实在、高频的产业场景,提供了从数据筹备、模型训练优化,到模型部署全流程的案例教程。

据说文档和代码曾经开源了,来吧⬇️
https://github.com/PaddlePadd…

01 OCR+NLP 串联技术难点

市面上有不少开源的 OCR、NLP 产品,然而如果想间接利用这些工具,会面临底层框架不对立、串联难度高、成果无奈保障等问题。PaddleOCR 和 PaddleNLP 是面向产业界的开发库,均基于飞桨开源框架最新版本,可能将 OCR 和 NLP 技术无缝联合。

明天咱们针对金融行业研报、物流快递单,来看看 OCR + NLP 信息抽取技术的利用。

02 OCR+NLP 金融研报剖析

以后,诸多投资机构都通过研报的模式给出对于股票、基金以及行业的判断,让公众理解热点方向、龙头公司等各类信息。然而,剖析和学习研报往往破费大量工夫,研报数量的一劳永逸也使得研报智能剖析诉求一直进步。这里咱们采纳命名实体辨认技术,主动抽取研报中的要害信息,例如,“中国银行成立于 1912 年。”中蕴含了组织机构、场景事件、工夫等实体信息。


▲ OCR+NLP Pipeline

针对研报数据的命名实体辨认与词频统计整体流程如上图所示。首先将研报 pdf 数据应用 fitz 包拆分为图像格式,而后利用 PaddleOCR 套件在研报数据集上微调 PP-OCR[1] 的检测模型,应用现有的辨认模型取得文本信息。PP-OCR 是 PaddleOCR 中由百度自研的明星模型系列,由文本检测、文本方向分类器与文本辨认模块串联而成。


▲ PP-OCR Pipeline

对 OCR 辨认出的文本进行整顿后,调用 PaddleNLP 中的 Taskflow API 抽取文本信息中的组织机构实体。最初对这些实体进行词频统计,就可初步断定以后研报剖析的热点机构。


▲ Taskflow 应用示意图

目前,Taskflow API 反对自然语言了解(NLU)和生成(NLG)两大场景共八大工作,包含中文分词、词性标注、命名实体辨认、句法分析、文本纠错、情感剖析、生成式问答和智能写诗,均可一键调用。

03 物流快递单信息抽取

双十一要到了,想必很多人都准备了一个满满的购物车。去年双十一成交量 4982 亿元,全国快递企业共解决快件 39 亿件,这背地则是物流行业工作量的骤增。除了满负荷的长深高速公路,还有忙碌的快递小哥。无论是企业业务汇总,还是寄件信息填写,都少不了要害信息智能提取这一环节,这其中均采纳了命名实体辨认技术。

命名实体辨认大体上有三种计划:字符串匹配、统计语言模型、序列标注。前两种办法须要事后构建词典、穷举所有实体,无奈发现新词、变体等。本案例中采纳了目前的支流办法——序列标注。

数据集包含 1600 条训练集,200 条训练集和 200 条测试集,采纳 BIO 体系进行标注。


▲ 实体定义和数据集标注示例

针对轻量化、高精度的需要,能够选用 RNN+CRF 计划。也能够采纳预训练模型,通过模型压缩、动转静减速等形式满足精度和性能的要求。咱们采纳 Ernie-Gram[2] + CRF 取得了最佳成果。

此外,命名实体辨认技术能够利用于各类要害信息的提取,例如电商评论中的商品名称、电子发票中的低头信息、支出证实中的金额、法律文书中的立功地点等信息。联合关系抽取、事件抽取技术,还能够构建常识图谱、搭建问答零碎等。
点击进入取得更多技术信息~~

退出移动版