共计 3295 个字符,预计需要花费 9 分钟才能阅读完成。
简 介
相熟深度学习的开发者对 Papers with Code 必定不生疏,作为寰球当先的开源机器学习资源平台,集成论文、代码、数据集等全方位材料。
每年 Papers with Code 都会和 Medium(基于主题的高质量媒体平台)独特评比出 十大年度趋势论文和仓库 。在 2021 年,PaddleOCR 通过 PP-OCRv2、PP-Structure、多语言模型、《入手学 OCR·十讲》等一系列重磅更新, 上榜 Top Trending Libraries of 2021!
具体链接查看:
https://medium.com/paperswithcode/papers-with-code-2021-a-year-in-review-de75d5a77b8b
近期,PaddleOCR 团队梳理了近年来 AAAI、CVPR、ACM 等顶会的 OCR 方向重要论文,将数月的试验尝试一并放出,一次性新增 8 种 OCR 前沿算法(检测 1 种,辨认 3 种,要害信息提取 1 种,视觉问答 3 种)。在 Papers with Code 中 Browse State-of-the-Art 的 Optical Character Recognition(文字辨认)工作下,PaddleOCR 也成为笼罩论文算法最多,Star 排名第一(曾经靠近 20000)的 Github 仓库!
具体链接查看:
https://paperswithcode.com/task/optical-character-recognition
本次更新笼罩了检测、辨认、要害信息抽取、视觉问答 4 个方向,满足 OCR 在各个场景中的利用,是一次对模型库的全面降级!具体算法包含:
- 检测:PSENet[1]
- 辨认:NRTR[2]、SEED[3]、SAR[4]
- 要害信息提取模型:SDMG-R[5]
- 文档视觉问答模型(DocVQA):LayoutLM[6]、LayoutLMv2[7]、LayoutXLM[8]
PaddleOCR 模型全景图,白线虚线框为本次新增
上面咱们就一起来看看这些模型的特色与应用场景吧!
算法介绍
丰盛的检测辨认模型库
本次检测辨认模型的更新非常丰盛,辨认模型包含引入 2D-Attention 对不规则文本进行定位的 SAR、可插拔的语义模块的 SEED、基于 Transformer 的 NRTR,以及基于渐进式扩大算法的检测模型 PSENet,其中:
文本辨认模型:SAR
- 论文题目:\
Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition - 作者:Hui Li, Peng Wang 等·发表会议:AAAI 2019
- 特色:针对不规则文本场景提出了 2D attention 模块对文本中的字符进行定位,不须要字符级别的标注,没有采纳基于修改的策略,简化训练流程。无效晋升了不规则文本的辨认精度。
- 实用场景:在垂类场景中有局部蜿蜒文本的数据
SAR 效果图
文本辨认模型:SEED
- 论文题目:\
SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition - 作者:Zhi Qiao, Yu Zhou 等·发表会议:CVPR 2020
- 特色:外围的亮点是可插拔的语义模块。在模型训练过程中联合了语义信息去疏导解码过程。并且该模块可在预测阶段去除掉,齐全不影响预测速度和效率。在低质量的图片场景下有不错的晋升成果。
- 实用场景:遮挡、含糊图片较多的垂类场景,利用语义信息进行词汇改正
SEED 效果图
文本辨认模型:NRTR
- 论文题目:\
NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition - 作者:Fenfen Sheng, Zhineng Chen 等·发表会议:ICDAR 2019
- 特色:通过残缺的 Transformer 构造对输出图片进行编码和解码,只应用了简略的几个卷积层做高层特征提取,在文本辨认上验证了 Transformer 构造的有效性。
- 实用场景:须要利用 Transformer 构造的 OCR 场景
NRTR 结构图
文本检测模型:PSENet
- 论文题目:\
Shape Robust Text Detection with Progressive Scale Expansion Network - 作者:Wenhai Wang, Enze Xie 等·发表会议:CVPR 2019
- 特色:其提出的渐进式扩大算法通过从最小 kernel 逐渐扩张到最大 kernel,解决了宰割算法对蜿蜒粘连文本的检测问题。
- 实用场景:各类规定和蜿蜒文本的检测场景
PSENet 效果图
PP-Structure 减少视觉文档问答能力
通用 OCR 能力提取了图片中的文字地位和文本内容,但有时除文本信息以外,咱们还想理解文本框的类别、文本框之间的关系,这就转化为要害信息提取以及视觉文档问答工作。
要害信息提取即判断辨认到的文本属于哪个类,例如对于一张身份证图片,模型不仅能够输入“张朋朋”的文本,也能将其分类为”姓名”。
视觉文档问答(DocVQA)次要针对文档图像的文字内容提出问题,例如一张身份证图片,问“公民身份号码是什么?”答案即为图片上的身份证号码。
DocVQA 的具体实现办法通过 SER(Semantic Entity Recognition,语义实体辨认)与 RE (Relation Extraction,关系抽取)两个子工作实现。通过 SER 将每个检测到的文本框分类为姓名、身份证号等,通过 RE 对每一个检测到的文本框分类为问题或答案。
SER 与 RE 工作示例图
本次更新笼罩一个要害信息提取模型 SDMG-R,以及三个视觉文档问答模型 LayoutLM、LayoutLMv2、LayoutXLM,别离来看:
要害信息提取模型:SDMG-R
- 论文题目:\
Spatial Dual-Modality GraphReasoning for Key Information Extraction - 作者:Hongbin Sun, Zhanghui Kuang 等
- 特色:提出了一种多模态图推理网络,同时应用文本特色、文本框特色以及文本框间的空间地位关系解决要害信息提取问题。SDMG- R 相比拟以往算法具备弱小的鲁棒性和泛化性,适宜理论生产应用。
- 实用场景:要害信息提取和分类
SDMG- R 效果图
DocVQA:LayoutLM 系列
- 论文题目:\
LayoutLM: Pre-training of Text and Layout for Document Image Understanding - 作者:Yiheng Xu, Minghao Li 等·发表会议:ACM 2020
- 特色:LayoutLM 利用文本散布的板式信息和辨认到的文字信息,基于 bert 进行大规模预训练,而后在 SER 和 RE 工作进行微调;LayoutLMv2 在 LayoutLM 的根底上,将图像视觉信息引入预训练阶段,对多模态信息进行更好的交融;LayoutXLM 将 LayoutLMv2 扩大到多语言。
- 实用场景:针对卡证、票据等场景的信息提取、关系抽取、文档视觉问答工作
LayoutLMv2 结构图
如何应用
对于上述模型的应用办法能够在 Github 首页文档中 PP-Structure 信息提取(DocVQA、要害信息抽取)与 OCR 学术圈(检测算法、辨认算法)找到,模型训练微调同步反对。
而且对于这些模型的垂类数据训练、推理工作曾经呈现在社区常规赛。大家如果想对这些模型进一步加深了解与实际,参加社区常规赛的“学术前沿模型训练与推理”,不仅能够取得较量的积分与处分,优良我的项目还能够取得开发者说直播、宣传推广的机会。
不忘初心
感激宽广开发者的反对
咱们深知学术研究不易,PaddleOCR 本次开源出的前沿学术模型,心愿可能为 OCR 研究者提供方便的 Baseline,同时还能联合飞桨面向产业落地的特质,疾速将优良的学术模型利用在生产生存中。咱们也非常高兴的看到 PP-OCR 系列模型可能在各行各业的泛滥垂类场景中发光发热,帮忙更多的企业开发者实现业务落地。也特别感谢宽广开发者积极参与到 PaddleOCR 的我的项目建设中来,感激大家!
PaddleOCR Contributor