关于机器学习:Top-Trending-Libraries-of-2021PaddleOCR再开源8大前沿顶会论文模型

简介

相熟深度学习的开发者对Papers with Code必定不生疏，作为寰球当先的开源机器学习资源平台，集成论文、代码、数据集等全方位材料。

每年Papers with Code都会和Medium（基于主题的高质量媒体平台）独特评比出十大年度趋势论文和仓库。在2021年，PaddleOCR通过PP-OCRv2、PP-Structure、多语言模型、《入手学OCR·十讲》等一系列重磅更新，上榜Top Trending Libraries of 2021！

具体链接查看：

https://medium.com/paperswithcode/papers-with-code-2021-a-year-in-review-de75d5a77b8b

近期，PaddleOCR团队梳理了近年来AAAI、CVPR、ACM等顶会的OCR方向重要论文，将数月的试验尝试一并放出，一次性新增8种OCR前沿算法（检测1种，辨认3种，要害信息提取1种，视觉问答3种）。在Papers with Code 中Browse State-of-the-Art的Optical Character Recognition（文字辨认）工作下，PaddleOCR也成为笼罩论文算法最多，Star排名第一（曾经靠近20000）的Github仓库！

具体链接查看：

https://paperswithcode.com/task/optical-character-recognition

本次更新笼罩了检测、辨认、要害信息抽取、视觉问答4个方向，满足OCR在各个场景中的利用，是一次对模型库的全面降级！具体算法包含：

检测：PSENet[1]
辨认：NRTR[2]、SEED[3]、SAR[4]
要害信息提取模型：SDMG-R[5]
文档视觉问答模型(DocVQA)：LayoutLM[6]、LayoutLMv2[7]、LayoutXLM[8]

PaddleOCR模型全景图，白线虚线框为本次新增

上面咱们就一起来看看这些模型的特色与应用场景吧！

算法介绍

丰盛的检测辨认模型库

本次检测辨认模型的更新非常丰盛，辨认模型包含引入2D-Attention对不规则文本进行定位的SAR、可插拔的语义模块的SEED、基于Transformer的NRTR，以及基于渐进式扩大算法的检测模型PSENet，其中：

文本辨认模型：SAR

论文题目：\
Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition
作者：Hui Li, Peng Wang等·发表会议：AAAI 2019
特色：针对不规则文本场景提出了 2D attention 模块对文本中的字符进行定位，不须要字符级别的标注，没有采纳基于修改的策略，简化训练流程。无效晋升了不规则文本的辨认精度。
实用场景：在垂类场景中有局部蜿蜒文本的数据

SAR效果图

文本辨认模型：SEED

论文题目：\
SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
作者：Zhi Qiao, Yu Zhou等·发表会议：CVPR 2020
特色：外围的亮点是可插拔的语义模块。在模型训练过程中联合了语义信息去疏导解码过程。并且该模块可在预测阶段去除掉，齐全不影响预测速度和效率。在低质量的图片场景下有不错的晋升成果。
实用场景：遮挡、含糊图片较多的垂类场景，利用语义信息进行词汇改正

SEED效果图

文本辨认模型：NRTR

论文题目：\
NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition
作者：Fenfen Sheng, Zhineng Chen等·发表会议：ICDAR 2019
特色：通过残缺的Transformer构造对输出图片进行编码和解码，只应用了简略的几个卷积层做高层特征提取，在文本辨认上验证了Transformer构造的有效性。
实用场景：须要利用Transformer构造的OCR场景

NRTR结构图

文本检测模型：PSENet

论文题目：\
Shape Robust Text Detection with Progressive Scale Expansion Network
作者：Wenhai Wang, Enze Xie等·发表会议：CVPR 2019
特色：其提出的渐进式扩大算法通过从最小kernel逐渐扩张到最大kernel，解决了宰割算法对蜿蜒粘连文本的检测问题。
实用场景：各类规定和蜿蜒文本的检测场景

PSENet效果图

PP-Structure减少视觉文档问答能力

通用OCR能力提取了图片中的文字地位和文本内容，但有时除文本信息以外，咱们还想理解文本框的类别、文本框之间的关系，这就转化为要害信息提取以及视觉文档问答工作。

要害信息提取即判断辨认到的文本属于哪个类，例如对于一张身份证图片，模型不仅能够输入“张朋朋”的文本，也能将其分类为 ”姓名”。

视觉文档问答（DocVQA）次要针对文档图像的文字内容提出问题，例如一张身份证图片，问“公民身份号码是什么？”答案即为图片上的身份证号码。

DocVQA的具体实现办法通过SER(Semantic Entity Recognition，语义实体辨认)与RE (Relation Extraction，关系抽取)两个子工作实现。通过SER将每个检测到的文本框分类为姓名、身份证号等，通过RE对每一个检测到的文本框分类为问题或答案。

SER与RE工作示例图

本次更新笼罩一个要害信息提取模型SDMG-R，以及三个视觉文档问答模型LayoutLM、LayoutLMv2、LayoutXLM，别离来看：

要害信息提取模型：SDMG-R

论文题目：\
Spatial Dual-Modality GraphReasoning for Key Information Extraction
作者：Hongbin Sun, Zhanghui Kuang等
特色：提出了一种多模态图推理网络，同时应用文本特色、文本框特色以及文本框间的空间地位关系解决要害信息提取问题。SDMG-R相比拟以往算法具备弱小的鲁棒性和泛化性，适宜理论生产应用。
实用场景：要害信息提取和分类

SDMG-R效果图

DocVQA：LayoutLM系列

论文题目：\
LayoutLM: Pre-training of Text and Layout for Document Image Understanding
作者： Yiheng Xu, Minghao Li等·发表会议：ACM 2020
特色：LayoutLM利用文本散布的板式信息和辨认到的文字信息，基于bert进行大规模预训练，而后在SER和RE工作进行微调；LayoutLMv2在LayoutLM的根底上，将图像视觉信息引入预训练阶段，对多模态信息进行更好的交融；LayoutXLM将LayoutLMv2扩大到多语言。
实用场景：针对卡证、票据等场景的信息提取、关系抽取、文档视觉问答工作

LayoutLMv2结构图

如何应用

对于上述模型的应用办法能够在Github首页文档中PP-Structure信息提取（DocVQA、要害信息抽取）与OCR学术圈（检测算法、辨认算法）找到，模型训练微调同步反对。

而且对于这些模型的垂类数据训练、推理工作曾经呈现在社区常规赛。大家如果想对这些模型进一步加深了解与实际，参加社区常规赛的“学术前沿模型训练与推理”，不仅能够取得较量的积分与处分，优良我的项目还能够取得开发者说直播、宣传推广的机会。

不忘初心

感激宽广开发者的反对

咱们深知学术研究不易，PaddleOCR本次开源出的前沿学术模型，心愿可能为OCR研究者提供方便的Baseline，同时还能联合飞桨面向产业落地的特质，疾速将优良的学术模型利用在生产生存中。咱们也非常高兴的看到PP-OCR系列模型可能在各行各业的泛滥垂类场景中发光发热，帮忙更多的企业开发者实现业务落地。也特别感谢宽广开发者积极参与到PaddleOCR的我的项目建设中来，感激大家！

PaddleOCR Contributor

关于机器学习:Top-Trending-Libraries-of-2021PaddleOCR再开源8大前沿顶会论文模型

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:Top-Trending-Libraries-of-2021PaddleOCR再开源8大前沿顶会论文模型

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复