关于图像识别:文字识别关键信息提取的3种探索方法

摘要：如何通过深度学习模型来从文档图片中自动化地提取出要害信息成为一项亟待解决的挑战，受到学术界和工业界的宽泛关注。

本文分享自华为云社区《技术综述十：文字辨认之要害信息提取》，原文作者：小菜鸟chg 。

深度学习模型曾经在OCR畛域，包含文本检测和文本辨认工作，取得了微小的胜利。而从文档中提取要害信息（如图1所示），其作为OCR的上游工作，存在十分多的理论利用场景。应用人力来从这些文档中提取信息是反复且费时费力的。如何通过深度学习模型来从文档图片中自动化地提取出要害信息成为一项亟待解决的挑战，受到学术界和工业界的宽泛关注。上面将对近期几篇相干文章进行简要介绍，并将其分为三个类别：基于栅格（grid-based）、基于图构造（graph-based）和端到端（end-to-end）。

(a)火车票

（b）购物收据

图1 从文档图片中提取要害信息

1. 基于栅格的文档图片要害信息提取技术

该类办法基于图片像素点将图片转换为栅格示意向量，输出到深度学习网络中以学习提取要害信息。

1.1 Chargrid[1]

这篇文章指出文档中的文本间关系不仅受文本的序列程序影响，还与文档中各文本的版式散布无关。为解决上述问题，作者提出chargrid办法，其将文档图片映射为一个字符级别的2D栅格示意，如图2所示。对于每一个字符栅格采纳one-hot编码表示，整个图片的向量示意为tilde{g} in mathbb{R}^{H×W×N_{c}}_g_~∈R_H_×_W_×_Nc_，其中H_H_和W_W_是图片的长和宽，N_{c}_Nc_是字符类别数。

图2 chargrid的文档示意

随后该向量示意作为chargrid-net的输出，基于encoder-decoder的CNN网络结构（如图3所示）进行要害信息的文本框检测和语义宰割。整个网络由宰割损失、边框分类和边框坐标回归三个局部组成的损失函数优化学习：{mathcal{L}}_{total}={mathcal{L}}_{seg}+{mathcal{L}}_{boxmask}+{mathcal{L}}_{boxcoord}L_total_=L_seg_+L_boxmask_+L_boxcoord_。要害信息内容通过将宰割类别属于同一类别的字符整合失去。

图3 chargrid模型架构

1.2 CUTIE[2]

这篇文章同样指出仅利用NLP技术是无奈解决文档中各文本间的布局信息。因而作者设计了CUTIE办法，如图4所示，将文档图片映射为保留各文本空间地位关系的栅格向量示意，而后设计了两类CNN模型来进行要害信息题：CUTIE-A，采纳高分辨率网络HRNet作为骨干网络；CUTIE-B，采纳空洞卷积的CNN网络。整个模型由每个box的预测类别和实在类别间的穿插熵损失优化学习。

图4 CUTIE模型架构

2. 基于图构造的文档图片要害信息提取技术

基于图构造的办法是将文档图片看作是由文本切片（text segment）组成的图构造，并利用神经网络模型来学习出各文本切片间的关系来提取出文档的要害信息内容。

2.1 GC-BiLSTM-CRF[3]

这篇文章指出传统NER办法BiLSTM-CRF无奈利用文档图片中各文本切片间的布局信息。为解决上述问题，作者提出利用图卷积神经网络来学习文本切片的语义信息和布局信息。

图5 图卷积神经网络学习文本切片的图向量示意

具体地，将文本切片看做点，将文本间关系看做边，来结构一个全连贯图构造。利用图卷积神经网络来学习失去每个文本切片的图向量示意，如图5所示。

图6 引入图向量示意的BiLSTM-CRF

在失去文本切片的图向量示意后，将其与文本切片中每个文本token的Word2Vec向量拼接，输出到BiLSTM-CRF网络中进行文档图片的要害信息提取。整个模型由文本切片分类工作和IOB序列分类工作联结优化学习。

2.2 LayoutLM[4]

这篇文章指出预训练模型曾经在NLP畛域取得了微小的胜利，然而其不足对布局和版式信息的利用，从而不适用于文档图片要害信息提取工作。为解决上述问题，作者提出LayoutLM模型。

图7 LayoutLM模型架构

该模型以BERT（NLP畛域十分弱小的预训练模型）为骨干网络，为了利用布局和版式信息，引入了2D地位向量示意，即各文本切片的两点标注（左上角的横纵坐标和右下角的横纵坐标）别离通过横纵两个方向上的索引表失去的向量。同时能够选择性地退出切片的视觉向量示意以补充更多的信息。因为BERT实质上可被看做是一个全连贯的图网络，因而咱们将LayoutLM也归类于基于图构造的技术。后续呈现了相似于LayoutLM的预训练模型如Lambert[5]等，在文档图片要害信息提取工作上都获得了SOTA构造，证实了深度学习模型基于大语料和大模型的弱小能力。

3.端到端的文档图片要害信息提取技术

端到端的办法，顾名思义，就是间接以原始图片作为输出失去文档的要害信息内容。

3.1 EATEN[6]

这篇文章指出，基于检测辨认流程的信息提取技术会受到如轻微的地位偏移等带来的影响。为解决上述问题，作者提出EATEN办法，其间接从原始图片输出中提取出文档要害信息内容。

图8 EATEN模型架构

具体地，如图8的网络结构所示，EATAN采纳CNN骨干网络来提取失去文档图片的高层视觉信息，而后利用实体类别感知的注意力网络来学习实体布局信息，最初利用基于LSTM的解码器解码失去预设的实体内容。该模型因为间接从图片中失去文档要害信息，易于减速优化，便于边缘部署。

3.2 TRIE[7]

这篇文章指出，现有办法对要害信息提取都是将其作为多个独立的工作进行，即文字检测、文字辨认和信息提取，彼此之间无奈进行互相监督学习，因而作者提出一个端到端的网络模型TRIE，同时对上述三个工作进行模型学习。

图9 TRIE模型架构

具体地，利用ResNet+FPN作为骨干网络，进行文字检测，而后利用检测网络+ROIAlign的后果进行attention+encoder-decoder的文字辨认，最初将文本地位信息、视觉信息、语义信息进行交融，通过BiLSTM来进行IOB标签分类失去文档要害信息。整个TRIE模型对三个工作（即文本检测、文本辨认和信息提取）进行独特优化学习：

小结：

本文对OCR畛域中文档图片的要害信息提取技术进行了简要介绍，将近期技术按模型分为基于栅格、基于图和端到端三种类别，对每个类别筛选了两篇论文进行了论述。总的来说，基于大语料的预训练图模型展现出了微小的实力，而端到端模型也存在不小的后劲。

参考文献：

[1] Katti, Anoop R., et al. “Chargrid: Towards Understanding 2D Documents.” EMNLP, 2018.
[2] Zhao, Xiaohui, et al. “Cutie: Learning to understand documents with convolutional universal text information extractor.” arXiv, 2019
[3] Liu, Xiaojing, et al. “Graph Convolution for Multimodal Information Extraction from Visually Rich Documents.” NAACL, 2019.
[4] Xu, Yiheng, et al. “Layoutlm: Pre-training of text and layout for document image understanding.” KDD, 2020.
[5] Garncarek, Łukasz, et al. “LAMBERT: Layout-Aware language Modeling using BERT for information extraction.” arXiv, 2020
[6] Guo, He, et al. “Eaten: Entity-aware attention for single shot visual text extraction.” ICDAR, 2019.
[7] Zhang, Peng, et al. “TRIE: End-to-End Text Reading and Information Extraction for Document Understanding.” ACM MM, 2020.

点击关注，第一工夫理解华为云陈腐技术~