关于图像识别:文字识别关键信息提取的3种探索方法

141次阅读

共计 3399 个字符,预计需要花费 9 分钟才能阅读完成。

摘要: 如何通过深度学习模型来从文档图片中自动化地提取出要害信息成为一项亟待解决的挑战,受到学术界和工业界的宽泛关注。

本文分享自华为云社区《技术综述十:文字辨认之要害信息提取》,原文作者:小菜鸟 chg。

深度学习模型曾经在 OCR 畛域,包含文本检测和文本辨认工作,取得了微小的胜利。而从文档中提取要害信息(如图 1 所示),其作为 OCR 的上游工作,存在十分多的理论利用场景。应用人力来从这些文档中提取信息是反复且费时费力的。如何通过深度学习模型来从文档图片中自动化地提取出要害信息成为一项亟待解决的挑战,受到学术界和工业界的宽泛关注。上面将对近期几篇相干文章进行简要介绍,并将其分为三个类别:基于栅格(grid-based)、基于图构造(graph-based)和端到端(end-to-end)。

(a) 火车票

(b)购物收据

图 1 从文档图片中提取要害信息

1. 基于栅格的文档图片要害信息提取技术

该类办法基于图片像素点将图片转换为栅格示意向量,输出到深度学习网络中以学习提取要害信息。

1.1 Chargrid[1]

这篇文章指出文档中的文本间关系不仅受文本的序列程序影响,还与文档中各文本的版式散布无关。为解决上述问题,作者提出 chargrid 办法,其将文档图片映射为一个字符级别的 2D 栅格示意,如图 2 所示。对于每一个字符栅格采纳 one-hot 编码表示,整个图片的向量示意为 tilde{g} in mathbb{R}^{H×W×N_{c}}_g_~​∈R_H_×_W_×_Nc_​,其中 H_H_和 W_W_是图片的长和宽,N_{c}_Nc_​是字符类别数。

图 2 chargrid 的文档示意

随后该向量示意作为 chargrid-net 的输出,基于 encoder-decoder 的 CNN 网络结构(如图 3 所示)进行要害信息的文本框检测和语义宰割。整个网络由宰割损失、边框分类和边框坐标回归三个局部组成的损失函数优化学习:{mathcal{L}}_{total}={mathcal{L}}_{seg}+{mathcal{L}}_{boxmask}+{mathcal{L}}_{boxcoord}L_total_​=L_seg_​+L_boxmask_​+L_boxcoord_​。要害信息内容通过将宰割类别属于同一类别的字符整合失去。

图 3 chargrid 模型架构

1.2 CUTIE[2]

这篇文章同样指出仅利用 NLP 技术是无奈解决文档中各文本间的布局信息。因而作者设计了 CUTIE 办法,如图 4 所示,将文档图片映射为保留各文本空间地位关系的栅格向量示意,而后设计了两类 CNN 模型来进行要害信息题:CUTIE-A,采纳高分辨率网络 HRNet 作为骨干网络;CUTIE-B,采纳空洞卷积的 CNN 网络。整个模型由每个 box 的预测类别和实在类别间的穿插熵损失优化学习。

图 4 CUTIE 模型架构

2. 基于图构造的文档图片要害信息提取技术

基于图构造的办法是将文档图片看作是由文本切片(text segment)组成的图构造,并利用神经网络模型来学习出各文本切片间的关系来提取出文档的要害信息内容。

2.1 GC-BiLSTM-CRF[3]

这篇文章指出传统 NER 办法 BiLSTM-CRF 无奈利用文档图片中各文本切片间的布局信息。为解决上述问题,作者提出利用图卷积神经网络来学习文本切片的语义信息和布局信息。

图 5 图卷积神经网络学习文本切片的图向量示意

具体地,将文本切片看做点,将文本间关系看做边,来结构一个全连贯图构造。利用图卷积神经网络来学习失去每个文本切片的图向量示意,如图 5 所示。

图 6 引入图向量示意的 BiLSTM-CRF

在失去文本切片的图向量示意后,将其与文本切片中每个文本 token 的 Word2Vec 向量拼接,输出到 BiLSTM-CRF 网络中进行文档图片的要害信息提取。整个模型由文本切片分类工作和 IOB 序列分类工作联结优化学习。

2.2 LayoutLM[4]

这篇文章指出预训练模型曾经在 NLP 畛域取得了微小的胜利,然而其不足对布局和版式信息的利用,从而不适用于文档图片要害信息提取工作。为解决上述问题,作者提出 LayoutLM 模型。

图 7 LayoutLM 模型架构

该模型以 BERT(NLP 畛域十分弱小的预训练模型)为骨干网络,为了利用布局和版式信息,引入了 2D 地位向量示意,即各文本切片的两点标注(左上角的横纵坐标和右下角的横纵坐标)别离通过横纵两个方向上的索引表失去的向量。同时能够选择性地退出切片的视觉向量示意以补充更多的信息。因为 BERT 实质上可被看做是一个全连贯的图网络,因而咱们将 LayoutLM 也归类于基于图构造的技术。后续呈现了相似于 LayoutLM 的预训练模型如 Lambert[5] 等,在文档图片要害信息提取工作上都获得了 SOTA 构造,证实了深度学习模型基于大语料和大模型的弱小能力。

3. 端到端的文档图片要害信息提取技术

端到端的办法,顾名思义,就是间接以原始图片作为输出失去文档的要害信息内容。

3.1 EATEN[6]

这篇文章指出,基于检测辨认流程的信息提取技术会受到如轻微的地位偏移等带来的影响。为解决上述问题,作者提出 EATEN 办法,其间接从原始图片输出中提取出文档要害信息内容。

图 8 EATEN 模型架构

具体地,如图 8 的网络结构所示,EATAN 采纳 CNN 骨干网络来提取失去文档图片的高层视觉信息,而后利用实体类别感知的注意力网络来学习实体布局信息,最初利用基于 LSTM 的解码器解码失去预设的实体内容。该模型因为间接从图片中失去文档要害信息,易于减速优化,便于边缘部署。

3.2 TRIE[7]

这篇文章指出,现有办法对要害信息提取都是将其作为多个独立的工作进行,即文字检测、文字辨认和信息提取,彼此之间无奈进行互相监督学习,因而作者提出一个端到端的网络模型 TRIE,同时对上述三个工作进行模型学习。

图 9 TRIE 模型架构

具体地,利用 ResNet+FPN 作为骨干网络,进行文字检测,而后利用检测网络 +ROIAlign 的后果进行 attention+encoder-decoder 的文字辨认,最初将文本地位信息、视觉信息、语义信息进行交融,通过 BiLSTM 来进行 IOB 标签分类失去文档要害信息。整个 TRIE 模型对三个工作(即文本检测、文本辨认和信息提取)进行独特优化学习:

小结:

本文对 OCR 畛域中文档图片的要害信息提取技术进行了简要介绍,将近期技术按模型分为基于栅格、基于图和端到端三种类别,对每个类别筛选了两篇论文进行了论述。总的来说,基于大语料的预训练图模型展现出了微小的实力,而端到端模型也存在不小的后劲。

参考文献:

[1] Katti, Anoop R., et al.“Chargrid: Towards Understanding 2D Documents.”EMNLP, 2018.
[2] Zhao, Xiaohui, et al.“Cutie: Learning to understand documents with convolutional universal text information extractor.”arXiv, 2019
[3] Liu, Xiaojing, et al.“Graph Convolution for Multimodal Information Extraction from Visually Rich Documents.”NAACL, 2019.
[4] Xu, Yiheng, et al.“Layoutlm: Pre-training of text and layout for document image understanding.”KDD, 2020.
[5] Garncarek, Łukasz, et al.“LAMBERT: Layout-Aware language Modeling using BERT for information extraction.”arXiv, 2020
[6] Guo, He, et al.“Eaten: Entity-aware attention for single shot visual text extraction.”ICDAR, 2019.
[7] Zhang, Peng, et al.“TRIE: End-to-End Text Reading and Information Extraction for Document Understanding.”ACM MM, 2020.

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0