关于人工智能:加速-Document-AI-文档智能-发展

2次阅读

共计 5699 个字符,预计需要花费 15 分钟才能阅读完成。

在企业的数字工作流中充斥了各种文档,包含函件、发票、表格、报告、收据等,咱们无奈主动提取它们的常识。现在随着文本、视觉和多模态人工智能的提高,咱们有可能解锁这些常识,这篇文章向你展现了你的团队该如何应用开源模型来构建收费的定制化解决方案。

Document AI 包含了许多数据迷信的工作,包含图像分类、图像转文本 (image to text)、文档答复 (document question answering)、表格答复 (table question answering) 以及视觉答复 (visual question answering)。

本文将向大家介绍 Document AI 中的六种不同应用场景,以及它们的最佳开源模型,之后重点分三个方面介绍了许可、数据筹备和建模问题,在文章中,有一些 Web 演示、文档和模型的链接。

六大应用场景

构建 Document AI 解决方案至多有六个应用场景,这些应用场景在文档输出和输入的数据结构上有所不同,在解决具体的企业 Document AI 问题时,往往须要综合各种办法。

1. 光学字符识别 (OCR)

将打字、手写或打印的文本变成机器编码的文本,这一过程被称为光学字符识别 (OCR)。这是一个被宽泛钻研的问题,有许多成熟的开源和商业产品,图中展现了一个将手写文字转换为文本的案例:

OCR 是 Document AI 应用场景的支柱,它对于将文本转化为计算机可读的货色至关重要,一些宽泛应用的模型是 EasyOCR 或 PaddleOCR,它们在文档层面上运行。还有一些模型在单行文本图像上运行,比方 TrOCR:基于转化器的光学字符识别与预训练模型,这个模型与 CRAFT 这样的文本检测模型一起工作,它首先以边界框的模式辨认文档中的单个文本「片断」。

OCR 的相干指标是字符错误率 (CER) 和 word-level 精度、召回率和 F1。在这个空间能够看到 CRAFT 和 TrOCR 的演示。

2. 文档图像分类

将文档纳入适当的类别,如表格、发票或函件,被称为文档图像分类。

分类的对象能够抉择文档的图像和文本中的一种或两种,最近,呈现了一些更为先进的采纳视觉构造和底层文本的多模态模型,它们的退出极大地提高了分类器的性能。

一个根本的办法是在文档图像上利用 OCR,而后应用相似 BERT 的模型进行分类,然而,BERT 模型并不能思考到任何布局或视觉信息,同时参考 RVL-CDIP 数据集的图,咱们能够看到不同文档类型的视觉构造是不同的:

这就是 LayoutLM 和 Donut 等多模态模型发挥作用的中央,因为同时纳入了文本和视觉信息,这些模型能够极大地提高准确性,在 RVL-CDIP  (文档图像分类的一个重要基准数据集) 上:

  • 基于 BERT 的模型仅应用文本,实现了 89% 的准确率;
  • DiT (Document image Transformer) 仅应用视觉,能够达到 92% 的准确率;
  • 而像 LayoutLMv3 和 Donut 这样应用多模态 Transformer 将文本和视觉信息联合起来的模型,能够达到 95% 的准确率,它们正在扭转从业者解决 Document AI 问题的办法。

3. 文档布局剖析 (Document layout analysis)

文档布局剖析是确定文档物理构造的工作,即确定形成文档的各个组成部分,如文本段落、题目和表格。

这项工作通常是通过将其作为一个图像宰割 (image segmentation)、物体检测 (object detection)  问题来解决,该模型的输入为一组宰割掩码 / 边界框,以及类别名称。

目前最先进的文档布局分析模型是 LayoutLMv3 和 DiT (Document image Transformer)。这两种模型都应用经典的 Mask R-CNN 框架作为对象检测的骨架。这个 文档布局剖析空间阐明了 DiT 模型如何被用来辨认文档中的文本段、题目和表格。这里展现了一个应用 DiT 检测文档不同局部的例子:

用 DiT 进行文档布局剖析

文档布局剖析通常应用 mAP (均匀精度) 指标来评估对象检测模型,应用 PubLayNet 数据集作为重要基准,截至本文写作,最先进的模型是 LayoutLMv3,其总体 mAP 得分为 0.951 (点击查看各模型精度比照)。

4. 文档解析

比布局剖析更进一步的是文档解析,文档解析的指标是辨认和提取文档中的要害信息,比方辨认发票表格中的名称、我的项目和总数,点击 LayoutLMv2 Space 能够理解如何解析文档,辨认问题、答案和题目。

LayoutLM 的第一个版本 (当初称为 LayoutLMv1) 于 2020 年公布,显著进步了过后存在的基准,现在它依然是 Hugging Face Hub 上最受欢迎的模型之一,用于 Document AI。LayoutLMv2 和 LayoutLMv3 在预训练期间纳入了视觉特色,相比于第一代提供了一个改良。LayoutLM 系列让 Document AI 的性能方面产生了阶梯式的变动。例如,在 FUNSD 基准数据集上,BERT 模型的 F1 指标层面得分是 60%,但应用 LayoutLM,就有可能达到 90%!

LayoutLMv1 当初有许多继承者:

  • Donut 建设在 LayoutLM 的根底上,但能够把图像作为输出,所以它不须要一个独自的 OCR 引擎;
  • ERNIE-Layout 最近被公布了,并获得了令人鼓舞的成绩,请看 Space

对于多语言的应用状况,LayoutLM 有一些多语言的变种,比方 LayoutXLM 和 LiLT,这张来自 LayoutLM 论文的图展现了 LayoutLM 对一些不同文档的剖析:

尽管数据科学家发现文档布局剖析和提取是企业的要害应用场景,但因为大多数企业数据在内容和构造上的多样性,现有的通用商业解决方案通常无奈解决。因而,数据迷信团队通常能够微调本人的模型来超过现有的商业工具。

5. 表格检测、内容提取和构造辨认

文档通常蕴含表格,而大多数 OCR 工具在表格数据上的工作成果并不非常现实,无奈做到开箱即用,这就须要表格的检测,内容提取和构造辨认工作。

检测的工作是辨认表格的地位,提取则是对该信息进行结构化示意,构造辨认是辨认形成表格的各个局部的工作,如行、列和单元。更进一步表格功能分析 (Functional Analysis) 是辨认表的键 (key) 和值 (value) 的工作,下图 Table transformer 的图阐明了各个子工作之间的区别。

表格检测和构造辨认的办法与文档布局剖析相似,应用对象检测模型,输入为一组边界框和相应的类。最新的办法,如 Table Transformer,能够用同一个模型实现表的检测和表的构造辨认。

Table Transformer 是一个相似 DETR 的对象检测模型,在 PubTables-1M  (由一百万张表组成的数据集) 上进行训练。表的检测和辨认的评估通常采纳均匀精度 (AP) 指标。据报告,在 PubTables-1M 数据集上,Table Transformer 的性能在表检测方面的 AP 为 0.966,在表构造辨认 + 功能分析方面的 AP 为 0.912。

尽管表格检测和提取有了一个令人兴奋的办法,但在你的数据上,后果可能是不同的,依据咱们的教训,不同表格的品质和格局差异很大,这会影响模型的体现,所以在一些自定义的数据上进行额定的微调将大大改善性能。

6. 文档答复 (DocVQA)

文档上的问题答复 (Question Answering) 曾经极大地扭转了人们与人工智能的交互方式,最近的停顿使得要求模型答复对于图像的问题成为可能 —— 这被称为文档视觉答复,或简称 DocVQA。

在失去一个问题后,模型会剖析图像,并答复一个答案,下图是 DocVQA 数据集 的一个例子:

  • 用户问道:” 提到写的邮政编码吗?”
  • 模型答复说:” 是的。

在过来,建设一个 DocVQA 零碎往往须要多个模型一起工作,比方用独自的模型来剖析文档布局、执行 OCR、提取实体,而后再应用一个模型答复问题。而最新的 DocVQA 模型可能以端到端的形式进行问题答复,只须要一个 (多模态) 模型。

DocVQA 通常应用均匀归一化列文斯坦类似度 (ANLS) 指标进行评估,对于这个指标的更多细节,咱们能够参考这个指南:

  • 在 DocVQA 基准上,目前最先进的是 LayoutLMv3,这个模型由 OCR + 多模态 Transformer 组成,它的 ANLS 得分达到了 83.37;
  • 而应用繁多的编码器 – 解码器 Transformer 以端到端的形式解决工作的 Donut 模型没有提供最先进的准确性,只是展现了应用相似 T5 的生成模型的端到端办法的微小后劲;

Impira 开发了一个令人 兴奋的 space,阐明了 DocVQA 的 LayoutLM 和 Donut。

尽管视觉答复是是可信的,但若要胜利地应用它,有许多注意事项,须要团队领有精确的训练数据、评估指标和后处理过程。

还要留神 DocVQA 的失常工作也可能出问题:在某些状况下,答复可能是不可预测的,模型可能会呈现 “ 幻觉 ”,给出一个不在文档中呈现的答案,以及视觉答复模型能够继承数据中的偏见,从而引发道德问题,所以要建设一个胜利的 DocVQA 解决方案,确保正确的模型设置和后处理十分必要。

Document AI 中的许可 (License) 问题

工业界和学术界为推动 Document AI 做出了巨大贡献,有各种各样的模型和数据集可供数据科学家应用。然而,对于建设一个企业解决方案来说,许可证可能是一个不小的问题,一些驰名的模型会有限制性许可,它们无奈商用,比方最值得警觉的:微软的 LayoutLMv2 和 LayoutLMv3 的 checkpoints。

当你开始一个我的项目时,应该认真评估潜在的模型的许可证状况,在一开始就晓得你想应用哪些模型,因为这会影响数据的收集和正文,本文开端有一个风行模型的表格,其中有它们的许可受权相干信息。

Document AI 中的数据筹备问题

Document AI 的数据筹备很要害,并具备肯定挑战性,须要有正确正文的数据,以下是咱们在数据筹备方面学到的一些教训和办法:

  1. 机器学习取决于你的数据规模和品质,如果你文档外面的图像品质很差,你不能指望人工智能可能神奇地浏览这些文档,同样地,如果你的训练数据很小,且有很多不同数据类型,模型的体现可能会很差,Document AI 就像机器学习中的其余问题一样,数据越大,性能越好。
  2. 在办法上要灵便,你可能须要测试几种不同的办法来找到最佳解决方案。一个很好的例子是 OCR,你能够应用像 Tesseract 这样的开源产品、像 Cloud Vision API 这样的商业解决方案,或者像 Donut 这样的开源多模态模型外部的 OCR 能力。
  3. 从小处开始,认真评估你的体现。依据咱们的教训,你能够通过几百个文档取得良好的后果,所以先正文大量数据 (annotating data),并明智地抉择模型工具。放大了整体办法,就能够开始扩充数据的规模,最大限度地进步你的预测准确性。在正文时,记住一些工作,如布局辨认和文档提取,须要辨认文档中的特定区域,要确保正文工具反对它的边界框 (bounding boxes)。

Document AI 中的模型构建

构建模型的灵活性为数据科学家带来了许多抉择,咱们强烈建议团队从预训练的开源模型开始,依据你的具体文档微调模型,这通常是取得好模型的最快路径。对于思考建设本人的预训练模型的团队,请留神这可能波及到数百万的文档,并且很容易消耗几周的工夫来训练一个模型。建设一个预训练的模型须要很大的致力,不倡议大多数数据迷信团队应用。

如果抉择从微调一个模型开始,首先要问本人这些问题:

  1. 你想让模型来解决 OCR 吗?例如,Donut 不须要对文档进行 OCR 解决,间接在全分辨率的图像上工作,所以在建模之前不须要 OCR。当然,依据你的问题设置,独自获取 OCR 可能更简略。
  2. 你应该应用更高分辨率的图像吗?当应用 LayoutLMv2 的图像时,它将图像缩减为 224 乘 224,而 Donut 则应用残缺的高分辨率图像。然而,应用残缺的高分辨率图像会极大地减少训练和推理所需的内存。
  3. 你是如何评估这个模型的?留神错位的边界框,确保 OCR 引擎提供的边界框与模型处理器相一致。其次,让你的我的项目要求领导你的评估指标。例如,在一些工作中,如标记分类或问题答复,100% 的匹配可能不是最好的衡量标准,像局部匹配这样的指标能够让更多的潜在标记失去思考,比方 “Acme” 和 “internal Acme” 能够作为匹配。最初,在评估过程中要思考道德问题,因为这些模型可能是在应用有偏见的数据,或提供不稳固的后果,可能对某些人群有偏见。

接下来的步骤

你是否看到了 Document AI 的有限可能性?咱们每天都在利用最先进的视觉和语言模型开释有价值的数据帮忙企业,咱们在这篇文章中蕴含了各种 demo 的链接,所以能够把它们作为一个终点。这篇文章的最初一节蕴含了开始编写你本人的模型的资源,例如视觉答复模型,一旦你筹备好开始建设你的解决方案,Hugging Face 模型核心 是一个不错的终点,它托管了大量的 Document AI 模型。

如果你想减速 Document AI 工作,Hugging Face 能够帮忙你:通过咱们的 企业减速打算,咱们与企业单干,为人工智能应用场景提供领导,对于 Document AI,咱们会帮忙您建设一个预训练模型,进步微调工作的准确性,或为你的第一个 Document AI 案例提供总体领导。咱们还能够提供计算积分,以便您大规模地应用咱们的训练 (AutoTrain) 或推理 (Spaces 或 Inference Endpoints) 产品。

资源

许多 Document AI 模型的笔记本和教程能够在以下网站找到。

  • Niels’ Transformers-Tutorials:
  • Philipp’s Document AI with Hugging Face Transformers

咱们还整顿了 Document AI 最风行的开源模型以及其指标和基准数据集,请 点击这里。

注释局部译者:

丁继峥 Johnson,微信号:ZJUer\_0817 拾象 DAO 成员,浙江大学机器人工程业余,次要关注 AI 模型与交互的前沿停顿,专用机器人的产业落地,通用机器人的有限可能。

博客原网址:
https://hf.co/blog/document-ai

正文完
 0