关于人工智能:智能文档处理IDP关键技术与实践

什么是智能文档解决？针对文本数据处理尤其是纯文本，大家通常会想到应用自然语言解决（Natural language processing，NLP）技术来解决语义了解及剖析解决工作。对于自然语言解决技术的钻研有很长历史，针对不同层面文本处理和剖析有很多技术点，常见技术例如分词与词性标注、命名实体辨认、句法结构剖析、文本分类、文本摘要等性能。相较于纯文本，文档的信息表白更加简单，除各种模式的文本信息外，还包含表格、图片等信息。因而要正确理解文档中的所有内容，仅凭自然语言解决技术难度很大，须要联合其余技术。

图 1 常见文字信息表达方式

智能文档解决（Intelligence Document Processing, IDP）技术 是针对文档内容主动解决剖析的一揽子技术，除自然语言解决技术外，还包含计算机视觉、文档解析等相干底层技术，因而相较于 NLP 技术，IDP 技术更加简单。在 IDP 技术中，光学字符识别（Optical Character Recognition，OCR）技术，文档解析（Document Parsing，DP）技术和信息提取（Information Extraction，IE）技术最为外围要害，应用最为宽泛。

光学字符识别技术 次要解决文字以图像模式展示的问题。很多文字信息在文档中以图表模式展示，甚至很多文档也以图像模式保留，因而须要 OCR 技术提取文档中的所有文字及其地位进行剖析。另外有些 PDF 文件对文字内容加密，无奈间接拿到字符信息，也需 OCR 技术拿到正确文字内容。

文档解析技术 包含不同类型文件协定解析、文档内容对立示意、版面剖析技术、表格解析技术等，目标是把不同类型文档及其中各类元素信息用同一套协定示意文档构造及内容，蕴含图像和语义信息。

信息提取技术 指的是依据文档构造及内容信息，应用不同算法对不同文档元素进行信息提取，合并抽取信息后果，并依据业务需要进行输入。基于以上核心技术，智能文档解决的通用流程如下图所示：

图 2 通用智能文档解决流程

光学字符识别技术绝对成熟，利用范围广，通常状况下，对于清晰的图像，字符识别准确率较高。然而特定的场景下，例如透视、含糊、光线有余、高密度文字等状况下，OCR 零碎的辨认成果降落很大，给理论场景中图片模式的文档解决带来艰难。OCR 技术路线通常有两种：端到端一阶段的办法检测、辨认二阶段的办法两种技术路线各有劣势，没有相对的好坏。端到端的办法劣势在于特定场景成果拟合能力强，但毛病是训练较为艰难，成果不太可控。对于一阶段办法，达观罕用于印章、车牌等特定场景的文字辨认。二阶段办法可能别离在不同步骤达到最佳成果，并能通过业务干涉不同阶段输入后果应用较为灵便，因而达观罕用于通用文档辨认场景，毛病是须要保护两个独立模块，老本绝对较高。

图 3 OCR 支流技术路线

01 文本检测算法概览

文本检测算法的目标是找出图像中文本所在位置，通常状况下是以文本片段组成的文本框为检测指标，当然也有针对单个字符的文本检测形式。针对文本检测，目前分为基于回归的办法和基于宰割的办法。

基于回归的办法代表算法有 CTPN、SegLink、EAST、CRAFT 等，这些办法各有优劣，在不同状况下存在成果差别问题。基于回归的办法对规定形态的文本检测成果较好，但对于不规则文本以及长文本检测成果不佳。

基于实例宰割的代表算法有 PSENet、DBNet、FCENet，可能针对各种形态的文本都可能获得较好的检测成果，例如大量应用手机拍摄导致的文字扭曲变形等问题，因而在理论落地时应用较多。基于实例宰割办法的毛病是后处理通常比较复杂，须要针对后处理局部代码进行非凡优化，能力在成果和速度上保障最优。下表展现了常见文字检测算法及优缺点。

表 1 常见文本检测算法及优缺点

02 文字辨认算法概览

文字辨认技术路线次要经验三个阶段：

以 CRNN 为代表基于 CNN-RNN 构造的辨认模型
基于 Transformer 的 Encoder-Decoder 辨认模型
基于 Vision-Language 视觉语义交融的模型。

图 4 三种文字辨认技术路线

CRNN 为代表的模型次要蕴含两个模块：Vision Model（视觉特征提取）和 Sequence Model（文字转录）两个模块。视觉特征提取利用经典 CNN 形式较容易了解，而文字转录模块利用 Bi-LSTM 和 CTC 解码将视觉特色转换成文字序列特色。CRNN 模型比拟经典，并且在大部分场合都能获得较好的成果，应用较广。毛病是对于文字变形、遮挡等烦扰很敏感，容易误辨认。

基于 Transformer Encoder-Decoder 构造的模型，因为能更好地利用上下文信息而晋升了准确率, 但因为 Transformer 模型绝对较重，在理论应用中须要思考裁剪蒸馏等形式能力更好落地。基于 Vision-Language 的模型，将视觉和语义进行交融，长处是可能取得更多更精确的语义信息，有时会有较好的成果，但通常模型更大，影响辨认效率。文字辨认残缺流程由图像改正、视觉特征提取、序列特征提取和预测解码组成。个别通用流程如下图所示：

图 5 文字辨认通用流程

对于上述流程波及的代表性算法介绍如下表格所示：

表 2 文字辨认支流算法及比拟

CTC 解码在文字辨认中是十分经典的办法，但在简单烦扰场景下会有成果问题，而基于 Attention 的办法对于艰难样本往往可能获得较好的成果。这两种办法是达观产品中的支流办法，可依据场景灵便适配。对于两种办法的网络结构图对比方下图：

图 6 两种文字辨认网络结构比照

03 达观对于 OCR 技术的实际和优化

针对文档解决的简单场景，没有一个通用的技术框架和算法可能解决所有问题，须要针对具体问题进行多种模型优化、流程调整等工作。针对文档 OCR 辨认，常见问题包含文字检测遮蔽问题、密集小文本指标检测问题等问题都须要针对性解决。文字遮蔽导致的检测问题比拟常见，在理论场景中，例如印章、水印等遮挡导致底层文字检测生效。对于印章，红色印章能够通过通道过滤获得不错的成果，然而对于黑章来说难度减少很多。下图是直观表述同时有红黑两种印章时，对于文字检测的影响。能够看到右侧彩色背景两头后果中，红框范畴内文字检测存在含糊判断。针对遮蔽问题，次要有三种形式优化：文档预处理打消印章影响，例如红章通过色彩通道淡化去除数据层面加强印章遮蔽样本模型层面减少印章宰割设计，强化特色拆散。

图 7 不同色彩印章遮蔽对于文字检测的影响

小指标密集文字也是常见的场景，例如银行流水、表单数据、工程图纸等。因为独自的文字区域占整个图像面积较少，加上密度较大，不经优化会呈现大面积的漏检、误检景象。针对这种场景，达观除减少数据层面的积攒外，在模型层面进行多尺度的特色设计，大大晋升小指标的召回率和准确率。下图展现对于流水后果的检测后果，此优化已胜利利用于理论产品我的项目中
。

图 8 银行流水密集型文字检测优化

文档解析技术文档解析技术是智能文档解决中另外一项关键技术。理论场景中不同类型的文档在解决中常会遇到以下问题：

电子版 PDF 或扫描件等文件，会失落段落、表格等结构化信息；
版面与表格等文档构造信息如何供算法应用；
学术算法经常面对构造简略标准的文字模式，与工业实在场景存在鸿沟；
不同文档协定格局表白简单，如何将不同类型的文档对立示意，才可能满足不同上下游工作的解决。

文档解析次要工作包含以下三个方面：

不同类型文件协定解析，例如 PDF、Word、OFD 等，须要映射到对立形象的文档格局；
版面还原，辨认每页各种元素，如页眉页脚、题目、段落、表格、插图、目录等；
表格解析，将表格中的信息精确还原为二维矩阵构造。

图 9 工业界和学术界文本处理对象差别微小

01 文档格局解析技术

常见的文档格局包含 Word、PDF（Portable Document Format）、OFD（Open Fixed-layout Document）等，大部分文件协定的设计都以对象树为次要构造。以 PDF 协定为例，下图展现 PDF 文件的理论内容以及文档元素对象的组织构造：

图 10 PDF 协定文档元素对象组织构造

PDF 格局在渲染展现上有很大劣势，能在不同设施和零碎环境下稳固放弃渲染内容的一致性，对浏览敌对，但 PDF 解析编辑绝对艰难，因为 PDF 协定内置对象类型无限，一些相似表格、页眉页脚等因素类型信息缺失，文字、线条、形态等因素也只包含内容、色彩、大小、地位坐标等信息，须要依据渲染的后果判断元素类型并进一步解决。常见的优良 PDF 开源库包含 PDFBox、MuPDF、PDFMiner 等。OFD 由工业和信息化部软件司牵头中国电子技术标准化研究院成立的版式编写组制订的版式文档国家标准，相似 PDF，属于我国的一种自主格局，例如 OFD 格局的发票目前已失去宽泛应用。而基于 OpenXML 的 Word 格局 docx 解析起来绝对容易，可能拿到包含款式在内的丰盛信息，除微软官网提供的 SDK 外，也有很多优良的开源我的项目。

02 版面还原技术

版面还原技术就是剖析文档中每个页面有哪些类型的元素及的各元素大小地位形态等图像信息，通常状况下依据渲染后的页面图像进行剖析，因而次要应用到计算机视觉技术。版面还原技术的意义次要还是和图像、PDF 等文件格式不足高层次文档元素对象的问题相干，例如页眉页脚在很多业务场景中须要被过滤掉，但在 PDF 文件中，页眉页脚只是一个单纯的文本框，仅凭文字信息不足以判断此文本框是否是页眉页脚。尽管能够利用有些规定的过滤掉页眉页脚，但规定通用性较差。除此之外，还须要划分段落、题目、目录、表格、插图等更多页面区域，文档元素类型还可能依据业务场景产生扭转。

基于计算机视觉的形式有较好的通用性，和人类察看文档版面信息过程统一，通常应用基于指标检测计划和图像宰割计划，两种计划各有优缺点。对于版面还原这个工作，有明确的业务属性，一个区域要么属于段落，要么属于表格或者其余类型，不会存在既是段落又是表格的状况，应用指标检测的计划，就要额定梳理重框问题。而应用图像宰割的计划则不存在这个问题，从输入输出的角度更适宜，但图像宰割资源要求绝对较高，例如基于 FasterRCNN 的 MaskRCNN，在原模型根底上扩大了一个 Mask 分支，速度绝对会慢一些。

图 11 基于 FasterRCNN 的版面还原成果

图 12 基于 MaskRCNN 的版面还原成果

03 表格解析技术

表格是信息承载的重要形式，作为一种半结构化数据，被大量利用于文档中。对于表格信息，通常有电子格局（excel、csv、html）和图像格式两种模式，电子表格绝对于图像表格，不仅可能渲染供浏览，还能够依据相干协定进行指定单元格内容的读取、批改等。此处介绍的表格解析技术次要解决图像模式表格构造内容辨认问题，而不是 excel 这类电子表格辨认问题。特地地，电子版 PDF 文件中的表格因为不足相干协定，也须要应用图像形式来解析。表格的类型个别依据表格线是否残缺也能够将表格划分成 3 种类型：全线表格、少线表格、无线表格三种，针对以上三种表格的解析办法也有差别。

图 13 三种表格类型划分

表格解析的指标是找到文档中的所有表格区域并将表格构造还原成二维矩阵。从技术框架上看，表格解析有端到端一阶段的形式和区域检测、构造解析两阶段的形式。在咱们的测试中，整体准确性上来说端到端和二阶段办法差异不大，但思考到业务上的疾速修复性，达观抉择二阶段形式。

端到端形式代表性的办法有 TableNet、CascadeTabNet 等。TableNet 采纳图像宰割思路，将图片送入骨干网络，而后通过两个分支别离生成表格区域和列的 mask，而后通过规定生成行，最终失去具体单元格的内容。CascadeTabNet 基于 Cascade R-CNN，先检测出表格区域同时对表格类型划分（有线、无线），而后检测单元格区域，最初依据表格类型做后处理失去最终的表格构造。这些算法在公开数据集成果不错，但因端到端难以解决具体 badcase，在理论业务应用上存在肯定局限性。

二阶段形式次要是表格区域检测和表格线条检测两大块。表格区域检测问题绝对简略，基于指标检测或宰割都能够实现，次要问题是理论业务定义差别会影响模型成果，须要在数据层面多下功夫。而表格线检测是技术重点，因为表格解析算法最终能够看作是表格线辨认的问题，有了表格中所有表格线，就能还原整个表格构造，解决办法有基于传统 CV 的算法和深度学习算法。

基于传统 CV 的算法，以经典的霍夫变换为代表，长处是不须要数据标注且不需 GPU 资源，算法成熟稳固，对于电子版 PDF 表格成果很不错，但拍照扫描等场景中扭曲、光照等因素导致泛化能力个别，须要在图像预处理和后处理下很大功夫。基于深度学习的算法，如 UNet，长处是对于上述扭曲、变形、光照等泛化能力强，毛病是须要大量的数据标注，计算资源也比拟高。

通过应用基于深度学习的算法，可能较好解决传统算法对于图像品质要求高的问题，上面两图展现了利用宰割的思维辨认表格线的成果，能够看到尽管原图品质不佳，要么线条特地含糊要么整体扭曲透视较为重大，但整体解析成果较好。

图 14 线条含糊图像表格线检测成果

图 15 揉捏扭曲表格线检测成果

不同于传统纯文本实体辨认，理论场景中文档信息提取挑战更大，次要有以下艰难：

文字表现形式简单，文档内有页眉页脚、表格、图片等多种文字信息表达方法，须要别离解决；
畛域常识欠缺，理论文档应用词汇和行业场景高度相干，例如产品、型号等专名，须要针对专有畛域数据优化模型；
信息点上下文长度跨度大，既有短文本实体信息抽取也有长上下文抽取，例如招股书，须要抽取公司名称、募集金额等短文本信息，也须要公司概况、高管根本状况等长文本信息，技术计划跨度很大；
软硬件资源限度，除单纯模型成果外，还要思考推理工夫、硬件老本这 2 种度量维度，须要依据理论状况灵便抉择均衡。

针对以上问题，不仅须要针对具体问题一一解决，同时须要设计一个优良的信息提取框架，在理论应用中可能灵便配置实现一种或多种信息提取工作。下文将介绍达观在相干问题解决中的教训。

01 纯文本抽取 vs 文档抽取

绝对纯文本抽取，文档信息抽取有以下区别：

文档格局泛滥，理论场景文档类型除 word 等可编辑格局外，还存在 PDF、jpg 等不可编辑格局，从中拿到文本信息并且合乎浏览程序就很艰难。本文后面介绍的文档解析技术次要解决不同格局文档文本信息提取的问题，为文本抽取打下基础。
语义上下文跨度大，除传统的信息点左近上下文信息外，还包含章节题目甚至文档类型等跨度更远的上下文信息。
高维文本问题，文字信息不光和自身的语义信息相干，也和其款式、模式（例如表格、图片）相干。
针对文档信息抽取相干钻研较少，目前大部分成熟技术还是基于纯文本数据钻研居多，尽管近几年多模态信息抽取、长文档信息建模也有不错的钻研工作，但理论落地过程中少有系统化的成熟教训供参考，须要厂商本人开发钻研。

针对文档抽取，除各类算法自身成果优化晋升外，设计一个功能丰富且正当的抽取框架十分要害。为满足以上需要，达观数据设计了一套基于微服务架构的抽取框架，通过将一个简单的抽取工作分解成多种抽取子工作独自解决，最初再将后果合并返回最终抽取后果。

图 16 基于微服务的抽取框架

理论工作中，依据文档类型的不同，抽取核心通过推送不同抽取类型音讯进入队列，上游相干抽取算法模块进行独立解决。简略的抽取工作例如对于财务报表的信息提取，抽取核心只需生成表格单元格抽取信息，并提供表格相干上下文信息。而简单的例如招股书、债券募集说明书等长文档抽取，抽取核心须要依照字段类型进行不同抽取信息的音讯散发，并提供私有上下文和各算法所需公有上下文，上游各类型抽取算法模块同时工作。上述计划还有一个长处是针对非凡场景的抽取，能够灵便裁剪服务类型，或依据业务量针对性调整某类抽取算法服务正本数达到资源和业务量的均衡。在算法设计上，除之前基于联结标注的序列标注抽取实体关系的工作外，达观也尝试应用对立信息抽取（UIE）框架。因为达观 IDPS 平台除实体抽取工作外，还反对关系抽取、元素抽取等工作，不同工作类型的网络结构差别导致数据和预训练模型复用受限造成资源节约，零碎也更简单。通过设置不同抽取类型的 Schema，利用 UIE 端到端生成结构化后果的思维，能够实现单模型多任务的抽取成果。

表 3 不同工作在 UIE 下的 schema 设计及成果

02 通用模型 vs 畛域模型

以后以大规模预训练语言模型为根底进行语义示意，上游再依据工作类型设计网络结构，已成为各类 NLP 工作的根本范式，在很多场景工作下不仅整体性能更好，所须要的标注数据也更少。但公开的预训练语言模型通常应用通用语料数据训练，在迁徙到特定畛域上游工作时成果会打折扣。最次要的起因就是畛域间数据分布差别很大。

具体表现如下：

训练数据不统一。例如金融场景的特定词汇如股票、基金、利率、资产等词汇概率远高于其余畛域语料；
预测标签散布不同，例如在金融危机相干数据，负面标签远多于侧面标签次数；
上下文信息不统一，例如在表格数据中，上下文信息不仅包含同一单元格内相邻文字，也蕴含雷同单元格、行表头、列表头等。

为解决畛域自适应问题，钻研方向次要分为以模型为核心的办法和以数据为核心的办法。从实现形式上来说，应用以数据为核心的办法更加灵便，利用面更广，并可继续训练迭代。在实践中，达观数据已服务泛滥证券、银行等金融机构，积攒了大量的金融畛域语料和相干上游工作训练数据，在金融畛域的持续预训练语言模型能够解决畛域常识、数据分布上存在的差别，进步金融文档相干的 NLP 上游工作的成果。

具体来讲有以下两方面工作：

数据处理层面，收集从公开网站上获取的金融财经新闻布告等数据，联合达观积攒的金融畛域文本数据，经数据清理后失去数百万条预训练文本数据
模型设计层面，选用中文 RoBERTa 作为根底模型，采纳 whole word masking 的掩码形式，进行持续预训练。通过测试，应用迭代后调优后的预训练语言模型在各个金融畛域的上游工作中，成果广泛晋升 2～3%

另外从应用角度上来看，畛域迁徙须要大量的技术常识，对应用人员算法技术要求高，而达观 IDPS 产品的应用人员更多是业务老师、常识工程师等非技术人员，因而借鉴 AutoML 的思维，让零碎可能在无限的迭代次数内摸索最优模型和超参，并主动集成。具体来说，会思考训练文档的页数散布数据、标注数据的页码地位散布、机器性能资源等多种信息进行主动学习，在干涉较少的状况下失去绝对较优的模型成果。

03 短文本抽取 vs 长文本抽取

通用文本抽取技术研究所需解决的文本上下文较短，例如 Bert 可解决长度 512 个字符，可能满足大部分场景，如果超过此长度须要进行窗口滑动。在理论场景中，例如招股书抽取，上下文长度远超 512 个字符。

通常长文本抽取有以下艰难：

数据量少，正样本过于稠密；
数据分布不平衡，负样本远比正样本多，而且 Easy Negative 数据远比 Hard Negative 数据要多，导致在训练过程中，通过大量迭代就会被模型充沛学习并正确预测，导致数据中的“艰难负样本”和正样本对模型训练迭代的影响过低，无奈被充沛学习；
端到端形式不足灵活性，理论应用受限，SOTA 办法常应用端到端的形式，但工业场景经常须要精准监控各环节奉献和精准优化各个模块。

为解决以上问题，除批改模型构造、参数让传统经典网络更好建模长文本外，也能够通过业务特色进行流程优化，次要思维是依据关键词或者相干题目上下文，将训练或预测数据预处理，仅在无限的文档区域内建模，缩小负样本带来的数据不平衡问题，同时能大大晋升训练、预测速度。例如达观应用章节拆分定位技术，利用文档解析失去的文档目录构造，依据标注数据放大建模范畴，例如能够将实体抽取范畴定位到某章甚至某些段落中，将几百页的上下文信息压缩到最相干的几个自然段，晋升模型性能，在实践中获得十分好的成果。

04 三维度量评估体系

个别学术研究最重要的优化指标是成果，对于资源、工夫的考量权重绝对较低，而工业落地往往相较于学术界更重视于工夫、空间与成果的综合后果，咱们称之为三维度量。在工业落地中，客户软硬件差距微小，须要适配不同部署硬件计划，并可能会有硬件瓶颈导致计划大改，例如有些客户没有 GPU 或相干资源十分无限，导致基于深度学习的算法计划受限。与此同时，我的项目指标考察点也不仅仅只关注成果，也须要关注应用时的响应工夫、解决能力等多种因素，须要依据理论状况多方面衡量。另外因为理论场景资源无限，须要充分利用已有资源，不同工作正当应用资源、灵便撑持业务流量变动，对于零碎的架构和调度能力提出很大要求。

为了可能满足三维度量评估体系，理论生产中对于具体模型须要应用裁剪、蒸馏、量化等形式进行模型体积、资源占用优化的同时，也心愿可能尽量保障原有模型成果，挑战比拟大。在实践中，达观总结多套成熟的零碎算法配置，依据我的项目需要抉择最佳配置主动实现相干优化工作。例如 Bert 蒸馏，老师网络应用经典 base Bert 模型，共有 12 层网络及超过 20M 的参数保证数据拟合准确性，而学生网络依据理论场景资源限度应用小 8 倍的 tiny Bert 甚至 Bi-LSTM 保障预测精度。下图展现达观 IDPS 中应用的常识蒸馏流程。

图 17 常识蒸馏在达观 IDPS 中的应用

另外在服务架构上，思考到资源受限尤其是 GPU 资源受限问题，将模型网络拆分，将重计算且多任务专用的语义编码网络独立进去作为服务并部署在无限的 GPU 资源上，通过近程调用撑持各个上游工作。达观基于此提出 Transformer as a Service 的计划，此计划的劣势是不便对 GPU 资源进行集中管理，应用 Redis 等中间件实现分布式缓存，优化整个大工作的耗时，并能很好反对跨环境、跨架构的不同服务（很多客户 CPU 和 GPU 机器独立部署运维），同时不便预训练语言模型整体成果的迭代、优化。通过验证，在损失 1 个点左右精度的成果状况下，整体资源要求大幅升高，并已应用在多个我的项目中。

图 18 Transformer As Service 的应用示例

问题与瞻望

前文介绍了智能文档解决中的一些关键技术的原理及应用，虽受制于内容较多篇幅无限，但仍能够看到绝对于纯 NLP 或者 CV，智能文档解决零碎更加简单，且系统化钻研工作较少，须要长期投入较多资源深刻研发。又因为解决对象是文档，和理论工作联合严密，因而往往理论落地时被要求和人工比照，成果要求很高。整体来看，智能文档解决在理论场景中的落地工作次要有以下三方面问题：

01 场景抉择

问题场景抉择问题是很多我的项目落地的关键问题。随着人工智能技术的倒退，之前很多艰难的问题失去解决或者改善，例如语音辨认、人脸识别等技术曾经比拟成熟并在多个场景中应用，给 AI 相干技术我的项目的落地加强了信念。对于智能文档文档解决畛域，很多我的项目场景中对于文档解决局部，心愿可能借助 IDP 技术提高效率，通常状况正当的应用流程能够达到这个指标。

然而理论中，因为 IDP 系统对标是白领工作者，加上对于 AI 能力认知偏差，导致很多场景中对于 IDP 零碎的应用形式和成果要求不合理，最常见的误区就是心愿零碎齐全代替人工整个流程百分百由机器执行，并且整体准确率超过人工。机器对于人工来说最大的劣势就是速度和粗疏，然而对于文档解决这种智力密集型工作来说，一些简单业务场景尤其是须要逻辑思考的文档解决，零碎的解决成果还是比人工稍逊。因而在这种场景下，比拟适合的形式是机器预处理，解决一些简略的问题，再由人工复核，晋升整体效率，例如债券募集说明书的审核，目前很多券商曾经胜利应用机器预审人工复核的形式晋升效率。而对于简略的场景，或者有相干零碎可能进行业务校验的场景，则能够齐全应用机器，例如财务报销、财务合同审核等，只有要害信息点和内部数据穿插验证没有问题，即可主动通过，而有问题的文档再通过人工解决。因而正当的场景抉择，人机交互的流程设计十分重要，可能实现最终整体的我的项目指标。

02 业务知识问题

业务知识问题是另外一个常见问题。之前探讨的 IDP 核心技术和业务知识分割较少，在理论场景中，零碎对于业务知识的缺失甚至比模型数据匮乏更重大，例如雷同的合同，法务和财务所关怀的业务信息点有很大差别，仅有财务常识不能实现法务审核。业务知识实质上不是一个 AI 问题，是依据场景总结的工作要求或教训，这种常识逻辑现阶段 AI 零碎很难精确学到，通常须要通过编码方式表白，或通过常识图谱进行肯定的常识推理。因而理论落地过程中，业务分析师和常识工程师角色十分重要，须要梳理理论的业务流程和相干信息点，并配合编码人员进行程序编写，模型训练，最终业务知识和 AI 模型配合能力实现具体业务工作。对于 IDP 零碎，业务知识积淀的深度和广度尤为要害，须要我的项目上不停积攒。

03 产品化问题

产品化是关系到智能文档解决具体落地的老本和范畴最要害的因素。不同于其余 AI 产品，IDP 产品面向理论业务，因而应用人员的主体除技术人员外，业务人员占大多数，如何设计产品交互，组合产品性能，让业务人员更容易上手是关键问题，很多技术概念知识点须要通过产品包装，不能技术思维为导向。于此同时，也要满足不同场景中模型和业务的疾速订制工作，底层核心技术能力要容易被二次开发不便技术人员应用，例如模型调参、接口调用等技术性能的丰富性也很重要。好的产品设计应该要满足上述两点，依据用户角设计产品性能和界面，该简略时简略，该简单时简单。

另外针对具体的业务场景，产品化对于我的项目复制帮忙很大。当业务场景比拟具体时，阐明相干业务知识比拟清晰，数据类型比拟固定。如果此场景是行业通用，则能够花较多工夫针对性优化模型成果，丰盛业务知识，甚至进行产品界面革新降级。例如达观在 IDPS 零碎平台根底上，联合业务场景常识，开发出的智能流水审核、募集书审核、财报审核等产品，可能做到开箱即用，大大不便我的项目交付降低成本，而且从实质上来讲，上述产品是 IDP 核心技术根底上，联合行业常识，进行模型优化改良的一个个产品插件，能够一直积攒，让 IDP 的产品能力越来越强，也能反推 IDP 相干技术一直晋升，解决更多的场景问题。

置信随着技术和产品的倒退，智能文档解决 IDP 可能应答更广更深的文档解决工作，达观数据也会继续投入相干产品技术研发，深耕行业场景利用，为泛滥客户继续发明更大的价值。

高翔，达观数据联结创始人，达观智能文档审阅 IDP 和 OCR 总负责人。自然语言解决技术专家，上海交通大学通信业余硕士，上海交通大学校友会 AI 分会副秘书长，复旦大学校外研究生导师，2019 年获上海市“青年科技启明星”人才名称，首批上海市人工智能高工职称获得者。

关于人工智能:智能文档处理IDP关键技术与实践

光学字符识别技术

信息提取技术

作者简介

Just My Socks（注册教程内含优惠码）

关于人工智能:智能文档处理IDP关键技术与实践

光学字符识别技术

信息提取技术

作者简介

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）