关于人工智能:CIIS-2023-丨聚焦文档图像处理前沿领域合合信息-AI-助力图像处理与内容安全保障

近日，2023 第十二届中国智能产业高峰论坛（CIIS 2023）在江西南昌顺利举办。大会由中国人工智能学会、江西省科学技术厅、南昌市人民政府主办，南昌市科学技术局、中国工程科技倒退策略江西研究院承办。本次大会重点关注 AI 大模型、生成式 AI、无人零碎、智能制作、数字平安等畛域，会集了来自中国工程院、国内欧亚科学院、国内核能院等多个学术机构的院士进行主题报告演讲、专题论坛研究。近 200 位人工智能畛域专家学者同场交换分享，吸引了线上线下超千万人次观会。

大会现场

行业的倒退离不开信息传递，文档是信息传递最常见的载体之一。智能文档解决技术从来便是学术界重点关注的畛域，多模态大模型能够利用大量的数据进行预训练，无效解决文档图像品质及自然语言解决技术限度问题。基于此，大会期间，中国人工智能学会（CAI）模式识别专委会与合合信息独特承办了《多模态大模型与文档图像智能了解》专题论坛，论坛主席为华南理工大学金连文传授、复旦大学邱锡鹏传授。来自清华大学、华中科技大学、复旦大学、百度、科大讯飞、合合信息等钻研机构和企业的技术专家，围绕行业焦点议题开展探讨。

《多模态大模型与文档图像智能了解》专题论坛现场

“大模型的呈现势必对行业带来微小的影响，文档图像的剖析、辨认、了解与大模型技术间存在互补关系。”合合信息智能技术平台事业部副总经理、高级工程师丁凯博士在《文档图像预训练模型的摸索与思考》分享中提到，在互联网语料“见底”之日逐步迫近之时，电子书成为了大模型训练的新“燃料”，而电子书很多是由文档图像组成的，文档图像识别剖析与智能了解技术能够将大量的文档图像转化为具备丰盛格局信息的文本，为大模型提供更丰盛更高质量的训练语料，解决大模型训练的‘token 荒’的问题。

合合信息智能技术平台事业部副总经理、高级工程师丁凯博士进行《文档图像预训练模型的摸索与思考》主题分享

文档图像技术已走过百年历程，但文档图像品质进化、文字检测及版面剖析艰难、非限定条件文字识别率低、结构化智能理解能力差等问题现在仍是工业化落地中的难题。丁凯认为，文档图像处理技术在推动大模型技术倒退的同时，大模型的小样本学习能力、多任务能力、智能涌现能力对于文档图像处理问题的解决具备重要的钻研价值。

“在已有的学术研究中，文档图像专有大模型在更简单的文档了解问题上存在人造的短板，而一些多模态大模型曾经体现出了从含有表格、图片等多重元素的文档中提取要害信息进行剖析，理解内容的后劲。”丁凯示意，钻研人员能够基于现有的畛域做更好的交融，开拓新的钻研方向。

合合信息 - 华南理工大学文档图像剖析辨认与了解联结实验室也对以下行业前沿问题进行了钻研，包含如何将文档图像识别剖析的各种工作定义为序列预测的模式，通过不同的 AI 提醒词（prompt）疏导模型实现不同的文档图像识别剖析与了解工作，让模型更好地反对篇章级的文档图像识别剖析。

大模型蓬勃成长的反面，大量通过人工、生成式 AI 篡改合成的图片被用于散播谣言、经济欺骗，AI 图像内容平安也成为了文档大模型倒退中亟待解决的痛点。丁凯示意，合合信息智能文档解决技术笼罩了图像预处理、解析辨认到 AI 平安等文档图像处理全生命周期，在端到端晋升文件解决效率、准确率的同时，无效保障用户及企业数据安全。

往年 8 月，合合信息战败了来自寰球的上千支参赛团队，取得了文档剖析与辨认国内会议（ICDAR 2023）“文本篡改检测”赛道冠军。合合信息技术团队提出的计划可能在放弃极低误检率的同时，精确辨认并定位图片中文本的篡改行为，从而无效保障文本信息的真实性。相干计划此前已在银行、证券、保险多个场景中利用。此前，合合信息曾取得 ICPR、ICFHR 等十余项文档图像处理、文字辨认畛域国内比赛冠军。