关于人工智能:合合信息亮相CCIG2023多位大咖共话智能文档未来文档图像内容安全还面临哪些技术难题

近日，中国图象图形大会（CCIG 2023）（简称“大会”）在苏州圆满闭幕。本届大会以“图象图形·向将来”为主题，由中国科学技术协会领导，中国图象图形学学会主办，苏州科技大学承办，特邀谭铁牛院士、赵沁平院士、吴一戎院士等百余位国内外出名学者，来自代表企业的技术专家，共话图像图形学术研究与技术创新趋势，共谋行业新倒退。

（金连文主持《文档图像智能剖析与解决》论坛）

技术论坛《文档图像智能剖析与解决》是本次大会的亮点之一，由华南理工大学二级传授、中国图象图形学学会常务理事金连文负责主持，合合信息智能技术平台事业部副总经理、高级工程师丁凯博士缺席该论坛，并与来自中科院自动化所、北大、中科大的学术专家，华为等知名企业的研究者们，围绕文档图像处理的前沿技术开展“头脑风暴”，寻找文档图像处理畛域的将来进阶方向。

大模型技术晋升文字辨认效率，智能文档解决难题被冲破

近期，ChatGPT 的爆火让“大模型”技术进入了公众的视线。随着人工智能技术的飞速发展，作为图像图形技术的重要利用场景之一，文档图像智能解决逐渐利用到医疗、教育等诸多畛域，为各行各业提供更加高效、智能的文档治理和数据分析解决方案，大模型技术的崛起也为文档解决带来了新的时机。

中国科学院自动化研究所副所长刘成林认为，大模型与光学字符识别（OCR）技术的联合，可能对海量数据进行了解、解决。具体到实际层面，大模型技术还有可观的晋升空间。从辨认性能来说，大模型技术在场景文本、逻辑版面、文档问答等方面还有很多工作能够做；此外，大模型的可解释性、平安度非常重要，还须要研究者们进行更为深刻的探讨。

（刘成林就《人工智能大模型时代的文档辨认与了解》研究课题进行分享）

北京大学邹月娴传授认为，在与文档图像处理技术密切相关的 OCR 畛域中，专业化大规模的预训练模型是可行的。“大模型是一个大的趋势，对于小团队来说做工具是一个十分好的办法，做工具对大家都是有益处的。”邹月娴说。

（邹月娴就《视觉 - 语言预训练模型及迁徙学习办法》研究课题进行分享）

华为 AI 研究员廖明辉提到，企业作为文档图像处理的利用方，广泛面临一个挑战：当有泛滥 API 时，保护难度较高，急需一个垂直畛域的通用的 OCR 大模型，可能笼罩所有的应用场景。廖明辉认为，OCR 垂直畛域的大模型在数据量方面，数据的数量不是最要害的，最要害的是数据的多样性。

除了引入大模型等新技术外，如何实现文档图像的智能剖析与解决还面临着诸多来自事实的挑战。丁凯博士认为，文档的多样性和复杂性是文档图像处理中的难点：文档类型和格局繁多，包含报告、合同、发票、证实、证件等。不同类型的文档有不同的格局和布局，例如文档中经常蕴含图片、表格、图形等各种图像，难以用对立的办法解决。

（丁凯就《智能文档解决技术在工业界的利用与挑战》研究课题进行分享）

丁凯提到，文档图像中的蜿蜒、暗影、摩尔纹，字迹不清晰等问题对文档图像的辨认与解决产生了影响，刘成林也示意，“过来咱们只关注文字，当初文档中的图像也非常重要。然而，现有文档图像识别技术在辨认精度和可靠性、可解释性、自适应性等方面还有显著有余，还有很多技术问题有待解决。”

值得关注的是，人工智能大模型的疾速倒退为文档剖析与辨认带来了一些时机，除了解决辨认档次的遗留问题，在性能晋升、利用拓展上大有可为。合合信息通过 ROI 提取、烦扰去除、形变改正、图像复原以及图像增强这一整体架构对文档进行智能扫描与辨认剖析，将文档图像的蜿蜒改正、摩尔纹去除，图像品质大幅晋升。

除文档图像的通用场景外，合合信息对特定垂直场景下的图像也能进行预处理，针对手写板图片中呈现的反光问题，通过算法模型对反光进行“擦除”。

因为版面复杂多变、文本内容多样化等起因，文档被拍照、扫描成电子文档过程中时常呈现漏字、错位，合合信息继续冲破版面剖析技术在版面宰割、区域间的逻辑关系解决等方面的难题，通过智能文字辨认、智能图像处理等核心技术，确定文档中的文字地位、字体、大小和排版形式等信息，实现版面的剖析和还原。

文档篡改检测技术为视觉内容平安提供保障

目前，人工智能的合成技术导致伪造的多媒体信息在网络上泛滥成灾，文本图像显然是重灾区之一。针对资质证书、文案、聊天截图等文本图像的伪造被用于散播谣言、经济欺骗、假造虚伪新闻，给集体、社会造成顽劣的负面影响。图像内容平安是 AI 平安的重点畛域，如可对文本篡改痕迹进行精准检测，将为图像内容平安提供保障。

中科大传授谢洪涛指出，随着基于深度学习的伪造与取证技术的呈现，目前文本图像的真伪鉴定问题进入了攻防博弈阶段。“文本图像的篡改生成视觉品质高、字体格调对立、背景纹理协调、篡改字迹清晰，文本图像的篡改检测能够说是‘道高一尺、魔高一丈’，适应多种篡改办法、多域空间感知、区域文理辨别、工夫复杂度适中。”谢洪涛示意。

（谢洪涛就《篡改文本图像的生成与检测》研究课题进行分享）

谢洪涛所在的课题组正在摸索基于文本笔迹的文本图像生成，以及基于频域关系的部分纹理差异性建模，最终实现高质量的场景文本图像篡改生成、精确的场景文本图像篡改检测。相干钻研可利用于文本图像的多个畛域，例如文档图像、天然场景图像、票据图像等。

合合信息在文档图像内容平安畛域也进行了深刻的部署。据丁凯介绍，合合信息研发了基于深度学习的图像篡改检测技术及相干零碎，通过学习图像被篡改后统计特色的变动，该零碎智能捕获图像在篡改过程中留下的轻微痕迹，可检测出复制粘贴、拼接、擦除等多种篡改模式，让人工智能精确辨认出图片篡改的不同类型，并进行针对性的解决，晋升辨认精度和场景通用性。据悉，合合信息图像篡改检测技术已被银行、保险、制造业等多个行业引入。

作为一家人工智能企业，合合信息依靠智能文档解决技术，对简单场景下的多版式、多语种文字内容进行精准提取，打造的合同机器人、财报机器人及行业解决方案，已在金融、政务、制作、物流等 30 个行业落地，服务的世界 500 强公司超过 80 家。将来，合合信息将继续为寰球 C 端用户和多元行业 B 端客户提供数字化、智能化的产品及服务，促成 AI 技术在文档解决畛域的利用落地与信息安全保障。