关于人工智能:CSIG企业行走进合合信息成功举行聚焦生成式人工智能智能文档处理前沿热点

3 月 18 日，由中国图象图形学学会（CSIG）主办，合合信息、CSIG 文档图像剖析与辨认业余委员会联结承办的“CSIG 企业行”系列流动胜利举办。此次流动以“图文智能解决与多场景利用技术瞻望”为主题，特邀来自上海交大、厦门大学、复旦大学、中科大的出名学府的学者与合合信息技术团队一道，面向行内研究者分享图像文档解决中的构造建模、底层视觉技术、跨媒体数据协同利用、生成式人工智能及对话式大型语言模型等钻研及实际成绩。

“CSIG 企业行”流动旨在会集产学研各界资源，探讨图文智能信息技术畛域的最新倒退动静和将来趋势，独特推动图像图形畛域的倒退。会议开始，合合信息科技股份有限公司创始人、CEO 镇立新博士发表致辞，对各位嘉宾、各位加入本次流动敌人们表白了热烈欢迎，向与会代表介绍了合合信息，并示意，合合信息在智能文字辨认（OCR）、图像处理、自然语言解决（NLP）、常识图谱、大数据挖掘等核心技术畛域深耕十余年，自主研发的扫描全能王、名片全能王等 C 端产品深受寰球上亿用户的欢送，服务了 30 个行业的企业客户。

镇立新指出，心愿通过这次流动，增进彼此之间的友情和单干，寻求产学研单干机会，为推动图像图形及人工智能行业的倒退和提高奉献智慧和力量。

随后，CSIG 文档图像剖析与辨认业余委员会主任金连文传授进行了致辞，金连文传授向各位与会代表介绍了中国图象图形学学会的详情，包含学会的组织架构、学会发展的各种学术会议、学术活动、讲习班、会员服务、科技评奖、成果鉴定等服务，欢送大家退出中国图象图形学学会成为会员，也欢送大家踊跃加入 CSIG 举办的各种学术活动。

实践摸索：生成式人工智能将成为将来十年的钻研重心

据国内 IT 钻研机构 Gartner 预测，到 2025 年，生成式人工智能产生的数据将占据人类全副数据的 10%。生成式人工智能技术正减速数字经济的倒退。“企业行”流动中，上海交通大学人工智能研究院常务副院长、长江学者杨小康分享了团队在生成式人工智能畛域的工作，并示意，目前的生成式人工智能还存在解空间微小、宏观一致性差、宏观清晰度受限等问题，须要通过数学、物理、信息论、脑认知、计算机等学科穿插钻研，进一步夯实生成式人工智能的基础理论，通过“物理 + 数据”联结驱动，“虚构 + 事实”深度交融，助力迷信发现的减速。

杨小康认为，以“辨认——剖析”为代表的判别式人工智能推动了人工智能前十年的倒退，接下来十年，以“合成——重建”为代表的生成式人工智能将成为支流。近期频频上“热搜”的 ChatGPT 是生成式人工智能的典型代表。复旦大学计算机学院传授、上海市计算机学会自然语言解决专委会主任邱锡鹏提到，弱小的情景学习能力、思维链能力和天然指令学习能力是以 ChatGPT 为代表的对话式大型语言模型的次要特点，将减速通用人工智能的实现。

据悉，往年 2 月，复旦大学自然语言解决实验室公布了国内第一个对话式大型语言模型“MOSS”，引发业内宽泛关注，邱锡鹏是次要作者之一。“文本所承载的常识只是冰山一角，还有很多‘暗常识’并不是以文本模式记录的。在将来的倒退里，人工智能还有‘具身学习、跨模态学习’等更多常识畛域须要学习。”邱锡鹏说。

学术前沿：简单场景多模态数据分析与了解停顿迅速

人工智能要实现多场景“通用”，须要解决多源数据的问题。“文本、图像、视频是互联网上存量最大的数据，需研发相干算法对其进行无效治理。”厦门大学科技处处长、人工智能研究院负责人纪荣嵘传授认为，社交媒体等信息渠道蕴含了海量非单干、异构化、跨模态的数据，既蕴藏了大量的人类常识与高价值信息，也蕴含了各种天然与人为的噪声，对其剖析与解决须要交融类脑计算、计算机视觉、自然语言解决等多个维度的智能技术。

厦门大学人工智能研究院负责人、国家杰青纪荣嵘传授进行《简单跨媒体数据协同剖析与利用》主题分享纪荣嵘指出，连贯视觉与自然语言的“视觉形容”畛域，是最受关注且最具后劲的人工智能钻研工作之一。视觉和语言的钻研应是双向的，各自的新发现、新办法能够相互迭代促成。跨空间、跨畛域、跨工作常识迁徙方面有较大摸索空间，易于发现新的迷信问题。落地实际：图像文档构造剖析、底层视觉技术倒退受关注语言文字和视觉钻研的交融也为技术落地发明出新的倒退空间。

近年来，人工智能与 OCR（光学字符识别）技术的联合愈发严密，图像文档中波及的简单构造如汉字结构、表格构造、文档总体构造的建模问题，逐步成为钻研热点。中国科学技术大学语音及语言信息处理国家工程钻研核心副教授杜俊就团队在文档构造层次化重建畛域的最新进展进行分享。

“现阶段文档剖析工作中，大多数钻研是针对单页内的文章因素的解析，但从内容角度看，许多文档页与页之间内容有关联。”杜俊示意，图像文档解决能力要达到“篇章级”，冲破手写、天然场景下的汉字建模难点，做好跨页文档的因素分类、文档构造复原是团队的次要钻研指标。底层视觉是智能文档解决的重要钻研方向之一，次要钻研如何进步或复原各类场景下的图像、视频内容，如清晰度晋升，低质量及破损图像复原等，相干实践和办法在手机图像采集与解决，医疗图像剖析等畛域施展着至关重要的作用。

合合信息图像算法研发总监郭丰俊博士针对目前底层视觉技术在解决形变、含糊、暗影遮蔽、背景芜杂的文档时遇到的典型问题，就公司技术团队在智能图像处理技术模块、交融技术典型利用、图像平安畛域等畛域的研究成果进行了分享。

郭丰俊提到，合合信息智能文档解决技术基于对图像指标区域的精准裁剪，对蜿蜒、歪斜透视的页面进行形变改正，在去除暗影、摩尔纹后，通过人工智能技术对文档图像进行加强锐化和清晰度晋升，达到“图像品质加强”的成果，在改善浏览体验的同时，也晋升了辨认转换、图像剖析等文档解决上游工作的质效，相干技术已通过“扫描全能王”等智能文字辨认产品，服务寰球上百个国家和地区的上亿用户。

学术报告完结后，各位与会代表参观了合合信息展厅，与合合信息技术人员进行了热烈的交换互动。大会特邀嘉宾还与合合信息的技术研发人员就图形图像解决、人工智能等畛域的前沿技术问题、产学研单干、ChatGPT 技术发展趋势及对产业的影响等议题进行了深刻宽泛的探讨和交换。