共计 3912 个字符,预计需要花费 10 分钟才能阅读完成。
文档是人们在日常生活、工作中产生的信息的重要载体,各畛域从业者简直每天都要与金融票据、商业布局、财务报表、会议记录、合同、简历、洽购订单等文档“打交道”。让计算机具备浏览、了解和解释这些文档图像的能力,在智能金融、智能办公、电子商务等许多畛域具备广大的利用价值。
现阶段,文档图像的处理过程中面临着诸多挑战:文档类型的多样产生了繁冗的版式与构造;受拍摄器材、背景环境影响,图像时常存在噪声和品质问题。文档图像处理是图像图形技术钻研的重要方向,中国图象图形学学会等业余组织及合合信息等人工智能企业长期关注文档图像智能剖析、解决焦点议题,发展了系列研发和实际工作。
文档解决中常见的问题
2023 年 5 月 11-14 日,中国图象图形大会(CCIG 2023)将于苏州举办,谭铁牛院士、赵沁平院士、吴一戎院士、徐宗本院士、胡事民传授、高新波传授确定光临 CCIG 2023 大会,并作大会宗旨报告。泛滥专家学者将齐聚苏州,开启“最强大脑”,为大家带来一场精彩的学术盛宴。大会以“图象图形向将来”为主题,会集 100 余位国内顶尖学者以及知名企业专家、2000 余名科研院校师生、一线技术工程师,独特摸索图像图形技术行业的最新进展。
为了促成文档图像剖析与解决畛域的技术交换及倒退,中国图象图形学学会文档图像剖析与辨认业余委员会与合合信息独特打造了《文档图像智能剖析与解决》高峰论坛。
本次论坛中,合合信息特地邀请了来自中科院自动化所、北大、中科大、华南理工大的学术专家与华为等知名企业的研究者们,围绕文档图像处理及 OCR 畛域的前沿技术开展“头脑风暴”,寻找文档图像处理畛域的将来进阶方向。
论坛工夫:5 月 13 日 13:30-17:30
观看形式:扫描下方议程海报二维码,在线观看直播
编辑
讲者信息
讲者一:
姓名:刘成林
单位和职称:中国科学院自动化研究所,研究员
个人简介:刘成林,中国科学院自动化研究所副所长,研究员、博士生导师,中国科学院大学人工智能学院副院长。1989 年、1992 年、1995 年别离在武汉大学、北京工业大学、中国科学院自动化研究所获学士、硕士和博士学位。1996 年至 2004 年先后在韩国科学技术院、日本东京农工大学、日立地方研究所从事博士后和研发工作。2005 年起在中国科学院自动化研究所任研究员。2008 年取得国家杰出青年科学基金。钻研趣味包含模式识别、机器学习、文字辨认与文档剖析等。在国内外期刊和学术会议上发表论文 300 余篇,合著英文专著一本。现任 Pattern Recognition 期刊和《自动化学报》的副主编,以及多个期刊的编委。任国内模式识别学会副主席,中国人工智能学会副理事长、会士,中国自动化学会会士、模式识别与智能零碎专委会主任,中国图象图形学学会常务理事。美国电气电子工程师协会会士 (IEEE Fellow)、国内模式识别学会会士(IAPR Fellow)。
报告题目:人工智能大模型时代的文档辨认与了解
报告摘要:文档图像识别的工作包含版面剖析、文本辨认、图形符号辨认、信息抽取等。近年来,得益于深度学习办法的倒退,文档辨认性能疾速晋升,在文档数字化、票据解决、笔迹录入、智能交通、信息检索等畛域失去广泛应用。然而,理论利用也表明,现有技术在辨认精度和可靠性、可解释性、自适应性等方面还有显著有余,还有很多技术问题有待解决。另一方面,人工智能大模型的疾速倒退促使团队从新思考文档辨认畛域今后的倒退方向,除了解决辨认档次的遗留问题,应面向文档语义了解和利用,在语义信息抽取和决策层面发展钻研。本报告对文档辨认技术现状做简要回顾,剖析现有技术的有余,并提出人工智能大模型时代新的钻研问题和方向。
讲者二
姓名:邹月娴
单位和职称:北京大学,传授
邹月娴,北京大学传授 / 博士生导师,鹏城实验室双聘传授,电子科技大学本硕,香港大学博士,IEEE 高级会员,新加坡归国学者。现任北京大学深圳研究生院党委副书记、北京大学深圳研究生院古代信号与数据处理实验室 (ADSPLAB) 主任;深圳市人工智能学会副理事长兼秘书长、深圳市女科技工作者协会副会长、中国自动化学会模式识别与机器智能业余委员会委员、广东省图象图形学会理事会。荣获深圳市高层次专业人才(中央级人才)、深圳市三八红旗手名称。长期从事智能信号与信息处理、跨媒体剖析与了解等相干畛域的科研与教学工作,先后主持和参加国家级、中央级科研项目 30 多项,荣获中国电子工业部科技进步三等奖和深圳市科学技术奖科技进步一等奖。在顶级学术期刊(TPAMI、TIP、TSP、TMM、TIM 等)和旗舰学术会议(AAAI、NIPS、ACL、CVPR、IJCAI、ACMMM 等)上发表学术论文 270 多篇,申请发明专利 20 项。目前致力于跨媒体剖析与了解、人机对话、深度学习实践办法与利用钻研(https://web.pkusz.edu.cn/adsp/)。
报告题目:视觉 - 语言预训练模型及迁徙学习办法
报告摘要:基于大规模文本数据、Transformer 和无监督预训练技术的 ChatGPT 毫无疑问是人工智能的里程碑技术,展现了机器智能的能力和可用性。随之而来的视觉 - 语言双模态超大规模预训练模型 GPT- 4 更是展示了超人的数理能力、零样本 / 小样本能力。本次演讲简要剖析 ChatGPT 的技术能力与局限性,介绍视觉 - 语言预训练模型及迁徙学习的前沿研究成果,分享咱们团队在视频文本预训练(VLP)和语言视频定位(Visual Grounding)工作的研究进展。
讲者三
姓名:谢洪涛
单位和职称:中国科学技术大学教授
谢洪涛,中国科学技术大学教授、博导,国家基金委优青我的项目获得者,中科院青年翻新促进会优良会员。从事多媒体内容平安方向的钻研,包含视觉内容检测与辨认、视频图像内容检索、数字图像篡改检测与取证等。发表 ACM/IEEE 汇刊论文和 CCF- A 类会议长文 70 余篇,主持科研项目 10 余项,含国家重点研发打算我的项目 1 项、基金委重点项目 1 项。研究成果在国家相干部门和商业公司的线上零碎取得利用,获得踊跃成果。获 2019 年度国家自然科学奖二等奖、2021 年度中国专利奖优秀奖、2018 年度中国电子学会自然科学奖一等奖、2022 年度 CSIG 青年科学家奖等处分。实验室主页:http://imcc.ustc.edu.cn/
报告题目:篡改文本图像的生成与检测
报告摘要:
近年来,通过深度学习篡改生成的文本图像已广泛传播于互联网,对金融票据、证件和网页内容辨认等多个行业畛域产生了重要影响。基于篡改生成与检测矛与盾的关系,本报告从场景文本图像的篡改生成与篡改检测两个方面进行讲述,包含摸索基于文本笔迹的文本图像生成和基于频域关系的部分纹理差异性建模,最终实现高质量的场景文本图像篡改生成以及精确的场景文本图像篡改检测。针对篡改文本图像生成品质差的问题,本报告首先从文本图像擦除的角度思考文本擦除彻底性和背景纹理完整性,并联合通用的篡改生成框架提出基于笔迹的场景文本图像篡改生成算法。其次,本报告提出了一种通用的天然场景文本图像篡改检测框架,并联合频域信息最大化实在和篡改文本的部分纹理差异性。
讲者四
姓名:廖明辉
单位和职称:华为云 AI 算法研究员
廖明辉,华为云 AI 算法研究员。2021 年于华中科技大学取得博士学位。次要钻研方向为天然场景文字检测与辨认。以第一作者身份在 TPAMI、TIP、CVPR、ECCV、AAAI 等顶级期刊会议发表论文十余篇,其中 ESI 高被引论文 2 篇。谷歌学术援用数超 3500。取得了 CSIG 优博、CSIG 自然科学奖一等奖、CCF-CV 学术新锐奖、第五届中国互联网 + 大学生翻新守业大赛国赛金奖、AI 华人新星百强、AI 2000 人工智能寰球最具影响力学者榜单等荣誉。
报告题目:华为云 OCR 技术停顿与行业实际
报告摘要:OCR 技术有宽泛的利用场景,也是华为云 AI 服务的外围能力之一。本次报告将介绍华为云在 OCR 技术上的研究进展以及华为云在 OCR 行业的实际,包含文字辨认自监督预训练模型的研究进展及其在金融行业的利用、华为云 OCR 服务产品介绍等。
讲者五
姓名:丁凯
单位和职称:上海合合信息科技股份有限公司 高级工程师
丁凯,上海合合信息科技股份有限公司智能技术平台事业部副总经理,高级工程师,获华南理工大学博士学位。负责 CSIG 文档图像剖析与辨认专委会委员,CSIG 机器视觉专委会委员,上海科技大学企业导师,华南理工大学校外研究生导师等职务,取得上海市人才倒退基金赞助。钻研方向为人工智能、模式识别、文档剖析与了解、OCR、常识图谱等。率领团队在 ICDAR、ICPR 等权威学术会议组织的国内比赛中取得多项冠军,作为次要实现人取得 CSIG 科技进步奖二等奖。近年来主持的名片辨认了解、电子文档还原、多模态文档了解、常识图谱构建与开掘等我的项目的研发工作,撑持了合合信息多项外围业务。
报告题目:智能文档解决技术在工业界的利用与挑战
报告摘要:
随着技术的一直倒退,OCR 技术在工业界中的利用也从最开始的简略的光学字符识别拓展到涵盖图像预处理、文字辨认、版面剖析、文档了解等多项技术的智能文档解决畛域。近年来,特地是深度学习技术呈现当前,智能文档解决的各项技术均获得了突破性的停顿。然而,在理论的工业界场景中,文档解决依然面临着大量的问题和挑战,例如文档图像中的形变 / 蜿蜒及光照影响、文档篡改检测、简单文档图像的版式还原,以及各种简单场景下的文档的辨认与了解难题。本报告次要介绍了合合信息依靠自研的 TextIn 智能文字辨认服务平台,在解决工业界中面临的各类问题中所做一些相干工作进展和研究成果,并探讨以后工业界中面临的一些要害技术难题和挑战。