关于ocr:OCR技术发展综述与达观数据的实践经验

40次阅读

共计 10453 个字符,预计需要花费 27 分钟才能阅读完成。

光学字符识别 OCR 技术(Optical Character Recognition)是指从图像中主动提取文字信息的技术。这项技术横跨了人工智能里的两大畛域:CV(计算机视觉)和 NLP(自然语言解决),综合应用了这两大畛域中的很多技术成绩。

在过往 40 余年的技术倒退历程中,OCR 始终具备很强的产业利用背景,是计算机领域里少数几个一开始就由工业界和学术界双轮驱动的畛域。近年来 OCR 技术曾经在工业界成熟落地利用,学术界里对此的钻研热度反而弱于其余方向。甚至有人认为 OCR 技术曾经充沛成熟,没有更多钻研必要了。然而随着近年来智能文本处理 IDP(Intelligent Document Processing)在工业界的逐渐落地利用,OCR 和 IDP 相结合的利用场景越来越多,用语义了解 NLP 的角度进一步去延长 OCR 的利用,呈现了很多更有产业利用价值的场景。本文回顾了 OCR 技术的倒退历程,并联合达观数据在工程实际方面的教训,介绍与语义剖析技术联合后,以后 OCR 技术的一些最新倒退和落地教训。

OCR 技术的倒退历程

OCR 技术的诞生其实比计算机的历史还要悠久,早在 1930 年代,德国发明家 Tausheck(陶舍克)和美国工程师 Handel(汉德)别离申请了最早的 OCR 专利,这比计算机的诞生还要早 20 年工夫。因为当年还齐全没有计算机以及相干外设(如明天宽泛应用的扫描仪或高拍仪),所以最早提出的 OCR 技术采纳的是机械掩模和模板匹配的办法来解决打字机输入的文档。过后的技术雏形离理论利用还比拟边远。

OCR 技术真正开始进入办公利用是到了 1960 年代,引领这项技术的是美国 IBM 公司。随着二战后美国经济的腾飞,计算机开始进入企业办公畛域,在一些日常处理量大且步骤繁琐的场景下 OCR 开始施展利用价值。例如 1965 年纽约世博会展出的 IBM1287 机器就能自动识别英文字母和数字,且准确率很高。尔后逐渐被用于一些订单编号的辨认派发,和信封邮政编码的辨认和邮件分拣等工作中。

1980 年代起,随着日本经济尤其是电子技术的飞跃,富士通、日立、东芝、NEC 等日本科技公司纷纷入场。这个期间的钻研特点是图像采集的电子器件失去疾速倒退,光栅扫描、成像、电子化图像传输等信号采集技术成长迅速,相应的轮廓提取、构造剖析等软件算法也开始呈现。

在以精细电器制作见长的日本企业推动下,扫描仪等采集设施的成果、速度、老本有了长足的提高,对规范打印字符的辨认成果越来越好,OCR 零碎开始遍及利用。和其余很多高科技畛域里“先从大学有了晚期实践钻研冲破,而后逐渐在产业界孵化出实用零碎”的形式不同,在这个阶段,OCR 技术始终是由工业界主导并获得了良好的利用成果。惟一的例外是对手写字符的辨认。因为手写字符的变动太大,各种连笔、涂改、变形等让计算机识别的确太难(甚至过于潦草的状况下让人辨识都很难),所以作为 OCR 畛域的钻研分支,成为了学术界的一个钻研热点。尤其 1990 年代模式识别(Pattern Recognition)衰亡,激发了学术研究界对手写字符识别的激情。此时呈现赫赫有名的 MNIST 数据集,由美国国家标准与技术研究所(NIST,National Institute of Standards and Technology)发动整顿了来自 250 个不同人的手写数字图片。

MNIST 是 OCR 乃至模式分类畛域最出名的入门数据集

尔后大量的模式分类以及图像处理论文都以 MNIST 作为根底,进行各类特色抽取和模式分类的算法钻研。至今一些大学人工智能的入门课程还会用 MNIST 数据集来跑试验,堪称经久不衰。为什么只有手写字符集,不搞打印字符测试数据集?因为对打印字符的辨认准确率曾经极高(99.9% 以上),没有科研必要了……此处顺便一提,百度创始人李彦宏 1996 年在美国 IDD 公司工作时也参加了 OCR 技术钻研,其中一篇优良的研究成果发表在机器学习界出名学术期刊 IEEE Transaction PAMI 上。

百度李彦宏的 OCR 论文,发表于 IEEE Trans on PAMI

21 世纪后,OCR 被进一步利用于各行各业里 卡证票据的辨认。针对的是日常生活中频繁应用到的发票、身份证、银行卡、营业执照、房产证、驾驶证、汽车牌照等实体证件。在这个阶段,图像扫描技术曾经高度成熟了,所以技术钻研根本集中在软件算法方面,并细分为信息检测(Detection)和辨认(Recognition)两个技术分支别离倒退,本文前面有更具体的技术介绍。

因为大部分常见的卡证票据都有绝对固定的格局布局,所以通常只须要有足够多的训练样本,通过样本标注生成元素的模板定位,就能解决绝大部分问题,不必大费周折应用“智能化”的检测算法。艰深地说,这类利用场景是”数据为王”。

自 2015 年之后 OCR 技术和利用又迎来了微小的变动,这次次要来自两个因素的推动。第一个因素是挪动手机拍照的遍及。在此之前,OCR 的图像通常来自于扫描仪、高拍仪等企业级专用采集设施,图像的品质十分高,但因为固定在办公桌面应用,不够不便灵便,限度了利用场景,所以此前的 OCR 集中于企业级商用。而智能手机的迅速遍及,让咱们每个人都有了一个“拍摄 + 上传”的一体化终端,为 OCR 的利用遍及带来了新的历史时机,随之而来产生了很多新的利用场景。例如各种集体证照、文件等的自助式拍摄和上传,用于近程申报和审批等事项,或者拍摄并辨认文件进行内容主动解决等翻新场景(例如教育领域的拍题搜答案等)。

这个因素也随之带来了一些新的技术问题,例如手机因为拍摄绝对随便,集体拍摄的程度参差不齐,会导致图像存在暗影遮挡、角度畸变、失焦含糊等等一堆新的问题。也相应产生了一批解决这些问题的工程伎俩。(达观数据陈运文)

另一个重要因素来自深度学习技术的微小实践冲破。在深度神经网络的旋风刮到 OCR 畛域之前,用于检测和辨认的技术堪称是百花齐放,例如各种各样的信号处理(例如 Fourier、Radon、Hough、Zernike)特色提炼办法、图像构造的办法(穿插线、圆圈、横竖线条)、各种算子(如 SIFT、SURF、各类卷积算子等)等、以及各种映射技术等。针对一些专用的字符类型和非凡利用场景,还有专门结构的人工特征提取技术。

但深度学习时代里通过多层网络结构来主动进行特色学习,颠覆了这些传统的人工特征提取过程,成果也有显著的改善。近年来学术界的论文曾经是神经网络一统江湖了。加上之前限度深度学习的算力老本大幅度降低,新的更简单的网络结构层出不穷,将 OCR 技术的成果一直推上新的台阶。

在“智能手机 + 深度学习”这两个因素独特助推下,近年来 OCR 技术的研发迎来了 三个新的热点方向,别离是:

  1. OCR 与智能文本处理(IDP)相结合,进行无固定格局文档的语义了解和结构化解析,不仅辨认文字自身,而且了解文字的版面、构造、表格元素、段落内容等,从而实现对文本因素信息的还原和结构化抽取工作,并用于智能文档审阅解决等场景
  2. OCR 与业余畛域的符号辨认相结合,如数学公式符号、物理公式、化学分子结构图、修建图纸等等,实现业余畛域的利用,如拍图搜题,图纸审核等场景
  3. OCR 与凋谢场景的文字辨认相结合(常称为 STR,Scene Text Recognition),例如路牌、店面招牌、商标文字、户外广告辨认等,用于交通、户外生产、主动驾驶等场景这三类以后的热点利用,都有各自的技术难点,也别离衍生出了相应的产品技术解决方案。其中 OCR 与 IDP 的联合是目前达观数据的次要钻研和利用方向,接下来会进行一些技术分享。

OCR 技术的倒退状况

以后学术界广泛将 OCR 解决分为 图像预处理、文本检测(Detection)、文本辨认(Recognition)这三大步骤,或者也有将检测和辨认合并,间接用 端到端学习(End-to-End)进行解决工作。

图像预处理 用于看待解决的原始图像进行一些改正操作,以助于升高后续的检测和辨认难度。例如应用一些工程化技术来调整图像对比度、旋转对齐、进行部分裁剪、折痕和墨点等烦扰信息的淡化等都属于绝对根底的预处理操作。因为在应用高拍仪或扫描仪等业余采集设施时,图像品质广泛较好,所以在 2010 年以前对图像预处理方面的系统性的钻研并不多,更多集中于对部分的畸变进行校对(Image Rectifier)或图像去噪。

经典的图像预处理常常用到各类滤波器(如高斯滤波、BM3D 等)进行去噪,另外一些信号处理伎俩也罕用于对图像进行旋转对齐,横平竖直的文档会让后续的检测和辨认变得容易得多。智能手机拍摄遍及后,光照不平均、暗影遮挡、部分扭曲、甚至对焦含糊等简单状况层出不穷,所以在理论工程利用中,图像预处理的好坏对后续辨认精度价值很大,只管这个环节作为 OCR 的一个非核心环节,受到学术圈的器重较少,各大学术会议上也简直常见这方面的钻研论文(近年有几篇不错的 Text deblurring 论文)。但学术和工程的指标是不一样的,工程利用要在琐碎中见真章,会配置很多业务规定和解决步骤。

顺便一提,为了减少标注样本的数量,晋升算法在不同场景下的鲁棒性,生成反抗网络(GAN)的思维在 OCR 的样本生成方面也很罕用。尤其在标注样本不短缺的状况下,用 GAN 网络联合人工标注和积攒的实在样本,日拱一卒不断扩大训练样本库,也是罕用的做法。

文本检测 是 OCR 的最重要环节之一(另一个是文本辨认),传统的文本检测应用了各种人工结构的特色,例如常见的二值投影、旋转仿射变换、各类图像算子如 HoG 算子、SURF 算子,DPM 模型(Deformable Parts Model)等来定位文本行列地位。在 2010 年前最常见的技术手段为滑动窗口检测、或基于连通区域检测的办法,由下而上逐渐拟合出文本块。

因为结构特色的过程偏定制,很难针对不同的文档类型造成大而全的普适计划。在具备特定构造法则的 OCR 畛域,尤其是卡证票据这类常见检测利用场景,传统的模板 + 滑动窗口定位检测的办法是管用的。

近 10 年来随着深度学习技术的飞速发展,多种多样的神经网络构造(如称为 XXNET 或 XXNN)的检测成果显著优于传统人工结构的特色,以后支流的检测技术由深度学习来主导。

文本检测中常见的思维有两大类,一类是基于回归的办法,另一类是基于宰割的办法

基于回归的检测办法,基本思路是先利用若干个默认锚点(Anchor),而后想方法进行合并造成文字框 box。2016 年 ECCV 发表的 CTPN 是基于回归思维的经典技术(Detecting Text in Natural Image with Connectionist Text Proposal Network,论文出自中科院,为咱们中国研究者点赞)。

CTPN 是基于回归的文本检测中的经典办法

CTPN 综合了 CNN 和 LSTM 的网络个性*,在假如文本曾经是程度横向散布的前提条件下,做了以下步骤的操作:

  1. VGG16 位 backbone 提取空间特色,取 conv5 层输入特色
  2. 在垂直 vertical 方向进行 feature map,并进行 reshape
  3. 引入 Bi-LSTM,从而更好地利用文字连贯性的特色来晋升检测成果
  4. 应用相似 Faster R-CNN 的 RPN 网络取得 text proposals
  5. 对取得的大量 text proposals,应用 NMS(Non-Maximum Suppression,非极大值克制),或改良后的 Soft NMS,Weighted NMS 等,过滤和合并文本框。(这个阶段的工作和通用的指标检测工作类似)
  6. 对失去的程度方向的文本小框合成一个残缺的横向文本行,并针对大量歪斜状况做一些改正

CTPN 综合了上述若干种网络结构的长处,有优良的检测成果,尤其对边框矩形的四个顶点的辨认很精确,对 OCR 检测技术的后续倒退有承前启后的意义。例如尔后的 SegLink 算法沿用了 CTPN 的思维,并引入了 SSD 和旋转角度学习的办法,来解决 CTPN 遗留的多角度文本检测的问题。

基于回归的办法对绝对工整(横平竖直)的书面文档文本的检测成果很好,但对各类天然场景下的文本的检测成果难以保障(例如各类蜿蜒形变的店铺招牌)。所以有另一类思维是源于图像宰割(image segmentation)的办法来进行文本检测,即:先从像素层面做分类,判断每一个像素点是否属于一个文本指标,失去文本区域的概率图,而后利用 polygon 等来绘制出这些候选区域的最小突围曲线,相当于把一堆散落的像素块像串联珍珠那样,链接到一起来造成边界框。

PSENet 网络是基于宰割的文本检测技术,对显著蜿蜒的文本有良好效果

基于宰割的方面近年优良的成绩包含 2019 年南京大学等组成的钻研团队发表于 CVPR 的 PSENet 网络,通过渐进式的尺度扩张网络(Progressive Scale Expansion)来学习文本宰割区域,其骨干网络实质是 ResNet,通过应用不同尺度的 Kernel,预测不同膨胀比例的文本区域,并一一扩充检测到的文本区域。

PSENet 的本质是边界学习办法的变体,能够无效解决任意形态相邻文本的检测问题。具体如网络结构和检测成果如上图所示。2021 年华南理工大学在 CVPR 提出的 FCENet,提出了用傅里叶变换来对文本外围的包络线进行参数示意的办法,通过设计适合的模型预测来拟合任意形态文本突围框,从而实现天然场景文本检测中对于高度蜿蜒文本实例的检测精度的晋升。

在图像处理和模式识别界最近几年出名国内学术会议,如 CVPR、ICCV,AAAI 或 ICDAR 上,每年都有一些最新的网络改良模型被提出(且大量优秀成果都来自中国外乡的科研团队,可喜可贺),以下是几篇值得延长浏览的论文。

  1. *CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network,ECCV2016)
  2. SegLink(Detecting Oriented Text in Natural Images by Linking Segments,CVPR2017)
  3. EAST(EAST: An Efficient and Accurate Scene Text Detector,CVPR2017)
  4. PSENet(Shape Robust Text Detection with Progressive Scale Expansion Network,CVPR2019)
  5. DBNet(Real-time Scene Text Detection with Differentiable Binarization,AAAI2019)
  6. FCENet(Fourier Contour Embedding for Arbitrary-Shaped Text Detection,CVPR2021)

文本辨认技术

CRNN 网络(循环卷积神经网络)是辨认畛域里最为经典的办法,直至今日依然被宽泛应用。CRNN 网络的技术思维是用深度卷积 Convolutional 来生成图像根底特色,再应用 Bi-LSTM 循环网络(双向长短时记忆网络,能排汇上下文语义信息)进行时序特色训练(这一步利用文本序列的前后特色能无效晋升成果),最初引入 CTC 损失函数来实现端对端的不定长序列辨认,解决训练时字符无奈对齐的问题。

论文原文见:An End-to-End Trainable Neural Network for Image-based 

Sequence Recognition and Its Application to Scene Text Recognition,值得一提的是 CRNN 由华中科技大学白翔老师团队提出,在 OCR 畛域是极为优良的研究成果。

近年来随着 Attention 机制在 NLP 畛域获得了很好的成果,将 CRNN 和 Attention 联合也成为 OCR 辨认的新思路,在 CRNN 网络输入层之后加上 attention 机制,把 GRU 网络的输入作为 encoder 的输出,对其做 attention,并通过 softmax 输入,也有十分优异的成果。

此处特地值得举荐的是来自 NAVER 的 OCR 团队 hwalsuklee 同学 Github 上汇总的 OCR 知识库:https://github.com/hwalsuklee…

其中包含了近几年学术界在 OCR 检测和辨认畛域的一些出名论文、ICDAR 的数据测试集评分和局部开源代码,对系统性理解学术界在 OCR 畛域的成绩很有帮忙,举荐感兴趣的敌人们浏览,是一个十分好的材料学习库。

OCR 的工程利用开发:从 OCR 到 OCR Pro

在以后学术圈,OCR 钻研的热点集中在室外天然场景下的利用。因为这些工作的难度高,成果还不太好,商业化利用还在晚期,所以学术研究很热(技术成熟并大量工程利用的畛域反而实践钻研就会变少),每年都有很多论文发表。这些天然场景 STR 工作其实和自然语言了解的关系不大,而和计算机视觉(CV)更靠近,尤其是通用指标检测(Object Detection)。甚至很多天然场景下的 OCR 算法罗唆就借用了 end-to-end 的通用框架,例如 Yolo 这类赫赫有名的通用检测零碎。

而在理论 OCR 的落地利用界,“卡证票据”的辨认曾经十分成熟,所以以后的利用热点集中在无固定格局文档的辨认和了解上。

下图解释了有固定格局的“卡证票据”的解决,和无固定格局的文档资料解决的差别。
 

 无固定格局的文档资料 OCR 是以后利用的热点和难点

“卡证票据”的特点是格局绝对明确和固定(例如身份证,姓名、性别、身份证号等各个信息的地位是明确的),所以检测(Detection)和辨认(Recognition)要容易的多,通过设定模板来检测定位,进而进行文字辨认来输入各类 Key:Value 型的结构化抽取后果是绝对容易的。

而咱们日常办公所常常面对的 无固定格局的文档资料,因为版式变动多样,须要进行提取的内容可能散布在不同的地位,因此很难简略用模板匹配的形式来进行检测、辨认、抽取三个动作,须要更简单的操作步骤,咱们称为 OCR Pro 零碎。

针对无固定格局的 OCR Pro 零碎,一个待处理的文档图片(扫描件或手机翻拍件)要顺次进行版面剖析(Layout Analysis),文字辨认(Recognition)、信息提取(Intelligent Document Processing)、行业常识校验(Domain Knowledge Recheck)等步骤。

应用版面剖析的起因是日常办公文档的形成元素非常复杂,不仅有常见的文字块,还会呈现题目、目录、印章、签名、表格、图例、页眉页脚等各类元素,版面剖析技术的目标就是要通过页面各类元素信息的视觉特色、联合文本语义特色和各类 embedding 信号,将文档“庖丁解牛”合成为若干元素,为后续的辨认和结构化抽取打好根底。

版面剖析技术在 OCR 和 IDP 中有重大意义

在版面剖析中,有一类常见且重要的非凡元素——表格。因为 OCR 的最终目标是将文档里最要害的内容自动化提取进去,表格中往往蕴含十分密集的重要信息,因而对表格的解析和语义了解技术绝对更为非凡,在前面的章节中将进一步对该技术进行具体介绍。

和天然场景下(in the wild)的 OCR 检测不同,针对办公文档的 OCR 因为文字的横竖布局以及背景图片品质显著比天然场景的图片要高得多,也用不着太多来自于通用指标检测(Object Detection)的技巧。在办公文档 OCR 的理论产业利用里,版面剖析技术事实上代替了文本检测技术施展理论作用。

文档解决环节里的文字辨认则技术绝对成熟,因为大部分文字都以打印字符的模式存在,通常状况下这个环节下的文字辨认技术曾经十分成熟和精确了。以后达观的一些钻研次要散布在以下一些绝对非凡的场合:

01 去除文档的底纹或水印烦扰

工作文档采纳带有底纹的非凡纸张,或者有的人为打上水印(例如一些重大项目的投标书)

02 提取和了解关键性元素

书面文本处理中存在一些非凡品种的元素,例如印章、手写签名等元素就是国内(包含东亚地区各国家)合同里极为重要的组成部分,须要专门的模型进行解决。而且还须要对印章的文字内容进行提取和辨认(通常为圆形),并用于后续和合同里签订主体进行比照审核。手写签名提取后也会用于进行比对

03 辨认和解决特殊符号

书面文档中常常有一些表白语义的专用符号,如√(对勾)、编号①、角标(常见于正文提醒)、下标(常见于数理化公式)等

达观 OCR 的工程化实际

要开发出真正能够落地应用的 OCR 产品,须要面对实在应用状况里多种多样的问题。这些问题往往显得十分的琐碎,然而只有实实在在把这些琐碎的问题解决好,能力让产品落地好用。

就以最为常见的表格的 OCR 解析为例,其实咱们日常文档中遇到的表格状况十分多,以下图为例,这些表格存在各类分栏,水印、跨页、揉搓、暗影、印章遮挡等各种各样的问题,须要逐个有技术来应答。(达观数据陈运文)

另外表格中还存在无边框表格(常见于一些上市公司财报),或单元格嵌套的简单表格(常见于一些简单行政审批事项填报表),都须要进行解决。如下图所示。

达观数据对表格的 OCR 解决和语义了解

近年来基于深度学习的表格检测和辨认算法在 ICDAR(International Conference on Document Analysis and Recognition)会议上有很多原创性的成绩,如 A Genetic-based Search for Adaptive Table Recognition in Spreadsheets 论文所提出的办法,将表格中的单元格分为 Header、Data 和 Metadata 等类型,而后相邻单元格依据标签异同组成不同的区域,这些区域依据相邻关系则形成了一个标签区域图,奇妙的将表格构造辨认工作变成了子图宰割工作,办法接着定义了将 10 个掂量因素加权求和来评判宰割品质,用于确定优化指标。而后应用序列二次布局的办法来主动调节权重,并综合使用了遗传算法和一些启发式办法、或穷举搜寻等来进行最优化。

ICDAR 中基于深度学习的表格检测和辨认算法

近年来通过 ICDAR 的技术比赛,有一些优良的办法涌现进去,在这个畛域里国内也呈现了很多钻研团队,如北京大学的高良才老师提出了很多优良的研究成果。和一些间接套用计算机视觉检测的办法不同,表格因为有横列纵列的反复散布特色,所以利用这个特色来进行辨认往往能获得更有针对性的成果,ICDAR2019 论文 Table structure extraction with Bi-directional Gated Recurrent Unit Networks 提出了应用循环神经网络来进行表格构造辨认工作。在一系列基础性的二值化和收缩预处理后,将图像按像素行或列放入独立的两个两层双向循环神经网络,同时将某个像素行或列的相邻两个街坊思考进去。接着将循环神经网络的输入行列特色分类为是否属于行列分隔符区域,最终把预测分隔区域的中点作为最终的行列宰割后果。GRU 网络的成果相比 LSTM 整体略好。

达观的实际总结与瞻望

在达观实际 OCR 产品过程中,咱们发现一旦版面剖析工作做扎实后,文本检测就变得很容易了。而实现文本辨认后,利用语义上下文技术,对内容进行结构化提取就是 IDP 零碎来实现的工作了,Attention 以及 NLP 的一些模型能够很好施展短处。

达观工程化 OCR 解决流程

如上图所示,为了更好地晋升成果,充分运用行业常识校验对晋升 OCR 成果也起到了重要作用。学术研究里通常不会波及内部畛域常识,但在理论落地利用中结构业余畛域的常识图谱对每一个垂直细分畛域的文本 OCR 工作都有微小的收益。

例如财务报表 OCR 中,各类数字之间隐含的勾稽关系(如利润表中的“主营业务老本”与资产负债表中的“应付账款”以及现金漂泊表中的“购买商务和劳务收入”能够进行穿插校验)能够用于对 OCR 提取的数字进行校验和纠正,大幅晋升准确率。再比方 IPO 招股书中的企业经营数据,会在相应的审计报告中再次出现,如果引入投行的业余教训,那么对 OCR 的解决成果会有很大帮忙。最初,人工复检工作以及相应的后果主动反馈机制也十分重要,人工复检不仅能让零碎最终实现 100% 的准确率,并且人工纠正后的后果能一直作为训练样本用于改正原有零碎的问题,从而能让零碎越来越“聪慧”,逐渐迫近更高的辨认准确率。

在达观近年来将 IDP、常识图谱和 OCR 进行交融来进行工程实际的过程中,咱们深刻领会到一个优良的产品肯定要捕风捉影的排汇各种思维的长处,既要有传统办法的短处,也要借鉴最新网络模型的长处。对数据的积攒和标注是一个坚持不懈的事件,产品的应用细节体验,人机交互的过程也须要一直地欠缺和晋升。好的产品素来都不是欲速不达的,而是须要重复打磨和继续改良的。随着 OCR 技术近年来一直向前倒退,和各类上游的利用场景,如文档审核、语义了解、RPA 等的联合日益增多,OCR 的利用还将施展越来越大的价值。(达观数据陈运文)

作者简介

陈运文,达观数据董事长兼 CEO。复旦大学计算机博士,优良博士论文奖获得者,国家“万人打算”专家,2021 年中国青年守业奖,中国五四青年奖章,上海市十大青年科技卓越贡献奖获得者,上海市优良技术带头人,第九届上海青年科技英才;国内计算机学会(ACM)、电子电器工程师学会(IEEE)、中国计算机学会(CCF)、中国人工智能学会(CAAI)高级会员,上海市计算机学会多媒体分会副会长;上海市首批人工智能正高级职称获得者。在人工智能畛域领有近百项国家技术发明专利,是复旦大学、上海财经大学、上海外国语学院聘任的校外研究生导师,在 IEEE Transactions、SIGKDD 等国内顶级学术期刊和会议上发表数十篇高水平科研成果论文,出版《智能 RPA 实战》、人工智能经典著作《智能 Web 算法》(第 2 版),参加撰写《数据实际之美》等论著;曾多次摘取 ACM KDD CUP、CIKM、EMI Hackathon 等世界最顶尖的大数据比赛的冠亚军荣誉。曾负责隆重文学首席数据官、腾讯文学高级总监、百度核心技术研发工程师。在机器学习、自然语言解决、搜寻举荐等畛域有丰盛的钻研和工程教训。

正文完
 0