关于人工智能:文本检查与识别白皮书第二章文本检测与识别技术发展历程

38次阅读

共计 1136 个字符,预计需要花费 3 分钟才能阅读完成。

2. 文本检测与辨认技术倒退历程

文本辨认

俗称光学字符识别,英文全称是 Optical Character Recognition(简称 OCR),它是利用光学技术和计算机技术把印刷体或手写体文本进行读取辨认,转化成计算机和人都可能识读的格局。此间 OCR 技术是要害一环。

OCR 技术中,印刷体的文本辨认是最成熟的一个,因其发展最早。早在 1929 年就被欧美国家利用来解决大量的报刊杂志、文件和单据报表等。通过 40 多年的倒退和欠缺,文本辨认技术更加成熟,逐渐实现了信息处理的“电子化”。

1979 – 1985 年汉字 OCR 进入摸索阶段

在对数字、英文、符号辨认钻研的根底上,自上世纪 70 年代末,国内就有多数单位的钻研人员对汉字识别方法进行了摸索,发表了一些论文,研制了大量模仿辨认软件和零碎。这个阶段漫长,成绩不多,然而却孕育了下一个阶段的丰硕果实。

1986 年初到 1988 年底,这三年是汉字辨认技术钻研的高潮期 ,也是印刷体汉字辨认技术钻研的丰收期。总共有 11 个单位进行了 14 次印刷体汉字辨认的成果鉴定,这些系统对样张辨认能达到高指标: 能够辨认宋体、仿宋体、黑体、楷体,辨认的字数最多可达 6763 个,字号从 3 号到 5 号,识别率高达 99.5% 以上,辨认速度在 286 微机条件下可能达到 10~14 字 / 秒,但对实在文本识别率大大降落,这是因为以上系统对印刷体文本形态变动(如文本含糊、笔划粘连、断笔、黑白不均、纸质品质差、油墨反透等等) 的适应性和抗干扰性比拟差造成的。然而这三年研制的识别系统为印刷体汉字识别系统的实用化打下了根底,是识别系统从研制到实用化必经的过程。

印刷体汉字辨认(文本辨认)自 1986 年掀起低潮以来,清华大学电子工程系、中国科学院计算所智能核心、北京信息工程学院、沈阳自动化研究所等多家单位别离研制并开发出了实用化的印刷体汉字识别系统。尤其是由清华大学电子工程系研制的清华 TH 一 OCR 产品和由汉王团体开发的尚书 OCR 产品,它们始终都处于技术倒退的最前沿,并占据着最大的市场份额,代表着印刷体汉字辨认技术的倒退潮流。

目前,印刷体汉字辨认技术的钻研热点曾经从单纯的文本辨认转移到了表格的自动识别与录入,图文混排和多语种混排的版面剖析、版面了解和版面复原,名片辨认,金融票据辨认和古籍辨认等内容上。并且呈现了许多相干的识别系统,如: 文通科技推出的名片识别系统、身份证识别系统和“慧视”屏幕文本图像识别零碎等等。这些新的识别系统的呈现,标记着印刷体汉字辨认技术的应用领域失去了广大的扩大。2000 年当前在线服务业务高速倒退,OCR 技术在云计算环境和挪动设施端失去了宽泛的利用。随着近年深度学习的一直倒退,基于神经网络的 OCR 技术突破了传统 OCR 技术的框架,在辨认效率以及准确率上都有了质的飞跃。

正文完
 0