关于人工智能:文本检查与识别白皮书第二章文本检测与识别技术发展历程

2.文本检测与辨认技术倒退历程

文本辨认

俗称光学字符识别，英文全称是Optical Character Recognition(简称OCR)，它是利用光学技术和计算机技术把印刷体或手写体文本进行读取辨认，转化成计算机和人都可能识读的格局。此间OCR技术是要害一环。

OCR技术中，印刷体的文本辨认是最成熟的一个，因其发展最早。早在1929年就被欧美国家利用来解决大量的报刊杂志、文件和单据报表等。通过40多年的倒退和欠缺，文本辨认技术更加成熟，逐渐实现了信息处理的“电子化”。

1979 - 1985年汉字OCR进入摸索阶段

在对数字、英文、符号辨认钻研的根底上，自上世纪70年代末，国内就有多数单位的钻研人员对汉字识别方法进行了摸索，发表了一些论文，研制了大量模仿辨认软件和零碎。这个阶段漫长，成绩不多，然而却孕育了下一个阶段的丰硕果实。

1986年初到1988年底，这三年是汉字辨认技术钻研的高潮期，也是印刷体汉字辨认技术钻研的丰收期。总共有11个单位进行了14次印刷体汉字辨认的成果鉴定，这些系统对样张辨认能达到高指标:能够辨认宋体、仿宋体、黑体、楷体，辨认的字数最多可达6763个，字号从3号到5号，识别率高达99.5%以上，辨认速度在286微机条件下可能达到10~14字/秒，但对实在文本识别率大大降落，这是因为以上系统对印刷体文本形态变动(如文本含糊、笔划粘连、断笔、黑白不均、纸质品质差、油墨反透等等)的适应性和抗干扰性比拟差造成的。然而这三年研制的识别系统为印刷体汉字识别系统的实用化打下了根底，是识别系统从研制到实用化必经的过程。

印刷体汉字辨认（文本辨认）自1986年掀起低潮以来，清华大学电子工程系、中国科学院计算所智能核心、北京信息工程学院、沈阳自动化研究所等多家单位别离研制并开发出了实用化的印刷体汉字识别系统。尤其是由清华大学电子工程系研制的清华TH一OCR产品和由汉王团体开发的尚书OCR产品，它们始终都处于技术倒退的最前沿，并占据着最大的市场份额，代表着印刷体汉字辨认技术的倒退潮流。

目前，印刷体汉字辨认技术的钻研热点曾经从单纯的文本辨认转移到了表格的自动识别与录入，图文混排和多语种混排的版面剖析、版面了解和版面复原，名片辨认，金融票据辨认和古籍辨认等内容上。并且呈现了许多相干的识别系统，如:文通科技推出的名片识别系统、身份证识别系统和“慧视”屏幕文本图像识别零碎等等。这些新的识别系统的呈现，标记着印刷体汉字辨认技术的应用领域失去了广大的扩大。2000年当前在线服务业务高速倒退，OCR技术在云计算环境和挪动设施端失去了宽泛的利用。随着近年深度学习的一直倒退，基于神经网络的OCR技术突破了传统OCR技术的框架，在辨认效率以及准确率上都有了质的飞跃。