关于ocr:技术白皮书第二章OCR智能文字识别回顾自然语言文本发展历程

48次阅读

共计 5108 个字符,预计需要花费 13 分钟才能阅读完成。

本文篇幅较长,倡议配合目录食用分次浏览。
本文首发于 CSDN 平台 链接:https://blog.csdn.net/INTSIG/…

2. 倒退历程与现状

2.1 信息抽取技术倒退历程

从自然语言文本中获取结构化信息的钻研最早开始于 20 世纪 60 年代中期,这被看作是信息抽取技术的初始钻研,它以两个长期的、研究性的自然语言解决我的项目为代表。

美国纽约大学发展的 Linguistic String 我的项目 [3] 开始于 60 年代中期并始终连续到 80 年代。该项目标次要钻研内容是建设一个大规模的英语计算语法,与之相干的利用是从医疗畛域的 X 光报告和医院入院记录中抽取信息格式(Information Formats),这种信息格式实际上就是当初咱们所说的模板(Templates)。

另一个相干的长期我的项目是由耶鲁大学 Roger Schank 及其共事在 20 世纪 70 年代发展的无关故事了解的钻研。由他的学生 Gerald De Jong 设计实现的 FRUMP 零碎是依据故事脚本实践建设的一个信息抽取零碎。该零碎从新闻报道中抽取信息,内容波及地震、工人罢工等很多畛域或场景。该零碎采纳了冀望驱动(top-down,脚本)与数据驱动(bottom-up,输出文本)相结合的解决办法。这种办法被起初的许多信息抽取零碎采纳。

从 20 世纪 80 年代末开始,信息抽取钻研蓬勃开展起来,这次要得益于音讯了解系列会议(MUC,Message Understanding Conference)的召开。正是 MUC 系列会议使信息抽取倒退成为自然语言解决畛域一个重要分支,并始终推动这一畛域的钻研向前倒退。

从 1987 年开始到 1998 年,MUC 会议共举办了七届,它由美国国防高级钻研打算委员会(DARPA,the Defense Advanced Research Projects Agency)赞助。MUC 的显著特点并不是会议自身,而在于对信息抽取零碎的评测[5]。只有加入信息抽取零碎评测的单位才被容许加入 MUC 会议。在每次 MUC 会议前,组织者首先向各参加者提供样例音讯文本和无关抽取工作的阐明,而后各参加者开发可能解决这种音讯文本的信息抽取零碎。在正式会议前,各参加者运行各自的零碎解决给定的测试音讯文本汇合。由各个系统的输入后果与手工标注的规范后果绝对照失去最终的评测后果。最初才是所谓的会议,由参与者交流思想和感触。起初,这种评测驱动的会议模式失去宽泛推广,如 1992 年开始举办的文本检索会议 TREC2 等。

从历次 MUC 会议,能够分明地看到信息抽取技术倒退的历程。

  • 1987 年 5 月举办的首届 MUC 会议基本上是探索性的,没有明确的工作定义,也没有制订评测规范,总共有 6 个零碎加入,所解决的文本是海军军事情报,每个零碎的输入格局都不一样。
  • MUC- 2 于 1989 年 5 月举办,共有 8 个零碎加入,解决的文本类型与 MUC- 1 一样。MUC- 2 开始有了明确的工作定义,规定了模板以及槽的填充规定,抽取工作被明确为一个模板填充的过程。
  • MUC- 3 于 1991 年 5 月举办,共有 15 个零碎加入,抽取工作是从新闻报告中抽取拉丁美洲恐怖事件的信息,定义的抽取模板由 18 个槽组成。从 MUC- 3 开始引入正式的评测规范,其中借用了信息检索畛域采纳的一些概念,如召回率和准确率等。
  • MUC- 4 于 1992 年 6 月举办,共有 17 个零碎加入,工作与 MUC- 3 一样,依然是从新闻报告中抽取恐怖事件信息。但抽取模板变得更简单了,总共由 24 个槽组成。从这次会议开始 MUC 被纳入 TIPSTER 文本我的项目。
  • MUC- 5 于 1993 年 8 月举办,共有 17 个零碎加入:美国 14 个,英国、加拿大、日本各一个。此次会议设计了两个指标场景:金融畛域中的公司合资状况、微电子技术畛域中四种芯片制作解决技术的停顿状况。除英语外,MUC- 5 还对日语信息抽取零碎进行了测试。在本次会议上,组织者尝试采纳均匀填充错误率(ERR, Error Per Response Fill)作为次要评估指标。与以前相比,MUC- 5 抽取工作的复杂性更大,比方公司合资场景须要填充 11 种子模板总共 47 个槽,光工作形容文档就有 40 多页。MUC- 5 的模板和槽填充标准是 MUC 系列评测中最简单的。
  • MUC- 5 的一个重要翻新是引入了嵌套的模板构造。信息抽取模板不再是扁平构造(flat structure)的单个模板,而是借鉴面向对象和框架常识示意的思维,由多个子模板组成。模板中每个槽的取值除了能够是文本串(如公司名)、格式化串(如将日期、工夫、金额等文本形容转化为某种标准模式)、无限汇合中的元素(如组织类型能够分为公司、政府部门、钻研机构等)外,还能够是指向另一个子模板的指针。
  • MUC- 6 于 1995 年 9 月举办,训练时的指标场景是劳动争议的协商状况,测试时的指标场景是公司管理人员的职务变动状况,共有 16 家单位加入了这次会议。MUC- 6 的评测更为粗疏,强调零碎的可移植性以及对文本的深层理解能力。除了原有的场景模板(Scenario Templates)填充工作外,又引入三个新的评测工作:命名实体(Named Entity)辨认、共指(Coreference)关系确定、模板元素(Template Element)填充等。

其中命名实体辨认即 NER 这个术语首次呈现在 MUC 会议中,其工作次要是要辨认出文本中呈现的专有名称和有意义的数量短语并加以归类;共指关系确定工作是要辨认出给定文本中的参照表达式,并确定这些表达式之间的共指关系;模板元素填充工作是要辨认出特定类型的所有实体以及它们的属性特色。

  • 最初一届 MUC 会议——MUC- 7 于 1998 年 4 月举办。训练时的指标场景是飞机失事事件,测试时的指标场景是航天器(火箭 / 导弹)发射事件。除 MUC- 6 已有的四项评测工作外,MUC- 7 又减少了一项新工作——模板关系工作,它意在确定实体之间与特定畛域无关的关系。共有 18 家单位加入了 MUC- 7 评测。值得注意的是,在 MUC- 6 和 MUC- 7 中开发者只容许用周围的工夫进行零碎的移植,而在先前的评测中经常容许有 6 - 9 个月的移植工夫。

1998 年在 MUC- 7 会议上第1次正式提出实体关系抽取工作。过后, 这一工作次要利用模板的形式抽取出实体之间的关系, 抽取的关系模板次要有 location_of, employee_of, manufacture_of 这三大类。在关系抽取方面, 该会议次要以商业活动内容为主题, 通过人工构建常识工程的办法, 针对英语实现关系分类.钻研人员利用 Linguistic Data Consortium 提供的 New York Times News Service Corpus 训练集和测试集构建关系抽取模型, 并实现模型的性能评估。.

在 MUC 中,掂量信息抽取零碎的性能次要依据两个评估指标:召回率和准确率。召回率等于零碎正确抽取的后果占所有可能正确后果的比例;准确率等于零碎正确抽取的后果占所有抽取后果的比例。

MUC 系列会议对信息抽取这一钻研方向的确立和倒退起到了微小的推动作用。MUC 定义的信息抽取工作的各种标准以及确立的评估体系曾经成为信息抽取钻研事实上的规范。

ACE 于 2000 年 12 月正式启动,由美国国家安全局(NSA)、美国国家标准和技术学会(NIST)以及地方情报局(CA)独特主管。测评中须要的大量训练集和测试集均由语言资源联盟(Linguistic Data Consortium,LDC)提供。ACE 次要关注 6 个畛域的信息:网络上的专线新闻(Newswire)、通过 ASR(主动语音辨认)失去的播送新闻(Broadcast Conversations)、通过 OCR(光学字符识别)失去的报纸新闻(Newspaper)、新闻组(Usenet)、对话性的电话谈话(Conversational Telephone Speech)和网络日志(Webbg)。其测评工作为实体探测与辨认(Entity Detection and Recognition,EDR)、价值探测与辨认(Value Detection and Recognition,VAL)、工夫表白辨认与标准化(Time Expression Recognition and Nomalization,TERN)、关系探测与辨认(Relation Detection and Recognition,RDR)以及事件探测与辨认(Event Detec-161tion and Recognition, VDR)。ACE 的指标是倒退包含自动识别和标识文本在内的主动内容抽取技术,以反对对语料库的主动解决。ACE 会议指出, 实体关系定义的是实体之间显式或者隐式的语义分割, 因而须要事后定义实体关系的类型, 而后辨认实体之间是否存在语义关系, 进而断定属于哪一种预约义的关系类型。该会议事后定义了地位、机构、成员、整体局部、人社会五大类关系, 次要应用机器学习 (有监督、半监督) 的办法, 针对英语、阿拉伯语、西班牙语等语言实现关系抽取工作。此外, 会议提供了肯定规模的标注语料 (ACE2004,ACE2005) 供大家钻研, 这为后续的钻研提供了便当和反对。

与 MUC 相比,ACE 评测不针对某个具体的畛域或场景,采纳基于漏报(标准答案中有而零碎输入中没有)和误报(标准答案中没有而零碎输入中有)为根底的一套评估体系,还对系统跨文档解决(Cross-document processing)能力进行评测。这一新的评测会议将把信息抽取技术钻研引向新的高度。

2009 年 ACE 由 TAC(Text Analysis Conference)正式接棒,ACE 成为 TAC 的一个子工作, 同时将关系抽取工作并入 KBP (Knowledge Base Population)会议。TAC 是一系列评估研讨会, 旨在促成自然语言解决和相干利用的钻研。KBP 是人口知识库, 旨在进步从文本主动填充知识库的能力。TAC 和 KBP 会议提供的大规模开源知识库(TAC-KBP), 极大地推动了面向知识库构建过程中的信息抽取技术的钻研和倒退。

Fei Wu 和 Daniel S. Weld 于 2007 年抉择维基百科作为初始数据源,提出了一种自我监督的机器学习零碎的原型实现,他们的初步试验证实了零碎提取数据的精度在一种状况下与人类相当。这种办法随后被称为近程监督算法(distant supervision algorithm)。

随着深度学习技术的倒退,CNN、RNN 等神经网络的办法被利用到信息抽取畛域。基于深度学习的办法能够在神经网络模型中主动学习特色, 将低层特色进行组合, 造成更加形象的高层特色, 用来寻找数据的分布式特色示意。同时可能防止人工特征选择等步骤, 缩小并改善特色抽取过程中的误差积攒问题。深度学习的办法使信息抽取技术进入高速倒退的时代。


2.2 信息抽取技术的产业倒退现状

晚期受限于技术倒退程度,信息抽取技术厂商通常从特定利用切入,例如证件信息抽取等,造成了一系列专用零碎。近年来,越来越多的利用嵌入了信息抽取技术,并逐步造成了残缺产业链生态,也衍生出了商业信息、医学信息等一系列细分信息抽取能力,更加精准的服务于各行各业

目前,信息抽取对商业、医学、通信、审计、媒体、政府等多种文字密集型行业应用领域已产生重要作用。将来随着传统行业的数字化转型水平进一步深刻,信息抽取技术利用范畴和场景将进一步扩大,市场规模将进一步增大。

其中商业信息抽取次要是通过开发专门的信息抽取零碎,剖析各渠道收集的商业信息大数据,抽取诸如无关公司工商信息、舆情现状、危险监控等信息,提供决策反对信息。

医疗信息抽取是医疗保健机构以及衰弱保险部门能够利用信息抽取零碎,获取病人的症状、诊断状况、化验后果以及医治状况,以便更好地提供医疗服务和保险服务。

政务信息抽取则是政务部门利用信息抽取零碎,获取泛滥的政务文件中的无效信息,使政务服务更加的精确、高效。


参考文献:

李冬梅,张扬,李东远,林丹琼 . 实体关系抽取办法钻研综述[J]. 计算机钻研与倒退,2020,57(7)

李保利, 陈玉忠, 俞士汶. 信息抽取钻研综述[J]. 计算机工程与利用, 2003, 39(10):6.

Compact Survey on Event Extraction:” Approaches and Applications“, IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 14, NO. 9, NOVEMBER 2021


版权申明:本文为 CSDN 博主「合合技术团队」的原创文章,遵循 CC 4.0 BY-SA 版权协定,转载请附上原文出处链接及本申明。
原文链接:https://blog.csdn.net/INTSIG/…


正文完
 0