共计 3292 个字符,预计需要花费 9 分钟才能阅读完成。
- 摘要
基于上次分享的分词技术介绍,本次持续分享在分词后与词相关联的两个技术:词性标注和命名实体辨认。词性是词汇根本的语法属性,也能够称为词类。词性标注的行为就是在给定的中文句子中断定每个词的语法作用,确定每个词的词性并加以标注。命名实体辨认在信息检索方面有着很重要作用,检测出代表性的名称,上面咱们深刻理解下这两个技术。
- 词性标注
首先简略举例说明一下中文词性标注的利用成果。例如,示意地点、事物、姓名的这类词语称为名词,示意状态变动的称为动词,形容或润饰名词的称为形容词。示例句子:“中国是十分凋敝稳固的国家”。对这句话做词性标注后果如下:“中国 / 名词 是 / 动词 十分 / 副词 凋敝 / 形容词 稳固 / 形容词 的 / 构造助词 国家 / 名词”。
在中文句子中,一个同音同形的词处在不同的上下文时,语法的属性是截然不同的,因为这个起因,这就给中文词性标注带来很大的艰难。然而从中文词语整体的应用状况来看,大多数的词语,尤其是虚词,个别是有一到二个词性,并且通过统计发现,其中一个词性的应用频次远大于另外词性。所以即便每次都将高频的词性作为其词性,也可能实现很高的准确率。只有咱们对常用词的词性可能进行很精准的辨认,应用时也可能笼罩绝大多数的场景。
词性标注最简略的办法就是从语料库中统计每个词所对应的高频词性,将其作为默认的词性,但基于这种办法的词性标注还是有揭示空间的。目前较为支流的办法和分词类似,将句子的词性标注作为一个序列标注问题对待,这样隐马尔可夫模型、条件随机场模型都能够利用于词性标注工作中。
词性标注标准表
image.png
image.png
图 1:词性标注标准表
- 命名体辨认
与主动分词、词性标注技术雷同,命名体辨认也是自然语言解决畛域的一个根底工作,是信息抽取、信息检索、机器翻译以及问答零碎等多种自然语言解决技术必不可少的组成部分。其次要目标是辨认语料中的人名、中央名、组织机构名等一些命名实体。因为这些命名实体数量在一直的减少,通过词典是不可能齐全列出的,且这些命名实体形成办法具备各自的规律性,因而,通常须要将这些词的辨认在词汇状态解决工作中独自解决,称为命名体辨认 (Named Entities Recognition,NER)。通常状况下命名体辨认能够分为三大类:实体类、工夫类、数字类,和七个小类:人名、地名、组织机构名、工夫、日期、货币、百分比。在辨认数量、工夫、日期、货币这些小类别实体的时候,能够采纳模式匹配的形式取得较好的辨认成果,难点在于人名、地名、组织机构名,因为这三类实体名称结构复杂,因而钻研方向次要以这三类实体名称为主。
并且中文的命名体辨认比照英文难度更大。命名体辨认成果的评判次要看实体的边界是否划分正确以及实体的类型是否标注正确。在英文中,命名实体个别是具备较为显著的模式标记,因为英文命名实体的每个词的首字母都是大写模式,因而英文中实体边界辨认绝对容易很多,重点是在对实体类型的确定。而在汉语当中,相较于实体类别标注工作,实体边界的辨认更加艰难。
中文命名实体辨认次要有一下的难点:各类命名实体数量泛滥、命名实体的形成法则简单、嵌套状况简单、长度不确定。
在分词的介绍中,咱们次要列出来三种形式:基于规定的办法、基于统计的办法以及混合应用办法。在整个 NLP 的命名实体辨认中也不例外。
基于规定的命名实体辨认:规定加词典是晚期命名实体辨认中最卓有成效的办法,次要依赖于手工规定的零碎,联合命名实体库,对每一条规定进行权重的赋值,而后再通过实体与规定的相符水平进行类型的判断。当提取的规定可能较好的反馈语言的景象时,此办法的成果显著优于其余办法。然而在大多数的情境下,规定往往依赖于具体的语言、畛域和文本的格调,并且其编制的过程十分耗时,也难以涵盖所有的语言景象,更新保护十分艰难。
基于统计的命名实体辨认:目前支流的基于统计的命名实体识别方法次要有隐马尔可夫模型、最大熵模型、条件随机场等等。次要的思维是:基于人工标注的语料,将命名实体辨认工作作为序列标注问题来解决。基于统计办法对语料库品质的依赖比拟大,而规模大品质高的语料库很少,是此类办法的一个制约。
混合办法:NLP 并不齐全是随机的过程,如果仅应用基于统计的办法会使搜寻空间十分的宏大,所以须要提前借助规定办法进行过滤修剪解决。所以在很多状况下是应用混合办法的。
基于条件随机场的命名实体辨认
在进入条件随机场之前,咱们首先要理解下 HMM。上次咱们分享到 HMM 是将分词作为字标注问题解决的,这外面有两个十分要害的假如:一是输入察看值之间互相独立,二是状态的转移过程中以后状态只与前一状态无关。因为这两个假如的成立,使得 HMM 便于计算。然而在少数的场景下,尤其是在大量实在语料中,察看序列更多是以一种多重的交互特色模式体现进去的,察看到元素之间宽泛存在着长程相关性。此时的 HMM 就受到很大的限度。
基于上述起因,条件随机场被创始进去,次要的思维是源于 HMM 的,也是一种用来标记和切分序列化数据的统计模型。不同的是,条件随机场是在给定的标记序列下,计算整个标记序列的联结概率,而 HMM 则是在给定以后状态下,去定义下一个状态的散布。
条件随机场的定义:
假如 X =(X1,X2,X3,…,Xn) 和 Y =(Y1,Y2,Y3,…,Ym) 是联结随机变量,若随机变量 Y 形成一个无向图 G =(V,E) 示意的马尔可夫模型,则其条件概率分布 P(Y|X) 就称为条件随机场 (Conditional Random Field,CRF),公式示意为
image.png
图 2:条件随机场表达式
其中 w - v 示意图 G =(V,E) 中与节点 v 有边连贯的所有结点,w!= v 示意节点 v 以外的所有结点。
在这里简略的阐明一下随机场的概念:现有若干个地位组成的整体,当给某一个地位依照某种散布随机的赋予一个值后,则该整体被称为随机场。如果以机构地名为例子,并假设如下规定。
image.png
图 3:标注表
现有 n 个字符形成的 NER 的句子,每个字符的标签都在咱们已知的标签汇合中抉择好,当咱们为每个字符选定标签后,就造成一个随机场。若在其中退出一些束缚,比方所有的字符的标签只与相邻的字符的标签相干,那么此时就是马尔可夫随机场问题。马尔可夫随机场中有 X 和 Y 两种变量,X 个别是给定的,Y 是在给定 X 条件下的输入。那么在这里,X 是字符,Y 是标签,P(X|Y) 就是条件随机场。
在条件随机场的定义中,咱们并未规定变量 X 与 Y 具备雷同的构造,理论在自然语言解决中,很多状况下假如其构造是类似的,示意为
X=(X1,X2,X3,…,Xn),Y=(Y1,Y2,Y3,…,Ym)
image.png
图 4:线性条件随机场
个别称这种构造为线性链条件随机场,能够定义为:假如 X =(X1,X2,X3,…,Xn 和 Y =(Y1,Y2,Y3,…,Ym) 均为线性链示意的随机变量序列,若在给定的随机变量序列 X 的条件下,随机变量序列 Y 的条件概率分布 P(Y|X) 形成条件随机场,并且满足马尔可夫性质:
P(Yi|X,Y1,Y2,…,Ym)=P(Yi|X,Yi-1,Yi+1)
那么,能够称 P(Y|X) 为线性链的条件随机场。
比照于 HMM,这里的线性链不仅思考了上一个状态 Yi-1,还思考了前面一个状态 Yi+1。能够通过下图直观示意。
image.png
图 5:HMM 与线性链
在该图中能够看到 HMM 属于一个有向图,而本次重点的线性链是一个无向图,也因而,HMM 解决时,本次状态依赖于上一个状态,而线性链则是依赖于以后状态的四周节点的状态。
当解决标注问题时,HMM 和条件随机场都是不错的抉择,然而相较于 HMM 性质,线性链更可能捕捉到全局的信息,并且成果很好,但在模型计算复杂度上比起 HMM 要高出很多。
- 总结
本次分享的首先是词性标注内容,阐明了词性标注环节在自然语言解决中起到的作用,剖析了罕用的词性标注办法和该技术目前所受到的限度。而后是命名实体辨认原理和作用的阐明,重点形容了基于条件随机场模型的命名实体辨认技术,以及和 HMM 模型成果和复杂度上的的比照。
本次的词性标注和命名实体辨认技术已分享实现,因为自己程度无限,文章中难免会呈现谬误的中央,欢送大家在下方斧正探讨