一. 摘要
在自然语言解决的一个重要分支畛域——机器翻译中,句法分析占据着外围的位置,句法分析也是自然语言解决的核心技术,是机器了解语言的要害局部。句法分析的次要工作是辨认出句子所蕴含的句法成分以及这些成分之间的关系,通常会以句法树来示意句法分析的后果。本次分享将介绍句法分析相干的技术。
二. 概述
句法分析是决定自然语言解决进度的要害局部。句法分析次要有一下两个阻碍:歧义和搜寻空间。自然语言区别于人工语言的一个重要特点就是它存在着大量的歧义景象。人们能够依附大量的先验常识无效的打消掉歧义,而在机器学习中,机器在示意和获取方面存在重大的有余,所以很难向人一样进行语句的歧义打消。句法分析是一个极为简单的工作,侯选树的个数会随着句子增多出现指数级别的增长,搜寻空间微小。因而,必须要有适合的解码器,才可能做到在规定的工夫内搜寻到模型定义的最优解。
句法分析是通过词语组合分析失去句法结构的过程,而实现该过程的工具或程序被称为句法分析器。句法分析的品种很多,这里咱们依据其偏重指标分为齐全句法分析和部分句法分析两种。两者的差异在于,齐全句法分析以获取整个句子的句法结构为目标;而部分句法分析只关注部分的一些成分。
句法分析中所用办法能够简略的分为基于规定和基于统计两个类别。首先基于规定的办法在解决大规模实在文本时,会存在语法规定笼罩无限的缺点。随着基于统计学习模型的句法分析办法衰亡,句法分析器的性能一直的进步。典型的就是 PCFG,它在句法分析畛域失去了很宽泛的利用。统计句法分析模型实质上是一套面向候选树的评估办法,正确的句法树会被赋予一个较高的分值,对不合理的句法树则赋予较低的分值,最终将会抉择分值最高的句法树作为最终句法分析的后果。
三. 句法分析的数据集和评测办法
统计分析办法是离不开语料数据集和评估体系做根底的。
句法分析的数据集:统计学习办法须要语料数据的撑持,相较于分词和词性标注,句法分析应用的数据集更简单,它是一种树形的标注构造,已能够称为树库。
image.png
图 1:句法树模型
英文宾州树库 PTB(Penn TreeBank),是目前应用最多的树库,具备很好的一致性和标注准确率。中文的树库起步建设较晚,目前比拟驰名的有中文宾州树库、清华树库、台湾中研院树库。宾夕法尼亚大学标注的汉语句法树库是绝大多数中文句法分析钻研的基准语料库。
image.png
图 2:树库汉语成分标记集
句法分析的评测办法:句法分析评测的次要工作是评测句法分析器生成的树结构与手工标注的树结构之间的类似度。次要通过两个方面评测其性能:满意度和效率。满意度指的是测试句法分析器是否适合某个特定的自然语言解决工作;而效率次要是比照句法分析器的运行工夫。
目前支流的句法评测办法是 PARSEVAL 评测体系,这是一种粒度适中、较为理想的评测办法,次要指标有准确率、召回率、穿插括号数。其中准确率示意剖析正确的短语个数在句法分析后果中占据的比例。也就是剖析后果中与规范句法树中相匹配的短语个数占剖析后果中所有短语个数的比例。召回率能够了解为剖析失去的正确短语个数占规范分析树全副短语个数的比例。穿插括号示意剖析失去的某一个短语的覆盖范围与规范句法分析后果的某个短语的覆盖范围存在重叠但不存在蕴含关系,即形成一个穿插括号。
四. 基于 PCFG 的句法分析
PCFG(Probabilistic Context Free Grammar)是基于概率的短语构造分析方法,是目前较成熟的句法分析模型,也能够认为是规定办法和统计办法的联合。
PCFG 是一种生成式的办法,它的短语构造文法能够示意为一个五元组(X,V,S,R,P):
X 是一个无限词汇的汇合,其中的元素称为词汇或者终结符。
V 是一个无限标注的汇合,称为非终结符汇合。
S 称为文法的开始符号,并且蕴含于 V。
R 是有序偶对 (α,β) 的汇合,就是产生的规定集。
P 代表每个产生规定的统计概率。
PCFG 用于解决以下的问题:
1) 基于 PCFG 能够计算分析树的概率值。
2) 若一个句子有多个概率树,能够根据概率值对所有的分析树进行排序。
3) PCFG 能够用于进行句法排歧,面对多个剖析后果抉择概率值最大的。
上面通过一个例子展现 PCFG 求解最优句法树的过程。首先有一个规定集:
image.png
图 3:PCFG 规定集
其中第一列示意规定,第二列示意规定成立的概率。
给定句子 S:astronomers saw stars with ears,通过 PCFG 和上述的规定集,失去如下两个句法树:
image.png
图 4:句法树展现图
而后计算两棵句法树的概率:
P(T1) = S×NP×VP×V×NP×NP×PP×P×NP
= 1.0×0.1×0.7×1.0×0.4×0.18×1.0×1.0×0.18
= 0.0009072
P(T2) = S×NP×VP×VP×V×NP×PP×P×NP
= 1.0×0.1×0.3×0.7×1.0×0.18×1.0×1.0×0.18
= 0.0006804
比照两棵句法树的最终概率值,抉择 T1 作为最终的句法树。
五. 基于最大距离马尔可夫网络的句法分析
最大距离属于 SVM(反对向量机)中的外围实践,而马尔可夫网络是概率图模型中一种具备肯定构造解决关系能力的算法。最大距离马尔可夫网络 (Max-Margin Markov Networks) 就是这两者的汇合办法,可能解决简单的结构化预测问题,尤为适宜用于句法分析工作。这是一种判别式的句法分析办法,次要是通过多个特色来打消剖析过程中的歧义。判别函数如下:
image.png
图 5:最大距离马尔可夫网络判别函数表达式
其中的 (x,y) 示意与 x 绝对应的句法树 y 的特征向量,w 示意特色权重。
相似 SVM 算法,最大距离马尔可夫网络如果要实现多元分类,能够采纳多个独立并且能够并行训练的二元分类器实现。每一个二元分类器辨认一个短语标记,再通过组合多个二元分类器就能够实现句法分析工作,同时也能够通过并行的形式,晋升训练速度。
总结
句法分析在自然语言解决中是十分重要的一个环节。本次的内容分享了罕用的数据集和评测办法,PCFG 和最大距离马尔可夫网络两种句法分析。目前的句法分析的理论性能与实践性能还有较大的间隔,因为语言学的实践和自然语言理论利用之间还有着较大的差别。