关于机器学习:技术白皮书第三章文本信息抽取模型介绍实体抽取方法NER模型下

28次阅读

共计 8324 个字符,预计需要花费 21 分钟才能阅读完成。

本文篇幅较长,倡议配合目录食用分次浏览。

3.1.4 罕用的实体抽取模型 Lattice LSTM

新加坡科技设计大学的研究者 2018 年在论文《Chinese NER Using Lattice LSTM》中提出了新型中文命名实体地识别方法Lattice LSTM

作为信息抽取的一项根本工作,命名实体辨认(NER)近年来始终受到钻研人员的关注。该工作始终被作为序列标注问题来解决,其中实体边界和类别标签被联结预测。英文 NER 目前的最高水准是应用 LSTM-CRF 模型实现的,其中字符信息被整合到词表征中。中文 NER 与分词相干。命名实体边界也是词边界。执行中文 NER 的一种直观形式是先执行分词,而后再利用词序列标注。然而,宰割 → NER 流程可能会遇到误差流传的潜在问题,因为 NE 是宰割中 OOV 的重要起源,并且宰割谬误的实体边界会导致 NER 谬误。这个问题在凋谢畛域可能会很重大,因为跨畛域分词依然是一个未解决的难题。已有钻研表明,中文 NER 中,基于字符的办法体现要优于基于词的办法。
lattice LSTM 算法原理:
图一

基于字符的 NER 的一个缺点在于无奈充分利用显性的词和词序信息 ,而它们是很有用的。为了解决这一问题,研究者利用 lattice LSTM 来表征句子中的 lexicon word,从而将潜在词信息整合到基于字符的 LSTM-CRF 中。如图 1 所示,研究者应用一个大型主动获取的词典来匹配句子,进而构建基于词的 lattice。因而,词序如「长江大桥」、「长江」和「大桥」之类的单词序列来打消上下文中潜在相干命名实体的歧义,如人名「江大桥」。因为在网格中存在指数级数量的词 - 字符门路,因而研究者利用 lattice LSTM 构造自动控制从句子结尾到结尾的信息流。如图 2 所示,门控单元用于将来自不同门路的信息动静传送到每个字符。在 NER 数据上训练后,lattice LSTM 可能学会从语境中主动找到更有用的词,以获得更好的 NER 性能。与基于字符和基于词的 NER 办法相比,lattice LSTM 提出的模型的劣势是具备利用显式单词信息进行字符序列标记的劣势,而且不会呈现分词谬误。
图二

 结果表明,lattice LSTM 模型显著优于基于字符的序列标注模型和应用 LSTM-CRF 的基于词的序列标注模型,在不同畛域的多个中文 NER 数据集上均取得最优后果。算法模型:研究者遵循最好的英文 NER 模型,应用 LSTM-CRF 作为次要网络结构。模式上,指定输出句子为 s = c1,c2,…,cm,其中 cj 指第 j 个字符。s 还能够作为词序列 s = w1,w2,…,wn,其中 wi 指句子中的第 i 个词,应用中文分词器取得。研究者应用 t(i, k) 来指句子第 i 个词中第 k 个字符的索引 j。以图 1 中的句子为例。如果分词是「南京市 长江大桥」,索引从 1 开始,则 t(2, 1) = 4 (长),t(1, 3) = 3 (市)。研究者应用 BIOES 标记规定进行基于词和基于字符的 NER 标记。

Character-Based Model

  • 在基于字符的模型中,应用 LSTM-CRF 对子序列 c1,C2,…,cm 建模,每个 c j 的示意为下:
  •  ec 示意字嵌入的查找表,即 xc j;示意查找到的第 j 个字符的向量双向的 LSTM 应用 x1,x2,·.·,xm 失去双向的暗藏状态,每个字的暗藏状态向量示意为:
  •  规范 CRF 模型会应用 hc 1,hc 2,;…,hc m 进行序列标注,失去对应的实体信息。

Word-Based Model:

  • 基于词汇的模型如图(b)所示。它采纳单词嵌入 e w(w I)示意每个单词 w I:

    其中 e w  示意单词嵌入查找表。双向 LSTM(等式 11)用于取得单词 w1,w2,…,wn 的从左到右的暗藏状态序列和从右到左的暗藏状态序列。
    最初,对于每个单词,将其连贯为其示意模式。将 w i 中的字符示意为 xc i 通过将 ew(wi)和 xc i 串联失去新的单词示意:

 

Lattice model:

  • word-character lattice 模型的总体构造如图 2 所示。它能够看作是基于字符模型的扩大,集成了基于字符的单元和用于管制信息流的附加门。
  •  如图(c)所示,模型的输出是字符序列 c1,c2,…,cm,以及匹配词典 D 中单词的所有字符子序列。如前文所示,模型应用主动宰割的大型原始文本构建 D。应用 wd b,e 示意以字符索引 b 开始,以字符索引 e 完结的子序列,即 wd 1,2 为“南京(Nanjing)”和 wd 7,8 是“大桥(Bridge)”。

该模型波及四种类型的向量,即输出向量、输入暗藏向量、单元向量和门向量。作为根本组件,字符输出向量用于示意基于字符的模型中的每个字符 c j:

 与基于字符的模型不同,cc j 的计算当初思考了词典子序列句子中的 wd b,e。特地地,每个子序列 w d b,e 示意为:

此外,从句首开始退出 word cell cw b,e 用于示意 xw b,e 的循环状态。 带有 cw b,e,信息流入每个 cc j 有更多的循环门路。例如,在图 2 中,cc 7 的输出源包含 xc 7(桥 Bridge)、cw 6,7(大桥 Bridge)和 cw 4,7(长江大桥 Yangtze River Bridge)。最终暗藏向量 hc j 仍按根本 recurrent LSTM 函数计算。解码:解码局部应用的是规范的 CRF 层。应用一阶 Viterbi 算法在基于单词或基于字符的输出序列上找到得分最高的标签序列。

试验后果:在 Lattice LSTM 论文中,总共选取了四个数据集作为试验数据。别离是:OntoNotes 4、MSRA、Weibo NER 以及研究者自行标注的中文数据集。失去了如下 4 个表所示的试验后果。OntoNotes 测试后果如表 5 所示。通过黄金比例宰割,Lattice LSTM 基于单词的办法在双语数据集上失去了与最先进的办法(Che et al.,2013《Named entity recognition with bilingual constraints.》;Wang et al.,2013《Effective bilingual constraints for semi-supervised learning of named entity recognizers.》)有竞争力的后果。这表明,与其余语言一样,LSTM-CRF 是基于单词的中文 NER 的竞争抉择。此外,结果表明,Lattice LSTM 基于 word 的模型能够作为具备高度竞争力的基线。在主动切分的状况下,word+char+bichar LSTM 的 F1 得分从 75.77% 降落到 71.70%,显示了切分对 NER 的影响。与开发集上的察看后果统一,增加 Lattice 信息会达到 88.81%!F1 问题比 character baseline 从 88.81% 进步到 93.18%!增加 bichar+softword,会进步到 91.87%。

Lattice LSTM 模型在主动宰割方面也失去了最好的 F1-score。

 MSRA 数据集的后果如表 6 所示。对于这个基准测试,测试集上没有可用的 goldstandard 分段。Lattice LSTM 抉择的分割器在 5 倍穿插验证训练集上的准确率为 95.93%。数据集上的最佳统计模型利用了丰盛的手工特色和字符嵌入特色(Lu et al.,2016《Multi-prototype Chinese character embedding.》)。Dong 等人(《Character-based LSTM-CRF with radical-level features for Chinese named entity recognition.》)开发了具备激进特色的神经 LSTM-CRF。与现有的办法相比,Lattice LSTM 的基于单词和基于字符的 LSTM-CRF 模型具备较高的精度。lattice 模型显著优于基于字符和基于单词的最佳模型(p<0:01),在这个规范基准上获得了最好的后果。

 微博 NER 数据集的后果如表 7 所示,其中 NE、NM 和 OVERALL 别离示意命名实体、标称实体(不包含命名实体)和两者的 F1 分数。此数据集没有黄金规范分段。现有最先进的办法包含 Peng 和 Dredze(《Improving named entity recognition for Chinese social media with word segmentation representation learning.》)以及 He 和 Sun(《A unified model for cross-domain and semi-supervised named entity recognition in Chinese social media.》),他们摸索了丰盛的嵌入特色、跨域和半监督数据。

 中文标注数据集 NER 测试数据的后果如表 8 所示。与 OntoNotes 和 MSRA 上的察看后果统一,lattice 模型在微博和简历上的体现显著优于基于单词的模式和基于字符的模式(p<0:01),提供了最先进的后果。

论断

总的来说,这篇论文是在中文 NER 畛域引入词汇信息,改善了之前仅利用字符来做 NER 的状况,这也是中文自身的特点,仅仅按字符来划分失落了太多语境。作为中文 NER 畛域引入词汇信息的开山之作,其对后续钻研工作有较深的影响。

CAN-NER
2019 年论文《CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition》提出了用基于注意力机制的卷积神经网络架构。采纳一种卷积留神网络 CAN,它由具备部分 attention 的基于字符的 CNN 和具备全局 attention 的 GRU 组成,用于获取从部分的相邻字符和全局的句子上下文中信息,加强了模型隐式捕获字符序列间部分上下文关系的能力。首先模型输出的是字符,卷积注意力层用来编码输出的字符序列并隐式地对部分语义相干的字符进行分组。对输出进行向量嵌入,蕴含字向量、分词向量和地位向量,失去输出向量后,采纳部分 local attention 来捕获窗口范畴内中心词和四周词的依赖,部分 attention 的输入被送到 CNN 中,最初采纳加和池化计划。失去部分特色后,进入到 BiGRU-CRF 中,而后采纳全局的 attention 来进一步捕获句子级别的全局信息。前面接 CRF,失去分类后果。self-attention 能够捕获狭义的上下文信息,缩小无用两头词的烦扰。

CAN-NER 算法原理:

 CAN-NER 模型应用 BiGRU-CRF 作为根本模型构造,其残缺模型构造为:Embedding+ Convolution Attention + GRU + Global Attention + CRFConvolution Attention 层:卷积留神层的目标是对输出字符序列进行编码,并在本地上下文中隐式分组与意义相干的字符。Global Attention:捕捉长序列句子级别的关系 首先模型输出的是字符,卷积注意力层用来编码输出的字符序列并隐式地对部分语义相干的字符进行分组。输出用 x =[xch; xseg]示意,其中 xch 代表 word2vec 的词向量,xseg 示意分词信息。对输出进行向量嵌入,蕴含字向量、分词向量和地位向量,de=dch+dpos +dseg 失去输出向量后,在窗口内利用部分 attention 来捕捉核心字符和每个上下文标记之间的关系,而后加上带有加和池化层的 CNN。将暗藏维度设置为 dh。

在通过卷积留神层提取部分上下文特色后,将其输出到基于 BiGRU-CRF 的模型中,以预测每个字符的最终标签。该层对程序句子信息进行建模。而后采纳全局的 attention 来进一步捕获句子级别的全局信息。最初,在 BiGRU 和 global attention 层输入的串联顶部应用规范 CRF 层。在解码时,模型应用 Viterbi 算法来取得预测的标签序列。试验后果:试验中应用了四个数据集。对于新闻畛域,CAN-NER 在 OntoNotes 和 SIGHAN Bakeoff 2006 的 MSRA NER 数据集上进行了试验。对于社交媒体畛域,CAN-NER 采纳了与 PENG 和 Dredze (2015)的正文微博语料库,该语料库摘自新浪微博。为了让测试畛域更加多样化,CAN-NER 还应用了从新浪财经收集的中文正文数据集。

下表是各数据集的统计状况:

下表是 CAN-NER 在 Weibo NER 数据集上的试验后果。在这里,试验将 CAN-NER 的模型与微博数据集上的最新模型进行比拟。表 2 显示了命名实体(NE)、标称实体(NM,不包含命名实体)和两者(总体)的 F1 分数。能够察看到,试验提出的模型达到了最先进的性能。

 先进的办法包含 Peng and Dredze (2016《Improving named entity recognition for chinese social media with word segmentation representation learning.》)、He and Sun (2017b《A unified model for cross-domain and semi-supervised named entity recognition in Chinese social media.》)、Cao et al. (2018《Adversarial transfer learning for Chinese named entity recognition with self-attention mechanism.》)以及 Zhang and Yang (2018《Chinese ner using lattice lstm》),它们利用了丰盛的内部数据,如跨域数据、半监督数据和词典,或联结训练 NER 和中文分词(CWS)。

在表 2 的第一局部,实验报告了最新模型的性能。Peng and Dredze (2015《Named entity recognition for chinese social media with jointly trained embeddings.》)提出了一种与 NER 联结训练嵌入的模型,该模型的总体性能 F1 得分为 56.05%。联结训练 NER 和 CWS 的模型(Peng 和 Dredze,2016)F1 得分达到 58.99%。He 和 Sun(2017b)提出了一种利用跨域和半监督数据的对立模型,与 He 和 Sun(2017a)提出的模型相比,F1 得分从 54.82% 进步到 58.23%。Cao 等人(2018 年)应用对抗性迁徙学习框架整合 CWS 中的工作共享单词边界信息,F1 得分为 58.70%。Zhang 和 Yang(2018)利用晶格构造将词典信息集成到他们的模型中,F1 得分为 58.79%。

在表 2 的第二局部中,试验给出了 Baseline 和 CAN-NER 模型的后果。尽管 BiGRU+CRF 基线只取得了 53.80% 的 F1 分数,但增加一个失常的 CNN 层作为特色化器将分数进步到 55.91%。用 CAN-NER 的卷积留神层取代 CNN,F1 得分大大提高到 59.31%,优于其余模型。改良证实了 CAN-NER 的模型的有效性。中文标注数据集测试后果如表 3 所示。Zhang 和 Yang(2018)公布了中文标注数据集,他们的 F1 得分为 94.46%。

能够看出,试验提出的 Baseline(CNN+BiGRU+CRF)优于 Zhang 和 Yang(2018),F1 得分为 94.60%。增加 CAN-NER 的卷积注意力会导致进一步的改良,并达到最先进的 F1 分数 94.94%,这进一步证实了 CAN-NER 的模型的有效性。

 表 4 显示了在 OntoNotes 4 数据集的比拟。表中的第一块列出了中文 NER 以前办法的性能。Yang et al.(2016《Combining discrete and neural features for sequence labeling》)提出了一种神经和离散特色相结合的模型,例如词性标注特色、CWS 特色和正交特色,将 F1 得分从 68.57% 进步到 76.40%。利用双语数据,Che et al.(2013《Named entity recognition with bilingual constraints.》)和 Wang et al.(2013《Effective bilingual constraints for semi-supervised learning of named entity recognizers.》)的 F1 问题别离为 74.32% 和 73.88%。Zhang and Yang(2018)是一个新的模型,它应用了基于角色的模型,并应用了 bichar 和 softword。

表 4 的第二局部显示了 Baseline 和 CAN-NER 模型的后果。与微博和中文标注数据集上的察看后果统一,CAN-NER 卷积注意力层导致 F1 分数大幅减少。CAN-NER 的模型在不应用内部数据的状况下,在基于字符的模型中,F1 得分达到 73.64%(例如,Zhang 和 Yang(2018))。

 表 5 显示了 MSRA 2006 数据集的试验后果。Chen et al.(2006)、Zhang et al.(2006)和 Zhou et al.(2013)利用丰盛的手工特色,Lu et al.(2016)利用多原型嵌入特色。Dong 等人(2016)将字根特色引入 LSTM-CRF。Cao 等人(2018 年)利用对抗性迁徙学习和 global self-attention 来进步模型性能。Yang 等人(2018a)提出了一种基于字符的 CNN BiLSTM CRF 模型,以联合笔划嵌入并生成 n -gram 特色。Zhang 和 Yang(2018)引入了一种晶格构造,将词典信息纳入神经网络,神经网络实际上蕴含单词嵌入信息。尽管该模型达到了最先进的 F1 分数 93.18%,但它利用了内部词典数据,因而后果取决于词典的品质。在表格的底部,能够看到 Baseline+CNN 曾经优于以前的大多数办法。

与 Zhang 和 Yang(2018)相比,CAN-NER 的基于字符的办法在没有任何额定的词典数据和单词嵌入信息的状况下取得了 92.97% 的 F1 分数。此外,CAN-NER 模型在基于角色的模型中获得了最先进的后果。

 试验后果剖析:

CAN-NER 的模型优于之前在 Weibo 和自行标注的数据集上的钻研,在不应用任何内部资源的状况下,在 MSRA 和 OntoNotes 4 数据集上都获得了有竞争力的后果。试验后果证实了 CAN-NER 的有效性,尤其是在基于字符的模型中。增加卷积留神层和全局留神层后的性能改良验证了 CAN-NER 可能捕获角色与其部分上下文之间的关系,以及单词与全局上下文之间的关系。然而,只管 CAN-NER 能够取得与不应用内部资源的其余模型相当或更好的后果,但试验发现 CAN-NER 在 OntoNotes 4 数据集上的模型性能仍有改良的余地(与利用额定数据的最佳模型相比,F1 分数差距为 2.76%)。

这可能是因为特定的离散特色和内部资源(例如,其余标记数据或词汇)对该特定数据集具备更踊跃的影响,而 CAN-NER 无奈仅从训练集中学习足够的信息。但研究员无奈依据可用的相应资源确定造成差距的确切起因。

论断

CAN-NER 提出了一种卷积留神网络模型,以进步中文 NER 的性能,防止单词嵌入和额定的词汇依赖;从而使模型更加高效和强壮。在 CAN-NER 中,模型实现了具备 global self-attention 构造的 local-attention CNN 和 Bi-GRU,用字符级特色捕捉单词级特色和上下文信息。大量试验表明,在不同畛域的数据集上,CAN-NER 优于最先进的零碎。


参考文献:
-Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li,“A Survey on Deep Learning for Named Entity Recognition”IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING,2020
-Yuying Zhu,Guoxin Wang,“CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition”,Proceedings of NAACL-HLT 2019, pages 3384–3393
-Yue Zhang,Jie Yang,“Chinese ner using lattice lstm”In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, volume 1, pages 1554–1564.

正文完
 0