关于机器学习:技术白皮书第三章文本信息抽取模型介绍实体抽取方法NER模型下

本文篇幅较长，倡议配合目录食用分次浏览。

3.1.4 罕用的实体抽取模型 Lattice LSTM

新加坡科技设计大学的研究者2018年在论文《Chinese NER Using Lattice LSTM》中提出了新型中文命名实体地识别方法Lattice LSTM。

作为信息抽取的一项根本工作，命名实体辨认（NER）近年来始终受到钻研人员的关注。该工作始终被作为序列标注问题来解决，其中实体边界和类别标签被联结预测。英文 NER 目前的最高水准是应用 LSTM-CRF 模型实现的，其中字符信息被整合到词表征中。中文 NER 与分词相干。命名实体边界也是词边界。执行中文 NER 的一种直观形式是先执行分词，而后再利用词序列标注。然而，宰割 → NER 流程可能会遇到误差流传的潜在问题，因为 NE 是宰割中 OOV 的重要起源，并且宰割谬误的实体边界会导致 NER 谬误。这个问题在凋谢畛域可能会很重大，因为跨畛域分词依然是一个未解决的难题。已有钻研表明，中文 NER 中，基于字符的办法体现要优于基于词的办法。
lattice LSTM算法原理：
图一

基于字符的 NER 的一个缺点在于无奈充分利用显性的词和词序信息，而它们是很有用的。为了解决这一问题，研究者利用 lattice LSTM 来表征句子中的 lexicon word，从而将潜在词信息整合到基于字符的 LSTM-CRF 中。如图 1 所示，研究者应用一个大型主动获取的词典来匹配句子，进而构建基于词的 lattice。因而，词序如「长江大桥」、「长江」和「大桥」之类的单词序列来打消上下文中潜在相干命名实体的歧义，如人名「江大桥」。因为在网格中存在指数级数量的词-字符门路，因而研究者利用 lattice LSTM 构造自动控制从句子结尾到结尾的信息流。如图 2 所示，门控单元用于将来自不同门路的信息动静传送到每个字符。在 NER 数据上训练后，lattice LSTM 可能学会从语境中主动找到更有用的词，以获得更好的 NER 性能。与基于字符和基于词的 NER 办法相比，lattice LSTM提出的模型的劣势是具备利用显式单词信息进行字符序列标记的劣势，而且不会呈现分词谬误。
图二

结果表明，lattice LSTM模型显著优于基于字符的序列标注模型和应用 LSTM-CRF 的基于词的序列标注模型，在不同畛域的多个中文 NER 数据集上均取得最优后果。算法模型：研究者遵循最好的英文 NER 模型，应用 LSTM-CRF 作为次要网络结构。模式上，指定输出句子为 s = c1，c2，…， cm，其中 cj 指第 j 个字符。s 还能够作为词序列 s = w1，w2， …，wn，其中 wi 指句子中的第 i 个词，应用中文分词器取得。研究者应用 t(i, k) 来指句子第 i 个词中第 k 个字符的索引 j。以图 1 中的句子为例。如果分词是「南京市长江大桥」，索引从 1 开始，则 t(2, 1) = 4 (长)，t(1, 3) = 3 (市)。研究者应用 BIOES 标记规定进行基于词和基于字符的 NER 标记。

Character-Based Model：

在基于字符的模型中，应用LSTM-CRF对子序列c1，C2，…，cm建模，每个c j的示意为下：
ec示意字嵌入的查找表，即xc j；示意查找到的第j个字符的向量双向的LSTM应用x1,x2，·．·，xm失去双向的暗藏状态，每个字的暗藏状态向量示意为：
规范CRF模型会应用 hc 1，hc 2，；...，hc m进行序列标注，失去对应的实体信息。

Word-Based Model：

基于词汇的模型如图（b）所示。它采纳单词嵌入e w（w I ）示意每个单词w I ：

其中e w 示意单词嵌入查找表。双向LSTM（等式11）用于取得单词w1，w2，…，wn的从左到右的暗藏状态序列和从右到左的暗藏状态序列。
最初，对于每个单词，将其连贯为其示意模式。将w i中的字符示意为xc i通过将ew（wi）和xc i串联失去新的单词示意：

Lattice model：

word-character lattice 模型的总体构造如图2所示。它能够看作是基于字符模型的扩大，集成了基于字符的单元和用于管制信息流的附加门。
如图（c）所示，模型的输出是字符序列c1，c2，…，cm，以及匹配词典D中单词的所有字符子序列。如前文所示，模型应用主动宰割的大型原始文本构建D。应用wd b，e示意以字符索引b开始，以字符索引e完结的子序列，即wd 1，2为“南京（Nanjing）”和wd 7，8是“大桥（Bridge）”。

该模型波及四种类型的向量，即输出向量、输入暗藏向量、单元向量和门向量。作为根本组件，字符输出向量用于示意基于字符的模型中的每个字符c j：

与基于字符的模型不同，cc j的计算当初思考了词典子序列句子中的wd b，e。特地地，每个子序列w d b，e示意为：

此外，从句首开始退出word cell cw b，e用于示意xw b，e的循环状态。 带有cw b，e，信息流入每个cc j有更多的循环门路。例如，在图2中，cc 7的输出源包含xc 7（桥 Bridge）、cw 6，7（大桥 Bridge）和cw 4，7（长江大桥 Yangtze River Bridge）。最终暗藏向量hc j仍按根本recurrent LSTM函数计算。解码：解码局部应用的是规范的CRF层。应用一阶Viterbi算法在基于单词或基于字符的输出序列上找到得分最高的标签序列。

试验后果：在Lattice LSTM论文中，总共选取了四个数据集作为试验数据。别离是：OntoNotes 4 、MSRA 、Weibo NER 以及研究者自行标注的中文数据集。失去了如下4个表所示的试验后果。OntoNotes测试后果如表5所示。通过黄金比例宰割，Lattice LSTM基于单词的办法在双语数据集上失去了与最先进的办法（Che et al.，2013《Named entity recognition with bilingual constraints.》；Wang et al.，2013《Effective bilingual constraints for semi-supervised learning of named entity recognizers.》）有竞争力的后果。这表明，与其余语言一样，LSTM-CRF是基于单词的中文NER的竞争抉择。此外，结果表明，Lattice LSTM基于word的模型能够作为具备高度竞争力的基线。在主动切分的状况下，word+char+bichar LSTM的F1得分从75.77%降落到71.70%，显示了切分对NER的影响。与开发集上的察看后果统一，增加Lattice信息会达到88.81%！F1问题比character baseline从88.81%进步到93.18%！增加bichar+softword，会进步到91.87%。

Lattice LSTM模型在主动宰割方面也失去了最好的F1-score。

MSRA数据集的后果如表6所示。对于这个基准测试，测试集上没有可用的goldstandard分段。Lattice LSTM抉择的分割器在5倍穿插验证训练集上的准确率为95.93%。数据集上的最佳统计模型利用了丰盛的手工特色和字符嵌入特色（Lu et al.，2016《Multi-prototype Chinese character embedding.》）。Dong等人（《Character-based LSTM-CRF with radical-level features for Chinese named entity recognition.》）开发了具备激进特色的神经LSTM-CRF。与现有的办法相比，Lattice LSTM的基于单词和基于字符的LSTM-CRF模型具备较高的精度。lattice模型显著优于基于字符和基于单词的最佳模型（p<0:01），在这个规范基准上获得了最好的后果。

微博NER数据集的后果如表7所示，其中NE、NM和OVERALL别离示意命名实体、标称实体（不包含命名实体）和两者的F1分数。此数据集没有黄金规范分段。现有最先进的办法包含Peng和Dredze（《Improving named entity recognition for Chinese social media with word segmentation representation learning.》）以及He和Sun（《A unified model for cross-domain and semi-supervised named entity recognition in Chinese social media.》），他们摸索了丰盛的嵌入特色、跨域和半监督数据。

中文标注数据集NER测试数据的后果如表8所示。与OntoNotes和MSRA上的察看后果统一，lattice模型在微博和简历上的体现显著优于基于单词的模式和基于字符的模式（p<0:01），提供了最先进的后果。

论断

总的来说，这篇论文是在中文NER畛域引入词汇信息，改善了之前仅利用字符来做NER的状况，这也是中文自身的特点，仅仅按字符来划分失落了太多语境。作为中文NER畛域引入词汇信息的开山之作，其对后续钻研工作有较深的影响。

CAN-NER
2019年论文《CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition》提出了用基于注意力机制的卷积神经网络架构。采纳一种卷积留神网络CAN，它由具备部分attention的基于字符的CNN和具备全局attention的GRU组成，用于获取从部分的相邻字符和全局的句子上下文中信息，加强了模型隐式捕获字符序列间部分上下文关系的能力。首先模型输出的是字符，卷积注意力层用来编码输出的字符序列并隐式地对部分语义相干的字符进行分组。对输出进行向量嵌入，蕴含字向量、分词向量和地位向量，失去输出向量后，采纳部分 local attention来捕获窗口范畴内中心词和四周词的依赖，部分 attention 的输入被送到 CNN 中，最初采纳加和池化计划。失去部分特色后，进入到BiGRU-CRF 中，而后采纳全局的 attention来进一步捕获句子级别的全局信息。前面接 CRF，失去分类后果。self-attention 能够捕获狭义的上下文信息，缩小无用两头词的烦扰。

CAN-NER算法原理：

CAN-NER模型应用BiGRU-CRF作为根本模型构造，其残缺模型构造为：Embedding+ Convolution Attention + GRU + Global Attention + CRFConvolution Attention层：卷积留神层的目标是对输出字符序列进行编码，并在本地上下文中隐式分组与意义相干的字符。Global Attention：捕捉长序列句子级别的关系首先模型输出的是字符，卷积注意力层用来编码输出的字符序列并隐式地对部分语义相干的字符进行分组。输出用x=[xch; xseg]示意，其中 xch代表word2vec的词向量， xseg示意分词信息。对输出进行向量嵌入，蕴含字向量、分词向量和地位向量，de=dch+dpos +dseg 失去输出向量后，在窗口内利用部分 attention来捕捉核心字符和每个上下文标记之间的关系，而后加上带有加和池化层的CNN。将暗藏维度设置为dh 。

在通过卷积留神层提取部分上下文特色后，将其输出到基于BiGRU-CRF的模型中，以预测每个字符的最终标签。该层对程序句子信息进行建模。而后采纳全局的 attention来进一步捕获句子级别的全局信息。最初，在BiGRU和global attention层输入的串联顶部应用规范CRF层。在解码时，模型应用Viterbi算法来取得预测的标签序列。试验后果：试验中应用了四个数据集。对于新闻畛域，CAN-NER在OntoNotes 和SIGHAN Bakeoff 2006 的MSRA NER数据集上进行了试验。对于社交媒体畛域，CAN-NER采纳了与PENG和Dredze (2015)的正文微博语料库，该语料库摘自新浪微博。为了让测试畛域更加多样化，CAN-NER还应用了从新浪财经收集的中文正文数据集。

下表是各数据集的统计状况：

下表是CAN-NER在Weibo NER数据集上的试验后果。在这里，试验将CAN-NER的模型与微博数据集上的最新模型进行比拟。表2显示了命名实体（NE）、标称实体（NM，不包含命名实体）和两者（总体）的F1分数。能够察看到，试验提出的模型达到了最先进的性能。

先进的办法包含Peng and Dredze (2016《Improving named entity recognition for chinese social media with word segmentation representation learning.》)、He and Sun (2017b《A unified model for cross-domain and semi-supervised named entity recognition in Chinese social media.》)、Cao et al. (2018《Adversarial transfer learning for Chinese named entity recognition with self-attention mechanism.》)以及Zhang and Yang (2018《Chinese ner using lattice lstm》)，它们利用了丰盛的内部数据，如跨域数据、半监督数据和词典，或联结训练NER和中文分词（CWS）。

在表2的第一局部，实验报告了最新模型的性能。Peng and Dredze (2015《Named entity recognition for chinese social media with jointly trained embeddings.》)提出了一种与NER联结训练嵌入的模型，该模型的总体性能F1得分为56.05%。联结训练NER和CWS的模型（Peng和Dredze，2016）F1得分达到58.99%。He和Sun（2017b）提出了一种利用跨域和半监督数据的对立模型，与He和Sun（2017a）提出的模型相比，F1得分从54.82%进步到58.23%。Cao等人（2018年）应用对抗性迁徙学习框架整合CWS中的工作共享单词边界信息，F1得分为58.70%。Zhang和Yang（2018）利用晶格构造将词典信息集成到他们的模型中，F1得分为58.79%。

在表2的第二局部中，试验给出了Baseline和CAN-NER模型的后果。尽管BiGRU+CRF基线只取得了53.80%的F1分数，但增加一个失常的CNN层作为特色化器将分数进步到55.91%。用CAN-NER的卷积留神层取代CNN，F1得分大大提高到59.31%，优于其余模型。改良证实了CAN-NER的模型的有效性。中文标注数据集测试后果如表3所示。Zhang和Yang（2018）公布了中文标注数据集，他们的F1得分为94.46%。

能够看出，试验提出的Baseline（CNN+BiGRU+CRF）优于Zhang和Yang（2018），F1得分为94.60%。增加CAN-NER的卷积注意力会导致进一步的改良，并达到最先进的F1分数94.94%，这进一步证实了CAN-NER的模型的有效性。

表4显示了在OntoNotes 4数据集的比拟。表中的第一块列出了中文NER以前办法的性能。Yang et al.（2016《Combining discrete and neural features for sequence labeling》）提出了一种神经和离散特色相结合的模型，例如词性标注特色、CWS特色和正交特色，将F1得分从68.57%进步到76.40%。利用双语数据，Che et al.（2013《Named entity recognition with bilingual constraints.》）和Wang et al.（2013《Effective bilingual constraints for semi-supervised learning of named entity recognizers.》）的F1问题别离为74.32%和73.88%。Zhang and Yang（2018）是一个新的模型，它应用了基于角色的模型，并应用了bichar和softword。

表4的第二局部显示了Baseline和CAN-NER模型的后果。与微博和中文标注数据集上的察看后果统一， CAN-NER卷积注意力层导致F1分数大幅减少。CAN-NER的模型在不应用内部数据的状况下，在基于字符的模型中，F1得分达到73.64%（例如，Zhang和Yang（2018））。

表5显示了MSRA 2006数据集的试验后果。Chen et al.（2006）、Zhang et al.（2006）和Zhou et al.（2013）利用丰盛的手工特色，Lu et al.（2016）利用多原型嵌入特色。Dong等人（2016）将字根特色引入LSTM-CRF。Cao等人（2018年）利用对抗性迁徙学习和global self-attention来进步模型性能。Yang等人（2018a）提出了一种基于字符的CNN BiLSTM CRF模型，以联合笔划嵌入并生成n-gram特色。Zhang和Yang（2018）引入了一种晶格构造，将词典信息纳入神经网络，神经网络实际上蕴含单词嵌入信息。尽管该模型达到了最先进的F1分数93.18%，但它利用了内部词典数据，因而后果取决于词典的品质。在表格的底部，能够看到Baseline+CNN曾经优于以前的大多数办法。

与Zhang和Yang（2018）相比，CAN-NER的基于字符的办法在没有任何额定的词典数据和单词嵌入信息的状况下取得了92.97%的F1分数。此外，CAN-NER模型在基于角色的模型中获得了最先进的后果。

试验后果剖析：

CAN-NER的模型优于之前在Weibo和自行标注的数据集上的钻研，在不应用任何内部资源的状况下，在MSRA和OntoNotes 4数据集上都获得了有竞争力的后果。试验后果证实了CAN-NER的有效性，尤其是在基于字符的模型中。增加卷积留神层和全局留神层后的性能改良验证了CAN-NER可能捕获角色与其部分上下文之间的关系，以及单词与全局上下文之间的关系。然而，只管CAN-NER能够取得与不应用内部资源的其余模型相当或更好的后果，但试验发现CAN-NER在OntoNotes 4数据集上的模型性能仍有改良的余地（与利用额定数据的最佳模型相比，F1分数差距为2.76%）。

这可能是因为特定的离散特色和内部资源（例如，其余标记数据或词汇）对该特定数据集具备更踊跃的影响，而CAN-NER无奈仅从训练集中学习足够的信息。但研究员无奈依据可用的相应资源确定造成差距的确切起因。

论断：

CAN-NER提出了一种卷积留神网络模型，以进步中文NER的性能，防止单词嵌入和额定的词汇依赖；从而使模型更加高效和强壮。在CAN-NER中，模型实现了具备global self-attention构造的local-attention CNN和Bi-GRU，用字符级特色捕捉单词级特色和上下文信息。大量试验表明，在不同畛域的数据集上，CAN-NER优于最先进的零碎。

参考文献：
-Jing Li, Aixin Sun, Jianglei Han, and Chenliang Li, “A Survey on Deep Learning for Named Entity Recognition” IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING,2020
-Yuying Zhu，Guoxin Wang，“CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition”，Proceedings of NAACL-HLT 2019, pages 3384–3393
-Yue Zhang，Jie Yang，“Chinese ner using lattice lstm ” In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, volume 1, pages 1554–1564.