关于论文:跟我读论文丨ACL2021-NER-模块化交互网络用于命名实体识别

59次阅读

共计 2396 个字符，预计需要花费 6 分钟才能阅读完成。

摘要： 本文是对 ACL2021 NER 模块化交互网络用于命名实体辨认这一论文工作进行初步解读。
本文分享自华为云社区《ACL2021 NER | 模块化交互网络用于命名实体辨认》，作者：JuTzungKuei。

论文：Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.

链接：https://aclanthology.org/2021…

代码：无

现有 NER 模型毛病
- 基于序列标注的 NER 模型：长实体辨认不佳，只关注词级信息
- 基于分段的 NER 模型：解决分段，而非单个词，不能捕捉分段中的词级依赖关系
边界检测和类型预测能够相互配合，两个子工作可共享信息，互相增强
提出模块化交互网络模型 MIN（Modularized Interaction Network）
- 同时利用段级信息和词级依赖关系
- 联合一种交互机制，反对边界检测和类型预测之间的信息共享
三份基准数据集上达到 SOTA
1、介绍
NER：查找和分类命名实体，person (PER), location
(LOC) or organization (ORG)，上游工作：关系抽取、实体链接、问题生成、共引解析
两类办法
- 序列标注 sequence labeling：可捕捉词级依赖关系
- 分段 segment（a span of words）：可解决长实体
NER：检测实体边界和命名实体的类型，
- 分成两个子工作：边界检测、类型预测
- 两个工作之间是相干的，能够共享信息
举栗：xx 来自纽约大学
- 如果晓得大学是实体边界，更可能会预测类型是 ORG
- 如果晓得实体有个 ORG 类型，更可能会预测到“大学”边界
上述两个罕用办法没有在子工作之间共享信息
- 序列标注：只把边界和类型当做标签
- 分段：先检测片段，再划分类型
本文提出 MIN 模型：NER 模块、边界模块、类型模块、交互机制
- 指针网络作为边界模块的解码器，捕获每个词的段级信息
- 段级信息和词级信息联合输出到序列标注模型
- 将 NER 划分成两个工作：边界检测、类型预测，并应用不同的编码器
- 提出一个互相增强的交互机制，所有信息交融到 NER 模块
- 三个模块共享单词示意，采纳多任务训练
次要奉献：
- 新模型：MIN，同时利用段级信息和词级依赖
- 边界检测和类型预测分成两个子工作，联合交互机制，使两个子工作信息共享
- 三份基准数据集达到 SOTA

NER 模块：RNN-BiLSTM-CRF，援用 Neural architectures for named entity recognition
- 词示意：word（BERT）+ char（BiLSTM）
- BiLSTM 编码：双向 LSTM，交互机制代替间接级联，门控函数动态控制

最终 NER 输入：H^{NER}=W^T[H;H^B;H^T;H^S] + bHNER=WT[H;HB;HT;HS]+b
H^{Bdy}HBdy 示意边界模块输入，H^{Type}HType 示意类型模块输入，H^{Seg}HSeg 示意分段信息

CRF 解码：转移概率 + 发射概率

边界模块：双向 LSTM 编码 H^{Bdy}HBdy，单向 LSTM 解码
- 解码：
  s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}sj=hj−1Bdy+hjBdy+hj+1Bdy
  d_j=LSTM(s_j, d_{j-1})dj=LSTM(sj,dj−1)
- Biaffine Attention 机制：
类型模块：BiLSTM + CRF
交互机制：
- self attention 失去标签加强的边界 H^{B-E}HB−E，类型 H^{T-E}HT−E
- Biaffine Attention 计算得分 \alpha^{B-E}αB−E
- 交互后的边界：r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}riB−E=∑j=1nαi,jB−EhjT−E
- 更新后的边界：\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]hiBdy=[hiB−E,riB−E]
- 更新后的类型：\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]hiType=[hiT−E,riT−E]
联结训练：多任务
- 每个工作的损失函数
最终损失函数：\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}L=LNER+LType+LBdy

Baseline (sequence labeling-based)
- CNN-BiLSTM-CRF
- RNN-BiLSTM-CRF
- ELMo-BiLSTM-CRF
- Flair (char-BiLSTM-CRF)
- BERT-BiLSTM-CRF
- HCRA (CNN-BiLSTM-CRF)
Baseline (segment-based)
- BiLSTM-Pointer
- HSCRF
- MRC+BERT
- Biaffine+BERT

号外号外：想理解更多的 AI 技术干货，欢送上华为云的 AI 专区，目前有 AI 编程 Python 等六大实战营供大家收费学习。

点击关注，第一工夫理解华为云陈腐技术~

正文完