乐趣区

关于论文:跟我读论文丨ACL2021-NER-模块化交互网络用于命名实体识别

摘要: 本文是对 ACL2021 NER 模块化交互网络用于命名实体辨认这一论文工作进行初步解读。
本文分享自华为云社区《ACL2021 NER | 模块化交互网络用于命名实体辨认》,作者:JuTzungKuei。

论文:Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.

链接:https://aclanthology.org/2021…

代码:无

0、摘要

  • 现有 NER 模型毛病

    • 基于序列标注的 NER 模型:长实体辨认不佳,只关注词级信息
    • 基于分段的 NER 模型:解决分段,而非单个词,不能捕捉分段中的词级依赖关系
  • 边界检测和类型预测能够相互配合,两个子工作可共享信息,互相增强
  • 提出模块化交互网络模型 MIN(Modularized Interaction Network)

    • 同时利用段级信息和词级依赖关系
    • 联合一种交互机制,反对边界检测和类型预测之间的信息共享
  • 三份基准数据集上达到 SOTA

    1、介绍

  • NER:查找和分类命名实体,person (PER), location
    (LOC) or organization (ORG),上游工作:关系抽取、实体链接、问题生成、共引解析
  • 两类办法

    • 序列标注 sequence labeling:可捕捉词级依赖关系
    • 分段 segment(a span of words):可解决长实体
  • NER:检测实体边界和命名实体的类型,

    • 分成两个子工作:边界检测、类型预测
    • 两个工作之间是相干的,能够共享信息
  • 举栗:xx 来自纽约大学

    • 如果晓得大学是实体边界,更可能会预测类型是 ORG
    • 如果晓得实体有个 ORG 类型,更可能会预测到“大学”边界
  • 上述两个罕用办法没有在子工作之间共享信息

    • 序列标注:只把边界和类型当做标签
    • 分段:先检测片段,再划分类型
  • 本文提出 MIN 模型:NER 模块、边界模块、类型模块、交互机制

    • 指针网络作为边界模块的解码器,捕获每个词的段级信息
    • 段级信息和词级信息联合输出到序列标注模型
    • 将 NER 划分成两个工作:边界检测、类型预测,并应用不同的编码器
    • 提出一个互相增强的交互机制,所有信息交融到 NER 模块
    • 三个模块共享单词示意,采纳多任务训练
  • 次要奉献:

    • 新模型:MIN,同时利用段级信息和词级依赖
    • 边界检测和类型预测分成两个子工作,联合交互机制,使两个子工作信息共享
    • 三份基准数据集达到 SOTA

2、办法

  • NER 模块:RNN-BiLSTM-CRF,援用 Neural architectures for named entity recognition

    • 词示意:word(BERT)+ char(BiLSTM)
    • BiLSTM 编码:双向 LSTM,交互机制代替间接级联,门控函数动态控制

最终 NER 输入:H^{NER}=W^T[H;H^B;H^T;H^S] + bHNER=WT[H;HB;HT;HS]+b
H^{Bdy}HBdy 示意边界模块输入,H^{Type}HType 示意类型模块输入,H^{Seg}HSeg 示意分段信息

  • CRF 解码:转移概率 + 发射概率
  • 边界模块:双向 LSTM 编码 H^{Bdy}HBdy,单向 LSTM 解码

    • 解码:
      s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}sj​=hj−1Bdy​+hjBdy​+hj+1Bdy​
      d_j=LSTM(s_j, d_{j-1})dj​=LSTM(sj​,dj−1​)
    • Biaffine Attention 机制:

  • 类型模块:BiLSTM + CRF
  • 交互机制:

    • self attention 失去标签加强的边界 H^{B-E}HB−E,类型 H^{T-E}HT−E
    • Biaffine Attention 计算得分 \alpha^{B-E}αB−E
    • 交互后的边界:r_i^{B-E}=\sum_{j=1}^{n}\alpha_{i,j}^{B-E}h_j^{T-E}riB−E​=∑j=1n​αi,jB−E​hjT−E​
    • 更新后的边界:\overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]hiBdy​=[hiB−E​,riB−E​]
    • 更新后的类型:\overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]hiType​=[hiT−E​,riT−E​]
  • 联结训练:多任务

    • 每个工作的损失函数
  • 最终损失函数:\mathcal{L}=\mathcal{L}^{NER}+\mathcal{L}^{Type}+\mathcal{L}^{Bdy}L=LNER+LType+LBdy

3、后果

  • Baseline (sequence labeling-based)

    • CNN-BiLSTM-CRF
    • RNN-BiLSTM-CRF
    • ELMo-BiLSTM-CRF
    • Flair (char-BiLSTM-CRF)
    • BERT-BiLSTM-CRF
    • HCRA (CNN-BiLSTM-CRF)
  • Baseline (segment-based)

    • BiLSTM-Pointer
    • HSCRF
    • MRC+BERT
    • Biaffine+BERT

号外号外:想理解更多的 AI 技术干货,欢送上华为云的 AI 专区,目前有 AI 编程 Python 等六大实战营供大家收费学习。

点击关注,第一工夫理解华为云陈腐技术~

退出移动版