关于论文:跟我读论文丨ACL2021-NER-BERT化隐马尔可夫模型用于多源弱监督命名实体识别

33次阅读

共计 1484 个字符,预计需要花费 4 分钟才能阅读完成。

摘要:本文是对 ACL2021 NER BERT 化隐马尔可夫模型用于多源弱监督命名实体辨认这一论文工作进行初步解读。

本文分享自华为云社区《ACL2021 NER | BERT 化隐马尔可夫模型用于多源弱监督命名实体辨认》,作者:JuTzungKuei。

论文:Li Yinghao, Shetty Pranav, Liu Lucas, Zhang Chao, Song Le. BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition[A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 6178–6190.

链接:https://aclanthology.org/2021…

代码:https://github.com/Yinghao-Li…

0、摘要

  • 钻研内容:应用多个弱监督数据的乐音标签学习 NER
  • 乐音数据:不全、不准、矛盾
  • 提出一个条件隐马尔可夫模型(CHMM:conditional hidden Markov model)

    • 利用 BERT 的上下文示意能力,加强了经典的 HMM 模型
    • 从 BERT 嵌入中学习词的转移和发射概率,推断潜在的真标签
  • 用交替训练方法 (CHMM-ALT) 进一步欠缺 CHMM

    • 用 CHMM 推导出的标签对 BERT-NER 模型进行微调
    • BERT-NER 的输入作为额定的弱源来训练 CHMM
  • 四份数据集上达到 SOTA

    1、介绍

  • NER 是许多上游信息抽取工作的根底工作:事件抽取、关系抽取、问答

    • 有监督、须要大量标注数据
    • 许多畛域有常识源:知识库、畛域词典、标注规定
    • 能够用来匹配语料库,从多角度,疾速生成大规模的噪声训练数据
  • 近程监督 NER:只应用知识库作为弱监督,未应用多源标注的互补信息
  • 现有利用 HMM 办法,有局限性:one-hot 词向量 或 不建模
  • 奉献:

    • CHMM:聚合多源弱标签
    • 交替训练方法 CHMM-ALT:轮流训练 CHMM 和 BERT-NER,利用彼此的输入进行多回路,以优化多源弱监督 NER 性能
    • 四份基准数据集取得 SOTA

      2、办法

  • CHMM-ALT 训练两个模型:多源标签聚合器 CHMM 和 BERT-NER 模型,轮流作为彼此的输入

    • 阶段 I:CHMM 依据 K 个源 x_{1:K}^{(1:T)}x1:K(1:T)​,生成一个去噪标签 y^{*(1:T)}y∗(1:T),微调 BERT-NER 模型输入 \widetilde{y}^{(1:T)}y​(1:T),作为额定的标注源,增加到原始弱标签汇合 x_{1:K+1}^{(1:T)} = {x_{1:K}^{(1:T)} , \widetilde{y}^{(1:T)}}x1:K+1(1:T)​={x1:K(1:T)​,y​(1:T)}
    • 阶段 II:CHMM 和 BERT-NER 在几轮循环中相互改良,每轮循环,先训练 CHMM,后微调 BERT-NER,更新前者的输出
    • CHMM 进步 Precision,BERT-NER 进步 Recall
  • 隐马尔可夫模型

    • 不细解

3、后果

号外号外:想理解更多的 AI 技术干货,欢送上华为云的 AI 专区,目前有 AI 编程 Python 等六大实战营供大家收费学习。

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0