关于人工智能:BRIO抽象文本摘要任务新的SOTA模型

62次阅读

共计 1865 个字符,预计需要花费 5 分钟才能阅读完成。

在 SimCLS [2]论文公布后不久,作者又公布了形象文本摘要工作的 SOTA 后果 [1]。BRIO 在上述论文的根底上联合了比照学习范式。

BRIO 解决什么问题?

上图显示 seq2seq 架构中应用的传统 MLE 损失与无参考比照损失之间的差别。

咱们通常应用最大似然预计 (Maximum Likelihood Estimation, MLE) 损失来训练序列模型。然而论文认为咱们应用的损失函数将把一个实质上可能有多个正确输入 (非确定性) 的工作的“正确”输入 (确定性) 赋值为零。训练和推理过程之间也存在差别,在生成过程中模型是基于本人之前的预测步骤,而不是指标总结。在推理过程中,当模型开始偏离指标 (并变得更加凌乱) 时,就会造成更重大的偏差。

论文的奉献

他们提出了合并评估指标 (例如 ROUGE、BERTScore,…) 的想法,这样模型就能够学习如何对摘要进行排序。这是通过应用多样化 Beam Search 和生成多个候选 (在论文中为 16) 来实现的。论文设计了一个两阶段的工作:1、应用一个事后训练的网络 (BART) 生成候选人,2、从中抉择最好的一个。

比照损失(ctr)负责领导模型学习如何对给定文章的多个候选者进行排名。它将在微调过程中用于改良序列级别的协调。论文也阐明了仅针对比照损失的微调模型不能用于生成摘要,因而将上述损失的加权值与穿插熵(xnet)损失相加,以确保令牌级别的预测准确性。(下图 2)它被称为多任务微调损失(mul),尽管 BRIO-Mul 被形容为“双重角色”模型,但它其实是一个繁多的模型,既能够生成摘要,也能够评估生成的候选者的品质。

变量 γ 管制比照损失对最终损失的奉献。对于不同的 gamma 值 (0、0.1、1、2 等) 的钻研表明,数值越大,收敛速度越快。此外 100 是最佳的 γ 值,取得了最高的 ROUGE 评分。

BRIO-Loop 微调计划

论文的钻研应用 BART 预训练模型进行生成阶段。然而应用 BRIO-Mul 模型是更好的,因为它曾经超过了 BART 的性能。(如上图 3 所示)这个循环能够进一步提高 ROUGE 分数。

后果

BRIO 办法刷新了三个形象摘要数据集:CNN/DailyMail、XSum 和 NYT 的的 SOTA 后果。从下图 4 能够看出,该办法对于长摘要和短摘要的数据集都有较好的性能。值得注意的是,BRIO-Loop 模型仅在 CNN/DM 上进行了测试,将 R - 1 分数进步到了 48.01。

这篇论文中的两个察看后果。\1) BRIO [1] 和 SimCLR [2](之前的 SOTA)模型之间的次要区别在于应用繁多模型进行生成和评分,以最大限度地进步 BRIO 中的参数共享,SimCLR 应用 RoBERTa 作为评估模型。\2) XSum 基准测试应用 PEGASUS 作为根底模型(而不是 BART),这表明该办法能够独立于模型的抉择应用。

作者在剖析他们的主张方面做得很好。在下一段中提到了其中的几个重点的观点。

  • 减少 Beam search 的宽度:所提出的模型在 k 值较高的状况下体现更好。特地是 k=100 时与应用 k=4 生成最佳输入的原始 BART 不同。
  • Few-shot Fine-tuning:结果表明,在 CNN/DM 数据集上只有 100 个(随机抉择的)样本和 PEGASUS 在 XSum 上只有 1000 个样本时,BRIO-few 能够胜过 BART。
  • 新的 n-gram:与 BART 相比,BRIO 在摘要中生成更多新的 n-gram。

文中还有更多的剖析,比方 Token-level Calibration、Training with different Metric、Filtering Inference Noise,我就不一一赘述了,但强烈推荐大家浏览。

作者能用一篇写得很好的剖析论文来反对他们的想法。他们还在 GitHub 上公布了代码,帮忙咱们了解了其中的细节,这是一本很棒的读物。

援用

[1] Liu, Y., Liu, P., Radev, D., & Neubig, G. (2022). BRIO: Bringing Order to Abstractive Summarization. arXiv preprint arXiv:2203.16804.

[2] Liu, Y., & Liu, P. (2021). Simcls: A simple framework for contrastive learning of abstractive summarization. arXiv preprint arXiv:2106.01890.

https://www.overfit.cn/post/16a69b58bd8e40208f7c65e16692bd99

作者:NLPiation

正文完
 0