关于算法:DSTC10开放领域对话评估比赛冠军方法总结

本文介绍了国内比赛 DSTC10 凋谢畛域对话评估赛道的冠军办法 MME-CRS，该办法设计了多种评估指标，并利用相关性重归一化算法来集成不同指标的打分，为对话评估畛域设计更无效的评估指标提供了参考。相干办法已同步发表在 AAAI 2022 Workshop 上。心愿能给从事该技术畛域工作的同学一些启发或帮忙。

对话零碎技术挑战赛 DSTC（The Dialog System Technology Challenge）由微软、卡内基梅隆大学的科学家于 2013 年发动，旨在带动学术与工业界在对话技术上的晋升，在对话畛域具备极高的权威性和知名度。对话零碎挑战赛往年已举办至第十届（DSTC10），吸引了微软、亚马逊、卡内基梅隆大学、Facebook、三菱电子钻研实验室、美团、百度等寰球知名企业、顶尖大学和机构同台竞技。

DSTC10 共蕴含 5 个 Track，每个 Track 蕴含某一对话畛域的数个子工作。其中 Track5 Task1 Automatic Open-domain Dialogue Evaluation 较为零碎全面地将凋谢畛域对话的主动评估工作引入 DSTC10 较量中。凋谢畛域对话主动评估是对话零碎的重要组成部分，致力于自动化地给出合乎人类直觉的对话品质评估后果。相比于速度慢、老本高的人工标注，自动化评估办法能够高效率、低成本地对不同对话零碎进行打分，无力促成了对话零碎的倒退。

不同于工作型对话有一个固定的优化指标，凋谢畛域对话更靠近人类实在的对话，评估难度更大，因此吸引了宽泛的关注。DSTC10 Track5 Task1 较量共蕴含 14 个验证数据集（共蕴含 37 种不同的对话评估维度）和 5 个测试数据集（共蕴含 11 个评估维度）。美团语音团队最终以均匀 0.3104 的相关性获得了该较量的第一名，该局部工作已实现一篇论文 MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue，并收录在 AAAI2022 Workshop。

凋谢畛域对话评估较量收集了对话畛域论文中的经典数据集，包含 14 个验证数据集（12 个 Turn-Level 级别数据集和 2 个 Dialog-Level 级别数据集）和 5 个测试数据集。

数据集中的每个对话次要蕴含以下信息：

Context：对话中的发问，或者说对话的上下文。
Response：针对 Context 的回复，也即评估的具体对象；对话数据集中的 Response 个别由不同对话生成模型产生，如 GPT- 2 和 T5。
Reference：人工给出的针对 Context 的参考答复，个别为 5 条左右。

每个对话蕴含多个评估维度，如 Context 和 Response 的相关性，Response 自身的晦涩度等。每个数据集的评估维度不同，14 个验证集总共蕴含 37 种不同的评估维度，具体蕴含 Overall、Grammar、Relevance、Appropriateness、Interesting 等。每个评估维度都有人工标注的打分，打分从 1 到 5，分数越高示意以后评估维度的品质越高。

验证集和测试集的统计信息如图 2 和图 3 所示：

其中 Turns 示意对应数据集中的对话轮数；Qualities 示意数据集中每个对话的评估维度，每个评估维度都有对应的人工标注打分；Annos 示意每个数据集的标注量。

在该较量中，每个数据集每个对话每个评估维度都有人工标注的打分，打分范畴个别为 1 到 5，个别求均值用于相关性计算。参赛队伍须要设计评估指标用于预测每个对话不同评估维度的打分。每个数据集的每个评估维度的预测打分会和人工标注的打分计算 Spearman 相关性，最初的比赛结果基于全副测试数据集的评估维度求均值。

凋谢畛域对话的主动评估办法次要分为三类。

Overlap-based 办法

晚期钻研人员将对话零碎中 Reference 和 Response 类比于机器翻译中的原句和翻译句，借鉴机器翻译的评估指标来评估对话品质。Overlap-based 办法计算对话中 Response 和 Reference 之间的词重叠状况，词重叠越高打分越高。经典办法包含 BLEU^[1]和 ROUGE^[2]等，其中 BLEU 依据准确率掂量评估品质，而 ROUGE 依据召回率掂量品质。Response 的评估依赖于给定的 Reference，而凋谢畛域下适合的 Response 是有限的，因而，Overlap-based 办法并不适用于凋谢畛域对话评估。

Embedding-based 办法

随着词向量和预训练语言模型的疾速倒退，Embedding-based 评估办法获得了不错的性能。基于深度模型别离编码 Response 和 Reference，并基于二者的编码计算相关性打分。次要办法包含 Greedy Matching^[3]、Embedding Averaging^[4]和 BERTScore^[5-6]等。Embedding-based 办法相比 Overlap-Based 办法有较大的晋升，然而同样依赖于 Reference，依然存在较大的优化空间。

Learning-based 办法

基于 Reference 的凋谢畛域对话评估存在一个 One-To-Many^[7]窘境：即凋谢畛域对话适合的 Response 是有限的，但人为设计的 Reference 是无限的（个别为 5 条左右）。因而，基于比照 Reference 和 Response 的相似性（字面重叠或者语义类似）设计凋谢畛域评估办法存在较大局限性。相比已有的 Overlap-based 办法和 Embedding-based 办法，ADEM 办法 ^[8] 首次应用层次化的编码器来编码 Context 和 Reference，并对输出的 Response 进行打分。ADEM 办法基于模型打分和人工打分的均方误差来优化模型参数，冀望迫近人类的打分。ADEM 模型相比 Overlap-based 办法和 Embedding-based 办法获得了很大的胜利，Learning-based 办法也逐步成为了凋谢畛域自动化评估的支流办法。

为了一直进步对话评估的精确和全面性，各种不同的评估维度层出不穷。为了应答越来越多评估维度带来的挑战，USL-H^[9]将评估维度分为 Understandability、Sensibleness 和 Likeability 三类，如图 4 所示。USL- H 针对性提出了 VUP（Valid Utterance Prediction）、NUP（Next Utterance Prediction）和 MLM（Mask Language Model）3 种指标，别离掂量对话中：

Response 是否通顺晦涩。
Context 和 Respose 的相干水平。
Response 自身是否具体，更像人类等。

现有的评估办法次要有以下问题：

设计的对话指标不够全面，难以综合掂量对话的品质

现有的主动评估办法次要聚焦在个别数据集的局部评估维度上。以以后较为全面的 USL- H 为例，该办法思考了 Response 的晦涩度、丰盛度以及 Context-Response 句子对的相关性，然而 USL- H 疏忽了：

更细粒度的 Context-Response 句子对的主题一致性。
回复者对以后对话的参与度。

试验证实，这些指标的脱漏重大影响了评估办法的性能。为了更全面稳固地评估多个对话数据集，设计思考更多评估维度的指标势在必行。

不足无效的指标集成办法

现有办法大多偏向于为每种评估维度设计一种评估指标，这种思路面对越来越多的评估维度显得力不从心（思考下较量测试集共蕴含 37 种不同的评估维度）。每种对话维度的评估可能依赖数种评估指标，如 Logical 评估维度须要对话：1）Response 晦涩；2）Response 和 Context 是相干的。设计根本的评估子指标，再通过适合的集成办法集成多个子指标打分，能够更全面无效示意不同的对话评估维度。

针对评估指标不够全面，本文设计了 5 类共 7 种评估指标（Multi-Metric Evaluation，MME）用于全面掂量对话的品质。基于设计的 5 类 7 种根底指标，咱们进一步提出了相关性重归一化办法（Correlation Re-Scaling Method，CRS）来集成不同评估指标的打分。咱们将提出的模型称为 MME-CRS，模型整体架构图 5 所示：

为了解决现有办法的第一个问题，即设计的对话指标不够全面，咱们在较量中设计了 5 类共 7 种评估子指标。

目标：剖析 Response 自身是否足够晦涩可了解。

内容：首先基于 Dailydialog 数据集^[10] 构建 response 晦涩度数据集，流程如下：

在 Dailydialog 数据集中随机抉择一个 Response，并以 0.5 概率决定 r 是正样本还是负样本。
如果样本 r 是正样本，随机抉择一种调整：a. 不调整；b. 对每一个停用词，以 0.5 的概率删除。
如果样本 r 是负样本，随机抉择一种调整：a. 随机打乱词序；b. 随机删除肯定比例的词语；c. 随机抉择局部词语并反复。

基于上述规定构建晦涩度数据集后，在预训练模型 SimCSE 模型 ^[11] 上微调。微调后的模型能够计算任一对话的 Response 晦涩度打分，记为 FM 打分。

目标：剖析 Context 和 Response 的相干水平。

内容：基于 Dailydialog 数据集构建 Context-Response 句子对模式的相关性数据集，其中句子对相干为正样本，不相干则为负样本。负样本的通常构建思路是将 Response 随机替换成其余对话的 Response。PONE 办法^[12] 指出随机筛选的 Respose 和 Context 根本不相干，模型训练收益很小。因而，这里的做法是随机抉择 10 条 Response，并计算和实在 Response 的语义相关度，并抉择排名居中的句子作为伪样本。结构数据集后再在 SimCSE 模型上微调，微调后的模型可用于计算对话中 Context 和 Response 的相关度打分，记为 RM 打分。

目标：剖析 Context 和 Response 的主题一致性。

内容：GRADE 办法^[13] 构建了 Context 和 Response 的主题词级别的图示意，并计算了 Context 和 Response 的主题词级别的相关度。相比粗粒度的相关性指标，GRADE 更加关注细粒度级别的主题相干水平，是相关性指标的无效补充。TCM 指标借鉴 GRADE 办法。

具体流程如下：首先提取 Context 和 Response 中的关键词构建图，其中每个关键词都是一个节点，只有 Context 和 Response 的关键词之间存在边。基于 ConceptNet 获取每个节点的示意，再应用图注意力网络（GATs）汇集关键词街坊节点的信息并迭代每个节点的示意，最初综合全副节点的示意失去对话的图示意。在主题词级别的图示意上连贯全连贯层用于分类，微调后的模型即可用于计算对话的 TCM 打分。

目标：剖析生成 Response 的人或对话模型有多大的志愿参加以后对话。

内容：后面提到的指标都是从 Context 和 Response 视角评估对话品质，而用户参与度则是基于用户的视角来评估。用户参与度打分个别是 0~5，分数越大，示意用户参加以后对话的趣味越大。咱们将 ConvAI 数据集^[10] 的参与度打分从 1~5 缩放到 0~1，作为参与度打分数据集。预训练模型依然应用 SimCSE，用于预测对话的参与度打分。预训练后的模型可用于预测对话的用户参与度打分，记为 EM。

目标：剖析 Response 自身是否足够细节。

内容：SM 指标用于防止 Response 不置可否，不足信息量。

具体做法如下：序列 Mask 掉 Response 中的每一个 Token，并基于 SimCSE 模型的 MLM 工作计算 Negative Log-Likelihood 损失，失去的打分称为 SM-NLL。替换损失函数为 Negative Cross-Entropy 和 Perplexity 能够别离失去 SM-NCE 和 SM-PPL 打分，共 3 个 SM 指标打分。3 个 SM 指标打分都须要别离归一化到 0 和 1 之间。

集成不同评估指标的打分是进步自动化对话评估成果的无效伎俩。

对每一个待评估的对话，基于上述 5 类 7 种根底指标能够失去 7 种不同的打分。对于待评估数据集的某个评估维度，须要综合 7 种指标打分失去一个综合打分，用于和人类打分计算相关性。咱们的集成办法分为以下两步。

首先，计算验证集上每个数据集每个评估维度 7 种评估指标的相关性打分，相关性打分越大，认为该指标对该评估维度越重要。对越重要的评估指标赋予一个更大的权重，并将失去的权重在指标维度从新归一化，这样则失去了每个数据集每个评估维度上不同评估指标的权重散布：

其中 $S_{ijk}$ 是第 $i$ 个数据集第 $j$ 个评估维度上第 $k$ 个评估指标的相关性打分，$d_{ij}$ 是相关性打分的幂数，$d_{ij}$ 越大则相关性打分越高的指标的权重就越大。个别当 max（$S_{ijk}^{d_{ij}}$）在 1 / 3 到 1 / 2 之间时集成成果最好，这是计算 $d_{ij}$ 的一种简略无效伎俩。试验中，将 $d_{ij}$ 设置为常数能够取得更好的泛化成果，咱们将 $d_{ij}$ 设置为 2，并在验证集上计算权重散布，再迁徙到测试集上，获得了较量最优性能。

在数据集维度，将不同数据集中雷同评估维度的权重求均值，失去每个评估维度在不同评估指标上的权重散布：

留神这里失去的权重散布曾经和具体数据集无关，能够将权重散布迁徙到测试集上。

对每个测试集的每个评估维度，计算 7 种指标打分并基于第一步的权重求加权和，失去综合打分：

加权失去的综合打分和人工打分计算相关性，失去每种评估维度上的模型打分和人工打分的相关性打分。

咱们的集成办法基于指标的相关性打分赋予权重并从新归一化，所以将该集成办法称为相关性重归一化办法。在失去的 MME 指标上应用 CRS 集成办法，可得 MME-CRS 评估算法。

咱们的办法次要基于 Dailydialog 数据集预训练（除了 EM 子指标是应用 ConvAI2 数据集），在较量验证集上计算集成办法的权重散布，最终在测试集上获得了 0.3104 的 Spearman 相关性打分。

图 6 展现了较量基准模型 Deep AM-FM^[14]以及较量 Top5 队伍在测试集上不同数据集评估维度的性能。本文的办法以 0.3104 的均匀 Spearman 相关性系数获得了第一，且在 5 个数据集全副 11 个评估维度中的 6 个获得了第一，证实了本文办法的优越性能。

为了不便展现，图中办法采纳了数据集 - 评估维度的展现形式。其中 J、E、N、DT、DP 别离示意 JSALT、ESL、NCM、DST10-Topical、DSTC10-Persona 数据集，而 A、C、G、R 别离示意 Appropriateness、Content、Grammar、Relevance 评估维度。咱们对每个评估维度上最好的性能进行了加粗。

在融化试验局部，咱们以本文办法 MME-CRS 评估为基准，在集成阶段别离去除 FM、RM、TCM、EM、SM、RM+TCM 指标，比照不同指标在集成过程中的重要性。试验性能如图 7 所示：

相关性指标 RM 和主题一致性指标 TCM 都应用了对话中的 Context 和 Response 信息，因而在试验中同时去除这两个指标，察看对性能的影响。从图 7 中的试验后果能够看出：

TCM、RM 和 EM 对于模型性能的奉献最大，打分集成阶段删除这三个评估指标后，测试集上的均匀 Spearman 相关性打分别离升高了 3.26%、1.56% 和 1.01%。
粗粒度的 RM 指标和细粒度的 TCM 指标是无益的相互补充。如果别离去除 RM 或 TCM 指标，性能会有略微降落；如果同时去除 RM 和 TCM 指标，评估办法不足了 Context 相干的信息，性能会大幅升高到 11.07%。
SM 指标在测试集上的晋升根本能够疏忽。咱们剖析起因是：测试集中用于生成 Response 的各个生成模型在测试集语料上过拟合较为重大，因而生成了很多十分具体，但和 Context 不相干的 Response。因而 SM 指标的优劣对于测试集品质的评估根本没有作用。

为了剖析集成算法 CRS 的作用，本文比照了 MME-CRS 和 MME-Avg（将 MME 多个指标打分简略均匀）两个评估办法的性能，如图 8 所示：

从图中能够看出，MME-CRS 办法相比于 MME-Avg 高了 3.49%，证实了 CRS 算法在集成子指标打分方面的优越性能。

在本次较量中，咱们总结了凋谢畛域对话主动评估存在的两个次要问题，即评估指标不够全面和不足无效的指标集成办法。针对评估指标不够全面的问题，本文设计了 5 类 7 种评估指标用于全面掂量对话的品质；基于 7 种根底指标，提出了相关性重归一化办法来计算每种对话评估维度的集成打分。

尽管本文办法在 DSTC10 较量中获得了较好的问题，但后续咱们将持续摸索其余更无效的评估指标和指标集成办法。咱们正在尝试将较量中的技术利用到美团具体业务中，如语音交互核心的智能外呼机器人、智能营销和智能客服中，在多个不同维度评估机器、人工客服与用户的对话品质，一直优化对话成果，晋升用户的满意度。

[1] Papineni, K.; Roukos, S.; Ward, T.; and Zhu, W.-J. 2002. Bleu: A method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 311–318.

[2] Lin C Y. Rouge: A package for automatic evaluation of summaries[C]//Text summarization branches out. 2004: 74-81.

[3] Rus, V.; and Lintean, M. 2012. An optimal assessment of natural language student input using word-to-word similarity metrics. In International Conference on Intelligent Tutoring Systems, 675–676. Springer.

[4] Wieting, J.; Bansal, M.; Gimpel, K.; and Livescu, K. 2016. Towards universal paraphrastic sentence embeddings. In 4th International Conference on Learning Representations.

[5] Zhang, T.; Kishore, V.; Wu, F.; Weinberger, K. Q.; and Artzi, Y. 2019. BERTScore: Evaluating text generation with BERT. In International Conference on Learning Representations.

[6] Liu C W, Lowe R, Serban I V, et al. How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 2122-2132.

[7] Zhao, T.; Zhao, R.; and Eskenazi, M. 2017. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 654–664.

[8] Lowe R, Noseworthy M, Serban I V, et al. Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017: 1116-1126.

[9] Phy, V.; Zhao, Y.; and Aizawa, A. 2020. Deconstruct to reconstruct a configurable evaluation metric for open-domain dialogue systems. In Proceedings of the 28th International Conference on Computational Linguistics, 4164–4178.

[10] Zhao, T.; Lala, D.; and Kawahara, T. 2020. Designing precise and robust dialogue response evaluators. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 26–33.

[11] Gao T, Yao X, Chen D. SimCSE: Simple Contrastive Learning of Sentence Embeddings[J]. arXiv preprint arXiv:2104.08821, 2021.

[12] Lan, T.; Mao, X.-L.; Wei, W.; Gao, X.; and Huang, H. 2020. Pone: A novel automatic evaluation metric for open-domain generative dialogue systems. ACM Transactions on Information Systems (TOIS), 39(1): 1–37.

[13] Huang, L.; Ye, Z.; Qin, J.; Lin, L.; and Liang, X. 2020. Grade: Automatic graph-enhanced coherence metric for evaluating open-domain dialogue systems. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 9230–9240.

[14] Zhang, C.; D’Haro, L. F.; Banchs, R. E.; Friedrichs, T.; and Li, H. 2021. Deep AM-FM: Toolkit for automatic dialogue evaluation. In Conversational Dialogue Systems for the Next Decade, 53–69. Springer.

鹏飞，晓慧，凯东，汪建，春阳等，均为美团平台 / 语音交互部工程师。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者应用。任何商用行为，请发送邮件至 tech@meituan.com 申请受权。

关于算法:DSTC10开放领域对话评估比赛冠军方法总结

1 背景

2 赛题简介

3 现有办法和问题

3.1 现有办法

3.2 问题

4 咱们的办法

4.1 根底指标

4.1.1 Fluency Metric (FM)

4.1.2 Relevance Metric (RM)

4.1.3 Topic Coherence Metric (TCM)

4.1.4 Engagement Metric (EM)

4.1.5 Specificity Metric (SM)

4.2 集成办法 CRS

4.2.1 不同评估维度权重散布的计算

4.2.2 计算指标打分的加权和

5 试验剖析

5.1 试验后果

5.2 融化试验

5.3 CRS 成果

6 总结

参考文献

作者简介

Just My Socks（注册教程内含优惠码）

关于算法:DSTC10开放领域对话评估比赛冠军方法总结

1 背景

2 赛题简介

3 现有办法和问题

3.1 现有办法

3.2 问题

4 咱们的办法

4.1 根底指标

4.1.1 Fluency Metric (FM)

4.1.2 Relevance Metric (RM)

4.1.3 Topic Coherence Metric (TCM)

4.1.4 Engagement Metric (EM)

4.1.5 Specificity Metric (SM)

4.2 集成办法 CRS

4.2.1 不同评估维度权重散布的计算

4.2.2 计算指标打分的加权和

5 试验剖析

5.1 试验后果

5.2 融化试验

5.3 CRS 成果

6 总结

参考文献

作者简介

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）