关于算法:DSTC10开放领域对话评估比赛冠军方法总结

本文介绍了国内比赛DSTC10凋谢畛域对话评估赛道的冠军办法MME-CRS，该办法设计了多种评估指标，并利用相关性重归一化算法来集成不同指标的打分，为对话评估畛域设计更无效的评估指标提供了参考。相干办法已同步发表在AAAI 2022 Workshop上。心愿能给从事该技术畛域工作的同学一些启发或帮忙。

1 背景

对话零碎技术挑战赛DSTC（The Dialog System Technology Challenge）由微软、卡内基梅隆大学的科学家于2013年发动，旨在带动学术与工业界在对话技术上的晋升，在对话畛域具备极高的权威性和知名度。对话零碎挑战赛往年已举办至第十届（DSTC10），吸引了微软、亚马逊、卡内基梅隆大学、Facebook、三菱电子钻研实验室、美团、百度等寰球知名企业、顶尖大学和机构同台竞技。

DSTC10共蕴含5个Track，每个Track蕴含某一对话畛域的数个子工作。其中Track5 Task1 Automatic Open-domain Dialogue Evaluation较为零碎全面地将凋谢畛域对话的主动评估工作引入DSTC10较量中。凋谢畛域对话主动评估是对话零碎的重要组成部分，致力于自动化地给出合乎人类直觉的对话品质评估后果。相比于速度慢、老本高的人工标注，自动化评估办法能够高效率、低成本地对不同对话零碎进行打分，无力促成了对话零碎的倒退。

不同于工作型对话有一个固定的优化指标，凋谢畛域对话更靠近人类实在的对话，评估难度更大，因此吸引了宽泛的关注。DSTC10 Track5 Task1较量共蕴含14个验证数据集（共蕴含37种不同的对话评估维度）和5个测试数据集（共蕴含11个评估维度）。美团语音团队最终以均匀0.3104的相关性获得了该较量的第一名，该局部工作已实现一篇论文MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue，并收录在AAAI2022 Workshop。

2 赛题简介

凋谢畛域对话评估较量收集了对话畛域论文中的经典数据集，包含14个验证数据集（12个Turn-Level级别数据集和2个Dialog-Level级别数据集）和5个测试数据集。

数据集中的每个对话次要蕴含以下信息：

Context：对话中的发问，或者说对话的上下文。
Response：针对Context的回复，也即评估的具体对象；对话数据集中的Response个别由不同对话生成模型产生，如GPT-2和T5。
Reference：人工给出的针对Context的参考答复，个别为5条左右。

每个对话蕴含多个评估维度，如Context和Response的相关性，Response自身的晦涩度等。每个数据集的评估维度不同，14个验证集总共蕴含37种不同的评估维度，具体蕴含Overall、Grammar、Relevance、Appropriateness、Interesting等。每个评估维度都有人工标注的打分，打分从1到5，分数越高示意以后评估维度的品质越高。

验证集和测试集的统计信息如图2和图3所示：

其中Turns示意对应数据集中的对话轮数；Qualities示意数据集中每个对话的评估维度，每个评估维度都有对应的人工标注打分；Annos示意每个数据集的标注量。

在该较量中，每个数据集每个对话每个评估维度都有人工标注的打分，打分范畴个别为1到5，个别求均值用于相关性计算。参赛队伍须要设计评估指标用于预测每个对话不同评估维度的打分。每个数据集的每个评估维度的预测打分会和人工标注的打分计算Spearman相关性，最初的比赛结果基于全副测试数据集的评估维度求均值。

3 现有办法和问题

3.1 现有办法

凋谢畛域对话的主动评估办法次要分为三类。

Overlap-based办法

晚期钻研人员将对话零碎中Reference和Response类比于机器翻译中的原句和翻译句，借鉴机器翻译的评估指标来评估对话品质。Overlap-based办法计算对话中Response和Reference之间的词重叠状况，词重叠越高打分越高。经典办法包含BLEU^[1]和ROUGE^[2]等，其中BLEU依据准确率掂量评估品质，而ROUGE依据召回率掂量品质。Response的评估依赖于给定的Reference，而凋谢畛域下适合的Response是有限的，因而，Overlap-based办法并不适用于凋谢畛域对话评估。

Embedding-based办法

随着词向量和预训练语言模型的疾速倒退，Embedding-based评估办法获得了不错的性能。基于深度模型别离编码Response和Reference，并基于二者的编码计算相关性打分。次要办法包含Greedy Matching^[3]、Embedding Averaging^[4]和BERTScore^[5-6]等。Embedding-based办法相比Overlap-Based办法有较大的晋升，然而同样依赖于Reference，依然存在较大的优化空间。

Learning-based办法

基于Reference的凋谢畛域对话评估存在一个One-To-Many^[7]窘境：即凋谢畛域对话适合的Response是有限的，但人为设计的Reference是无限的（个别为5条左右）。因而，基于比照Reference和Response的相似性（字面重叠或者语义类似）设计凋谢畛域评估办法存在较大局限性。相比已有的Overlap-based办法和Embedding-based办法，ADEM办法^[8]首次应用层次化的编码器来编码Context和Reference，并对输出的Response进行打分。ADEM办法基于模型打分和人工打分的均方误差来优化模型参数，冀望迫近人类的打分。ADEM模型相比Overlap-based办法和Embedding-based办法获得了很大的胜利，Learning-based办法也逐步成为了凋谢畛域自动化评估的支流办法。

为了一直进步对话评估的精确和全面性，各种不同的评估维度层出不穷。为了应答越来越多评估维度带来的挑战，USL-H^[9]将评估维度分为Understandability、Sensibleness和Likeability三类，如图4所示。USL-H针对性提出了VUP（Valid Utterance Prediction）、NUP（Next Utterance Prediction）和MLM（Mask Language Model）3种指标，别离掂量对话中：

Response是否通顺晦涩。
Context和Respose的相干水平。
Response自身是否具体，更像人类等。

3.2 问题

现有的评估办法次要有以下问题：

设计的对话指标不够全面，难以综合掂量对话的品质

现有的主动评估办法次要聚焦在个别数据集的局部评估维度上。以以后较为全面的USL-H为例，该办法思考了Response的晦涩度、丰盛度以及Context-Response句子对的相关性，然而USL-H疏忽了：

更细粒度的Context-Response句子对的主题一致性。
回复者对以后对话的参与度。

试验证实，这些指标的脱漏重大影响了评估办法的性能。为了更全面稳固地评估多个对话数据集，设计思考更多评估维度的指标势在必行。

不足无效的指标集成办法

现有办法大多偏向于为每种评估维度设计一种评估指标，这种思路面对越来越多的评估维度显得力不从心（思考下较量测试集共蕴含37种不同的评估维度）。每种对话维度的评估可能依赖数种评估指标，如Logical评估维度须要对话：1）Response晦涩；2）Response和Context是相干的。设计根本的评估子指标，再通过适合的集成办法集成多个子指标打分，能够更全面无效示意不同的对话评估维度。

4 咱们的办法

针对评估指标不够全面，本文设计了5类共7种评估指标（Multi-Metric Evaluation，MME）用于全面掂量对话的品质。基于设计的5类7种根底指标，咱们进一步提出了相关性重归一化办法（Correlation Re-Scaling Method，CRS）来集成不同评估指标的打分。咱们将提出的模型称为MME-CRS，模型整体架构图5所示：

4.1 根底指标

为了解决现有办法的第一个问题，即设计的对话指标不够全面，咱们在较量中设计了5类共7种评估子指标。

4.1.1 Fluency Metric (FM)

目标：剖析Response自身是否足够晦涩可了解。

内容：首先基于Dailydialog数据集^[10]构建response晦涩度数据集，流程如下：

在Dailydialog数据集中随机抉择一个Response，并以0.5概率决定r是正样本还是负样本。
如果样本r是正样本，随机抉择一种调整：a.不调整；b.对每一个停用词，以0.5的概率删除。
如果样本r是负样本，随机抉择一种调整：a.随机打乱词序；b.随机删除肯定比例的词语；c.随机抉择局部词语并反复。

基于上述规定构建晦涩度数据集后，在预训练模型SimCSE模型^[11]上微调。微调后的模型能够计算任一对话的Response晦涩度打分，记为FM打分。

4.1.2 Relevance Metric (RM)

目标：剖析Context和Response的相干水平。

内容：基于Dailydialog数据集构建Context-Response句子对模式的相关性数据集，其中句子对相干为正样本，不相干则为负样本。负样本的通常构建思路是将Response随机替换成其余对话的Response。PONE办法^[12]指出随机筛选的Respose和Context根本不相干，模型训练收益很小。因而，这里的做法是随机抉择10条Response，并计算和实在Response的语义相关度，并抉择排名居中的句子作为伪样本。结构数据集后再在SimCSE模型上微调，微调后的模型可用于计算对话中Context和Response的相关度打分，记为RM打分。

4.1.3 Topic Coherence Metric (TCM)

目标：剖析Context和Response的主题一致性。

内容：GRADE办法^[13]构建了Context和Response的主题词级别的图示意，并计算了Context和Response的主题词级别的相关度。相比粗粒度的相关性指标，GRADE更加关注细粒度级别的主题相干水平，是相关性指标的无效补充。TCM指标借鉴GRADE办法。

具体流程如下：首先提取Context和Response中的关键词构建图，其中每个关键词都是一个节点，只有Context和Response的关键词之间存在边。基于ConceptNet获取每个节点的示意，再应用图注意力网络（GATs）汇集关键词街坊节点的信息并迭代每个节点的示意，最初综合全副节点的示意失去对话的图示意。在主题词级别的图示意上连贯全连贯层用于分类，微调后的模型即可用于计算对话的TCM打分。

4.1.4 Engagement Metric (EM)

目标：剖析生成Response的人或对话模型有多大的志愿参加以后对话。

内容：后面提到的指标都是从Context和Response视角评估对话品质，而用户参与度则是基于用户的视角来评估。用户参与度打分个别是0~5，分数越大，示意用户参加以后对话的趣味越大。咱们将ConvAI数据集^[10]的参与度打分从1~5缩放到0~1，作为参与度打分数据集。预训练模型依然应用SimCSE，用于预测对话的参与度打分。预训练后的模型可用于预测对话的用户参与度打分，记为EM。

4.1.5 Specificity Metric (SM)

目标：剖析Response自身是否足够细节。

内容：SM指标用于防止Response不置可否，不足信息量。

具体做法如下：序列Mask掉Response中的每一个Token，并基于SimCSE模型的MLM工作计算Negative Log-Likelihood损失，失去的打分称为SM-NLL。替换损失函数为Negative Cross-Entropy和Perplexity能够别离失去SM-NCE和SM-PPL打分，共3个SM指标打分。3个SM指标打分都须要别离归一化到0和1之间。

4.2 集成办法CRS

集成不同评估指标的打分是进步自动化对话评估成果的无效伎俩。

对每一个待评估的对话，基于上述5类7种根底指标能够失去7种不同的打分。对于待评估数据集的某个评估维度，须要综合7种指标打分失去一个综合打分，用于和人类打分计算相关性。咱们的集成办法分为以下两步。

4.2.1 不同评估维度权重散布的计算

首先，计算验证集上每个数据集每个评估维度7种评估指标的相关性打分，相关性打分越大，认为该指标对该评估维度越重要。对越重要的评估指标赋予一个更大的权重，并将失去的权重在指标维度从新归一化，这样则失去了每个数据集每个评估维度上不同评估指标的权重散布：

其中$S_{ijk}$是第$i$个数据集第$j$个评估维度上第$k$个评估指标的相关性打分，$d_{ij}$是相关性打分的幂数，$d_{ij}$越大则相关性打分越高的指标的权重就越大。个别当max（$S_{ijk}^{d_{ij}}$）在1/3到1/2之间时集成成果最好，这是计算$d_{ij}$的一种简略无效伎俩。试验中，将$d_{ij}$设置为常数能够取得更好的泛化成果，咱们将$d_{ij}$设置为2，并在验证集上计算权重散布，再迁徙到测试集上，获得了较量最优性能。

在数据集维度，将不同数据集中雷同评估维度的权重求均值，失去每个评估维度在不同评估指标上的权重散布：

留神这里失去的权重散布曾经和具体数据集无关，能够将权重散布迁徙到测试集上。

4.2.2 计算指标打分的加权和

对每个测试集的每个评估维度，计算7种指标打分并基于第一步的权重求加权和，失去综合打分：

加权失去的综合打分和人工打分计算相关性，失去每种评估维度上的模型打分和人工打分的相关性打分。

咱们的集成办法基于指标的相关性打分赋予权重并从新归一化，所以将该集成办法称为相关性重归一化办法。在失去的MME指标上应用CRS集成办法，可得MME-CRS评估算法。

5 试验剖析

5.1 试验后果

咱们的办法次要基于Dailydialog数据集预训练（除了EM子指标是应用ConvAI2数据集），在较量验证集上计算集成办法的权重散布，最终在测试集上获得了0.3104的Spearman相关性打分。

图6展现了较量基准模型Deep AM-FM^[14]以及较量Top5队伍在测试集上不同数据集评估维度的性能。本文的办法以0.3104的均匀Spearman相关性系数获得了第一，且在5个数据集全副11个评估维度中的6个获得了第一，证实了本文办法的优越性能。

为了不便展现，图中办法采纳了数据集-评估维度的展现形式。其中J、E、N、DT、DP别离示意JSALT、ESL、NCM、DST10-Topical、DSTC10-Persona数据集，而A、C、G、R别离示意Appropriateness、Content、Grammar、Relevance评估维度。咱们对每个评估维度上最好的性能进行了加粗。

5.2 融化试验

在融化试验局部，咱们以本文办法MME-CRS评估为基准，在集成阶段别离去除FM、RM、TCM、EM、SM、RM+TCM指标，比照不同指标在集成过程中的重要性。试验性能如图7所示：

相关性指标RM和主题一致性指标TCM都应用了对话中的Context和Response信息，因而在试验中同时去除这两个指标，察看对性能的影响。从图7中的试验后果能够看出：

TCM、RM和EM对于模型性能的奉献最大，打分集成阶段删除这三个评估指标后，测试集上的均匀Spearman相关性打分别离升高了3.26%、1.56%和1.01%。
粗粒度的RM指标和细粒度的TCM指标是无益的相互补充。如果别离去除RM或TCM指标，性能会有略微降落；如果同时去除RM和TCM指标，评估办法不足了Context相干的信息，性能会大幅升高到11.07%。
SM指标在测试集上的晋升根本能够疏忽。咱们剖析起因是：测试集中用于生成Response的各个生成模型在测试集语料上过拟合较为重大，因而生成了很多十分具体，但和Context不相干的Response。因而SM指标的优劣对于测试集品质的评估根本没有作用。

5.3 CRS成果

为了剖析集成算法CRS的作用，本文比照了MME-CRS和MME-Avg（将MME多个指标打分简略均匀）两个评估办法的性能，如图8所示：

从图中能够看出，MME-CRS办法相比于MME-Avg高了3.49%，证实了CRS算法在集成子指标打分方面的优越性能。

6 总结

在本次较量中，咱们总结了凋谢畛域对话主动评估存在的两个次要问题，即评估指标不够全面和不足无效的指标集成办法。针对评估指标不够全面的问题，本文设计了5类7种评估指标用于全面掂量对话的品质；基于7种根底指标，提出了相关性重归一化办法来计算每种对话评估维度的集成打分。

尽管本文办法在DSTC10较量中获得了较好的问题，但后续咱们将持续摸索其余更无效的评估指标和指标集成办法。咱们正在尝试将较量中的技术利用到美团具体业务中，如语音交互核心的智能外呼机器人、智能营销和智能客服中，在多个不同维度评估机器、人工客服与用户的对话品质，一直优化对话成果，晋升用户的满意度。

参考文献

[1] Papineni, K.; Roukos, S.; Ward, T.; and Zhu, W.-J. 2002. Bleu: A method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 311–318.

[2] Lin C Y. Rouge: A package for automatic evaluation of summaries[C]//Text summarization branches out. 2004: 74-81.

[3] Rus, V.; and Lintean, M. 2012. An optimal assessment of natural language student input using word-to-word similarity metrics. In International Conference on Intelligent Tutoring Systems, 675–676. Springer.

[4] Wieting, J.; Bansal, M.; Gimpel, K.; and Livescu, K. 2016. Towards universal paraphrastic sentence embeddings. In 4th International Conference on Learning Representations.

[5] Zhang, T.; Kishore, V.; Wu, F.; Weinberger, K. Q.; and Artzi, Y. 2019. BERTScore: Evaluating text generation with BERT. In International Conference on Learning Representations.

[6] Liu C W, Lowe R, Serban I V, et al. How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 2122-2132.

[7] Zhao, T.; Zhao, R.; and Eskenazi, M. 2017. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 654–664.

[8] Lowe R, Noseworthy M, Serban I V, et al. Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017: 1116-1126.

[9] Phy, V.; Zhao, Y.; and Aizawa, A. 2020. Deconstruct to reconstruct a configurable evaluation metric for open-domain dialogue systems. In Proceedings of the 28th International Conference on Computational Linguistics, 4164–4178.

[10] Zhao, T.; Lala, D.; and Kawahara, T. 2020. Designing precise and robust dialogue response evaluators. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 26–33.

[11] Gao T, Yao X, Chen D. SimCSE: Simple Contrastive Learning of Sentence Embeddings[J]. arXiv preprint arXiv:2104.08821, 2021.

[12] Lan, T.; Mao, X.-L.; Wei, W.; Gao, X.; and Huang, H. 2020. Pone: A novel automatic evaluation metric for open-domain generative dialogue systems. ACM Transactions on Information Systems (TOIS), 39(1): 1–37.

[13] Huang, L.; Ye, Z.; Qin, J.; Lin, L.; and Liang, X. 2020. Grade: Automatic graph-enhanced coherence metric for evaluating open-domain dialogue systems. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 9230–9240.

[14] Zhang, C.; D’Haro, L. F.; Banchs, R. E.; Friedrichs, T.; and Li, H. 2021. Deep AM-FM: Toolkit for automatic dialogue evaluation. In Conversational Dialogue Systems for the Next Decade, 53–69. Springer.

作者简介

鹏飞，晓慧，凯东，汪建，春阳等，均为美团平台/语音交互部工程师。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者应用。任何商用行为，请发送邮件至tech@meituan.com申请受权。