本文介绍了国内比赛 DSTC10 凋谢畛域对话评估赛道的冠军办法 MME-CRS,该办法设计了多种评估指标,并利用相关性重归一化算法来集成不同指标的打分,为对话评估畛域设计更无效的评估指标提供了参考。相干办法已同步发表在 AAAI 2022 Workshop 上。心愿能给从事该技术畛域工作的同学一些启发或帮忙。
1 背景
对话零碎技术挑战赛 DSTC(The Dialog System Technology Challenge)由微软、卡内基梅隆大学的科学家于 2013 年发动,旨在带动学术与工业界在对话技术上的晋升,在对话畛域具备极高的权威性和知名度。对话零碎挑战赛往年已举办至第十届(DSTC10),吸引了微软、亚马逊、卡内基梅隆大学、Facebook、三菱电子钻研实验室、美团、百度等寰球知名企业、顶尖大学和机构同台竞技。
DSTC10 共蕴含 5 个 Track,每个 Track 蕴含某一对话畛域的数个子工作。其中 Track5 Task1 Automatic Open-domain Dialogue Evaluation 较为零碎全面地将凋谢畛域对话的主动评估工作引入 DSTC10 较量中。凋谢畛域对话主动评估是对话零碎的重要组成部分,致力于自动化地给出合乎人类直觉的对话品质评估后果。相比于速度慢、老本高的人工标注,自动化评估办法能够高效率、低成本地对不同对话零碎进行打分,无力促成了对话零碎的倒退。
不同于工作型对话有一个固定的优化指标,凋谢畛域对话更靠近人类实在的对话,评估难度更大,因此吸引了宽泛的关注。DSTC10 Track5 Task1 较量共蕴含 14 个验证数据集(共蕴含 37 种不同的对话评估维度)和 5 个测试数据集(共蕴含 11 个评估维度)。美团语音团队最终以均匀 0.3104 的相关性获得了该较量的第一名,该局部工作已实现一篇论文 MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue,并收录在 AAAI2022 Workshop。
2 赛题简介
凋谢畛域对话评估较量收集了对话畛域论文中的经典数据集,包含 14 个验证数据集(12 个 Turn-Level 级别数据集和 2 个 Dialog-Level 级别数据集)和 5 个测试数据集。
数据集中的每个对话次要蕴含以下信息:
- Context:对话中的发问,或者说对话的上下文。
- Response:针对 Context 的回复,也即评估的具体对象;对话数据集中的 Response 个别由不同对话生成模型产生,如 GPT- 2 和 T5。
- Reference:人工给出的针对 Context 的参考答复,个别为 5 条左右。
每个对话蕴含多个评估维度,如 Context 和 Response 的相关性,Response 自身的晦涩度等。每个数据集的评估维度不同,14 个验证集总共蕴含 37 种不同的评估维度,具体蕴含 Overall、Grammar、Relevance、Appropriateness、Interesting 等。每个评估维度都有人工标注的打分,打分从 1 到 5,分数越高示意以后评估维度的品质越高。
验证集和测试集的统计信息如图 2 和图 3 所示:
其中 Turns 示意对应数据集中的对话轮数;Qualities 示意数据集中每个对话的评估维度,每个评估维度都有对应的人工标注打分;Annos 示意每个数据集的标注量。
在该较量中,每个数据集每个对话每个评估维度都有人工标注的打分,打分范畴个别为 1 到 5,个别求均值用于相关性计算。参赛队伍须要设计评估指标用于预测每个对话不同评估维度的打分。每个数据集的每个评估维度的预测打分会和人工标注的打分计算 Spearman 相关性,最初的比赛结果基于全副测试数据集的评估维度求均值。
3 现有办法和问题
3.1 现有办法
凋谢畛域对话的主动评估办法次要分为三类。
Overlap-based 办法
晚期钻研人员将对话零碎中 Reference 和 Response 类比于机器翻译中的原句和翻译句,借鉴机器翻译的评估指标来评估对话品质。Overlap-based 办法计算对话中 Response 和 Reference 之间的词重叠状况,词重叠越高打分越高。经典办法包含 BLEU[1]和 ROUGE[2]等,其中 BLEU 依据准确率掂量评估品质,而 ROUGE 依据召回率掂量品质。Response 的评估依赖于给定的 Reference,而凋谢畛域下适合的 Response 是有限的,因而,Overlap-based 办法并不适用于凋谢畛域对话评估。
Embedding-based 办法
随着词向量和预训练语言模型的疾速倒退,Embedding-based 评估办法获得了不错的性能。基于深度模型别离编码 Response 和 Reference,并基于二者的编码计算相关性打分。次要办法包含 Greedy Matching[3]、Embedding Averaging[4]和 BERTScore[5-6]等。Embedding-based 办法相比 Overlap-Based 办法有较大的晋升,然而同样依赖于 Reference,依然存在较大的优化空间。
Learning-based 办法
基于 Reference 的凋谢畛域对话评估存在一个 One-To-Many[7]窘境:即凋谢畛域对话适合的 Response 是有限的,但人为设计的 Reference 是无限的(个别为 5 条左右)。因而,基于比照 Reference 和 Response 的相似性(字面重叠或者语义类似)设计凋谢畛域评估办法存在较大局限性。相比已有的 Overlap-based 办法和 Embedding-based 办法,ADEM 办法 [8] 首次应用层次化的编码器来编码 Context 和 Reference,并对输出的 Response 进行打分。ADEM 办法基于模型打分和人工打分的均方误差来优化模型参数,冀望迫近人类的打分。ADEM 模型相比 Overlap-based 办法和 Embedding-based 办法获得了很大的胜利,Learning-based 办法也逐步成为了凋谢畛域自动化评估的支流办法。
为了一直进步对话评估的精确和全面性,各种不同的评估维度层出不穷。为了应答越来越多评估维度带来的挑战,USL-H[9]将评估维度分为 Understandability、Sensibleness 和 Likeability 三类,如图 4 所示。USL- H 针对性提出了 VUP(Valid Utterance Prediction)、NUP(Next Utterance Prediction)和 MLM(Mask Language Model)3 种指标,别离掂量对话中:
- Response 是否通顺晦涩。
- Context 和 Respose 的相干水平。
- Response 自身是否具体,更像人类等。
3.2 问题
现有的评估办法次要有以下问题:
设计的对话指标不够全面,难以综合掂量对话的品质
现有的主动评估办法次要聚焦在个别数据集的局部评估维度上。以以后较为全面的 USL- H 为例,该办法思考了 Response 的晦涩度、丰盛度以及 Context-Response 句子对的相关性,然而 USL- H 疏忽了:
- 更细粒度的 Context-Response 句子对的主题一致性。
- 回复者对以后对话的参与度。
试验证实,这些指标的脱漏重大影响了评估办法的性能。为了更全面稳固地评估多个对话数据集,设计思考更多评估维度的指标势在必行。
不足无效的指标集成办法
现有办法大多偏向于为每种评估维度设计一种评估指标,这种思路面对越来越多的评估维度显得力不从心(思考下较量测试集共蕴含 37 种不同的评估维度)。每种对话维度的评估可能依赖数种评估指标,如 Logical 评估维度须要对话:1)Response 晦涩;2)Response 和 Context 是相干的。设计根本的评估子指标,再通过适合的集成办法集成多个子指标打分,能够更全面无效示意不同的对话评估维度。
4 咱们的办法
针对评估指标不够全面,本文设计了 5 类共 7 种评估指标(Multi-Metric Evaluation,MME)用于全面掂量对话的品质。基于设计的 5 类 7 种根底指标,咱们进一步提出了相关性重归一化办法(Correlation Re-Scaling Method,CRS)来集成不同评估指标的打分。咱们将提出的模型称为 MME-CRS,模型整体架构图 5 所示:
4.1 根底指标
为了解决现有办法的第一个问题,即设计的对话指标不够全面,咱们在较量中设计了 5 类共 7 种评估子指标。
4.1.1 Fluency Metric (FM)
目标:剖析 Response 自身是否足够晦涩可了解。
内容 :首先基于 Dailydialog 数据集[10] 构建 response 晦涩度数据集,流程如下:
- 在 Dailydialog 数据集中随机抉择一个 Response,并以 0.5 概率决定 r 是正样本还是负样本。
- 如果样本 r 是正样本,随机抉择一种调整:a. 不调整;b. 对每一个停用词,以 0.5 的概率删除。
- 如果样本 r 是负样本,随机抉择一种调整:a. 随机打乱词序;b. 随机删除肯定比例的词语;c. 随机抉择局部词语并反复。
基于上述规定构建晦涩度数据集后,在预训练模型 SimCSE 模型 [11] 上微调。微调后的模型能够计算任一对话的 Response 晦涩度打分,记为 FM 打分。
4.1.2 Relevance Metric (RM)
目标:剖析 Context 和 Response 的相干水平。
内容 :基于 Dailydialog 数据集构建 Context-Response 句子对模式的相关性数据集,其中句子对相干为正样本,不相干则为负样本。负样本的通常构建思路是将 Response 随机替换成其余对话的 Response。PONE 办法[12] 指出随机筛选的 Respose 和 Context 根本不相干,模型训练收益很小。因而,这里的做法是随机抉择 10 条 Response,并计算和实在 Response 的语义相关度,并抉择排名居中的句子作为伪样本。结构数据集后再在 SimCSE 模型上微调,微调后的模型可用于计算对话中 Context 和 Response 的相关度打分,记为 RM 打分。
4.1.3 Topic Coherence Metric (TCM)
目标:剖析 Context 和 Response 的主题一致性。
内容 :GRADE 办法[13] 构建了 Context 和 Response 的主题词级别的图示意,并计算了 Context 和 Response 的主题词级别的相关度。相比粗粒度的相关性指标,GRADE 更加关注细粒度级别的主题相干水平,是相关性指标的无效补充。TCM 指标借鉴 GRADE 办法。
具体流程如下:首先提取 Context 和 Response 中的关键词构建图,其中每个关键词都是一个节点,只有 Context 和 Response 的关键词之间存在边。基于 ConceptNet 获取每个节点的示意,再应用图注意力网络(GATs)汇集关键词街坊节点的信息并迭代每个节点的示意,最初综合全副节点的示意失去对话的图示意。在主题词级别的图示意上连贯全连贯层用于分类,微调后的模型即可用于计算对话的 TCM 打分。
4.1.4 Engagement Metric (EM)
目标:剖析生成 Response 的人或对话模型有多大的志愿参加以后对话。
内容 :后面提到的指标都是从 Context 和 Response 视角评估对话品质,而用户参与度则是基于用户的视角来评估。用户参与度打分个别是 0~5,分数越大,示意用户参加以后对话的趣味越大。咱们将 ConvAI 数据集[10] 的参与度打分从 1~5 缩放到 0~1,作为参与度打分数据集。预训练模型依然应用 SimCSE,用于预测对话的参与度打分。预训练后的模型可用于预测对话的用户参与度打分,记为 EM。
4.1.5 Specificity Metric (SM)
目标:剖析 Response 自身是否足够细节。
内容:SM 指标用于防止 Response 不置可否,不足信息量。
具体做法如下:序列 Mask 掉 Response 中的每一个 Token,并基于 SimCSE 模型的 MLM 工作计算 Negative Log-Likelihood 损失,失去的打分称为 SM-NLL。替换损失函数为 Negative Cross-Entropy 和 Perplexity 能够别离失去 SM-NCE 和 SM-PPL 打分,共 3 个 SM 指标打分。3 个 SM 指标打分都须要别离归一化到 0 和 1 之间。
4.2 集成办法 CRS
集成不同评估指标的打分是进步自动化对话评估成果的无效伎俩。
对每一个待评估的对话,基于上述 5 类 7 种根底指标能够失去 7 种不同的打分。对于待评估数据集的某个评估维度,须要综合 7 种指标打分失去一个综合打分,用于和人类打分计算相关性。咱们的集成办法分为以下两步。
4.2.1 不同评估维度权重散布的计算
首先,计算验证集上每个数据集每个评估维度 7 种评估指标的相关性打分,相关性打分越大,认为该指标对该评估维度越重要。对越重要的评估指标赋予一个更大的权重,并将失去的权重在指标维度从新归一化,这样则失去了每个数据集每个评估维度上不同评估指标的权重散布:
其中 $S_{ijk}$ 是第 $i$ 个数据集第 $j$ 个评估维度上第 $k$ 个评估指标的相关性打分,$d_{ij}$ 是相关性打分的幂数,$d_{ij}$ 越大则相关性打分越高的指标的权重就越大。个别当 max($S_{ijk}^{d_{ij}}$)在 1 / 3 到 1 / 2 之间时集成成果最好,这是计算 $d_{ij}$ 的一种简略无效伎俩。试验中,将 $d_{ij}$ 设置为常数能够取得更好的泛化成果,咱们将 $d_{ij}$ 设置为 2,并在验证集上计算权重散布,再迁徙到测试集上,获得了较量最优性能。
在数据集维度,将不同数据集中雷同评估维度的权重求均值,失去每个评估维度在不同评估指标上的权重散布:
留神这里失去的权重散布曾经和具体数据集无关,能够将权重散布迁徙到测试集上。
4.2.2 计算指标打分的加权和
对每个测试集的每个评估维度,计算 7 种指标打分并基于第一步的权重求加权和,失去综合打分:
加权失去的综合打分和人工打分计算相关性,失去每种评估维度上的模型打分和人工打分的相关性打分。
咱们的集成办法基于指标的相关性打分赋予权重并从新归一化,所以将该集成办法称为相关性重归一化办法。在失去的 MME 指标上应用 CRS 集成办法,可得 MME-CRS 评估算法。
5 试验剖析
5.1 试验后果
咱们的办法次要基于 Dailydialog 数据集预训练(除了 EM 子指标是应用 ConvAI2 数据集),在较量验证集上计算集成办法的权重散布,最终在测试集上获得了 0.3104 的 Spearman 相关性打分。
图 6 展现了较量基准模型 Deep AM-FM[14]以及较量 Top5 队伍在测试集上不同数据集评估维度的性能。本文的办法以 0.3104 的均匀 Spearman 相关性系数获得了第一,且在 5 个数据集全副 11 个评估维度中的 6 个获得了第一,证实了本文办法的优越性能。
为了不便展现,图中办法采纳了数据集 - 评估维度的展现形式。其中 J、E、N、DT、DP 别离示意 JSALT、ESL、NCM、DST10-Topical、DSTC10-Persona 数据集,而 A、C、G、R 别离示意 Appropriateness、Content、Grammar、Relevance 评估维度。咱们对每个评估维度上最好的性能进行了加粗。
5.2 融化试验
在融化试验局部,咱们以本文办法 MME-CRS 评估为基准,在集成阶段别离去除 FM、RM、TCM、EM、SM、RM+TCM 指标,比照不同指标在集成过程中的重要性。试验性能如图 7 所示:
相关性指标 RM 和主题一致性指标 TCM 都应用了对话中的 Context 和 Response 信息,因而在试验中同时去除这两个指标,察看对性能的影响。从图 7 中的试验后果能够看出:
- TCM、RM 和 EM 对于模型性能的奉献最大,打分集成阶段删除这三个评估指标后,测试集上的均匀 Spearman 相关性打分别离升高了 3.26%、1.56% 和 1.01%。
- 粗粒度的 RM 指标和细粒度的 TCM 指标是无益的相互补充。如果别离去除 RM 或 TCM 指标,性能会有略微降落;如果同时去除 RM 和 TCM 指标,评估办法不足了 Context 相干的信息,性能会大幅升高到 11.07%。
- SM 指标在测试集上的晋升根本能够疏忽。咱们剖析起因是:测试集中用于生成 Response 的各个生成模型在测试集语料上过拟合较为重大,因而生成了很多十分具体,但和 Context 不相干的 Response。因而 SM 指标的优劣对于测试集品质的评估根本没有作用。
5.3 CRS 成果
为了剖析集成算法 CRS 的作用,本文比照了 MME-CRS 和 MME-Avg(将 MME 多个指标打分简略均匀)两个评估办法的性能,如图 8 所示:
从图中能够看出,MME-CRS 办法相比于 MME-Avg 高了 3.49%,证实了 CRS 算法在集成子指标打分方面的优越性能。
6 总结
在本次较量中,咱们总结了凋谢畛域对话主动评估存在的两个次要问题,即评估指标不够全面和不足无效的指标集成办法。针对评估指标不够全面的问题,本文设计了 5 类 7 种评估指标用于全面掂量对话的品质;基于 7 种根底指标,提出了相关性重归一化办法来计算每种对话评估维度的集成打分。
尽管本文办法在 DSTC10 较量中获得了较好的问题,但后续咱们将持续摸索其余更无效的评估指标和指标集成办法。咱们正在尝试将较量中的技术利用到美团具体业务中,如语音交互核心的智能外呼机器人、智能营销和智能客服中,在多个不同维度评估机器、人工客服与用户的对话品质,一直优化对话成果,晋升用户的满意度。
参考文献
[1] Papineni, K.; Roukos, S.; Ward, T.; and Zhu, W.-J. 2002. Bleu: A method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 311–318.
[2] Lin C Y. Rouge: A package for automatic evaluation of summaries[C]//Text summarization branches out. 2004: 74-81.
[3] Rus, V.; and Lintean, M. 2012. An optimal assessment of natural language student input using word-to-word similarity metrics. In International Conference on Intelligent Tutoring Systems, 675–676. Springer.
[4] Wieting, J.; Bansal, M.; Gimpel, K.; and Livescu, K. 2016. Towards universal paraphrastic sentence embeddings. In 4th International Conference on Learning Representations.
[5] Zhang, T.; Kishore, V.; Wu, F.; Weinberger, K. Q.; and Artzi, Y. 2019. BERTScore: Evaluating text generation with BERT. In International Conference on Learning Representations.
[6] Liu C W, Lowe R, Serban I V, et al. How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 2122-2132.
[7] Zhao, T.; Zhao, R.; and Eskenazi, M. 2017. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 654–664.
[8] Lowe R, Noseworthy M, Serban I V, et al. Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017: 1116-1126.
[9] Phy, V.; Zhao, Y.; and Aizawa, A. 2020. Deconstruct to reconstruct a configurable evaluation metric for open-domain dialogue systems. In Proceedings of the 28th International Conference on Computational Linguistics, 4164–4178.
[10] Zhao, T.; Lala, D.; and Kawahara, T. 2020. Designing precise and robust dialogue response evaluators. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 26–33.
[11] Gao T, Yao X, Chen D. SimCSE: Simple Contrastive Learning of Sentence Embeddings[J]. arXiv preprint arXiv:2104.08821, 2021.
[12] Lan, T.; Mao, X.-L.; Wei, W.; Gao, X.; and Huang, H. 2020. Pone: A novel automatic evaluation metric for open-domain generative dialogue systems. ACM Transactions on Information Systems (TOIS), 39(1): 1–37.
[13] Huang, L.; Ye, Z.; Qin, J.; Lin, L.; and Liang, X. 2020. Grade: Automatic graph-enhanced coherence metric for evaluating open-domain dialogue systems. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 9230–9240.
[14] Zhang, C.; D’Haro, L. F.; Banchs, R. E.; Friedrichs, T.; and Li, H. 2021. Deep AM-FM: Toolkit for automatic dialogue evaluation. In Conversational Dialogue Systems for the Next Decade, 53–69. Springer.
作者简介
鹏飞,晓慧,凯东,汪建,春阳等,均为美团平台 / 语音交互部工程师。
浏览美团技术团队更多技术文章合集
前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试
| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。
| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。