ACL-2020论文分享-基于对话图谱的开放域多轮对话策略学习

欢迎关注【百度 NLP】微信公众号，及时获取更多自然语言处理技术干货！

本文对百度 NLP 入选 ACL 2020 的论文 《Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation》 进行解读，该论文提出用图的形式捕捉对话转移规律作为先验信息，用于辅助开放域多轮对话策略学习，并提出了一个基于 CG 的策略学习框架。

引言

研究人员首先从对话语料库中构建了一个 对话图谱（Conversational Graph），其中节点表示“What to say”和“How to say”，边表示当前句（对话上文中的最后一个语句）与其回复句之间的自然转换。然后，论文中提出了一个基于对话图的策略学习框架，该框架通过图遍历进行对话流规划，学习在每轮从对话图中识别出一个“What”节点和“How”节点来指导回复生成。

这样可以有效地利用对话图谱来促进策略学习，具体如下：

可以实现更有效的长期奖励设计；
提供高质量的候选操作；
让对策略有更多的控制，在两个基准语料库的实验结果表明了所提框架的有效性。
模型介绍

论文中提出了基于对话图谱 (CG) 的开放域多轮对话策略模型。其中，对话图谱用来捕捉对话中的局部合适度以及全局连贯度信息。直观上，策略模型以图中的 What- 节点 (关键词)作为可解释的离散状态，进而模型得以主动规划对话内容，进而提升多轮连贯度和可控性。

图 1 是本文方法的框架图，实线椭圆代表“What”节点，实线圆形代表“How”节点。对于当前句（图中 Message），策略模型首先将其定位到图中的“What”节点（图中绿色关键词），进而主动规划要聊的内容（图中橙红色的两个节点），再经由生成模型产出回复句（图中 Response）。

图 1：基于对话图谱的开放域多轮对话策略模型

对话图谱的构建主要包含点（What- 节点和 How- 节点）的构建，以及边的建设两部分。首先，研究人员从对话语料中抽取关键词作为 What- 节点，关键词使用开源的基于词性等特征的工具抽取，分别挖掘语料上下句中的关键词，组成关键词对，再基于共现频率在 What- 节点之间建边。

同 What- 节点直接表达“说什么”不同，How- 节点代表“怎么说”，这类节点无法直接从语料中抽取。研究人员基于 MMPMS_[1]_模型学习到的表达方式 (隐变量) 为 How- 节点集合，再统计 What- 节点经常使用哪些 How- 节点解码（表达出来），基于共现频率建边。

抽取工具地址：

http://github.com/squareRoot3…

策略模型首先基于映射来做对话理解，根据对话当前句中出现的关键词映射到对话图中的 What- 节点，召回全部 What- 节点的所有一阶 What- 节点邻居提供给 Policy；之后，Policy 选择其中一个 What- 节点确定回复内容，再选择该 What- 节点的一个 How- 节点，确定回复方式；NLG 负责生成具体回复句。论文中将基于对话图谱的策略模型称之为 CG-Policy。

为了训练 CG-Policy，研究人员设计了多种来源的奖励信号：

基于句子的奖励

1）句间相关度：研究人员使用对话下的多轮检索模型_[2]_为每轮生成的回复句进行相关度打分；

2）句间重复惩罚：研究人员鼓励多样的内容规划生成，当有超过 60% 的生成的回复句中的词语在上文中任意一句中同时出现，则判定为重复；

基于图结构的奖励

1）全局连贯度：TransE 空间下选中 / 提及 What- 节点间的平均 cosine 距离；

2）可持续性：研究人员鼓励主动聊内容丰富的节点，这样未来可聊的内容会相对更对，具体而言我们使用 PageRank 打分；

此外，CG-Policy 可控性也很好（如要求聊到特定的对话目标节点上），但需要设计相应的奖励函数。具体而言，研究人员增加了下面的奖励函数：

可控性奖励

1）目标相似度：选定 What- 节点和目标节点在语义空间的 cosine 距离，该距离表征当前到目标还是多远；

2）到目标节点的图上最短距离；

实验结果和分析

研究人员在常用的公开数据集 Weibo_[3]和 Persona[4]_上开展实验。对于基线模型选用下述三个代表性模型。

1）LaRL_[5]_：SOTA 基于隐变量的强化学习对话模型

2）ChatMore_[6]_：关键词增强的生成式对话模型

3）TGRM_[7]_：关键词增强的检索式对话模型

研究人员在训练 LaRL、CG-Policy（本文所提模型）使用 MMPMS 模型_[1]_作为用户模拟器，用户模拟器在策略学习过程中参数不变。此外，在机机对话时，所有模型共享该用户模拟器。

为了综合评估模型的效果，研究人员在多轮和单轮两个层面从以下几个维度分别进行评估：

多轮评估指标
全局连贯度（Cohe.）、多样性 (Dist-2)
单轮评估指标
适合度 (Appr.)、信息丰富度 (Info.)

首先，研究人员在微博语料下分别进行机机、人机实验，从微博语料中抽取构建的对话图谱含有 4000 个 What- 节点和 10 个 How- 节点，What- 节点之间有 74,362 条边，其中有 64% 的边经过人工评估表明捕捉了合适的对话转移规律。如表 1 所示，结果表明 CG-Policy 在多轮连贯性上显著超越基线。

表 1：微博语料下机机和人机对话实验结果

其次，为了说明 CG-Policy 中 CG 的价值、CG 如何起作用以及 How- 节点的价值，研究人员进行了消融实验，实验设置和结果如表 2 所示。

表 2：消融实验

此外，为了证明所模型有助于提升多轮对话可控性，研究人员进行引导到特定目标的实验_[7]_，按照任务设定在 Persona 语料上进行实验。实验结果如表 3 所示，表明 CG-Policy 具有更好的可控性，对话成功率相对基线大幅提升。

表 3：可控性实验

对话样例

图 2：人机对话样例（使用中文对话，翻译成英文）

总结

论文中提出用对话图谱的形式捕捉对话转移规律作为先验信息，以图中“What-vertex”(关键词)作为可解释的离散状态，用于辅助开放域多轮对话策略学习，生成更加连贯和可控的多轮对话。

实验结果表明所提框架可以取得更好的局部合适度、全局连贯度和给定话题的到达成功率。

参考文献

[1]. Chaotao Chen, Jinhua Peng, Fan Wang, Jun Xu, and Hua Wu. 2019. Generating multiple diverse responses with multi-mapping and posterior mapping selection. Proceedings of IJCAI.

[2]. Antoine Bordes, Nicolas Usunier, Alberto GarciaDuran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multirelational data. In Advances in neural information processing systems, pages 2787–2795.

[3]. Lifeng Shang, Zhengdong Lu, and Hang Li. 2015. Neural responding machine for short-text conversation. In Proceedings of ACL-IJCNLP, volume 1, pages 1577–1586.

[4]. Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason Weston. 2018a. Personalizing dialogue agents: I have a dog, do you have pets too? In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 22042213.

[5]. Zhao, T.; Xie, K.; and Eskenazi, M. 2019. Rethinking action spaces for reinforcement learning in end-to-end dialog agents with latent variable models. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 12081218.

[6]. Lili Yao, Ruijian Xu, Chao Li, Dongyan Zhao, and Rui Yan. 2018. Chat more if you like: Dynamic cue words planning to ﬂow longer conversations. arXiv preprint arXiv:1811.07631.

[7]. Jianheng Tang, Tiancheng Zhao, Chenyan Xiong, Xiaodan Liang, Eric P. Xing, and Zhiting Hu. 2019. Target-guided open-domain conversation. In Proceedings of ACL.

百度自然语言处理（Natural Language Processing，NLP）以『理解语言，拥有智能，改变世界』为使命，研发自然语言处理核心技术，打造领先的技术平台和创新产品，服务全球用户，让复杂的世界更简单。