关于机器人:对话机器人70年科幻与现实的交融

摘要： 本文将围绕对话机器人相干技术及其在行业中利用实际开展，同时介绍华为云对话机器人在多模态、小样本、预训练方向上的最新进展。

从 1950 年图灵测试的提出到当初，对话零碎曾经走过了将近 70 年的工夫，在这期间对话零碎技术失去了疾速的倒退。办法也从当初的规定演变成现在的深度学习办法，对话零碎的鲁棒性和准确性都失去了大幅晋升。2020 年，自然语言解决顶级会议 ACL 被接管论文中，对话零碎相干工作论文数量达到历史之最，这也进一步验证了对话零碎最近几年失去了十分大的关注。

本文将围绕对话机器人相干技术及其在行业中利用实际开展，同时介绍华为云对话机器人在多模态、小样本、预训练方向上的最新进展。将依照以下 5 局部开展：

1. 对话机器人介绍以及历史简略回顾
2. 对话机器人中的自然语言了解
3. 对话机器人中的对话治理
4. 多模态对话机器人停顿
5. 对话机器人将来方向以及总结

回顾对话机器人的倒退历史，首先要提及的就是驰名的图灵测试。1950 年图灵发表了一篇论文《计算机器与智能》，首次提出了对人工智能的评估准则，也就是图灵测试。其含意是指测试者和被测试者，通常是一个人和一台机器，在彼此分隔的状况下，由测试者通过一些安装向被测试者随便发问。如果通过一段时间的交换后，有超过 30% 的测试者不能辨别出哪些问题是由人或机器答复的，那么就证实这台机器通过测试，并且认为机器具备了肯定的人类智慧。尽管说用图灵测试来评测对话零碎目前存在很多的争议，但不障碍图灵测试的思路引领了几十年间对话零碎的倒退。

图灵测试诞生后第一个人机对话零碎是 ELIZA，由 Weizenbaum 于 1964 年到 1966 年间在 MIT 编码实现。ELIZA 次要是用在临床医治中去，来模拟心理医生对患者提供咨询服务。过后只是用一些关键字的辨认，但反应还是比拟大的。工夫逾越到 1995 年，业界诞生了一个十分聪慧的，而且很有公众知名度的对话机器人 Alice。Alice 三次取得了罗伯纳奖。罗伯纳奖是重要的人工智能的比赛，采纳的是标准化的图灵测试，评审会选出参赛程序中最像人类的。Alice 的问题为什么如此惊人？次要起因在于其应用了 AIML 语言，在当年和同类产品相比具备很大的的竞争劣势。

总结这期间对话机器人的性能，根本都是基于关键字的辨认，或者是通过专家系统的规定来构建的对话零碎。然而，随着专家系统规定的演变，逐步地呈现了瓶颈。而基于数据驱动办法就失去很宽泛的钻研，并且缓缓地利用到了对话零碎中。这一时期的对话零碎次要是由自然语言了解这个模块来驱动，同时会联合基于强化学习的对话治理。为了解释它为什么是由自然语言了解和对话治理来驱动这个问题，研究者们做过两个典型的工作：在 2005 年到 2013 年，剑桥大学的 Steve Young 传授提出了基于 POMDP 的对话治理，以及一个基于管道 Pipeline 形式的对话零碎。

这一时期，基于机器学习自然语言了解办法百花齐放，呈现了很多经典的机器学习模型。上文提及的剑桥大学 Steve Young，就是当初苹果手机外面后盾的 Siri 之父，为后续的深度学习的办法的对话零碎钻研，包含利用落地，打下了十分松软的根底。基本上形式化了很多对话零碎的经典的问题。然而随着前面的倒退，基于传统的机器学习也很快遇到了瓶颈，特地是在语音辨认和图像分类方面，准确率无奈失去很大的晋升。所以在第三代的钻研中，这些零碎基本上转向了基于大数据和深度学习的技术。比方当初大家熟知的，Amazon Alex、Google Home、Siri 这些助手类机器人。它们其实次要是以深度学习办法，即用意的辨认、语言了解的形式。基于深度学习技术，使得端到端的对话零碎变得可行。

最近的几年的钻研中，端到端的对话零碎失去了越来越多的关注和投入。2017 年开始，对话零碎曾经开始大规模在行业落地利用了，也有人称 2017 年是对话机器人的元年。

那么，为什么须要对话零碎、对话机器人呢？对话机器人到底有什么用？咱们为什么要钻研它？这点要从对话机器人微小的需要背景讲起。

需要次要是在两个方向，一个是 to B，另一个是 to C。to B 场景比方企业客服，客服人员的劳动是简略反复的，能够用对话机器人主动客服取代人类客服。其二是办公助手，像华为 Welink，即相似钉钉、微信、WeChat 一样的办公类软件，其实也有一部分能够去辅助人触达一些利用。这种办公类的助手，能够帮忙订机票，新建日程。还有一个方向是市场销售，机器人也能够帮忙企业做一些采购、销售、介绍产品。

对于 toC 来说，一个典型的利用是集体助理，特地像家里会波及到音箱等，这些集体助理当初有很大的利用背景。包含针对老人、小孩等特定人群的情感陪护需要，绝对应的能够开发情感陪护的机器人。甚至有些机器人能够与小孩进行同步学习，教小孩一些课程，做一些娱乐的流动。

那么什么是对话机器人？首先通过最初三个字“机器人”，第一个想到可能是一个实体机器人。的确，实体机器人能够做人机对话交互，特地像科大可佳机器人，可能做一些多模态交互，给人类情感上一些陪护，甚至机器人它能够依据人的指令去做一些家居的管制，科大的可佳机器人能够去操作冰箱、微波炉，能够听懂人的指令去操作环境上的一些物体，另外相似日本的阿森姆机器人，这一类机器人就是实体类的硬件机器。还有一类是虚构的软件机器人，它能够部署在咱们的操作系统外面，像微软的 Cortana。也能够部署到硬件外面，甚至是手机外面，像 Siri、Amazon Alex。

总结一下，对话机器人次要的目标是心愿可能通过多轮对话的形式帮忙用户实现工作，或者是放弃用户继续的一个无效的交换，并且能够部署到大量的硬件设施外面去。

这里将对话机器人做两个分类，第一类是工作实现型的对话机器人，第二是闲聊型对话机器人。上图表格是两种机器人的比照，咱们能够称之为一个是感性机器人，一个是理性机器人。

工作实现型对话机器人它能够偏感性一点，它须要去做一些工作。通常它可能须要调用一些知识库，或者一些服务后盾的 API。但理性机器人即闲聊对话机器人，对产品层级来说，它可能会更偏差于理性一点，须要了解用户的一些情感。工作实现型对话机器人它个别都有特定的指标，因为它的确须要实现一些具体的工作。闲聊对话机器人它通常是没有特定的指标的，它会跟你始终继续的聊上来。而且从对话轮数管制来说，工作实现型对话机器人它心愿是对话轮数越少越好，因为越少越好，能更快地达到目标。闲聊对话机器人它可能心愿可能跟人对话次数越来越多，而且可能继续的交换上来。

工作实现型对话机器人它通常蕴含多个模块，而且能够采纳规定或者统计学习的办法。但闲聊对话机器人它通常采纳一些检索，或者是 sequence to sequence 的生成办法，这是这两类办法的不同点。下文将重点在工作实现型这一类机器人上开展内容。

从历史角度看，从图灵测试到当初曾经 70 年过来了，对话机器人这一畛域目前还是存在十分大的挑战。大体总结为以下几点：

首先，语言的多样性非常复杂，一个含意可能有各种各样的表白。同样，同一个表白，在不同的语境下代表的含意可能不一样，也就是语言的歧义性。

语言的多样性和歧义性会给对话机器人的停顿带来十分大的挑战。

此外还有语义的示意，首先须要让机器去了解语言，而语言自身的符号是无奈被机器所了解的，须要把符号转换成机器的外部示意。那么外部示意怎么定义呢，什么样的外部示意才是丰盛的呢。然而示意越丰盛，对应的学习能力可能越弱，反之示意越弱，可能学习得越快，这须要如何衡量呢？

再者是零碎的鲁棒性，对于精度和召回的均衡。对话机器人也面临着一个问题，特地是在 to B 场景外面数据是极度匮乏的，在没有数据状况下，如何去进行训练，如何去做模型的调优，如何保障它的鲁棒性？还包含当初深度学习的可解释性，面对符号和环境常识的桥接。当机器人跟人对话时，它个别会建设在独特的常识根底上，大家都晓得中国的首都是北京，但如果机器人不晓得这个常识，那它怎么跟人持续交换呢？

上图是一个对话机器人罕用的框架流程，次要分三个模块。第一块是自然语言了解，自然语言了解的目标就是将自然语言文本转成机器外部语义示意。工作型对话它通常有个假如。假如语义示意，它是由三个语义元素来组成的，一个是畛域、一个用意、一个槽。一个畛域通常是蕴含多个用意，比方天气这个畛域，有可能查天气，有可能查温度，有可能是查风向，这些不同的用意，通常一个用意上可能有多个槽，我说查天气它查的是什么呢？可能有工夫、可能有地点，槽可能是工作型对话外面的概念，大家能够认为槽是一个关键字的这样一个要害信息的概念，相似于工夫、地点，也能够是用户定义的任何的一个词条类型。

这里举个例子，当用户说：“明天深圳天气怎么样”，自然语言了解的工作就是须要辨认进去这句话外面畛域和用意是什么。所以输入畛域为天气，用意是查天气。句子中提取到工夫和地点槽位，工夫是明天，地点是深圳。通常在理论落地利用里，还须要把工夫明天翻译成一个真正的一个工夫表白，比如说 2020 年 8 月 26 号。让后盾零碎不便对接。

自然语言了解模块之后，进入对话治理的模块，其中蕴含两个子模块，对话状态跟踪和对话策略。从对话治理职责来看，这一步的输出就是自然语言了解模块的输入，输入是一个 action，action 表明零碎应该去做什么，应该回复给用户什么货色，而且这个生成的 action 个别是一个形式化的、结构化的内容，所以说它个别会再通过一个自然语言生成的模块。

自然语言生成模块的目标就是把对话治理的输入，转成一个用户可能了解的自然语言形容，这个时候它会生成一个回复就是：“好的，明天深圳的天气是晴，温度 20~30 度。”这么一条自然语言形容。这就形成了十分典型的对话机器人的罕用框架。

重点来看，对话治理又可细分对话状态跟踪和对话策略模块。对话状态跟踪的意思就是须要输出自然语言了解的后果，同时须要去更新机器外面外部维持的状态，它状态跳转到什么中央了，而且每一个槽的值产生了什么变动。比如说像这外面曾经晓得工夫是明天，地点是深圳，当没有获取到这个信息的时候，它之前的工夫、地点必定是空的、未知的，当承受到这个信息，须要去更新它，工夫，原来是明天，地点是深圳，这就是对话状态跟踪须要做的。对话策略就是须要依据这些机器人外面的状态，去抉择一个口头，这个口头就须要去反馈给用户，图上所示就是通过状态的后果，去生成一个 inform 动作。

那么，华为云在自然语言了解方面有哪些实际、停顿？首先来讲讲对话机器人中的自然语言了解模块。

自然语言了解模块工作蕴含三个工作，一个是畛域辨认，一个用意辨认，一个槽填充。

畛域辨认、用意辨认其实它工作是一样的，都是一个分类工作。在上图的圆圈里，是咱们波及到的一些典型的算法，在畛域、用意辨认外面。左下角就是一些规定的办法，后面对话机器人的历史介绍的时候有提到过，次要包含一些关键字的辨认，正则规定，而后上下文无关文法。这一块其实工业界机器人平台也有在应用。

上图左上角是传统的机器学习办法，像传统的 SVM、决策树，甚至 LR 的一些办法。到前面深度学习外面用的比拟多了，像 TextCNN,Fasttext，包含 R-CNN。从最近几年趋势来看，其实预训练曾经开始风行了，甚至分类辨认的一个工作的范式其实曾经产生扭转了。像基于 BERT，华为的 NEZHA 这样的预训练的模型加微调形式，都能够很好的去做这类工作。

针对一些平台级的，特地是 to B 的场景，有很多不同类型的场景，因为有些企业可能没有数据，有些企业数据量不多，而有些企业的确随着日志的产生，它有很多数据。针对不同的数据，不可能一上来就套用 BERT 或一个预训练模型，这种办法是不太可行的。

针对这些不同状况咱们做了一些摸索。先看如果在无样本状况下，如何做这样的畛域一种辨认，所以说华为云的一些对话机器人技术平台上，其提供了一些规定的形式定制，因为规定的话，一旦配置一条规定，其实它能泛化辨认出大量的文本，在规定外面提供适配的一些通配符，包含它能够配置一些槽位的字段，甚至一些一般的字段，一般字段可能是一些 word，包含用户本人的字典，这些都能够配置。左边是给的一些示例，通过这些规定配置，我就能够做一些冷启动的形式。即便在这个用户没有训练数据的状况下，也有很大的帮忙。

第二种状况，有很多数据时如何抉择最好的办法呢？这就要用到最近几年众人熟知的，通过预训练加微调的形式，像上图左边这种形式，根本的构造是 transformer，transformer 之后输入了一个 CLS 标签的 Logits，前面接个全连贯层，来预测做分类。

这种工作通过大量的试验后发现的确成果比拟好，比方云上办公软件华为 Welink。Welink 有一些助手的用意，在 80 多家用意外面，每个用意给它调配 10 条语料、50 条语料、100 条语料，而后把所有语料放进去，它的成果的确一直递增，而且最终成果基本上能够达到 95% 以上的成果。如果你数据越多，它成果的确会答的十分好。不过存在一个问题，即部署老本较高。因为如果每个用户都上一个 BERT，老本上的压力是很大的。尽管说它是通过预训练的形式加微调，但依然须要交大量的数据。

咱们有没有其余办法去解决呢？有的，能够应用一些模型蒸馏的办法来解决，例如上图 Tiny-NEZHA 这样一个蒸馏的形式去把大模型去蒸馏到小模型里。NEZHA 其实跟 BERT 自身模型上其实差距不是很大，都是基于 transformer 的构造，但它有一些轻微上的构造上的不同，一是可能采纳一些绝对地位编码放，第二个就是字掩码，因为字掩码可能是字，或是基于词级别的掩码，和增大 batch size 可能会用一些混合精度训练，包含 LAMB 优化器，这四点可能会有点不一样。

第二块就是咱们的蒸馏技术 Tiny-BERT，会在两个中央都做蒸馏，一个是在预训练中的通用蒸馏，通用蒸馏即在训练外面也能够做蒸馏。第二个就是在工作相干的其实也能够做蒸馏，也做了一些数据加强的工作，中文系列模型 NEZHA 的话曾经也开源了，代码和模型能够公开下载。

蒸馏办法如何实现呢？首先要想分明学什么，其次晓得怎么学。因为大模型 teacher 和 Student 本来就能够学很多向量的示意了，向量生成的一个示意，包含自身的暗藏 State 等都能够去学。每个层学的方向不一样，在输入层，能够通过传统的 logits 学生模型的预测层的 logits 下来拟合 logits，在中间层，就是一个 Embedding 层的一个蒸馏，能够去用 MSE 去一直的去迫近中间层的表白。

通过这几种形式，其实在 NLPCC 工作外面其实也做了很多这样的蒸馏试验，包含大小模型、高瘦模型、矮胖模型等，还包含如上面表格外面，在 4 层在 6 层在 8 层外面它的一个对应的成果。最终后果还是看上图的右上角，在 ChineseProve 这样一个小模型工作，咱们最初 score 达到 77.7 分，拿到第一位。

如果须要再轻量级的模型，是否还有其余办法？对工业界来说，能够联合一些传统的特色，也能够联合一些深度的特色。传统的特色例如语言模型、词性、实体，包含同义词、停用词这些都能够利用上，而深度特色像 word2vec，包含联合一些浅层的深度学习的编码器等都能够实现。

第二个问题，在没有大量的数据前提下，也就是小样本场景下的畛域用意辨认如何解决。这种状况下，随时会加一些新的类别，而且新的类别下可能几条数据，无奈跟之前的数据一起训练。

这种状况下学界提出小样本学习的概念，其指标是只需提供你若干个样本（可能是 1~5 个样本），依据这 1~5 个样本去学习，来判断这个类别是什么。

小样本学习的思路分两个过程，一个是元训练的阶段，这一步非常简单。有一个根本的训练数据后，把这个根本的数据划分成两个汇合，一个是撑持集，一个是询问集，撑持集里可能是每个类别是十分无限的，只能 sample 句子，k 通常很少很少可能 1~5 个，Query 能够本人选。最初元测试的阶段就随机去采 1 到 5 个样本，再输出一个 Query，通过这批小样本是不是可能预测正确。

小样本学习有三种不同类型的办法，像刚见过的基于模型的，还有基于 optimize 的优化的形式，此外还有基于度量的形式。咱们在度量形式做了一些摸索。
度量形式分很多种，比方 MatchingNet 是匹配的网络；原型网络 protoNet，惟一的不同就是 distance 计算不太一样，此外还有 relationnet。咱们在小样本上跟传统的 BERT 预训练加微调的形式的确做了比照。在十个类别、五个样本都做了一些比照的试验。BERT 传统分类有 83.2% 准确率，但小样本学习的办法可能达到 93% 的准确率，进步的确比拟大。最终十个类别十个样本最终能达到准确率 96% 的成果。

同样，在试验的过程中也发现了一个问题，为什么它能达到准确率 96%？这背地有个取巧办法，目前小样本学习也存在这样的景象。在已有框架下是每个 Epoch 的训练测试数据其实是随机采样的，当有 2000 个类别时，随机采 5 个，而数据自身蕴含大量简略样本时，这样的采样形式很难涵盖到其中的艰难样本，所以实际效果非常存疑。为此，咱们也做了试验，提出了一个联合小样本学习和课程学习的办法。办法分为几局部，一部分先做难度的评估。咱们能够采纳 BM25 或 TFIDF 计算一下每个样本之间的差距，专挑那些难的样本放在一起来学习。另一部分做数据划分，能够把类似难度的数据划分到一起。

在之前的试验外面，间接用难的样本去训练成果如上图所示是十分十分差的。换一个思路，在可能保障测试级别比拟难的根底上实现学习训练，但发现成果还是会降落得很快。而前文讲过测进去可能会达到准确率 96% 的成果，但这样剖析和试验后，会发现实在的小样本学习其实没有这么好的成果。为了解决这种状况，就要联合课程学习，一直从易到难。

最终如上图，进步三到六个点的准确率，目前工作也在也在继续地进行中。能够失去的论断是，在简略数据上，课程学习尽管不能显著晋升成果，能进步 3 到 6 个点的准确率，但的确能够升高方差（方差就是说本来我随着训练的难度，测试难度越大，好跟不好差距特地大），而且间接应用传统的小样本学习的办法，在难的样本里其实并不能获得很好的成果，之前能达到准确率 95% 这样的成果其实是不可信的。同时退出小样本加课程学习，在难样本上晋升成果比拟显著。

再来看槽填充办法。比如说用户想要预约今天去北京的机票，机器人须要提取进去 time 是今天，而 destination 是北京，通常在理论应用中今天可能会须要转成一个具体的工夫表白，这样一个工作能够转换成一个序列标注工作

在线上场景中除了能够采纳 CRF、LSTM-CRF、BERT 这些模型，个别状况下有一套残缺流程，通常对话前会内置一些实体，首先会做自定义的实体辨认，其目标在于作为一个实体的归一化和做细度的特征提取，之后才会输出到模型里，来进步模型的泛化能力。同时还会联合槽填充的规定做交融，失去输入后果。

利用场景中，槽填充会有哪些问题呢？首先是工夫归一化，工夫表白会比拟多。另外不同的客户人名可能不太一样，人名表白也具备多样化，不同用户人名的辨认也会带来一些难度。同时模型和规定的交融办法也存在挑战。最初就是多轮中可能会有一些槽填充的问题。新平台外面须要内置一些槽位，这样用户用起来可能会比拟不便、简略。

从上文能够看出，将畛域辨认、用意辨认槽填充拆开进去当多个工作会带来一些问题：

畛域辨认和用意辨认会产生谬误，槽填充也会产生谬误，通过一层一层 pipeline 可能会叠加一些误差。这个时候能够采纳多任务模型的形式，即把这三个标签信息、三个语料同时去放到一个模型外面去学习；

如上图模型，交融 bert 和 crf 对畛域、用意、槽联结建模，试验后果也证实的确会带来较大的进步。传统的 CRF 模型可能成果的确不是很好，最初的 ChunkF1 可能只能达到 0.79 的准确率。通过 BERT 它可能达到 0.87 的准确率。退出畛域辨认槽填充这一系列后，最初的 ChunkF1 大概能进步大略两个点。

为什么对话机器人须要对话治理模块呢？为什么不间接用自然语言了解间接对接服务 API？对话治理模块存在很有必要，而且是对话零碎的外围，其起因在于用户很多状况下不会一次性表白完用意，同时零碎各个模块的准确率，也并不一定能达到 100% 的精确。不论是语音辨认或者自然语言了解自身解析都可能产生谬误，导致反馈不正确的回复，或者基本就不晓得怎么回复。这两种状况都须要机器人跟用户进行屡次的交换确认，能力获取用户的残缺的用意，也就是须要对话治理模块来实现这部分工作。

对话治理个别分为状态跟踪和对话策略的学习两局部。状态跟踪就是用来跟踪用户的指标，比方用户以后说了什么、之前说了什么。上图右边是一个简略的状态汇合，包含可能有一些相干的状态之间跳转，能够看到通常会有状态如何跳转的先验常识。左边的构造是随着用户跟机器人的对话同时进行的。用户说“我要预约今天去北京的机票”，这时用户状态从空就跳到了目的地出发地这样一个状态，并随着问题交互的进行，直到填充所有的槽位。这样一个过程是通过状态跟踪来做的。

再来看对话策略，对话策略的目标是通知机器人应该说什么。看一个例子，依照上图红色框所示，依据输出的以后状态的信息，用户曾经输出目的地了并告知了登程工夫，零碎应该去判断，发现出发地是未知的，这时的策略也很简略，发问“请问从哪里登程？”而不是“请问去哪里？”。

对话治理工作到底存在哪些问题和艰难呢？

首先，是用户的用意是无奈当时晓得的，用户随时可能会说任何其余的话，甚至调戏机器人。所以机器人很难捕捉到用户实在的用意，甚至要面对用户可能会随时切换用意的可能。

第二，实在环境中乐音比拟大，导致对话治理获取到的信息并不是用户实在表白的含意。

第三，绝大部分畛域的用意槽位内容会很多，比方工夫或者其余数字信息是间断的。如果要用模型实在建模来跟踪所有可能的状态，传统的办法基本上不可用。要建模所有可能的状态，并在状态之间跳转，须要枚举所有可能的语料，这自身是一个统计学问题。
对话治理自身办法也有很多。从上文讲过的历史来看，首先想到的是状态机的办法，像比如说上图右边的 S1，用户从 S1 状态下定义我在 S1 状态下它应该做什么口头，能够 forward，能够 backward，能够 left，能够 right。当执行了 forward，就会达到 S3 状态，这个时候就实现了一轮的交互，这就是一个通过状态机的形式去实现的对话治理。对于状态怎么跳转，包含状态下应该做什么行为，都定义得十分分明。第二种，假如有 10 个槽，那个槽外面很多值，一一列举两种组合或者几种可能，其空间是十分大的，导致保护起来很艰难。解决这一问题的思路之一是基于槽的框架的办法。咱们来看看大抵思路，首先对模型做简略的形式化，认为槽跟槽之间是独立的，与所填的值无关，在没有填槽状况下，就进行发问，填充后就不问，多轮交互之后发问完结，目前很多企业，包含成熟的大企业和守业公司，很多都会采纳槽的框架的形式。

不论是基于状态机还是槽框架，实质上都是一套规定，而历史上后续 Steve young 传授提出一个基于数据驱动的对话治理办法，实质上来说就是把对话治理当做一个局部马可夫决策过程，POMDP。如果大家感兴趣能够看一下 Steve Young 于 2013 年发表的十分经典的综述论文，主题就是 POMDP 的对话治理。

沿着历史的脉络梳理，这之后开始深度学习的办法就比拟多了。目前成果最好的、比拟经典的是 trade 模型，该模型取得了 ACL2019 的 outstanding paper，作者把对话状态跟踪的工作建模成生成工作，首先把历史信息编码成向量，同时会把畛域槽进行编码，最初交融生成对应槽的值。当年这篇论文取得很大的胜利，成果的确比拟好。另一个典型的例子是上图左边基于强化学习的对话治理，把对话策略建模成深度强化学习的问题。

随着预训练炽热之后，用 BERT 也可能解决对话状态跟踪的问题。能够通过 Bert 浏览了解技术，预测用户所说的话外面每个槽位的 Start pos 和 end pos，最终提取槽的值，同时它会再联结一个分类的工作去做联结模型。然而在实在场景中是没有标注数据的，所以咱们个别会通过仿真器和一个机器人进行交互，这种交互的形式能够生成大量对话数据，同时也建设了一个访仿真器。通过这个仿真器，能够生成很多对话样本。当初依据咱们的用意和槽位，生成大略有 7000 多个对话样本，训练集外面大略有 3000 多个对话样本，最初通过 Bert 浏览了解分类联结形式，它的跟踪准确率能够达到 90% 左右。但这也存在一个问题 —— 生成的数据可能无奈很好地模仿实在的状况。

针对对话策略来说，当初工业界绝大部分用的都是这种对话逻辑、对话流程的形式。因为在 toB 场景中，它的对话抉择很丰盛，刚开始在某个状态下，用户说任何一个用意，它可能会跳转到任何一个状态，它的行为会很多。如果把它建模成一个实在的强化学习问题，第一对数据量要求很大，尽管也能够通过仿真生成数据，但它也须要很大的数据量。其次实在场景的一个行为空间是很大的，所以很难通过一个强化学的形式去模仿它。

然而在对这种对话流程计划进行设计的时候，也要解决很多实际上的问题。一个是槽位记忆的问题，它须要反对不同用意槽位之间的关联，例如在订票时，曾经说了工夫地点，那么在说查天气的时候它不应该反诘你要查什么中央的天气。第二个是用意记忆的问题，它须要反对多轮的用意辨认。例如用户在问天气时，问“那上海的呢？”就会利用多轮的信息辨认成天气用意。

对话零碎能够拆成语言了解、状态跟踪，和对话策略。其实自然语言了解也可能融入到对话治理里，深度学习曾经容许把对话零碎建模成端到端的形式。有两个经典的工作，一个是 HRED，它把对话零碎建设成双层的端到端的网络，第一层用来编码对话文本历史，第二层用来编码对话状态。这种办法比拟粗犷，来了文本就间接编码，而后历史信息传递上来。还有一个比拟经典的工作是 Steve young 传授团队的，它看起来是端到端，还是分部分的模块，特地像 pipeline 的形式，它先做一个用意的检测，也就是用意的网络，再做一个叫做 brief checker 的槽填充，最初再从 database 外面去做一个搜寻，最初这三个信息融入到 policy network，policy network 能够认为是对话策略网络，最初去生成它的一个回复，这样一个部分的端到端的工作型对话零碎，比后面一种办法更好了解，而且解释性更强。

这就是两个比拟经典的端到端的对话治理，那么针对将来的人机对话形式，怎么去设计一个更好的端到端对话零碎架构呢？是不是依然采纳之前这两种形式？将来的人机对话的形式到底是什么呢？

多模态天然人机交互零碎是下一代人机交互零碎的一个发展趋势，它能够交融视觉、听觉、触觉、嗅觉甚至味觉，表白的效率比繁多的视觉甚至繁多的文本丰富性更强。多模态自然语言人机交互的对话模式，是目前最为天然而且最现实的人际交互方式。之所以钻研多模态对话零碎，是因为实在环境里的语音辨认引擎带来的谬误很难防止，同时它带来的语义歧义性也特地大。那是不是可能在了解语言的根底上，交融其余模块的信息，比方视频图片，引入一种多模态信息交融就可能晋升计算机对用户用意的了解的准确性呢？

多模态对话的利用目前不是很多，但也有文章对此进行了钻研，一个是情感感知对话零碎，在驾驶时，驾驶员须要集中精力去关注路况，然而他很难腾出手去操作一个界面，这是一个很经典的多模态问题，它能够通过驾驶员，能够通过口头或者是视觉的提醒，甚至是语音文本，驾驶时语音辨认成果可能会更差，那么能不能通过视觉的信息，手势的信息去了解，这是一个十分典型的场景。

中科院自动化钻研出了一个多模态自然语言书面语对话零碎，它能够联合人的一些表情手势姿势去进行对话，但实质上这几个利用场景还是一个模态之间的串联，它其实没有做到很好的模态之间的交融。所以咱们始终在考察钻研是不是能够做模态的交融。通过考察，发现电子商务其实有这样一个场景：用户说“我要买裤子，我要买衣服”，他还会发送一些样本图片，而后机器人也同时会反馈一些图片给他，这就是天生的一个文本加图片的形式，它能够形成一个多模态对话的流程。

多模态的简略定义是，给定多模态对话上下文，包含用户的询问，指标是生成对应的零碎的文本回复。针对上文电商的场景，提供的可能只有文本跟图片，当然前面都能够裁减，还能够加语音甚至其余某些信息，那么这外面可能不含图片。它模式上就是你只须要输出一个历史上下文，再加上用户的 query，须要生成的是零碎的回复。

对于端到端的对话治理，也能够应用 HRED 模型，该模型非常简单，然而它仅反对单模态。在 HRED 外面，只须要把图片信息退出，把图片编码，编码之后再交融文本，文本通过 RNN 失去向量，把这两个拼接在一起，再通过一层下面的 RNN，这就是当初用的比拟多的基于 HRED 结构的多模态的 HRED 模型。

前面对模型进行了改良，第一使它能够在生成外面进行管制，通过用意的了解，去管制生成一个简略、通用的回复，也能够去生成一个多模态的、常识相干的回复。第二个改良点，能够在生成过程中交融一些常识进来，比如说三元组这些信息或者属性表格，会比拟好地管制生成的品质。但这几个模型，也存在比拟大的问题。

这里列举的两个经典论文提及的这些办法都是基于层级循环的神经网络。这个办法的模态交融很弱，是把句子编码成一个向量，其实这会损失句子外面的细度信息，比如说关键字实体。另外一方面尽管应用了属性三元组，但其实并不能很好地无效利用这些常识，即常识的利用率比拟低，所以华为采纳了一种叫做 MATE 的模型，它是基于语义元素集的、上下文依赖的一个多模态对话零碎。将模型拆开来看，右边是一个多模态元素集的编码器，用来编码来自对话历史的记录，包含用户查问的所有图像，都存储在对话记忆模块。为什么存在图像记忆模块？因为有些以后的文本看不到后面的图片，所以说这外面会做一个 attention 操作。通过注意力机制或者图像的一些文本的嵌入，有选择性的是否退出一些图片。

最初所有嵌入都会拼接成多模态的语义元素集。这样每个元素跟图片外面的元素都能够进行一个很好的交互。第二块是右半局部，它是一个解码过程，解码过程能够分两步。第一步先关注在编码器外面输入，它只关注后面生成的注意力操作。第二阶段，解码之后再联合畛域常识，再做一个 attention 操作，这样可能进一步很好地去利用这样的常识，而且同时会利用好后面的一个编码器的输入，这样可能进一步地优化零碎回复的品质。

上图是咱们论文的一个试验后果，试验发现如果应用第一种解码器和第二个解码器，的确有一些进步。同时咱们第一阶段的编码器，绝对于后面所有办法中最好的办法，在 BLEU-1 上能进步 6 个点，在 BLEU-4 上能进步 9 个点，而且是绝对值的晋升，这个晋升是十分大的。同时上面的表格，把不同的模块进行替换，进行进一步的剖析，包含在去掉 image position，previous image，knowledge 的状况下进行的比照。

上图是展现的一个样例。它关注了语义元素集的信息，左下局部、右下局部，formal shoes 能关注到更下层的比拟要害更元素集的一些信息，包含 star。

以上就是咱们在对话机器人上的一些停顿和工作。针对机器人的这个行业来说，咱们是心愿每个人都能享受到对话人机交互的乐趣。即便跨洋此岸，机器人也可能跟用户更好地进行交换，甚至机器人可能服务好用户。上图是一张图片，显示器外面是凯文・凯利，左边是科大的佳佳机器人，过后是做了一个跨洋跨语种的对话。但要把这样的事做好，其实是一个很大的挑战。

首先，机器要了解用户，甚至可能了解用户很多开放性的问题，这须要很大量的常识常识，例如上文提及：中国的首都是北京，机器人怎么会晓得这样一个常识？真实世界常识太多，如果它可能了解用户各种各样的问题，须要具备大量的常识常识去丰盛它的能力。

再者同样比拟重要的。也是当初比拟风行的个性化需要。每个人的个性不一样，甚至机器人的个性也不一样，如何去按照每一个用户的共性去做不同的、基于个性化的回复，也是目前相对来说钻研得比拟多，且前景比拟好的方向。另外，对于小样本学习须要解决的问题，特地是 toB 的场景企业的问题，挑战是比拟严厉的，实在的场景外面企业其实没有太多数据，甚至是没有数据，小样本学习是企业会重点关注的一个问题。

多模态、多畛域，预训练，预训练在绝对将来一段时间内还是会成为支流。从目前实践证明，预训练加微调的形式成果的确会比传统的深度学习的从新训练成果好很多。再联合当初深度学习的可解释性，有一部分人在钻研神经网络与符号类进行联合去解释深度学习，更好地去建模实在的 AI 问题。

而后是无监督学习，无监督学习和小样本学习面对的同样还是企业场景的问题，客户可能没有标注数据，兴许会有一些非结构化数据，这些数据怎么用，怎么去学习，也是对话机器人从业者面临的挑战。最初，当初的一些语料，甚至是对话机器人的语料，绝大部分是 2014 年之前的，还是单语种的数据，到最近才凋谢了多语种的数据集，所以多语种对话机器人也将会是比拟好的方向。

本文分享自华为云社区《图灵测试 70 载，回顾对话机器人的经典实际和最新进展 | 以华为云对话机器人为例》，原文作者：listen2Bot。

点击关注，第一工夫理解华为云陈腐技术~

关于机器人:对话机器人70年科幻与现实的交融

一、对话机器人介绍以及历史简略回顾

二、对话机器人中的自然语言了解

三、对话机器人中的对话治理

四、多模态对话机器人停顿

五、对话机器人将来方向以及总结

Just My Socks（注册教程内含优惠码）

关于机器人:对话机器人70年科幻与现实的交融

一、对话机器人介绍以及历史简略回顾

二、对话机器人中的自然语言了解

三、对话机器人中的对话治理

四、多模态对话机器人停顿

五、对话机器人将来方向以及总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）