乐趣区

关于算法:哈啰智能客服如何应用语言模型提升机器人服务能力

哈啰智能客服的总体介绍和算法流程

用户、算法眼中的智能客服痛点

右图是哈啰 APP 的客服核心,用户进入该页面,零碎会依据用户的应用状况智能举荐高频问题,并猜想用户想解决的问题,这部分规范问题的解决方案由业务专家进行整顿,能涵盖用户大部分的用意。对于解决不了的问题,用户进入 IM 入口,聊天机器人会和用户进行对话。机器人基于知识库进行匹配,针对每个用意别离配置答案,或者给出具体解决方案。

目前的痛点在于:

  • 知识库迭代更新费时费力
  • 模型难以跨业务通用
  • 解决方案波及到多模态的简单数据交融问题
  • 多轮工作型会话上下文的长距离依赖问题

用户在哈啰智能客服的历程

用户进入热线或在线服务渠道,以线渠道为例,零碎会预测用户想征询的订单,并给出猜你想问和自助服务,如不能解决问题,会进入机器人服务。机器人链路包含 query 补全、精准匹配、分类模型、匹配模型和启发式问答,解决方案依靠于知识库,可能是一套规范的服务流程,也可能须要判责,包含规定和智能判责。

机器人仍不能解决问题,会进入人工服务,咱们用了 NLP 辅助人工客服更好地服务用户,如智能派单,并给出服务疏导,在确认问题后实时举荐计划,用户确认计划后会进行话术举荐。如果不能解决须要降级到专门的客服,会生成摘要工单后移交。

此外,哈啰有一套利用众包模式的云客服零碎,目前云客服受理占比达到 70%。

案例:用意辨认 示意型文本匹配模型 > 分类模型

用意辨认可用分类做,也可用匹配。分类模型无奈适应知识库变更、迁移性弱,而匹配模型能很好地克服这些毛病。

分类模型局限性:

  • 知识库变更无奈及时响应,模型保护投入量大;
  • 新规范问短少训练数据,无奈更新模型;
  • 须要大量标注高质量数据,消耗人力大;
  • 无奈疾速迁徙到新业务。

匹配模型劣势:

  • 对知识库变更能及时响应,升高保护老本;
  • 在新增规范问短少训练数据状况下,也能进行辨认;
  • 可疾速迁徙到新业务,可做成通用模型,利用于所有业务;
  • 可单纯通过减少类似问就能进步辨认能力,易于优化。

然而匹配模型有本人的问题。在克服准确率降落的艰难后,咱们匹配模型超过了分类模型的成果。

在实践中咱们尝试了多种模型和优化计划,最终超过了线上分类模型的成果,在一条业务线的用意辨认 top1 准确率达到了 82.21%。

案例背景

匹配模型分两类,各有本身毛病。交互型匹配模型准确率高,但计算量大,故而放弃。示意型匹配准确率个别不如分类,如何晋升准确度成了咱们思考的重点。

示意型匹配模型落地流程

一系列优化措施晋升准确率

应用比照 loss 可能对成果有所晋升,但还是远远不够。咱们做了一系列试验,如图是试验的记录,发现畛域内大规模预训练、裁减高质量数据和输出文本 mask 无效,增大句子长度和温度系数有肯定成果,采样策略成果个别。

胜利要点 VS 有效尝试

胜利要点:

  • 超过线上分类模型(fastText),top1 准确率 82.21% > 80.62%;
  • 用意辨认 QPS 高,精排匹配不适宜,重点转向更好的编码表示;
  • 预训练和数据品质始终是影响的大头;
  • 多尝试,引入 CV 教训和各种 tricks。

有效尝试:

  • 尝试不同损失函数:tripletloss、bprloss,损失组合等;
  • 调参:学习率,batch size;
  • 模型抉择:CNN、ALBERT、SentBert、ESIM;
  • 其余逻辑:mask 形式、拼接规范问等。

下一步启发

  • 难负例是指间隔小于一个较小阈值的负例,须要拉开;
  • 知识库里不同规范用意(类)间,类似的样本少,导致难以辨别;
  • l 受 simCSE 启发,可用 dropout 机制尴尬负例生成更多难负例。

案例:度量学习技术晋升新用意发现的准确率

用户常常会有新的用意,须要及时发现。咱们心愿建设有壁垒的知识库,须要重叠率低且覆盖率高,覆盖率高须要主动开掘新用意。传统的做法是对未辨认问题聚类,而后人工选出新用意,而咱们的做法是用模型辨认已知类和未知类,而后从未知类中选出。最终,咱们举荐出的新用意占比晋升 50%,人工审核效率晋升。

案例背景

传统聚类办法有肯定的局限,人工审核效率低,举荐的新用意占比低。

要害实际

咱们用分类的形式辨认新用意,假如 k 个类是已知类,第 k + 1 类是未知类,例如“车主为什么不接单”这类表述分类到 k + 1 类。具体的做法是通过决策边界,到每个类别核心的间隔 d 是否在所有边界外,判断是否为新用意。边界的半径由自适应学习而来。

咱们进行了更好的语义特色表白,对『难』正负例进行采样。引入度量学习的三元组损失,每个 batch 抉择跟锚点最远的正例,最近的负例。

试验数据

咱们在 snips、banking 和 oos 等 3 个该畛域的公开数据集进行了试验,随机抉择 25%、50%、75% 的类别作为已知用意,其余都作为新用意。

随机 x% 的类作为已知类,剩下的未知类。80% 的数据作为训练集,其余为测试集。第一个工作是做二分类,F1 是对未知类,咱们的整体正确率是最高的。第二个工作是做 K + 1 分类,别离对已知、未知类计算 F1,也是同样的后果。

胜利要点

  • 自适应地确定决策边界,防止人为设置阈值的弊病;
  • 利用度量学习,侧重于取得更加各向同性的用意表白。为后续分类和学习决策边界发明了条件;
  • 可从 T -SNE 可视化印证。

T-SNE Visualization
Beneficial from deep metric learning, the intents of the same class are clustered close, and the intents of different classes are also well separable. Moreover, open intents are farther away from known intents.

案例:生成式模型用于 NLP 工作

咱们应用生成式模型辅助人工客服,通过域内学习哈啰的常识,并通过微调,晋升域内体现。

案例背景

人工客服了解业务、规定难度大,老本高,而 ChatGPT 等大模型体现出惊人的对话能力和总结能力。但如何利用于公司业务,有两个问题待解决。一是 IDC 资源受限,RT 要求快,中文成果好;用多大的大模型,这么大的模型是否够用不明确。二是如何在放弃通用能力同时,学到公司的业务知识。

开源根底模型评测

咱们对开源根底模型进行比拟和评测。发现清华开源的 ChatGLM-6B 参数较小,A100 上 RT 2s 内,QPS 也 OK,中文工作反对高。

同时,咱们对原生成果进行了评测,这里以语义分类工作和浏览了解工作为例。

业务上优化

一是在 Prompt 工程,给模型更清晰的提醒。实体辨认准确率有所提高,但指令听从性较差,回复内容不可控,导致准确率低。

二是融入 GPT4 中文指令,并微调 P -tuning。指令听从性有所提高,但响应工夫较长,影响体验。

三是学习哈啰常识,实体辨认准确率和匹配准确率有所提高,但胡编几率较高,输入不可控。

四是增多高质量数据,匹配准确率大大提高,答复更可控。

将来瞻望

  • 基于知识库 QQ 匹配的用意辨认技术曾经很成熟。在业余畛域内持续训练及微调,获取畛域常识后,可能生成更好的答复,加重人们的脑力负荷;
  • 生成式大模型短期内不太可能间接为用户提供解决方案。因为业务的复杂性 常常超出设想,并且解决方案取决于多模态的数据。除了文本和图像,还和订单状态、用户画像、天文轨迹、点击行为、商品卡券等相干;
  • TaskMatrix 提供思路,一系列解决方案能够形象为 APIs,它们和具体业务 数据相干。把 LLM 作为自然语言人机交互工具。LLM 正确顺序调用正确的 API 并给出解决方案,依然有不少难点。

(本文作者:王林林)

退出移动版