关于运维:问题管理交互机器人

40次阅读

共计 2374 个字符,预计需要花费 6 分钟才能阅读完成。

简介: 封神 - 问题治理 | 交互机器人

1. 我的项目背景

平台运维过程中,平台用户必然会产生一些问题。在最后运维阶段均是由用户间接与平台运维人员进行沟通,反馈问题或提出一些疑难,如此势必会减少大量的沟通老本,如图 1 所示。在长期运维过程中会暴露出如下问题。


图 1

1.1 用户痛点

①不分明有问题该去找谁解决或找不到人;
②无奈感知问题解决进度;
③沟通老本较高,重要问题无奈及时处理;

1.2 运维痛点

①外部信息不能无效共享;
②问题治理多入口,问题跟踪凌乱,反复解决雷同问题;
③问题解决周期长,交接过程繁琐易脱漏问题;

2. 业务架构

2.1 架构阐明

问题治理机器人是用于帮忙运维人员与用户建设各种类型的问题解决流程,治理所有的问题并跟踪记录这些问题的解决办法,同时为用户提供一个调配、流转和合作解决问题的工作平台。
问题治理机器人以解决问题为导向,通过对问题入口的对立,用户侧 / 运维侧业务入口均为钉钉群。钉钉群分为妲己(用户侧)/ 纣王(运维侧),客户问题在妲己群中提出并流转至纣王群,由运维人员进行接单解决,如图 2 所示。


图 2

2.2 性能特点

  1. 依赖钉钉机器人集中管理所有的问题,手机、电脑多终端适配;
  2. 记录所有问题,保障它们被及时处理并最终解决,防止问题被疏忽、迁延或忘记,并一直累积;
  3. 从问题被录入开始,便始终有人对其负责,直至问题被敞开;
  4. 记录问题处理过程的全副信息(如解决人、解决时长、解决内容等);
  5. 缩小大量询问、督促、报告等沟通工作;

2.3 性能分组

用户侧群
  1. 问题录入:规范化录入模板,由用户间接 @机器人进行问题录入;
  2. 问题查问:随时查问问题,获知问题以后解决进度;
  3. 问题批改:用户可对问题进行指定问题解决人、评估问题、打回问题、加急问题等操作;
  4. 问题导出:集体维度反对多种导出选项并将问题导出为 Excel,不便进行总结汇报;


图 3

运维侧群
  1. 问题查问:多种查问模式,依照本身需要对问题进行查问;
  2. 问题批改:运维人员能够对问题进行暂挂、标记、变更状态、更新进度、转交问题等操作;
  3. 问题导出:全局维度反对多种导出选项并将问题导出为 Excel,不便进行总结汇报;
  4. 进度监控:问题解决时长超时揭示,放慢问题解决进度;
  5. 问题播报:定期播报未解决的问题列表,及时发现其中重要问题;


图 4

问题大盘
  1. 数据可视化:依照问题散布平台、产品、解决人员、数量散布等维度生成报表。
  2. 问题详情:能够搜寻问题详情、解决时长等。


图 5

3. 问题解决

3.1 解决流程


图 6

3.2 流程阐明

环节 钉钉群 角色 阐明 解决状态变更
1.1 客户群 用户 @妲己,机器人主动回复须要下一步操作选项。
1.2 客户群 用户 @妲己机器人,抉择录入问题,问题录入胜利后,主动将问题推送到驻场群,期待接手。 待处理
1.3 客户群 妲己(机器人)@妲己机器人,抉择查问问题。
1.4 客户群 用户 机器人主动调配问题 ID,并推送问题录入详情,如要批改问题,需敞开从新提交。
1.5 客户群 用户 回复目前未解决问题,点击问题能够查看详情。
1.6 客户群 用户 抉择是否批改问题状态,否 / 长期敞开 / 已解决。
1.7 客户群 用户 抉择“长期敞开”- 此问题暂挂,问题不会通过“查问问题未解决”查问到,但能够通过“查问问题全副”中显示,通过 @妲己批改问题,重新启动问题。 解决中 -> 长期敞开
1.8 客户群 妲己(机器人) 抉择“已解决”- 问题敞开,可通过 @妲己查问全副问题查看。 解决中 -> 已解决
1.9 客户群 用户 收到驻场“问题解决更新”音讯推送,进行解决状态抉择操作。
2.1 驻场群 运维人员 收到用户问题录入推送告诉。
2.2 驻场群 运维人员 接手用户录入的问题。 待处理 -> 解决中
2.3 驻场群 运维人员 抉择是否转交问题到其余驻场。
2.4 驻场群 运维人员 ①不转交 - 解决问题。②问题验证未解决,批改“问题解决状态”为“解决中”。 已解决待客户验证 -> 解决中
2.5 驻场群 运维人员 @纣王,批改问题解决进度,批改胜利主动推送到客户群并 @问题提出人。
2.6 驻场群 运维人员 抉择是否“批改问题解决状态”,如已解决更改状态为“已解决待客户验证”。 解决中 -> 已解决待客户验证
2.7 驻场群 运维人员 @纣王转交问题 ID。反对被动转交接手人和被动转交其余运维人员。
2.8 驻场群 运维人员 播报 - 每天 10 点、14 点、18 点、20 点主动播报问题解决状况(累计解决状况、今日解决状况)。超时 -①每 10 分钟推送揭示未接手问题,②从问题录入胜利开始 4h/8h/12h/24h/48h 推送超时揭示并 @TAM。

4. 结语

本期为大家介绍了问题治理机器人的设计初衷及目前达到的成果。目前问题治理机器人已服务于数个混合云我的项目,我的项目问题跟踪效率显著晋升,用户体验晋升,大幅升高问题处理过程产生的沟通老本。
接下来会陆续给大家介绍封神的其余模块,包含运维大盘、报表剖析、时序数据库等相干常识,敬请期待!

参考文档

[1] 钉钉机器人:https://developers.dingtalk.com/document/tutorial

相干内容

[1] 封神 - 运维大脑 | 日志检测工具
[2] 封神 - 外围性能 | 钉钉告警 + 数据网关

咱们是阿里云智能寰球技术服务 -SRE 团队,咱们致力成为一个以技术为根底、面向服务、保障业务零碎高可用的工程师团队;提供业余、体系化的 SRE 服务,帮忙广大客户更好地应用云、基于云构建更加稳固牢靠的业务零碎,晋升业务稳定性。咱们冀望可能分享更多帮忙企业客户上云、用好云,让客户云上业务运行更加稳固牢靠的技术,您可用钉钉扫描下方二维码,退出阿里云 SRE 技术学院钉钉圈子,和更多云上人交换对于云平台的那些事。

版权申明: 本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0