乐趣区

关于故障恢复:客户案例|某知名连锁咖啡品牌点餐小程序排障实录

大家都用过咖啡点餐小程序吗?

截至 2022 年,上海已有超过 8000 家咖啡店,包容百余个咖啡品牌,已是寰球咖啡馆最多的城市。行业内的强烈竞争不仅体现在咖啡品类翻新或口味保障上,便捷的生产购买形式也成为制胜要害。很多知名品牌,都已提供线上点餐服务,用户能够通过手机 App 或是小程序在线高低单,随后去线下门店取餐或期待快递送餐上门。

「咱们心愿晓得点餐 App 或小程序在每一个终端用户手机上的运行状态,晓得他们与后盾服务的通信状况。比方是否有大面积的点单页面加载卡顿、是否呈现集中的领取失败异样、是否呈现取餐号推送谬误等等。要能尽早看到问题,并尽快解决问题,哪怕是个别用户遇到的问题,也要能清晰排查到。若等收到用户投诉后才去找问题,那就晚了,可能曾经失落了很多订单,给用户十分不好的体验,同时也对咱们的品牌造成负面影响。」

这是来自某出名咖啡品牌的诉求

对点餐小程序的监测需要

1 在交换过程中,客户提出重点关注应用服务的性能监控,要能收集和剖析利用的性能数据,及时发现潜在的问题并修复它们。

2 在客户的点餐小程序里,不仅有用到本人开发的服务,也包含一些第三方服务。如何能精确监测各个服务的品质,提供具体数据,疾速定位故障责任方,也是重点需要。

之前应用过某云厂商的利用链路产品,但只能统计出第三方服务的报错数量,无奈下挖更具体的信息,也无奈精确记录故障现场上下文,这导致客户要在第三方服务商背后能残缺复现故障后才可要求修复,常常碰到扯皮的困扰。

应用观测云后,通过大概 2 周的监控环境革新,已完满解决这些问题。

观测云应用场景

场景 1:在测试阶段就引入观测云

按传统教训,残缺的监控平台往往只服务于生产环境,因为只有运维人员会应用基础设施或日志监控工具,碰到实在问题后,再回退给测试或开发去解决。但观测云认为,古代软件会面临疾速迭代开发,要保障生产环境质量,监控应该更加「左移」,让测试和开发人员也能看懂监控数据,以便及早发现和解决问题。

观测云能够对立利用性能监测、基础设施监测和日志剖析性能,通过利用链路主动绘制拓扑,展示调用关系,进一步剖析服务调用之间的错误率、响应工夫等,不便开发和测试在预发或测试环境就能看到运行状态。因为观测云提供 SaaS 服务,所以开发、测试和运维不必保护监控平台底座,甚至能够随时互相共享仪表板或数据,使利用在开发、测试和上线过程中都能全面实现可观测性,不便各个团队间实现互相协同。

场景 2:第三方服务接口报错定位

如下图所示,在自定义仪表板中,显示 RabbitMQ 队列呈现报错(红色),这是一个领取申请音讯队列,那意味着有用户遇到领取故障;

在视图上间接点击详情,找到具体链路申请;

进一步跳转,主动筛选出相干的谬误链路信息;

持续下钻链路详情,能够看到具体的报错信息,能够看到是第三方供应商提供的接口有响应超时。

通过观测云的快照性能,把整条链路状态保留为一个数据正本,将分享链接给到第三方供应商,用直白的数据展现故障,提出报修后,疾速失去了供应商的确认与修复。

经预先统计,因为该接口的间歇性故障曾造成每天约 2000 条领取报错,假如有一半的客户因为首次领取失败而放弃购买,那就是每天几万元的业务损失,每月损失可达百万元。通过观测云的全链路可观测能力,工程师们疾速找到并修复了这个系统漏洞,发明了理论的业务新增支出 ,而理论应用观测云的工具老本, 仅有几十分之一

通过观测云,帮忙该企业在 DevOps 的开发测试晚期就可能及时发现问题,极大地缩小了服务上线之后的错误率;同时在线上环境,也可能间接定位第三方服务报错的起因,大幅缩短 MTTR 并晋升服务质量,间接推动客户的业务的增长

观测云

技术交换|行业资讯 | 干货分享 | 最佳实际,点击 ⬇「关注」或在观测云官网(guance.com)增加小助手即可获取~

退出移动版