作者:京东科技 王亚森
前言
本文旨在从 0 到 1 的讲述一下咱们团队在做零碎可观测性过程中所积淀下来的一整套解决方案,收效甚巨,不敢苟藏,当公之于众,共建吾辈光明之将来。
先讲一下咱们从中失去的益处:
1,当我所负责零碎宕机时我能第一工夫失去告诉
2,当我写的业务逻辑进入 else 或者 catch 时它会告诉我
3,当我新做了一个产品性能上线后,我能够监控用户的拜访状况
4,我不会再放心早上没到公司就收到共事的电话说昨晚上线的利用要回滚
5,发现新做的性能上线后有问题,能够第一工夫在线将性能切换至老版本运行
6,不论有没有产生问题我都能够还原用户的操作轨迹查找问题
7,老板说咱们好久没出生产事变了
上面内容比拟干,倡议请提前备好茶水,一起赏用更佳
一、介绍
何为零碎可观测性?
可观测性是一种零碎属性,如功能性或可测试性。通过收集和剖析零碎的运行状态以及零碎所承载的业务状态,用一种能够让人了解的模式展现进去,以供咱们对系统的运行状况做出正当的判断。
咱们要观测什么?
通用局部:从硬件运维(cpu, meomery, disk)与 软件应用可拜访性 与 利用性能几个方面进行监控。
业务局部:从页面失常初始化,业务可交互性,交互流程完整性 方面进行监控。
咱们以团体外部现有的工具进行阐明如何来做,而工具实现的技术手段不在本篇文章职责之内。
二、观测指标
零碎指标
服务器运行状态
cpu 占用率
内存占用率,
硬盘 使用率
nginx 启停状态
利用指标
- 白屏, 因零碎谬误导致的白屏
- 资源加载谬误
- 申请 400,500
- 脚本谬误,导致阻塞交互
- 首屏渲染工夫
- 页面齐全加载耗时
- 接口耗时
业务指标
以信贷产品为例,整个产品的黄金流程分为三局部:授信准入,借款融资,还款。
通用局部
业务异样(999999)
掊口申请网络超时
接口申请谬误
未知谬误(未解决的异样码)
准入
跳转实名失败
补充信息提交失败(从用户点击提交按钮开始,未到最终提交胜利)
查问地址列表异样
获取合同列表失败
合同预览失败
准入开明后果页面未在 60 秒内失常跳转至首页
资质审核页面停留时长超过 5 分钟
融资
融资申请提交失败(接口返回失常,但未进入后果页面)
融资鉴权失败
还款
还款打算试算失败
还款失败
三、如何观测
以下所有的观测工具,皆以京东外部为准,以现有的工具,提供观测计划
零碎指标观测办法
通过 jdos 3.0 的智能监控零碎 brolly 对系统的 cpu 占用率,内存占用率,硬盘使用率 进行监控告警
http://brolly.jdos.jd.com/app/
通过 jen 对 nginx 状态,以及服务器状态进行监控告警
http://jen.jd.com/alarmConfig
利用相干指标观测办法
前端利用咱们抉择科技外部的 sgm 做为利用内场景上报工具,对于 sgm 的介绍与接入指引参考:sgm 接入指引
1,白屏告警
因为 sgm 中的白屏概念是指拜访页面开始,到页面展现第一个字符或图片内容后果,两头用户感触到地白屏工夫,如果因为产生零碎谬误导致无奈展现内容而始终白屏,sgm 采集到的白屏工夫 为 0,所以 sgm 无奈监测白屏故障。
因为白屏时,页面 #app 内容为空,此时页面曾经齐全加载,所以可能通过监听页面 load 事件,判断 #app 内是否有内容来监控页面是否白白屏,再配上 sgm 自定义监控告警,从而达到能够无效监控白白屏故障。
window.addEventListener('load', () => {if(document.querySelector('#app').children.length < 1){
window.__sgm__.custom({
type: 'error',
code: '零碎白屏'
})
}
})
2,资源告警
详情见:sgm 接入指引
3, API 告警
详情见:sgm 接入指引
4,js error 告警
通过 sgm-web 对页面中所有的脚本谬误的关键字进行监控,常见的 js 谬误类型为
SyntaxError 语法错误
TypeError 类型谬误
ReferenceError 援用谬误
RangeError 范畴谬误
URIError url 解析谬误
InternalError 外部谬误
5,性能告警
详情见:sgm 接入指引
业务指标观测办法
自定义监控告警
自定义告警是监控业务指标的最佳伎俩,页面提交失败,函数进入 catch 逻辑,等都能够通过自定义监控进行告警设置。
下图例子中带 Error 的编码,代表进入 catch 逻辑,须要咱们关注,能够通过设置调用量的阈值,来进行告警配置
详情见:sgm 接入指引
注意事项
a,埋点上报需蕴含的信息
userinfo 接口返回的用户信息,以确保能够拿到用户标识,查问相干日志或者用户轨迹
以后报错接口对应的出,入参
自定义上报埋点的上下文信息,以确认呈现谬误的场景
b, 其中页面路由跳转失败的场景能够通过定时器的办法进行上报,在页面销毁时革除定时器、
c,sgm 上报用户标识逻辑
四、阈值优化
1,确定点位的有效性
通过本地模仿谬误进行告警,以确保所有的点位能够失常上报
2,阈值设定的合理性验证
首先将所有阈值调整至最低,而后查看报警状况
如果有报警,剖析报警信息的合理性,如果每次都是须要关注的生产问题,那么这里就须要设置为最低的阈值,如果是个例问题或者毋庸非凡关注的问题,那么把阈值逐步调高,至适合的频率
3,Api 监控
前端能够无需非凡关注,能够设置一个 20% 错误率批量报警数值即可
4,资源监控
以页面动态资源数为准,蕴含 css, js, img 的总和为监控数值,其中 img 标签存在动静 src 时,页面在首次渲染会有一次以后页面 url 的资源谬误上报,可通过 v-if 来防止误报
5,自定义监控
业务中的自定义谬误上报 遵循第 2 条的准则进行逐步优化
6,利用监控告警阈值配置准则:
因为 sgm 惯例计算以 60 秒谬误数(),为一个周期,间断产生多少()周期,则触发告警规定,所以咱们须要计算出利用的日均 pv,以及对应指标产生的数量级,进行设置正当的阈值。
以 日均 pv 为 10000 的利用 为例,每 60s pv 约等于 7,每个 pv 资源数约为 20,接口调用数量约为 3,那么每秒总量是 140 次资源申请,21 个接口调用。以 20% 错误率上报为规范,来设置对应的阈值。
以上数值能够依据业务线流量视状况而定。
五、报警信息触达
1,邮件(必选)
报警形式中抉择邮件,另外在邮箱中配置报警邮件规定,因为报警邮件可能会有很多包含后端的报警,以及一些非紧急报警邮件,能够通过邮件题目来进行辨别。
个别题目中会蕴含利用名,能够通过筛选利用名来过滤前端利用,另外能够依据题目中的 [SGM-WEB] 来过滤前端相干的报警信息。
H5_RESOURCE 资源谬误题目关键字
H5\_CUSTOM\_CODE 自定义监控关键字
H5\_JS\_ERROR 脚本谬误关键字
2,咚咚(必选)
咚咚 报警渠道会比邮件揭示更加及时,被看到的时效性会更高
3,外呼(可选)
时效性最高的报警办法,对于一些要害场景,批量谬误,能够确定是生产问题类的场景须要减少外呼形式,及时触达信息
六、生产切量监控
能够应用自定义监控来配合零碎的切量性能进行监控
如果我要上线一个新的重大性能,须要在生产环境通过切量的形式,逐步替换老版本的性能,咱们如何去监控上线后新老性能
咱们需具备两个性能,一个是切量性能,一个是监控性能
切量是业务零碎实现的一个性能,大略流程如下:
咱们别离在新老版本的分支流程里通过自定义埋点来进行监控有多少用户走到了新流程,有多少老用户走到了老流程,
而后再通过 sgm 来查看两个流程的用户轨迹来判断用户是否在新流程中实现了全副操作,或者是用户卡在了哪一步,
以此来确定新上线的性能是否有问题,问题出在哪里
并且能够通过查看监控数据,来确定本次切量是否胜利,是否须要及时回滚,或者修复上线,将影响范畴放大。