关于java:有了链路日志增强排查Bug小意思啦

在工作中，置信大家最怕的一件事就是听到有人在工作群艾特你：某某性能报错啦。。。

而后你就得屁颠屁颠的去服务器看日志，日志量少还好点，多的话找起来太麻烦了。不太容易间接定位到要害中央。

东找找西找找，好不容易找到了报错的信息，却不晓得过后的参数信息是什么，也不太好复现，太难了。。

改完还得写故障报告，美妙的一天又没了。

要解决这类的痛点须要做上面几件事件：

日志收集
异样告警
日志减少链路
API响应减少traceId
异样时打印以后报错办法的参数
反对调试模式

日志收集

要解决的第一个问题就是日志的集中管理，不然报错了你得去多台服务上找错误信息，效率太低了。当然也能够用ansible这种工具来做，最好的还是日志统计收集起来，通过Web页面就能够搜寻查看。

日志收集的标杆就是ELK啦，不做过多解说。像咱们是用的云服务，收集起来更不便，间接页面上点点就搞定了。

日志减少链路

日志减少链路跟踪性能分为两个步骤，首先零碎要有链路跟踪，而后将链路信息集成到日志中就能够了。

我用的是Spring Cloud Sleuth，次要是Sleuth对很多开源的框架都反对了，也集成了logback这样的日志框架，用起来十分不便。

Sleuth默认加强的日志格局如下：

[${spring.zipkin.service.name:${spring.application.name:-}},%X{X-B3-TraceId:-},%X{X-B3-SpanId:-},%X{X-Span-Export:-}]

别离是服务名，链路ID, 工作单元ID，是否导入到zipkin中。对于日志来说最重要的就是traceId了，有了traceId就能将所有零碎的日志串连起来了。

咱们也能够本人扩大，减少一些其余的信息放入日志中。比方：

%X{X-REST-API:-},%X{X-RPC-SERVICE:-},%X{X-ORIGIN-INFO:-},%X{X-USER-ID:-},%X{X-BIZ-NAME:-},%X{X-BIZ-ID:-}

X-REST-API：入口API, 全局透传
X-RPC-SERVICE：入口RPC, 每个服务入口处新增
X-ORIGIN-INFO：起源信息（调用方利用名:IP:服务名）
X-USER-ID：用户ID, 全局透传
X-BIZ-NAME：业务名称, 全局透传, 利用内可替换
X-BIZ-ID：业务ID, 全局透传, 利用内可替换

有了这些扩大的信息就能够间接从日志中晓得以后申请的入口API是哪个，也晓得整个申请通过了哪些服务。

如果我是订单服务的负责人，当我去排查问题的时候依据日志就晓得以后这个谬误是上游哪个零碎和哪个接口调用导致的。

日志中还带上了用户信息，晓得是哪个用户的申请。

BIZ-ID和BIZ-NAME能够用于业务场景的问题排查，比方下单后就晓得订单ID了，后续就能够将订单ID追加到日志中，BIZ-NAME=order, BIZ-ID=20102121212121。

后续有领取，发货，退款等等订单相干的操作，日志中都有订单ID，须要排查的时候间接依据订单ID就能够看到整个订单相干的日志信息，前提是打了这些信息。

异样告警

除了用户反馈性能异样，开发也应该在第一工夫晓得出问题了。所以异样告警肯定要做。

个别咱们的利用分为：服务利用，Job利用，异步生产利用

服务利用咱们能够在对立的异样解决中进行告警，Job利用也能够在对立调度的入口进行告警，异步生产的也是一样。

能够通过音讯队列告警，也能够通过制订日志的格局，通过记录日志的形式，让日志收集到日志平台，而后配置各种规定进行告警。

异样告警的时候就能够带上traceId，这样在发现异常的时候，间接通过traceId去日志平台搜寻，就能够看到这个traceId相干的所有日志，对排错很有帮忙，前提是你打印了要害的日志信息。

API响应减少traceId

能够通过ResponseBodyAdvice对响应后果进行对立定制，减少traceId响应。这样在出问题的时候能够通过响应的traceId间接去日志平台进行日志的搜寻。

除了疾速排查异样问题之外，对于性能优化的时候，咱们也能够间接依据traceId去查看这个API对应的耗时状况，前提是这个traceId就是跟你们的APM零碎统一就行。

异样时打印以后报错办法的参数

通过后面的操作，咱们曾经能够在异样的时候获取一个traceId去排查相干错误信息，也不必去多台机器随机找日志了，极大的进步了问题解决的速度。

只能说这些操作对咱们的问题排查起了一半的帮忙作用，比如说我当初收到一个告警，而后我去日志平台查了相干的日志，发现某行报错了。

这个时候也只能是猜想这个中央是有问题的，因为我不晓得过后是什么参数导致这行报错了。所以如果能在报错的时候将以后报错办法的参数打印到日志中，也就相当于保留了出问题时的现场，解决起问题来就是分分钟的事。

具体实现计划没有固定的，最简略的形式就是写一个Aspect切到所有业务办法上，当办法抛出异样的时候记录参数信息，切记只在异样的时候做这个记录的操作，否则对性能影响很大。

成果：

com.xxx.biz.service.impl.GoodsSkuServiceImpl.createSku异样, 参数信息：{"cspuId":1, stock:10, price:100}
Caused by: java.util.NoSuchElementException: No value present
    at java.util.Optional.get(Optional.java:135)
    at com.xxx.biz.service.impl.GoodsSkuServiceImpl.createSku(GoodsSkuServiceImpl.java:682)

反对调试模式

反对调试模式指的是在某些场景下，咱们能够复现出谬误，然而除了过后异样时记录的参数信息，还想晓得整个申请链路的参数和响应。也就是从入口处通过的所有办法都可能打印出申请和响应数据。

能够定义一个特定的申请头，在复现问题的时候带上这个申请头，由对立的框架去接管这个申请头，而后在整个链路上进行透传。再联合异样的那个Aspect将参数和后果进行日志输入即可。

成果：

xxx.xxxController.makeOrder 参数：xxx
xxx.xxxRpcService.makeOrder 参数：xxx
xxx.xxxStockRpcService.lockStock 参数：xxx
xxx.xxxStockRpcService.lockStock 响应：xxx
xxx.xxxRpcService.makeOrder 响应：xxx
xxx.xxxController.makeOrder 响应：xxx

对于作者：尹吉欢，简略的技术爱好者，《Spring Cloud微服务-全栈技术与案例解析》, 《Spring Cloud微服务入门实战与进阶》作者, 公众号猿天地发起人。

关于java:有了链路日志增强排查Bug小意思啦

日志收集

日志减少链路

异样告警

API响应减少traceId

异样时打印以后报错办法的参数

反对调试模式

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于java:有了链路日志增强排查Bug小意思啦

日志收集

日志减少链路

异样告警

API响应减少traceId

异样时打印以后报错办法的参数

反对调试模式

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复