关于cpu:一次CPU占用1600问题的定位过程-与-反思

通过一次略微大的改版后，零碎上线，上线后测试没发现问题，第二天反馈系统卡顿，下线。

查看零碎问题 ,优化接口速度上线，上线后发现没问题，第二天仍旧呈现卡顿。此时察看CPU占用1600%.此时想到的时先回滚。没有保留现场。

测试环境测试，发现cpu闲暇时占用100% 找到问题修复。然而能够确定，这里100%不是引起1600%的起因。

再次上线，人工实时监控cpu占用率。此时呈现了1600%的状况。此时占用cpu 1600%的过程对应的线程如下.

6619 6625 等是占用最高的过程Id.

对JVM栈信息进行打印并输入到文件。

6619转成16进制后为19db 依据过程号在栈文件中

最初发现占用cpu高的全副为gc过程，此时能够断定。有局部代码逻辑内存占用过高。或者呈现内存透露。

寻找问题

此时曾经间断三次上线失败，没方法在从线上测试。那么想的是在灰度环境模拟这个景象而后dump堆信息这样必定能够找到起因。

第一天转移很少一部其余零碎流量，以及很少一部分用户流量过来，没发现问题。

第二天其余零碎申请的流量放弃不变，减少更多的用户流量，没有复现问题。

第三天减少局部其余零碎申请的流量，没有复现问题。

第n天减少其余零碎申请的流量内存调整小，没有复现问题。

第n+1天灰度环境服务与正式环境平分流量，持续减少用户量。没呈现问题。

此时外围流程代码批改过的局部曾经查看了n遍没发现问题。

那么须要思考一下，为什么灰度环境没有问题。而线上有问题。他们的用户有什么不同？

此时发现灰度环境全是权限最低的用户，而管理员没有在灰度环境上工作，想到这里问题曾经离假相很近了。能够说曾经定位到问题所在了，只须要验证一下本人的猜测。

其中有个性能，是查看本人所治理人的数据，这个性能因为不是外围性能，并且申请的量很小很小，起初并没有向这个方向思考。
逻辑是：查找本人下一级别，如果有数据，在持续查找，恰好数据库有一条异样的数据，他的下一级就是本人！导致产生了死循环，导致内存里的数据越来越多。

并且只有那一个异样用户才会引起这个问题！

又因为是IO密集的操作，所以这个循环占用的cpu很低。在线程栈中并没有发现他。

解决问题

找到问题解决就是很容易的事件了，不再详细描述。

反思

第一次零碎呈现卡顿，正确的解决形式大略应该如下

发现cpu占用高，查看该过程对应的线程在执行什么操作

发现大量的线程远程桌面在执行gc操作，此时应该dump堆信息

应用jmap等工具查看哪些对象占用内存占用高

找到对应代码解决问题

这种bug不应该存在，即便存在了呈现问题也不要太慌应该疾速的保留能保留下来的信息。

大的改变上线前须要灰度公布，大量用户先应用。

完结

关于cpu:一次CPU占用1600问题的定位过程-与-反思

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于cpu:一次CPU占用1600问题的定位过程-与-反思

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复