作者:玛奇玛 \
链接:https://juejin.cn/post/7233307834456129593

又是一个百无聊赖的晚上,我在高兴地摸鱼,工作群响了:离线零碎登录不上了。我第一反馈是不迷信啊,零碎曾经很久改变过了...连忙上生产环境看看,CPU高达1200%。接着又是熟练地敲出那几行排查CPU过高的命令:

top -H -p  pid 查看java占用率最高的几条线程jstack pid >  xxx.txt   打印线程快照jmap -heap pid   查看堆内存状况

举荐一个开源收费的 Spring Boot 实战我的项目:

https://github.com/javastacks/spring-boot-best-practice

看这玩意啥都看不出来,感觉是零碎对象没有开释,在疯狂GC,然而因为FULL GC的时候曾经STW了,所以无奈查看到底是哪个线程出了问题。而后过了10分钟零碎忽然又好了....梗塞的操作曾经实现,gc能失常回收了。 而后过了两分钟又卡死了,我先重启了零碎,前面再剖析剖析。

等零碎没什么人用的时候,我再试着重现一下问题,关上零碎一顿乱点,后果是点开某个性能的详情时零碎卡住了,CPU又飚下来了,脍炙人口~问题定位到了,再实锤一下之前是不是这个问题,我看了一下localhost_access_log日志发现,的确是这个接口卡了一千多秒。

因为离线没什么人应用,所以问题过了很久再裸露进去,看了一下代码,次要是业务逻辑问题,有个参数没传进去,导致sql要查很久,查到了几百万的数据,gc也无奈回收。

复盘

一开始我认为是某个接口调了很屡次并发太高导致的,没想到点一下详情零碎就挂了。。咱们能够看到CPU在GC回收的时候STW,是没有线程能占用到CPU的,所以top -H -p pid 只能看到CPU全被GC线程占用了。如果是某个接口并发太高导致的,咱们能够看jstack线程快照,外面是会有这个接口在执行的记录。

还有一个问题就是说零碎GC卡了10-20分钟,却没有报OOM,还是始终在梗塞状态,前面还失常了一小会,这个是须要看堆内存的状况..因为比拟难排查所以只是通过景象晓得GC还是能够回收一点点垃圾的

总结

1、CPU100%的时候能够打印线程快照jstack pid,查看是哪个线程占用了CPU,个别都是某个业务线程阻塞无奈进行GC回收导致。

2、能够查看localhost_access_log查看零碎接口用时,个别用时很久的都是有问题的接口。

3、记得看业务代码参数有没有漏传,如果漏传参数可能会导致全表扫描间接卡死零碎。

近期热文举荐:

1.1,000+ 道 Java面试题及答案整顿(2022最新版)

2.劲爆!Java 协程要来了。。。

3.Spring Boot 2.x 教程,太全了!

4.别再写满屏的爆爆爆炸类了,试试装璜器模式,这才是优雅的形式!!

5.《Java开发手册(嵩山版)》最新公布,速速下载!

感觉不错,别忘了顺手点赞+转发哦!