关于java:一次年轻代GC长暂停问题的解决与思考

问题形容

公司某规定引擎零碎，在每次发版启动会手动预热，预热实现当流量切进来之后会偶发的呈现一次长达1-2秒的年老代GC（流量并不大，并且LB下的每一台服务都会呈现该状况）

在这次长暂停之后，每一次的年老代GC暂停工夫又都复原在20-100ms以内

2s尽管看起来不长，然而比照规定引擎每次10ms左右的响应工夫来说，还是不能够承受的；并且因为该规定引擎响应超时，还会导致出单超时失败

问题剖析

在剖析该零碎GC日志后发现，2s暂停产生在Young GC阶段，而且每次产生长暂停的Young GC都会随同着新生代对象的降职(Promotion)

外围JVM参数（Oracle JDK7）

-Xms10G 
-Xmx10G 
-XX:NewSize=4G 
-XX:PermSize=1g 
-XX:MaxPermSize=4g 
-XX:+UseConcMarkSweepGC

启动后第一次年老代GC日志

2020-04-23T16:28:31.108+0800: [GC2020-04-23T16:28:31.108+0800: [ParNew2020-04-23T16:28:31.229+0800: [SoftReference, 0 refs, 0.0000950 secs]2020-04-23T16:28:31.229+0800: [WeakReference, 1156 refs, 0.0001040 secs]2020-04-23T16:28:31.229+0800: [FinalReference, 10410 refs, 0.0103720 secs]2020-04-23T16:28:31.240+0800: [PhantomReference, 286 refs, 2 refs, 0.0129420 secs]2020-04-23T16:28:31.253+0800: [JNI Weak Reference, 0.0000000 secs]
Desired survivor size 214728704 bytes, new threshold 1 (max 15)
- age   1:  315529928 bytes,  315529928 total
- age   2:   40956656 bytes,  356486584 total
- age   3:    8408040 bytes,  364894624 total
: 3544342K->374555K(3774912K), 0.1444710 secs] 3544342K->374555K(10066368K), 0.1446290 secs] [Times: user=1.46 sys=0.09, real=0.15 secs]

长暂停年老代GC日志

2020-04-23T17:18:28.514+0800: [GC2020-04-23T17:18:28.514+0800: [ParNew2020-04-23T17:18:29.975+0800: [SoftReference, 0 refs, 0.0000660 secs]2020-04-23T17:18:29.975+0800: [WeakReference, 1224 refs, 0.0001400 secs]2020-04-23T17:18:29.975+0800: [FinalReference, 8898 refs, 0.0149670 secs]2020-04-23T17:18:29.990+0800: [PhantomReference, 600 refs, 1 refs, 0.0344300 secs]2020-04-23T17:18:30.025+0800: [JNI Weak Reference, 0.0000210 secs]
Desired survivor size 214728704 bytes, new threshold 15 (max 15)
- age   1:   79203576 bytes,   79203576 total
: 3730075K->304371K(3774912K), 1.5114000 secs] 3730075K->676858K(10066368K), 1.5114870 secs] [Times: user=6.32 sys=0.58, real=1.51 secs]

从这个长暂停的GC日志来看，是产生了降职的，在Young GC后，有363M+的对象降职到了老年代，这个降职操作因该就是耗时起因（ps: 查看过safepoint起因，不存在异样）

因为日志参数中没有配置-XX:+PrintHeapAtGC参数，这里是手动计算的降职大小：

年老代年老变动 - 全堆容量变动 = 降职大小
(304371K - 3730075K) - (676858K - 3730075K) = 372487K(363M)

下一次年老代GC日志

2020-04-23T17:23:39.749+0800: [GC2020-04-23T17:23:39.749+0800: [ParNew2020-04-23T17:23:39.774+0800: [SoftReference, 0 refs, 0.0000500 secs]2020-04-23T17:23:39.774+0800: [WeakReference, 3165 refs, 0.0002720 secs]2020-04-23T17:23:39.774+0800: [FinalReference, 3520 refs, 0.0021520 secs]2020-04-23T17:23:39.776+0800: [PhantomReference, 150 refs, 1 refs, 0.0051910 secs]2020-04-23T17:23:39.782+0800: [JNI Weak Reference, 0.0000100 secs]
Desired survivor size 214728704 bytes, new threshold 15 (max 15)
- age   1:   17076040 bytes,   17076040 total
- age   2:   40832336 bytes,   57908376 total
: 3659891K->90428K(3774912K), 0.0321300 secs] 4032378K->462914K(10066368K), 0.0322210 secs] [Times: user=0.30 sys=0.00, real=0.03 secs]

乍一看其实没什么问题，认真想想发现了一些不失常，为什么程序刚启动第二次gc就产生了降职呢

这里应该是动静年龄断定导致的，GC中降职年龄阈值并不是固定的15，而是jvm每次gc后动静计算的

年老代降职机制

为了能更好地适应不同程序的内存情况，虚拟机并不是永远地要求对象的年龄必须达到了MaxTenuringThreshold能力降职老年代，如果在Survivor空间中雷同年龄所有对象大小的总和大于Survivor空间的一半，年龄大于或等于该年龄的对象就能够间接进入老年代，毋庸等到MaxTenuringThreshold中要求的年龄

《深刻了解Java虚拟机》一书中提到，对象降职年龄的阈值是动静断定的。

不过经查阅其余材料和验证后，发现此处和《深刻了解Java虚拟机》解释的有些出入（或者是书上解释的不够分明）

其实就是按年龄给对象分组，取total（累加值，小于等与以后年龄的对象总大小）最大的年龄分组，如果该分组的total大于survivor的一半，就将降职年龄阈值更新为该分组的年龄

留神：不是是超过survivor一半就降职，超过survivor一半只会从新设置降职阈值（threshold），在下一次GC才会应用该新阈值

3544342K->374555K(3774912K), 0.1444710 secs] 年老代

3544342K->374555K(10066368K), 0.1446290 secs] 全堆

从下面第一次的GC日志也能够证实这个论断，在这次GC中全堆的内存变动和年老代内存变动是相等的，所以并没有产生对象的降职

就像下面的日志中，第一次GC只是将threshold设置为1，因为此时survivor一半为214728704 bytes，而年龄为1的对象总和有315529928 bytes，超过了Desired survivor size，所以在本次GC后将threshold设置为年龄为1的对象年龄1

这里更新了对象降职年龄阈值为1
Desired survivor size 214728704 bytes, new threshold 1 (max 15)
- age   1:  315529928 bytes,  315529928 total
- age   2:   40956656 bytes,  356486584 total
- age   3:    8408040 bytes,  364894624 total

这里顺便解释下这个年龄散布的输入内容：

- age   1:  315529928 bytes,  315529928 total

- age 1示意年龄为1的对象分组，315529928 bytes示意年龄为1的对象占用内存大小

315529928 total这个是一个累加值，示意小于等于以后分组年龄的对象总大小。先把对象按年龄分组，age 1的分组total为age 1总大小（后面的xxx bytes），age 2的分组total为age 1 + age 2总大小，age n的分组total为age 1 + age 2 + ... +age n的总大小，累加规定如下图所示

当total最大的分组的total值超过了survivor/2时，就会更新降职阈值

在第二次年老代GC“长暂停年老代GC日志”中，因为新的降职年龄阈值为1，所以那些经验了一次GC并存活并且当初依然可达（reachable）的对象们就会产生降职了

因为此次GC产生了363M的对象降职，所以导致了长暂停

思考

JVM中这个“动静对象年龄断定”真的是正当的吗？集体认为机制是好的，能够更好的适应不同程序的内存情况，但不是任何场景都适宜，比方在本文中这个刚启动不就GC的场景下就会有问题

因为在程序刚启动时，大多数对象年龄都是0或者1，很容易呈现年龄为1的大量存活对象；在这个“动静对象年龄断定”机制下，就会导致新的降职阈值被设置为1，导致这些不该降职的对象产生了降职

比方程序在初始化，正在加载各种资源时产生了Young GC，加载逻辑还在执行中，很多新建的对象年龄在这次GC时还是可达的（reachable）

经验了这次GC后，这些对象年龄更新为1，然而因为“动静对象年龄断定”机制的影响，降职年龄阈值更新为了“最大的对象年龄分组”的年龄，也就是这批刚经验了一次GC的对象们

在这次GC之后不久，资源初始化实现了，波及的相干对象有很可能不可达了，然而因为方才降职年龄阈值被更新为了1，在下一次失常的Young GC这批年龄为1的对象会间接产生降职，提前或者说谬误的产生了降职

解决方案

经查阅文档、材料，发现“动静年龄断定”这个机制并不能禁用，所以如果想解决这个问题，只有靠“绕过”这个计算规定了

动静年龄的断定，是依据Survivor空间中雷同年龄所有对象大小的总和大于Survivor空间的一半来断定的，那么依据这个机制解决也很简略

因为咱们足够理解本人的零碎，分明的晓得加载资源所需的大略内存，齐全能够设定一个大于这些临时可达的对象总和的数值来作为survivor的容量

比方下面的日志中，第一次GC后年龄为1的对象有315529928 Bytes(300M)，Desired survivor size为（survivor size /2）214728704 bytes(204M)，那么survivor就能够设置为600M以上。

不过为了稳当，还是将survivor调到800M，这样desired survivor size就是400M左右，在第一次Young GC后，就不会因年龄为1的对象总和超过了desired survivor size而导致降职年龄阈值的更新了，从而也就不会有提前/谬误降职而导致的GC长暂停问题

survivor不能够间接指定大小，不过能够通过-XX:SurvivorRatio这种调节比例的形式来调节survivor大小

-XX:SurvivorRatio=8

示意两个Survivor和Edgen区的比，8示意两个Survivor:Eden=2:8，即一个Survivor占新生代的1/10。

计算形式为：

Survivor Size(1) = Young Generation Size / (2+SurvivorRatio)
Eden Size = Young Generation Size / (2+SurvivorRatio) * SurvivorRatio

扩大浏览

为什么降职300M比年老代回收3G还要慢这么多倍

依据复制算法的个性，复制算法的工夫耗费次要取决于存活对象的大小，而不是总空间的大小

比方下面4G的年老代（理论只有Eden+S0可用），GC时只须要从GC ROOTS开始遍历对象图，将可达的对象复制至S1即可，并不需要遍历整个年老代

复制算法的具体介绍能够参考我的另一篇文章《垃圾回收算法实现之 – 复制算法（残缺可运行C语言代码）》

在下面那次长暂停GC日志中，产生了363M的降职，300M左右的回收，比照第一次GC根本能够得出，破费的1.5S基本上都是在降职操作

那么为什么降职操作这么耗时呢？

这里没有深入研究Oracle JVM实现的年老代降职细节，不过降职波及跨代复制（其实都年老代和老年代都是heap，在复制这件事上实质上没什么区别，都是memcpy而已，只是须要额定解决的逻辑更多了）
，所需解决的逻辑会更简单一些，比方指针的更新等操作，更耗时也是能够了解的，

本地代码模仿

这里也附上一段能够在本地模仿问题的代码，Oracle JDK7下可间接运行测试

//jdk7.。

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;

public class PromotionTest {
    public static void main(String[] args) throws IOException {
        //模仿初始化资源场景
        List<Object> dataList = new ArrayList<>();
        for (int i = 0; i < 5; i++) {
            dataList.add(new InnerObject());
        }
        //模仿流量进入场景
        for (int i = 0; i < 73; i++) {
            if(i == 72){
                System.out.println("Execute young gc...Adjust promotion threshold to 1");
            }
            new InnerObject();
        }
        System.out.println("Execute full gc...dataList has been promoted to cms old space");
        //这里留神dataList中的对象在这次Full GC后会进入老年代
        System.gc();
    }
    public static byte[] createData(){
        int dataSize = 1024*1024*4;//4m
        byte[] data = new byte[dataSize];
        for (int j = 0; j < dataSize; j++) {
            data[j] = 1;
        }
        return data;
    }
    static class InnerObject{
        private Object data;

        public InnerObject() {
            this.data = createData();
        }
    }
}

jvm options

-server -Xmn400M -XX:SurvivorRatio=9 -Xms1000M -Xmx1000M -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintTenuringDistribution -XX:+PrintHeapAtGC -XX:+PrintReferenceGC -XX:+PrintGCApplicationStoppedTime -XX:+UseConcMarkSweepGC

参考

《深刻了解JAVA虚拟机》 – 周志明著
https://blog.codecentric.de/e…

关于java:一次年轻代GC长暂停问题的解决与思考

问题形容

问题剖析

年老代降职机制

思考

解决方案

扩大浏览

为什么降职300M比年老代回收3G还要慢这么多倍

本地代码模仿

参考

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于java:一次年轻代GC长暂停问题的解决与思考

问题形容

问题剖析

年老代降职机制

思考

解决方案

扩大浏览

为什么降职300M比年老代回收3G还要慢这么多倍

本地代码模仿

参考

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复