关于java:缓慢的SystemcurrentTimeMillis-疑问号

System.currentTimeMillis()性能问题的钻研与测试

1. 起因

明天工作做完了没事干在群里发了张吉冈里帆的比基尼写真图，狗治理说我发黄图禁我言，把我Q群摸鱼的权力都剥夺了，那行吧，刚好把之前测试过的一个货色整顿一下记录起来。

之前学雪花算法的时候看到很多示例会将System.currentTimeMillis()用一个工具类缓存起来再由定时线程去保护，说是System.currentTimeMillis()在高并发下会有性能问题，到底啥问题也没说分明。按理说Java库中获取低精度工夫最根本最罕用的办法：System.currentTimeMillis() 还能有啥问题啊，有问题早就炸了还能等到当初吗，所以正好着手测试一下System.currentTimeMillis()的性能和网上的缓存工夫戳的方法到底靠不靠谱。

先说论断：然而事实如同真的就是如此，System.currentTimeMillis()这个办法在特定条件下的确可能存在重大的性能问题，然而缓存工夫戳的做法问题更大。

2. 剖析

通过测试发现，在Windows下该办法性能体现优良，在Linux系的操作系统中用TSC、JVM_CLOCK这些更高rating的时钟源性能也没有问题，然而如果是应用HPET、ACPI_PM这类高精度时钟源的时候，高并发下该办法的调用开销显著变高，曾经达到了不可承受的境地了（100倍以上的差距）。翻进去咱们能够看到System.currentTimeMillis()是一个native办法，象征这个办法的实现取决于异构语言的实现，可能会因为操作系统和装置的JDK不同从而有不同的实现，这也就是解释了为什么在特定条件下会有不同的性能体现，因为不同零碎的底层实现不一样嘛。

Windows上的黑魔法实现性能十分好，缓存工夫戳的办法跟原生比简直能够说是没有性能劣势，然而Windows的分辨率也较低只有0.5ms（这也齐全足够用的，毕竟System.currentTimeMillis()自身也只是个低精度工夫获取的办法）；而Linux上的实现比较复杂，会和零碎API打交道开销会比拟高，更者如果应用的是HPET这种整个零碎共享的工夫源，他的API调用在整个计算机上只有不到200万次/s，加上别的开销，差距就会很显著了。

3. 测试过程

通过记录循环调用5000万次System.currentTimeMillis()计算耗费。

public long testSystemMilliSpeed() {
        long sum = 0;
        long t1 = System.currentTimeMillis();
        for (int i = 0; i < 50000000; i++) {
            sum += System.currentTimeMillis();
        }
        long t2 = System.currentTimeMillis();
        System.out.println("[System.currentTimeMillis()] Sum = " + sum + "; time spent = " + (t2 - t1) +
                " ms; or " + (t2 - t1) * 1.0E6 / 50000000 + " ns / iter");
        return sum;
    }

测试机器是阿里云计算优化型C6服务器，8核16GB，应用AdoptOpenJDK1.8

零碎应用WindowsServer 2019和CentOS 8.2

典型后果示例 Windows

单线程：

[System.currentTimeMillis()] Sum = 7016145501759210272; time spent = 181 ms; or 3.62 ns / iter
[System.currentTimeMillis()] Sum = 7016145521514297836; time spent = 173 ms; or 3.46 ns / iter
[System.currentTimeMillis()] Sum = 7016145533408438385; time spent = 189 ms; or 3.78 ns / iter

8线程：

[System.currentTimeMillis()] Sum = 7014845600130793472; time spent = 312 ms; or 6.24 ns / iter
[System.currentTimeMillis()] Sum = 7014845600415181616; time spent = 316 ms; or 6.32 ns / iter
[System.currentTimeMillis()] Sum = 7014845600415181616; time spent = 314 ms; or 6.28 ns / iter

16线程

[System.currentTimeMillis()] Sum = 7014831913525842714; time spent = 401 ms; or 8.02 ns / iter
[System.currentTimeMillis()] Sum = 7014831913438052239; time spent = 418 ms; or 8.36 ns / iter
[System.currentTimeMillis()] Sum = 7014831914892399458; time spent = 381 ms; or 7.62 ns / iter

小结

从输入后果能够看出，在Windows下System.currentTimeMillis()的调用开销非常低，每次调用开销只有3.62ns，约等于27亿次每秒，齐全能够随性所欲的在任何场景应用。在4个线程的时候甚至性能简直没有降落，达到了比单线程快约4倍的92亿次每秒，不过再持续加线程的时候单次调用开销就开始变高了，不过性能劣化的并不是很显著，调用的开销能够说是能够齐全忽略不计放心使用这个办法。还有就是System.currentTimeMillis()在Windows上的黑魔法实现的代价是分辨率只有0.5ms，他的精度绝对于Linux的较低的，不过这自身就不是高精度工夫的办法，这一点忽略不计算是Windows上一个优良的中央。

典型后果示例 Linux（TSC）

单线程

[System.currentTimeMillis()] Sum = 7014846681218501008; time spent = 1308 ms; or 26.16 ns / iter
[System.currentTimeMillis()] Sum = 7014846746587342078; time spent = 1307 ms; or 26.14 ns / iter
[System.currentTimeMillis()] Sum = 7014846811970028463; time spent = 1308 ms; or 26.16 ns / iter

8线程

[System.currentTimeMillis()] Sum = 7014815771421781278; time spent = 1563 ms; or 31.26 ns / iter
[System.currentTimeMillis()] Sum = 7014815771870699367; time spent = 1561 ms; or 31.22 ns / iter
[System.currentTimeMillis()] Sum = 7014815774818805007; time spent = 1588 ms; or 31.76 ns / iter

16线程

[System.currentTimeMillis()] Sum = 7020243696839914036; time spent = 3147 ms; or 62.94 ns / iter
[System.currentTimeMillis()] Sum = 7020243692320997645; time spent = 3164 ms; or 63.28 ns / iter
[System.currentTimeMillis()] Sum = 7020243700477529928; time spent = 3069 ms; or 61.38 ns / iter

小结

从后果能够显著看出，在应用TSC时Linux上的确是要比Windows显著慢的（该死，Java很多时候就是部署在Linux服务器上…），单线程26ns约3800万次每秒，跑满8线程之后随线程数的减少开销稳固上身，开4倍的64线程单次开销同样也是稳固的减少4倍达到120+ns每次，这样的调用开销是齐全能够承受的，性能还是足够优良能够齐全安心的随便应用。

典型后果示例 Linux（ACPI_PM)

单线程

[System.currentTimeMillis()] Sum = 7020093683684623170; time spent = 168303 ms; or 3366.06 ns / iter
[System.currentTimeMillis()] Sum = 7020102078358700323; time spent = 167509 ms; or 3350.18 ns / iter
[System.currentTimeMillis()] Sum = 7020110475654659673; time spent = 168367 ms; or 3367.34 ns / iter

8线程

[System.currentTimeMillis()] Sum = 7020137245340372492; time spent = 348907 ms; or 6978.14 ns / iter
[System.currentTimeMillis()] Sum = 7020137258588772567; time spent = 349399 ms; or 6987.98 ns / iter
[System.currentTimeMillis()] Sum = 7020137296734841559; time spent = 351311 ms; or 7026.22 ns / iter

16线程

[System.currentTimeMillis()] Sum = 7020205171447447339; time spent = 751769 ms; or 15035.38 ns / iter
[System.currentTimeMillis()] Sum = 7020205162872284276; time spent = 751808 ms; or 15036.16 ns / iter
[System.currentTimeMillis()] Sum = 7020205146376911145; time spent = 751996 ms; or 15039.92 ns / iter

后果小结

注：Linux中工夫源的分级，HPET、ACPI_PM属于较低的“可用”级别，TSC属于“优良”的时钟源，KVM_CLOCK属于“现实”的工夫源

因为阿里云ECS上没有注册HPET工夫源，边应用了同级别的ACPI_PM工夫源同样达到了预期的后果，切换成ACPI_PM工夫源之后测试的后果记录好转我甚至没有方法跑完JMH测试（预计一天都跑不完），间接简略的运行几次获取一些典型后果。

结果显示应用ACPI_PM时性能连Windows的零头都不到，翻了足足一千倍只有约30万次每秒，曾经达到了微秒级别的单次调用开销，这样微小的调用开销可不能被疏忽掉，如果我的项目中刚好有大量应用currentTimeMillis()这个办法，比如说统计每次申请耗时等高频场景则很有可能间接影响到我的项目的响应工夫。

4. JMH测试

注：因为ACPI_PM太慢了所以没有方法跑完JMH测试，故只有Linux（TSC）和Windows的测试后果

测试环境应用阿里云最新一代c6计算优化型ECS，配置为8核16G，JDK应用AdoptOpenJDK1.8_u282，操作系统别离是WindowsServer2019数据中心版和CentOS 8.2

采纳下面的示例代码的循环调用形式，每次循环5千万次，别离测试单线程、4、8、16、32、64线程并记录后果统计成表

结果显示在并发线程数小于服务器外围数时调用开销减少的并不显著，当并发大于等于服务器CPU外围数的时候体现一九比较稳定，随着并发的进步耗费工夫稳固减少，currentTimeMillis()这属于CPU密集型的办法，随着CPU满载和并发争抢性能达到饱理论QPS反而降落，属于预期后果。

如图，在应用ACPI_PM作为时钟源的时候速度切实是太慢了，开16线程的时候性能曾经降到了均匀16微秒能力执行一次调用，切实无奈保持等到实现测试

注：测试代码和后果在底部附录

5. 缓存工夫戳

下面提到了我做这次测试的起因，因为看到有些文章、工具包中采纳了缓存工夫戳代替原生currentTimeMillis()的形式防止了可能的因为不同操作系统带来的不稳固因素，然而这个缓存工夫戳的形式靠不靠谱呢？所以同样也得再测试一遍能力下结论。

这是缓存工夫戳实现代码：

public class SystemClock {

    private final AtomicLong now;
    private static ScheduledExecutorService scheduler;

    static {
        Runtime.getRuntime().addShutdownHook(new Thread() {
            @Override
            public void run() {
                if (scheduler != null) {
                    scheduler.shutdownNow();
                }
            }
        });
    }

    private SystemClock() {
        this.now = new AtomicLong(System.currentTimeMillis());
        scheduler = Executors.newSingleThreadScheduledExecutor(runnable -> {
            Thread thread = new Thread(runnable, "SystemClockScheduled");
            thread.setDaemon(true);
            return thread;
        });
        scheduler.scheduleAtFixedRate(() -> now.set(System.currentTimeMillis()), 1, 1, TimeUnit.MILLISECONDS);
    }

    public static long now() {
        return getInstance().now.get();
    }

    private enum SystemClockEnum {
        SYSTEM_CLOCK;
        private final SystemClock systemClock;

        SystemClockEnum() {
            systemClock = new SystemClock();
        }

        public SystemClock getInstance() {
            return systemClock;
        }
    }

    private static SystemClock getInstance() {
        return SystemClockEnum.SYSTEM_CLOCK.getInstance();
    }

}

吞吐量测试方法和下面System.currentTimeMillis()的测试方法统一，循环调用5千万次，多线程用JMH进行测试

典型后果示例

单线程

## Windows
[BufferClock] Sum = 7014869507792291096; time spent = 16ms; or 0.32 ns / iter
[BufferClock] Sum = 7014869509083652400; time spent = 32ms; or 0.64 ns / iter
[BufferClock] Sum = 7014869510255266345; time spent = 31ms; or 0.62 ns / iter

## Linux（TSC）
[BufferClock] Sum = 7014836520628701408; time spent = 25ms; or 0.5 ns / iter
[BufferClock] Sum = 7014836521867072124; time spent = 25ms; or 0.5 ns / iter
[BufferClock] Sum = 7014836523105825292; time spent = 25ms; or 0.5 ns / iter

## Linux（ACPI_PM）
[BufferClock] Sum = 7014970447687570464; time spent = 25ms; or 0.5 ns / iter
[BufferClock] Sum = 7014970448949515660; time spent = 25ms; or 0.5 ns / iter
[BufferClock] Sum = 7014970450209997473; time spent = 25ms; or 0.5 ns / iter

8线程

## Windows
[BufferClock] Sum = 7014837658100506766; time spent = 53ms; or 1.06 ns / iter
[BufferClock] Sum = 7014837658094441788; time spent = 53ms; or 1.06 ns / iter
[BufferClock] Sum = 7014837658032598985; time spent = 56ms; or 1.12 ns / iter

## Linux（TSC）
[BufferClock] Sum = 7020249783930639245; time spent = 51ms; or 1.02 ns / iter
[BufferClock] Sum = 7020249784793206406; time spent = 51ms; or 1.02 ns / iter
[BufferClock] Sum = 7020249784998169933; time spent = 51ms; or 1.02 ns / iter

## Linux（ACPI_PM）
[BufferClock] Sum = 7020287669118903216; time spent = 71ms; or 1.42 ns / iter
[BufferClock] Sum = 7020287669246604147; time spent = 57ms; or 1.14 ns / iter
[BufferClock] Sum = 7020287669311506737; time spent = 64ms; or 1.28 ns / iter

16线程

## Windows
[BufferClock] Sum = 7014887357711793536; time spent = 52ms; or 1.04 ns / iter
[BufferClock] Sum = 7014887357711793536; time spent = 53ms; or 1.06 ns / iter
[BufferClock] Sum = 7014887357711793536; time spent = 54ms; or 1.08 ns / iter

## Linux（TSC）
[BufferClock] Sum = 7020240799851649690; time spent = 101ms; or 2.02 ns / iter
[BufferClock] Sum = 7020240798802739189; time spent = 114ms; or 2.28 ns / iter
[BufferClock] Sum = 7020240798701704537; time spent = 118ms; or 2.36 ns / iter

## Linux（ACPI_PM）
[BufferClock] Sum = 7020340267051437045; time spent = 192ms; or 3.84 ns / iter
[BufferClock] Sum = 7020340268861047443; time spent = 144ms; or 2.88 ns / iter
[BufferClock] Sum = 7020340269307897194; time spent = 183ms; or 3.66 ns / iter

JMH测试后果

这次将currentTimeMillis()的后果和缓存工夫戳的测试后果合并再了一起，从后果上看，在线程数超过外围数的时候Linux的斜率要比Windows上高一点，而绿色的和蓝色的缓存工夫戳线条齐全重合到了一起所以只能看到一条线。

局部过程截图

后果小结

从典型后果中能够看出，无论是在Linux还是Windows体现都非常稳固优良，属于齐全没有开销的办法，由此能够看出缓存工夫戳的办法的确可能无效的防止因为工夫源导致的迟缓问题。

6.残暴事实

缓存工夫戳性能这么好，那咱们是不是能够间接应用它来代替JDK的办法了呢？后果是残暴的，缓存工夫戳的方法精度不现实也不可控，不倡议在任何中央应用（除非你对并发性能有极高要求然而又不在意精度，事实上这种假如不存在）

稳定性测试

一个获取工夫的办法除了要求快，还有个必要前提是它还要精确，如果后果都不精确，那再快都没有任何意义（我心算特快，2352 + 135212 = 97652，啪，我就问你快不快）

测试方法

通过记录一段时间内的调用后果，计算每次ticks距离的ticks的离散水平

注：因须要一个5亿长度的超大的long类型数组记录调用后果，所以至多须要给JVM调配4GB内存启动

public class TicksTest {

    public static volatile boolean flag = true;

    public static void main(String[] args) {
        TicksTest.step();
    }

    public static void step() {
        // 5亿
        long[] values = new long[500000000];
        // 实现定时500ms
        new Thread(() -> {
            try {
                Thread.sleep(500L);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            TicksTest.flag = false;
        }).start();

        int length = 0;
        long star = System.currentTimeMillis();
        for (int i = 0; flag && i < values.length; i++) {
            values[i] = System.currentTimeMillis();
//            values[i] = SystemClock.now();
            length = i;
        }
        long end = System.currentTimeMillis();

        // 统计后果
        long min = 0, max = 0, total = 0, minCount = 0, maxCount = 0, totalCount = 0, last = 0, skip = 0;
        List<Long> ticksList = new ArrayList<>(600);
        List<Long> ticksCountList = new ArrayList<>(600);
        for (int i = 1; i < length; i++) {
            if (values[i] != values[i - 1]) {
                long step = (values[i] - values[i - 1]);
                long stepCount = i - last;
                last = i;
                System.out.printf("step %09d %d %d%n", i, step, stepCount);

                // 跳过第一条
                if (skip++ > 0) {
                    total += step;
                    totalCount += stepCount;
                    ticksList.add(step);
                    ticksCountList.add(stepCount);
                    if (max < step)
                        max = step;
                    if (min == 0 || min > step)
                        min = step;
                    if (maxCount < stepCount)
                        maxCount = stepCount;
                    if (minCount == 0 || minCount > stepCount)
                        minCount = stepCount;
                }
            }
        }

        System.out.printf("time: %d, count: %d, " +
                "ticks: (avg: %d, min: %d, max: %d) " +
                "ticksCount: (avg: %d, min: %d, max: %d)",
                end - star, ticksList.size(),
                total / ticksList.size(), min, max,
                totalCount / ticksCountList.size(), minCount, maxCount);
    }

}

典型后果示例

这个测试后果是用我本人的开发电脑测试的，配置比拟低只有4核16G

currentTimeMillis()

time: 515, count: 512, ticks: (avg: 1, min: 1, max: 1) ticksCount: (avg: 193040, min: 11356, max: 300382)
time: 509, count: 506, ticks: (avg: 1, min: 1, max: 1) ticksCount: (avg: 207048, min: 13123, max: 332162)
time: 513, count: 511, ticks: (avg: 1, min: 1, max: 1) ticksCount: (avg: 208990, min: 3133, max: 330624)

缓存工夫戳

time: 506, count: 39, ticks: (avg: 12, min: 1, max: 17) ticksCount: (avg: 7673476, min: 62472, max: 11029922)
time: 509, count: 36, ticks: (avg: 13, min: 1, max: 21) ticksCount: (avg: 8133013, min: 22302, max: 13444986)
time: 503, count: 36, ticks: (avg: 13, min: 1, max: 20) ticksCount: (avg: 8624468, min: 48840, max: 13364882)

由后果能够看出，JDK的获取工夫戳办法每次ticks都稳固的是1ms，间断屡次测试后果统一；而缓存工夫戳而后由异步线程每毫秒更新保护的办法ticks非常的不稳固，极少数ticks能失常的是1ms，其余大多数工夫都是两位数以上的ticks，真要到了极其的状况给你来个事实中隔20ms调用两次后果都是一样的，你的表情可能要解体了；

还有须要再次强调，currentTimeMillis()的后果取决于底层操作系统，个别操作系统可能是几十毫秒的ticks，这个在JDK办法的正文上曾经有阐明了，然而目前来看咱们罕用CentOS、Ubuntu、Depin后果都是足够牢靠的。

7. 总结

在绝大多数状况下JDK的实现都比绝大多数的人的脑洞实现要牢靠的多，请置信JDK，永远不要自作聪明，如果你要耍点小聪明，那么请确保通过详尽牢靠的测试验证！

8. 附录

测试代码和后果
https://github.com/yyyyyzc/cu…

关于java:缓慢的SystemcurrentTimeMillis-疑问号

1. 起因

2. 剖析

3. 测试过程

典型后果示例 Windows

单线程：

8线程：

16线程

小结

典型后果示例 Linux（TSC）

单线程

8线程

16线程

小结

典型后果示例 Linux（ACPI_PM)

单线程

8线程

16线程

后果小结

4. JMH测试

5. 缓存工夫戳

这是缓存工夫戳实现代码：

典型后果示例

单线程

8线程

16线程

JMH测试后果

后果小结

6.残暴事实

稳定性测试

测试方法

典型后果示例

currentTimeMillis()

缓存工夫戳

7. 总结

8. 附录

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复