关于后端:线上服务发布抖动该怎么解决呢

47次阅读

共计 3080 个字符,预计需要花费 8 分钟才能阅读完成。

之前的文章别离讲了优雅上线 和 优雅下线,理论工作中做了优雅高低线后,服务公布后还是会有短暂的“抖动”,接口的响应工夫急剧升高后又恢复正常,就和上面的监控图一样,图片来源于 得物 的 InfoQ 技术文档服务公布时网络“抖动”

背景

小卷当初负责的零碎曾经达到 20 万 QPS 了,每天即便是在中午,QPS 仍然过万。每次系统升级公布时,抖动比拟频繁,上游利用方都跑过来质问,怎么服务又超时了啊,还能不能用了。。。(巴拉巴拉),小卷只能陪着笑脸的一番解释。起初小卷加上了优雅高低线,想着这下公布应该没问题了吧。哪知再次公布,超时问题仍然存在。。。小卷决定好好剖析一下公布抖动问题的根因是啥

1. 抖动问题剖析

服务抖动问题须要依据具体场景剖析,这里列一下可能的起因:

  • redis、DB 连贯初始化耗时长,引起启动后的接口 RT 升高
  • JIT 即时编译耗时长,造成 CPU 利用率高,引起接口 RT 升高

对于高并发的利用来说,这里 JIT 即时编译是通用的起因。

JIT 是什么?

JIT(just-in-time)即时编译,是一种执行计算机代码的办法,这种办法波及在程序执行过程中(在执行期)而不是在执行之前进行。对于 JIT 的历史,摘抄一段维基百科上的内容

最早公布的 JIT 编译器是 约翰·麦卡锡在 1960 年对 LISP 的钻研。在他的重要论文《符号表达式的递归函数及其在机器上的计算》(Recursive functions of symbolic expressions and their computation by machine, Part I)提到了在运行时被转换的函数,因而不须要保留编译器输入来打孔卡。在 Self 被 Sun 公司摈弃后,钻研转向了 Java 语言。“即时编译”这个术语是从制作术语“及时”中借来的,并由 Java 遍及,Java 之父 James Gosling 从 1993 年开始应用这个术语。目前,大多数 Java 虚拟机的实现都应用 JIT 技术,而且应用宽泛。

理解 JVM 的都晓得,Java 的编译分为两局部:

  • javac.java 文件编译为 .class 文件,即转换为字节码
  • 解释器将 .class 字节码文件解释为机器码(0、1)执行

然而解释执行的毛病很显著,执行速度慢。

Java 晚期应用解释执行,将字节码逐条解释执行,这种形式运行很慢。如果是疾速重复调用某段代码,执行效率大大降低。起初为了解决这种问题,JVM 引入了 JIT 即时编译,当 Java 虚拟机发现某段代码块或是办法执行比拟频繁,超过设定的阈值时,就会把这些代码视为热点代码(Hot Spot code)

为了进步热点代码的执行效率,虚构机会将其编译为机器码,并存到 CodeCache 里,等到下次再执行这段代码时,间接从 CodeCache 里取,间接执行,大大晋升了运行效率,整个执行过程如下:

看上图很容易了解 JIT 是什么,而后思考上面的问题:

  • 怎么判断属于热点代码?
  • 阈值是怎么设定的?
  • codeCache 又是什么?

怎么判断热点代码

咱们晓得 JIT 是将热点代码编译成机器码缓存起来的,那么什么样的代码才属于热点代码呢

HotSpot 虚拟机应用的是基于计数器的热点代码探测,JVM 统计每个办法调用栈的弹出频率作为指标,提供了 2 种次数级别热点探测办法:

  1. 准确计数,超过阈值触发编译(统计的是总调用量)
  2. 记录一段时间内被调用的次数,超过阈值触发编译(相似 QPS 的含意)

JVM 默认应用的第二种办法统计办法调用次数,因为第一种办法计算开销大,第二种办法与调用工夫无关,实用于大多数场景

阈值如何设定

下面说到超过阈值才触发编译,阈值是设置为多少了呢?

先说说 JVM 的分层编译器,Hotspot 虚拟机中,JIT 有 2 种编译器 C1 编译器(客户端模式)、C2 编译器(服务端模式)。

C1 编译器:简略疾速,收集信息较少,次要关注点在部分化的优化,编译速度快,实用于对启动性能有要求的利用。毛病是编译后的代码执行效率低;

C2 编译器:须要收集大量的统计信息在编译时进行优化,为长期运行的应用程序做性能优化的编译器,优化伎俩简单,编译工夫长,编译进去的机器码执行效率高。代价是启动工夫变长,程序须要执行较长时间后,能力达到最佳性能;

JAVA8 之后默认开启了分层编译,即:利用启动初期应用 C1 编译器缓存热点代码,在零碎稳固后应用 C2 编译器持续优化性能。

可通过一些参数进行设置

在 Java8 中默认开启分层编译(-XX:+TieredCompilation 默认为 true)

  • 如果只想用 C1,能够在关上分层编译的同时应用参数“-XX:TieredStopAtLevel=1”
  • 如果只想用 C2,应用参数“-XX:-TieredCompilation=false”敞开分层编译即可

通过 java -version 可看到以后 JVM 应用的编译模式

办法被调用的次数,在 C1 模式下默认阈值是 1500 次,在 C2 模式是 10000 次,可通过参数 -XX: CompileThreshold 手动设定,在分层编译的状况下,-XX: CompileThreshold 指定的阈值将生效,此时将会依据以后待编译的办法数以及编译线程数来动静调整。超过阈值触发编译,编译实现后零碎会把办法调用入口改为最新地址,下次间接应用机器码。

须要留神的是,计数器统计的是一段时间内的调用次数,当超过工夫限度调用次数依然未达到阈值,那么该办法的调用次数就会减半,并不是始终累加的,这段时间称为该办法的统计半衰周期,能够应用虚拟机参数 -XX:-UseCounterDecay 敞开热度衰减,参数-XX:CounterHalfLifeTime 设置半衰周期的工夫,须要留神进行热度衰减的动作是在虚拟机进行垃圾收集时顺便进行的。

CodeCache 是什么

CodeCache 次要用于存储 JIT 编译后的机器码,随着程序的运行,大部分热点代码都会编译为机器码来运行。所以 Java 的运行速度比拟快,除了 JIT 编译的代码外,本地办法代码(JNI)也会存储在 Codecache 内。可配置一些参数设置 Codecache 的属性

  • -XX:ReservedCodeCacheSize:codeCache 最大大小
  • -XX:InitialCodeCacheSize:codeCache 初始大小

在 Linux 环境下,Codecache 默认大小是 2.4375M,可通过 jinfo -flag InitialCodeCacheSize [java 过程 ID] 查看,如图

2. 为什么利用刚启动时会抖动?

下面曾经讲了 JIT 即时编译,这样也好了解为什么刚启动完的利用,RT 忽然升高,CPU 利用率也很高。在高并发场景下,一个办法的调用次数激增,会霎时达到 JIT 编译的阈值,JVM 会执行即时编译,讲热点代码转为机器码。热点代码过多时,JIT 编译的压力会增大,造成零碎的 load 升高,CPU 利用率跟着升高,导致服务的整体性能降落

3. 解决方案

这里小卷列了一些解决方案,须要依据具体场景具体应用,如图

JWarmup

AJDK 内嵌的功能模块,相干 wiki 在阿里的 Github 上阿里巴巴 Dragonwell8 用户指南

其原理是先公布 beta 服务器,等到 beta 服务器的 JIT 编译实现后,将热点办法 dump 下来,而后 production 环境公布时间接加载 dump 文件,不须要再进行 JIT 编译了。从 JVM 层面解决了该问题,然而接入门槛较高,可能会踩一些坑。

平台预热

借助流量调度平台的能力,小流量预热后再放开,把 JIT 编译的影响升高。是综合思考接入老本以及推广保护最合适的计划。这里阿里云微服务引擎 MSE 已提供性能小流量预热服务,然而是免费的哦~

关注我

我是 卷福同学,公众号同名,在福报厂修福报的小卷哦~

正文完
 0