关于jvm:JVM性能提升50聊一聊背后的秘密武器Alibaba-Dragonwell

简介：你要晓得的对于Alibaba Dragonwell一些重要优化措施。

往年四月五日，阿里云凋谢了新一代ECS实例的邀测[1]，Alibaba Dragonwell也在新ECS上进行了极致的优化。相比于之前的dragonwell_11.0.8.3版本，行将公布的dragonwell_11.0.11.6在SPECjbb2015[2] composite模式测试中，零碎吞吐量max-jOPS晋升55%，响应工夫束缚下的零碎吞吐量critical-jOPS晋升602%。

如下图所示，图中数据做了归一化解决，以11.0.8.3_GA的critical-jOPS为1个基准单位。测试环境：阿里云80核，256g内存ECS实例，操作系统为Alinux3 [3]。

Alibaba Dragonwell

过来的十几年中，Java在阿里巴巴外部迅猛发展。阿里内应用Java语言编写的利用越来越多，数万的Java开发者每年产出超过十亿行Java代码，这些代码都运行在阿里巴巴外部的OpenJDK定制版AJDK上。

Alibaba Dragonwell是AJDK的开源版[4]（github链接见文章开端），应用和OpenJDK一样的License，并永恒收费。Alibaba Dragonwell有8和11两个版本，于2019年开源，过后仅反对x86-64架构，在2020年扩大到AArch64平台。

Alibaba Dragonwell联合阿里在线电商、金融、物流等各个业务场景做了大量粗疏优化，增加了协程/多租户/Jwarmup等诸多自研个性，并且在阿里云超大规模的服务器集群上禁受了长时间大规模的验证。

调优计划与工具

因为SPECjbb2015动辄就须要两个小时能力失去一次残缺的跑分分数，为了压迫性能调优单位工夫内咱们所能取得的信息量和性能试验的效率，咱们开发了自动测试平台和性能剖析工具来辅助SPECjbb2015性能调优，并且这套办法能够用在将来更多相似的性能调优案例中。

自动测试平台能够主动发动测试，并且在测试过程中调用基于perf的性能剖析工具来采集CPU微架构数据以及零碎热点数据，从而收集到每次试验过程中的要害性能数据，并将数据存档以可视化界面的模式展示，不便将来回顾和剖析。

同时为了防止SPECjbb2015单次试验耗时长影响效率，跑性能试验时咱们采纳了SPECjbb2015非凡的PRESET模式。该模式下能够指定压力指定工夫来启动性能测试，不仅不便调优零碎进行性能采集，还能够察看在肯定压力下SPECjbb2015的零碎热点和微架构数据状况。

咱们通过该套调优零碎获取到了Alibaba Dragonwell和其余JDK在跑SPECjbb2015时的热点和微架构数据，并且发现了诸多优化机会，如在GC热点和暂停工夫上有较为显著的问题，从而深刻到相干代码，并以性能数据为线索解决了相干的性能问题，具体的技术细节将在下文中向大家一一道来。

GC暂停工夫优化

这项优化源于一个出乎意料的发现，在SPECjbb2015中GC暂停工夫居然超过了总运行工夫的20%，并且稳固复现。

通过上一大节中提到的调优零碎，定位到出问题的是一个GC工作队列相干函数，并且明确的指向了原子Compare and Swap(CAS)相干代码。

新ECS采纳的CPU架构中CAS次要有如下的两种实现形式：

应用带load-aquire和store-release语义的指令对的实现形式
LSE指令集中的CAS专项指令

少数JVM在GC中应用第一种办法，然而第二种在高抵触的状况下性能更加杰出，因而Dragonwell扭转了编译形式，应用LSE指令集实现CAS，无效的缩小了暂停工夫。下图展现了优化成果，咱们采集了SPECjbb2015运行在不同核数上的GC数据，并采纳吞吐量作为掂量GC性能的指标。

吞吐量 = (运行工夫 – Stop-The-World工夫)/运行工夫 * 100%

咱们能够看到优化前的CAS形式会造成吞吐量随应用的核数减少而激烈降落，在80核的状况下甚至有余80%，而应用LSE CAS后吞吐量稳固在99%以上。

对这个优化的另外两点补充阐明：

此改变只针对JVM外部的CAS实现，不包含JIT(Just-In-Time)生成的代码。JIT会动静查看硬件个性，在反对LSE指令集的零碎上会优先应用LSE指令集。
除了应用LSE CAS外，扭转GC队列算法缩小CAS也能够达到缩小暂停工夫的成果，OpenJDK社区在新版本中采纳了这种办法。不过两种方法并不抵触，Alibaba Dragonwell同时采纳了两种优化，达到了最优成果。

疾速序列化

Alibaba Dragonwell在保障兼容性根底上对java原生序列化进行了优化，通过缓存大幅提高了性能。通过剖析发现, 原生序列化瓶颈大多在于大量的class 查找，如在反序列化时须要获取对端类定义的元信息等。引入了一层通过类全限定名和类加载器映射到java类对象的缓存，缩小了大量Class.forName的调用。

具体做法：在反序列化时获取到类描述符，再依据类描述符查找信息时将会受限从classCache中查找，命中则立刻返回，如果没有找到以后classloader和类全限定名惟一指定的类对象，将会走默认的类查找流程并且将后果缓存。同时, 在反序列化时会大量调用latestUserDefinedLoader 来查找首个用户定义的类加载器，因为此过程较重（波及一次JNI调用和爬栈）也进行了缓存。

指令交融

指令交融是指将多个指令应用效率更高的一条或者几条指令进行替换从而进步性能。

Dragonwell对内存屏障/内存读写/比拟跳转等多个场景做了优化，因为篇幅限度而且此类优化原理较为相似，在此仅举一例，三条指令交融成一条，如下图所示。

下面介绍了Alibaba Dragonwell外部的一些优化，上面咱们换一个角度，从参数调优方面介绍对SPECjbb2015的优化。

大内存零碎开启压缩指针

SPECjbb2015是一个内存敏感型的测试，压缩指针对SPECjbb2015分数的晋升非常明显。不过默认状况下应用压缩指针最大只能用32g内存，这对80核的零碎来说切实是太小了。其实通过适当的参数组合，咱们齐全能够在更大的内存中应用压缩指针。

首先咱们理解下压缩指针的基本原理。如上图所示，因为Java对象有明确的对齐要求，因而对象的地址必然由数个0结尾，0的个数由对齐位数决定。省略java对象地址结尾的数个0可解决内存而且不会失落无效地址信息，须要拜访对象时能够通过补0取得残缺的地址。

由此可知，咱们能够通过调整Java对象对齐位数管制压缩指针失效的最大内存。默认状况下Java为8字节对齐（3bit），加上压缩指针自身的的32bit，最多只能示意32g内存。但如果调整为32字节对齐，那么有37bit能够应用，也就是128g，这对于80核来说基本上够用了。

分层编译调优

分层编译是JVM最根底的机制之一，个别状况下对它改变比拟少，不过在SPECjbb2015的场景下，在分层编译上仍有调优空间。首先介绍下分层编译。JVM在运行的时候动静的将字节码编译成机器码执行，JVM(hotspot)外部编译引擎次要有三个：

解释器：无编译开销，但解释执行效率很低。
C1编译器：编译开销较低，生成代码品质个别。
C2编译器：生成代码品质很高，但编译开销很高。

这三个编译引擎相互配合，执行次数较少的代码由解释器和C1负责，C2只编译热点代码，从而让Java能够达到峰值性能与编译开销的均衡，使利用运行更加平滑。

不过分层编译也有本人的毛病，一个较为显著的问题是它会增大生成代码的总量。下图展现SPECjbb2015运行时C1/C2编译办法数目。

图中Level1-3均为C1编译，依据收集运行信息的力度不同分为了三个等级，Level4为C2编译。咱们能够看到C1编译了70%的办法，因而敞开分层编译，仅保留C2编译器能够缩小生成代码，从而肯定水平上进步高速缓存和叶表命中率。

对于SPECjbb2015来说，因为分数只取决于最初几分钟的峰值解决能力，后面大略两个小时的申请俯冲阶段都能够视作预热，因而启动期的编译开销并不要害。咱们能够敞开分层编译来缩小生成代码，进步高速缓存和列表命中率。最终在测试中发现敞开分层编译生成代码总量由29M升高到9M，有显著缩小。

本文总结了Alibaba Dragonwell的一些重要优化措施，请留神阿里承诺会继续的优化Dragonwell性能，同时更严密地和OpenJDK等开源社区合作，奉献更多的定制化个性，促成Java技术的继续倒退。

援用

[1] https://www.aliyun.com/daily-...
[2] SPECjbb2015是一款模仿电商利用的权威基准测试程序，蕴含了购买下单、折扣优惠、库存计算、客户数据存储与剖析等典型电商利用行为：https://www.spec.org/jbb2015/
[3]Alinux3：Alibaba Cloud Linux是阿里云推出的Linux发行版，它为云上应用程序环境提供Linux社区的最新加强性能，在提供云上最佳用户体验的同时，也针对阿里云基础设施做了深度的优化https://help.aliyun.com/docum...
[4] Alibaba Dragonwell是阿里巴巴开源JDK：https://github.com/alibaba/dr...

原文链接
本文为阿里云原创内容，未经容许不得转载。