关于大数据:开源直播课丨大数据集成框架ChunJun类加载器隔离方案探索及实践

本期咱们带大家回顾一下无倦同学的直播分享《ChunJun类加载器隔离》，ChunJun类加载器隔离的计划是咱们近期摸索的一个新计划，这个计划目前还不是十分成熟，心愿能借由此次分享与大家一起探讨下这计划，如果大家有一些新的想法欢送大家在github上给我提issue或者pr。

一、Java 类加载器解决类抵触根本思维

在学习计划之前，首先为大家介绍一下Java类加载器解决类抵触的根本思维。

01 什么是 Classpath?

Classpath是JVM用到的一个环境变量，它用来批示JVM如何搜寻Class。

因为Java是编译型语言，源码文件是.java，而编译后的.class文件才是真正能够被JVM执行的字节码。因而，JVM须要晓得，如果要加载一个com.dtstack.HelloWorld的类，应该去哪搜寻对应的HelloWorld.class文件。

所以，Classpath就是一组目录的汇合，它设置的搜寻门路与操作系统相干，例如：

在Windows零碎上，用;分隔，带空格的目录用””括起来，可能长这样：

C:\work\project1\bin;C:\shared;”D:\My Documents\project1\bin”

在MacOS & Linux零碎上，用:分隔，可能长这样：

/usr/shared:/usr/local/bin:/home/wujuan/bin

启动JVM时设置Classpath变量, 实际上就是给java命令传入-Classpath或-cp参数.

java -Classpath .;/Users/lzq/Java/a;/Users/lzq/Java/b com.dtstack.HelloWorld

没有设置零碎环境变量，也没有传入-cp参数，那么JVM默认的Classpath为，即当前目录：

java com.dtstack.HelloWorld

02 Jar 包中的类什么时候被加载?

● Jar包

Jar 包就是 zip 包，只不过后缀名字不同。用于治理扩散的 .class 类。

生成 jar 包能够用 zip 命令 zip -r ChunJun.zip ChunJun

java -cp ./ChunJun.zip com.dtstack.HelloWorld

● 加载

“加载”（Loading）阶段是整个“类加载”（Class Loading）过程中的一个阶段，心愿读者没有混同这两个看起来很类似的名词。在加载阶段，Java虚拟机须要实现以下三件事件：

1.通过一个类的全限定名来获取定义此类的二进制字节流；

2.将这个字节流所代表的动态存储构造转化为办法区的运行时数据结构；

3.在内存中生成一个代表这个类的java.lang.Class对象，作为办法区这个类的各种数据的拜访入口。

● 解析

类或接口的解析

假如以后代码所处的类为D，如果要把一个从未解析过的符号援用N解析为一个类或接口C的间接援用，那虚拟机实现整个解析的过程须要包含以下3个步骤：

1.如果C不是一个数组类型，那虚拟机将会把代表N的全限定名传递给D的类加载器去加载这个类C。

在加载过程中，因为元数据验证、字节码验证的须要，又可能触发其余相干类的加载动作，例如加载这个类的父类或实现的接口。一旦这个加载过程呈现了任何异样，解析过程就将宣告失败。

2.如果C是一个数组类型，并且数组的元素类型为对象，也就是N的描述符会是类

似“[Ljava/lang/Integer的模式，那将会依照第一点的规定加载数组元素类型。

如果N的描述符如后面所假如的模式，须要加载的元素类型就是“java.lang.Integer”，接着由虚拟机生成一个代表该数组维度和元素的数组对象。

3.如果下面两步没有呈现任何异样，那么C在虚拟机中实际上曾经成为一个无效的类或接口了，但在解析实现前还要进行符号援用验证，确认D是否具备对C的拜访权限。如果发现不具备拜访权限，将抛出java.lang，llegalAccessEror异样。

03 哪些行为会触发类的加载?

对于在什么状况下须要开始类加载过程的第一个阶段“加载”，《Java虚拟机标准》中并没有进行强制束缚，这点能够交给虚拟机的具体实现来自在把握。然而对于初始化阶段，《Java虚拟机标准》则是严格规定了有且只有六种状况必须立刻对类进行“初始化”（而加载、验证、筹备天然须要在此之前开始）：

● 场景一

遇到new、getstatic、putstatic或invokestatic这四条字节码指令时，如果类型没有进行过初始化，则须要先触发其初始化阶段。可能生成这四条指令的典型Java代码场景有：

1.应用new关键字实例化对象的时候。

2.读取或设置一个类型的动态字段（被final润饰、已在编译期把后果放入常量池的动态字段除外）的时候。

3.调用一个类型的静态方法的时候。

● 场景二

应用java.lang.reflect包的办法对类型进行反射调用的时候，如果类型没有进行过初始化，则需要先触发其初始化。

● 场景三

当初始化类的时候，如果发现其父类还没有进行过初始化，则须要先触发其父类的初始化。

● 场景四

当虚拟机启动时，用户须要指定一个要执行的主类（蕴含main()办法的那个类），虚构机会先初始化这个主类。

● 场景五

当应用JDK 7新退出的动静语言反对时，如果一个java.lang.invoke.MethodHandle实例最初的解析后果为REF_getStatic、REF_putStatic、REF_invokeStatic、REF_newInvokeSpecial四种类型的办法句柄，并且这个办法句柄对应的类没有进行过初始化，则须要先触发其初始化。

●场景六

当一个接口中定义了JDK 8新退出的默认办法（被default关键字润饰的接口办法）时，如果有这个接口的实现类产生了初始化，那该接口要在其之前被初始化。

对于以上这六种会触发类型进行初始化的场景，《Java虚拟机标准》中应用了一个十分强烈的限定语 ——“有且只有”，这六种场景中的行为称为对一个类型进行被动援用。除此之外，所有援用类型的方式都不会触发初始化，称为被动援用。

04 什么是双亲委派机制?

双亲委派机制，是依照加载器的层级关系，逐层进行委派，例如下图中的自定义类加载器想要加载类，它首先不会想要本人去加载，它会通过层级关系逐层进行委派，从自定义类加载器 -> App ClassLoader -> Ext ClassLoader -> BootStrap ClassLoader，如果在BootStrap ClassLoader中没有找到想要加载的类，又会逆循环加载。

05 如何突破双亲委派机制?

那么如何突破双亲委派机制呢?其实能够通过重写 loadclass 办法来实现，具体过程大家可通过视频理解，这里就不过多赘述。

二、Flink 类加载隔离的计划

接下来咱们来介绍下Flink 类加载隔离的计划，Flink有两品种加载器Parent-First和Child-First，他们的区别是：

1.Parent-First

相似 Java 中的双亲委派的类加载机制。Parent First ClassLoader 理论的逻辑就是一个 URL ClassLoader。

2.Child-First

先用 classloader.parent-first-patterns.default 和 classloader.parent-first-patterns.additional 拼接的list做匹配，如果类名前缀匹配了，先走双亲委派。否则就用 ChildFirstClassLoader 先加载。

Child-First 存在的问题

每次新 new 一个 ChildFirstClassLoader，如果运行工夫久的话，相似 Session 这种 TaskManager 始终不敞开的状况。工作运行屡次当前，会呈现元数据空间爆掉，导致工作失败。

Child-First 加载原理

01 Flink是如何防止类泄露的?

大家能够参考Flink中的jira，这外面蕴含一些bug和解决办法：

https://issues.apache.org/jir…

Flink如何防止类泄露，次要是通过以下两种办法：

减少一层委派类加载器，将真正的 UserClassloader 包裹起来。

减少一个回调钩子，当工作完结的时候能够提供给用户一个接口，去开释未开释的资源。

KinesisProducer 应用了这个钩子

final RuntimeContext ctx = getRuntimeContext();

ctx.registerUserCodeClassLoaderReleaseHookIfAbsent（

KINESIS_PRODUCER_RELEASE_HOOK_NAME,

()-> this.runClassLoaderReleaseHook

(ctx.getUserCodeClassLoader()));

02 Flink 卸载用户代码中动静加载的类

卸载用户代码中动静加载的类，所有波及动静用户代码类加载（会话）的场景都依赖于再次卸载的类。

类卸载指垃圾回收器发现一个类的对象不再被援用，这时会对该类（相干代码、动态变量、元数据等）进行移除。

当TaskManager启动或重启工作时会加载指定工作的代码，除非这些类能够卸载，否则就有可能引起内存泄露，因为更新新版本的类可能会随着工夫一直的被加载积攒。这种景象常常会引起OutOfMemoryError: Metaspace这种典型异样。

类透露的常见起因和倡议的修复形式：

● Lingering Threads

确保利用代码的函数/sources/sink敞开了所有线程。提早敞开的线程不仅本身耗费资源，同时会因为占据对象援用，从而阻止垃圾回收和类的卸载。

● Interners

防止缓存超出function/sources/sinks生命周期的非凡构造中的对象。比方Guava的Interner，或是Avro的序列化器中的类或对象。

● JDBC

JDBC驱动会在用户类加载器之外透露援用。为了确保这些类只被加载一次，能够将驱动JAR包放在Flink的 lib/ 目录下，或者将驱动类通过 classloader-parent-first-patterns-additional 加到父级优先加载类的列表中。

开释用户代码类加载器的钩子（hook）能够帮忙卸载动静加载的类，这种钩子在类加载器卸载前执行，通常状况下最好把敞开和卸载资源作为失常函数生命周期操作的一部分（比方典型的close()办法）。有些状况下（比方动态字段）最好确定类加载器不再须要后就立刻卸载。

开释类加载器的钩子能够通过

RuntimeContext.registerUserCodeClassLoaderReleaseHookIfAbsent()办法进行注册。

03 Flink 卸载 Classloader 源码

BlobLibraryCacheManager$ResolvedClassLoader

private void runReleaseHooks() {

Set<map.entry> hooks = releaseHooks.entrySet();

if (!hooks.isEmpty()) {

    for (Map.EntryhookEntry : hooks) {

        try {

            LOG.debug("Running class loader shutdown hook: {}.", hookEntry.getKey());

            hookEntry.getValue().run();

        } catch (Throwable t) {

            LOG.warn(

                    "Failed to run release hook '{}' for user code class loader.",

                    hookEntry.getValue(),

                    t);

        }

    }

    releaseHooks.clear();

}

}

三、ChunJun 如何实现类加载隔离

接下来为大家介绍下ChunJun 如何实现类加载隔离。

01 Flink jar 的上传机会

首先咱们须要上传Jar包，整体流程如下图所示：

● Yarn Perjob

提交工作的时候上传 jar 包，会放到

hdfs://flink03:9000/user/root/.flink/application_1654762357754_0140。

● Yarn Session

启动 Session 的时候，Yarn 的 App 上传 Jar 包机制，往 Session 提交工作的时候，Flink 的 Blob Server 负责收。

02 Yarn 的分布式缓存

03 Yarn 的分布式缓存

分布式缓存机制是由各个NM实现的，次要性能是将应用程序所需的文件资源缓存到本地，以便后续工作的应用。资源缓存是用时触发的，也就是第一个用到该资源的工作触发，后续工作无需再进行缓存，间接应用即可。

依据资源类型和资源可见性，NM可将资源分成不同类型：

资源可见性分类

● Public

节点上所有的用户都能够共享该资源，只有有一个用户的应用程序将着这些资源缓存到本地，其余所有用户的所有应用程序都能够应用。

● Private

节点上同一用户的所有应用程序共享该资源，只有该用户其中一个应用程序将资源缓存到本地，该用户的所有应用程序都能够应用。

● Application

节点上同一应用程序的所有Container共享该资源

资源类型分类

● Archive

归档文件，反对.jar、.zip、.tar.gz、.tgz、.tar的5种归档文件。

● File

一般文件，NM只是将这类文件下载到本地目录，不做任何解决

● Pattern

以上两种文件的混合体

YARN是通过比拟resource、type、timestamp和pattern四个字段是否雷同来判断两个资源申请是否雷同的。如果一个曾经被缓存到各个节点上的文件被用户批改了，则下次应用时会主动触发一次缓存更新，以从新从HDFS上下载文件。

分布式缓存实现的次要性能是文件下载，波及大量的磁盘读写，因而整个过程采纳了异步并发模型放慢文件下载速度，以防止同步模型带来的性能开销。

04 Yarn 的分布式缓存

NodeManager采纳轮询的调配策略将这三类资源寄存在yarn.nodemanager.local-dirs指定的目录列表中，在每个目录中，资源依照以下形式寄存：

● Public资源

寄存在${yarn.nodemanager.local-dirs}/filecache/目录下，每个资源将独自寄存在以一个随机整数命名的目录中，且目录的拜访权限均为0755。

● Private资源

寄存在${yarn.nodemanager.local-dirs}/usercache/${user}/filecache/目录下，（其中${user}是应用程序提交者，默认状况下均为NodeManager启动者），每个资源将独自寄存在以一个随机整数命名的目录中，且目录的拜访权限均为0710。

● Application资源

寄存在${yarn.nodemanager.local-dirs}/usercache/${user}/${appcache}/${appid}/filecache/目录下（其中${appid}是应用程序ID），每个资源将独自寄存在以一个随机整数命名的目录中，且目录的拜访权限均为0710；

其中Container的工作目录位于${yarn.nodemanager.local-dirs}/usercache/${user}/${appcache}/${appid}/${containerid}目录下，其次要保留jar包文件、字典文件对应的软链接。

05 Flink BlobServer

06 如何疾速提交，缩小上传 jar 包

Flink libs 上面 jar包、Flink Plugins 上面的 jar 包、Flink 工作的 jar 包(对于 ChunJun 来说就是所有 connector 和 core)， Flink jar 用户自定义 jar 包。

● Perjob

如果能够提前上传到 HDFS:

提前把 Flink lib 、Flink plugins、ChunJun jar 上传到 HDFS 下面。
提交工作的时候通过 yarn.provided.lib.dirs 指定 HDFS 下面的门路即可。

如果不能够提前上传到 HDFS：

工作提交上传到 HDFS 固定地位，提交的时候查看 HDFS 上如果有对应的 jar(有缓存策略)，就把本地门路替换成近程门路。
利用回调钩子，分明异样工作完结的垃圾文件。

● Seeion

如果能够提前上传到 HDFS：

提前把 Flink lib 、Flink plugins、ChunJun jar 上传到 HDFS 下面。
启动 session 的时候通过 yarn.provided.lib.dirs 指定 HDFS 下面的门路即可。
提交工作的时候不须要上传 core 包。

如果不能够提前上传到 HDFS：

Session 启动的时候就上传所有 jar 到 HDFS 下面。通过 yarnship 指定。
Flink 工作提交到 Session 的时候，不须要提交任何 jar 包。

07 类加载隔离遇到的问题剖析

● 思路剖析

首先要把不同插件(connector) 放到不同的 Classloader 外面。
而后应用 child-first 的加载策略。
确保不会产生 x not cast x 谬误。
元数据空间不会内存泄露，导致工作报错。
要缓存 connector jar 包。

● 遇到的问题

Flink 一个 job 可能有多个算子，一个 connector 就是一个算子。Flink 原生是为 job 级别新生成的 Classloader，无奈把每个 connector 放在一个独立的 Classloader 外面。

child-first 加载策略在 Session 模式下每次都新 new 一个 Classloader，导致元数据空间内存泄露。

connecotor 之间用到私有的类会报错。

和问题2相似，次要是因为有些线程池，守护线程会拿着一些类对象，或者类 class 对象的援用。

如果用原生 -yarnship 去上传，会放到 App Classloader 外面。那么就会导致某些不冀望用 App Classloader 加载的类被加载。

08 Flink JobGraph Classpath 的应用

/* Set of JAR files required to run this job. /

private final ListuserJars = new ArrayList();

/* Set of custom files required to run this job. /

private final MapuserArtifacts = new HashMap<>();

/* List of Classpaths required to run this job. /

private ListClasspaths = Collections.emptyList();

客户端解决，JobGraph 解决 userJars、userArtifacts、Classpaths 这三个属性。
Classpath 只留下 connector 的层级目录。
启动 Session 的时候上传 jar，jar 缓存在 Yarn 的所有的 NodeManager 节点。
jobmanager 和 taskmanager 构建 Classloader 的时候去批改 Classpath 的门路，替换成以后节点 NodeManager 的缓存门路。
依据不同 connecotr 去构建Flink Job 的 Classloader。
把构建进去的 classlaoder 进行缓存，下次工作还有雷同的 Classloader。防止内存泄露。
重写新的 ChildFirstCacheClassloader 外面的 loadclass 办法，依据不同的 connector url 去生成独自的 Classloader。

四、遇到的问题和排查计划?

jar包抵触常见的异样为找不到类（java.lang.ClassNotFoundException）、找不到具体方法（java.lang.NoSuchMethodError）、字段谬误（ java.lang.NoSuchFieldError）或者类谬误（java.lang.LinkageError）。

● 常见的解决办法如下

1、首先做法是打出工程文件的依赖树，将依据jar包依赖状况断定是不是同一个jar包依赖了多个版本，如果确认问题所在，间接exclusion其中谬误的jar包即可。

2、如果通过看依赖树不能确定具体抵触的jar包，能够应用增加jvm参数的形式启动程序，将类加载的具体jar信息打印进去；-verbose:class 。

3、通过上述步骤根本就能够解决jar包抵触问题，具体的问题要具体分析。

● 常用工具举荐

1.Maven-helper

次要排查类抵触的 IDEA 插件。

2.Jstack

死锁的一些问题能够通过这个工具查看 jstack 调用栈。

3.Arthas

排查一些性能问题和 Classloader 泄露问题。

4.VisualVM

排查一些对象内存泄露、dump 文件剖析等。

袋鼠云开源框架钉钉技术交换qun（30537511），欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息，开源我的项目库地址：https://github.com/DTStack/Taier

关于大数据:开源直播课丨大数据集成框架ChunJun类加载器隔离方案探索及实践

一、Java 类加载器解决类抵触根本思维

01 什么是 Classpath?

02 Jar 包中的类什么时候被加载?

03 哪些行为会触发类的加载?

04 什么是双亲委派机制?

05 如何突破双亲委派机制?

二、Flink 类加载隔离的计划

01 Flink是如何防止类泄露的?

02 Flink 卸载用户代码中动静加载的类

03 Flink 卸载 Classloader 源码

三、ChunJun 如何实现类加载隔离

01 Flink jar 的上传机会

02 Yarn 的分布式缓存

03 Yarn 的分布式缓存

资源可见性分类

资源类型分类

04 Yarn 的分布式缓存

05 Flink BlobServer

06 如何疾速提交，缩小上传 jar 包

07 类加载隔离遇到的问题剖析

08 Flink JobGraph Classpath 的应用

四、遇到的问题和排查计划?

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于大数据:开源直播课丨大数据集成框架ChunJun类加载器隔离方案探索及实践

一、Java 类加载器解决类抵触根本思维

01 什么是 Classpath?

02 Jar 包中的类什么时候被加载?

03 哪些行为会触发类的加载?

04 什么是双亲委派机制?

05 如何突破双亲委派机制?

二、Flink 类加载隔离的计划

01 Flink是如何防止类泄露的?

02 Flink 卸载用户代码中动静加载的类

03 Flink 卸载 Classloader 源码

三、ChunJun 如何实现类加载隔离

01 Flink jar 的上传机会

02 Yarn 的分布式缓存

03 Yarn 的分布式缓存

资源可见性分类

资源类型分类

04 Yarn 的分布式缓存

05 Flink BlobServer

06 如何疾速提交，缩小上传 jar 包

07 类加载隔离遇到的问题剖析

08 Flink JobGraph Classpath 的应用

四、遇到的问题和排查计划?

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复