课件获取:关注公众号“ChunJun”,后盾私信 “课件” 取得直播课件

视频回放:点击这里

ChunJun开源我的项目地址:github 丨 gitee 喜爱咱们的我的项目给咱们点个__ STAR!STAR!!STAR!!!(重要的事件说三遍)__

技术交换钉钉 qun:30537511

本期咱们带大家回顾一下六六同学的直播分享《ChunJun数据传输模块介绍》。

一、ChunJun数据类型转换

1、类型转换解决的问题

大家一听到「ChunJun数据类型转换」这个概念,可能会联想到上下游之间进行数据交互时会波及到的隐式转换。如果上游和上游数据类型统一,则不须要对数据进行任何干涉,间接进行下发即可。

然而大多数状况下会波及到两个问题,一是上游的数据源类型和上游的数据源类型不统一。比方MySql的varchar类型要写到HdfsOrc文件里的string类型的话,在上游的示意是varchar,在上游的示意是string,但实际上两头段java的类型都是string。

另外一种状况则是,上下游之间不止数据源类型不一样,数据类型也不一样,除了要做类型的映射之外,还须要对数据自身进行改变。比方,MySql的date类型要写到上游timestamp类型,咱们须要进行的操作是把date中的毫秒级的工夫戳拿进去,转换成timestamp的类型,再往上游去写。

这样就引出了一个问题,如何建设所有数据源类型之间的映射/转换关系?上面将为大家解答这个问题。

2、类型映射概览

• client端:在Factory类中通过RawConverter类建设映射关系

• source端:将数据封装成AbstractBaseColumn

• sink端:通过AbstractBaseColumn中的转换方法将数据转换成对应类型

ChunJun目前反对的数据类型映射关系图如下:

3、类型映射详解

以Timestamp为例,如果要写入到Long类型的话,依据上文展现的ChunJun数据类型映射关系图,最终映射到TimestampColumn中,具体流程如下图:

下面这个例子形容的是一个独自的字段,失常状况下,会解决多个字段,这时的类型映射详解状况如下图:


as办法就是数据类型转换的办法。应用这个机制之后,在上游能够只关怀须要的数据类型,减少开发效率。

二、ChunJun数据传输过程

理解完ChunJun数据类型转换后,咱们来为大家分享ChunJun的数据传输过程。

1、上下游数据传输方式

在ChunJun中进行同步作业,有两种状况,一是算子链关上的状况,上游的Source和上游的Sink会被合并成一个task,有同一个线程去做调度;二是把算子链进行敞开,Source和Sink各自造成一个task,也有各自的线程去进行调度。

在算子链关上的状况下,上下游数据传输方式可分为两种,对象重用和拷贝。

● 对象重用

· 上下游数据传输应用办法调用的模式,将上游产生的数据的对象援用间接交给上游

· 上下游算子须要造成算子链,作业开启对象重用

· env.getConfig().enableObjectReuse();

● 拷贝

· 上游传输给上游的数据,须要通过一次深拷贝

· 上下游算子须要造成算子链

算子链的益处是能够缩小序列化的操作,那么为什么咱们还要引入序列化呢?因为ChunJun的特殊性。ChunJun同步作业的话,只有上下游两个算子,且都对接了正式的数据源,读写的时候会导致线程梗塞。因而下限由网络io决定,如果断开算子链,cpu会在一端线程阻塞的时候切换到另外一端。在序列化的性能较高时,线程上下文切换带来的性能降落齐全能够被补救。

通过测试,序列化的性能比对象重用和拷贝高30%左右。

● 序列化

· 上下游数据传输依赖于网络传输。上游数据进行序列化成byte数组后进行网络传输,上游收到数据后须要进行反序列化

· 上下游之间不造成算子链

晓得要做序列化后,会产生一些思考,带着这些疑难,接着往下看。

• 序列化和反序列化在什么时候产生?

• Flink反对哪些序列化?

• 序列化是怎么做的?

• 怎么找到适宜的序列化形式?

• 如何实现自定义的序列化?

2、序列化传输过程

下图是ChunJun在进行序列化操作时的数据传输链路图:

3、DataOutView

4、TypeInformation介绍

5、kryo序列化&BaseSerializer

同样是序列化一个int对象,对kryo来说,首先须要晓得它的类型,而后从高位到低位顺次去写入。

DataOutputView则是间接调用一个writeInt的办法,写一句要害代码即可:

UNSAFE.putInt(

this.buffer,

BASE_OFFSET + this.position, v);

三、ChunJun序列化实现

1、ColumnRowData序列化过程

ColumnRowData序列化过程采取标记位+理论数据的形式,具体流程如下图:

绝对于kryo的序列化来说:

· 实现了更密集的存储

· 兼容null值

· 缩小了不必要的数据传输

2、BinaryRowData构造


因为数据区一格只占8个字节,且每个index只能占到一位,所以必定存在一些没法存储在8字节范畴之内的数据,可变长度局部就是用来存放数据区无奈寄存的数据。

3、BinaryRowData-setNull操作

看到上文的null值判断区,有些同学可能会好奇这是什么,又是怎么进行操作的。下图将对一个下标为11的数据去做setnull操作,进行简略介绍:

4、BinaryRowData数据存储形式

袋鼠云开源框架钉钉技术交换qun(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack