关于spring:袋鼠云批流一体分布式同步引擎ChunJun原FlinkX的前世今生

一、前言

ChunJun（原FlinkX）是一个基于Flink提供易用、稳固、高效的批流对立的数据集成工具，是袋鼠云一站式大数据开发平台-数栈DTinsight的外围计算引擎，其技术架构基于实时计算框架Flink，打造出“具备袋鼠特色”的实时计算引擎。

开源我的项目地址：

https://github.com/DTStack/ch…

https://gitee.com/dtstack_dev…

开源技术交换群：

钉钉群：30537511

二、从FlinkX到ChunJun

ChunJun脱胎于袋鼠云数栈自主研发的批流对立的数据同步工具FlinkX。

2016年，数栈技术团队初步研发实现了一款基于Flink的分布式离线/实时数据同步插件——FlinkX，它可实现多种异构数据源高效的数据同步，反对双向读写和多种异构数据源。有它助力，袋鼠云在批流一体的钻研实际以更迅猛的势头往前挺进。

2018年4月，秉承着开源共享理念的数栈技术团队在github上开源了FlinkX，历经4年多的倒退，FlinkX从当初的一个小我的项目，成长为领有2900+star，1300+fork的开源我的项目。

从开源的第一天，数栈技术团队从未停下技术摸索和社区回馈的脚步，在4年多的工夫里先后开源了flinkx、flinkStreamSQL、jlogstash、easyagent、doraemon、molecule、Taier，袋鼠云数栈开源家族愈发壮大，开源我的项目系列失去了宽泛的倒退，相继在各类企业中落地利用。

往年，数栈技术团队决定对开源我的项目进行整体降级，并推出自主开源打算——DTstackCon，其中大数据开源我的项目系列以“十大名剑”作为概念起源，承载着数栈技术团队对它们能如利剑，为社区数字化过程的倒退之路乘风破浪的向往。

正是怀揣着这样殷切的冀望，咱们决定正式将FlinkX更名为ChunJun！

ChunJun命名取自于中国现代十大名剑之一的纯钧

（ChunJun logo）

纯钧是春秋战国期间铸剑名师欧冶子为越王勾践所铸，其剑身取材宝贵，尖锐无比，剑刃就象壁立千丈的断崖高尚而巍峨，剑身更是历经千年而不蚀，代表稳固而弱小动摇的意志，正如ChunJun作为袋鼠云数栈的外围计算引擎，承载着实时平台、离线平台、数据资产等多个利用的底层数据同步及计算，其弱小的性能保障着客户业务数据的一致性。

ChunJun的logo主体的字母C是由许多平行四边形组成的，这个组合有递进、有组合，正是ChunJun的稳固、聚合体、分布式、集成的开发理念的具象体现。

同时也传播出ChunJun外围观点：提供一个易用、稳固、高效的数据同步和集成工具。

底层采纳六边形蜂巢构造，因为六边形的蜂巢是“最省劳动力、也最省资料的抉择”。多个六边形排列在一起之间没有空隙，这种排列也被称为是最稳固的排列形式。稳固，素来是咱们开发的第一思考。

三、什么是ChunJun

ChunJun是一个基于Flink 提供易用、稳固、高效的批流对立的数据集成工具，既能够采集动态的数据，比方MySQL，HDFS等，也能够采集实时变动的数据，比方binlog，Kafka等。同时ChunJun也是一个反对原生FlinkSql所有语法和个性的计算框架。目前ChunJun在理论利用过程中已服务了上百家客户，通过屡次迭代与积淀，积攒了大量的客户案例。

ChunJun次要利用于大数据开发平台的数据同步/数据集成模块，通常采纳将底层高效的同步插件和界面化的配置形式相结合的形式，使大数据开发人员可简洁、疾速的实现数据同步工作开发，实现将业务数据库的数据同步至大数据存储平台，从而进行数据建模开发，以及数据开发实现后，将大数据处理好的后果数据同步至业务的利用数据库，供企业数据业务应用。

四、ChunJun性能特点

ChunJun具备以下几大特色性能点：

1、超丰盛

丰盛的插件品种：ChunJun上下游插件多达40种，如常见的mysql、binlog、logminer等，大部分插件都反对source/reader、sink/writer及维表性能。
丰盛的工作执行模式：反对本地拆箱即用式-local 模式，Flink 自带 standalone 模式，罕用调度 yarn session 和 yarn pre-job 模式，以及与k8s 联合部署的 k8s 模式。
丰盛的工作类型：ChunJun反对json 同步工作，以及sql 计算工作，用户能够依据本人的须要，思考是应用配置更加灵便的json同步工作，还是计算更加弱小的sql计算工作。

2、超灵便

脏数据收集零碎插件化：面对不同的业务场景，能够配置不同的脏数据配置，灵活处理，例如：

是否将脏数据落盘解决；

是否在日志中打印脏数据信息；

脏数据最大条数限度；

脏数据存储到不同类型的数据源等。

指标零碎插件化：与脏数据插件化相似，指标零碎在设计上也采纳了插件化设计，用户依据本人的业务场景，灵便配置指标零碎。

3、超弱小

反对增量同步：对于某些业务库的表，表中的数据根本只有插入操作，随着业务的运行，表中的数据会越来越大。如果每次都整表同步的话，耗费的工夫及资源也会越来越多，因而须要一个增量同步的性能，每次只同步减少局部的数据，对于曾经同步过的数据则不再进行反复的同步工作。

增量同步是针对于两个及以上数量的同步工作来说的，对于首次执行增量同步的某张表而言，该次同步本质上是整表同步，不同的是在工作执行完结后会记录增量字段的完结值(endLocation)并将其上传至prometheus供后续应用。

在构建下次增量工作时获取该endLocation并作为上述过滤条件的参数值(startLocation)。在工作解析到增量工作配置时，会依据startLocation的有无主动构建过滤条件，并将其拼接至where条件中，最终构建出一条如：select id, name, age from test where id > 100的SQL，从而达到增量读取的目标。

反对断点续传：对于某些业务库的表，其数据量可能十分大，同步可能耗时十分久。如果在同步过程中因为某些起因导致工作失败，从头再来的话老本十分大，因而须要一个断点续传的性能从工作失败的中央持续。

断点续传的实质是通过Flink的checkpoint机制实现的，在每次checkpoint时，reader插件会保留以后读取到的字段的值，writer插件则会在保留writer中的指标及其他信息，而后将writer中的事务提交。

反对同步DDL数据：在客户实在场景中，对于DDL数据目前无奈解决。在袋鼠外部，ChunJun借助内部数据源，反对监听DDL语句，并对DDL手动执行。

五、ChunJun将来布局

ChunJun能从一个小我的项目倒退到明天离不开社区开发者们的反对，咱们将以此为基，秉承初心，持续大力发展ChunJun开源框架。

1、技术倒退

反对数据湖：ChunJun团队正在摸索湖仓一体的建设
数据还原的欠缺：反对对DDL主动解析并交由上游数据源主动执行
更丰盛的插件：不仅仅是丰盛同步插件，也还要丰盛脏数据插件，指标插件等
更欠缺的调度：欠缺k8s调度，给予用户更残缺的k8s计划
性能与稳定性：ChunJun团队继续优化代码构造，进步ChunJun性能与稳定性

2、社区倒退

ChunJun技术交融计划
ChunJun系列直播公开课
ChunJun Meetup技术沙龙会

关于spring:袋鼠云批流一体分布式同步引擎ChunJun原FlinkX的前世今生

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于spring:袋鼠云批流一体分布式同步引擎ChunJun原FlinkX的前世今生

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复