前言:什么是 Flink CDC?
Flink CDC 是一个应用 Apache License 2.0 协定的开源我的项目,反对从 MySQL、MariaDB、RDS MySQL、Aurora MySQL、PolarDB MySQL、PostgreSQL、Oracle、MongoDB、SqlServer、TiDB、OceanBase 等数据库中实时地读取存量历史数据和增量变更数据,整个过程提供 exactly-once 语义保障。Flink CDC 同时提供了 SQL API 和 DataStream API 两套 API,很好地满足了不同开发者的需要。
作为新一代数据集成框架,Flink CDC 既能够代替传统的 DataX 和 Canal 工具做实时数据同步,将数据库的全量和增量数据一体化地同步到音讯队列和数据仓库中;也能够做实时数据集成,将数据库数据实时入湖入仓;同时还反对弱小的数据加工能力,能够通过 SQL 对数据库数据做实时关联、打宽、聚合,并将物化后果写入到各种存储中。绝对于其余数据集成框架,Flink CDC 具备全增量一体化、无锁读取、并发读取、分布式架构等技术劣势,在开源社区中十分受欢迎。
Flink CDC 我的项目地址:
https://github.com/ververica/…
一、GitHub star 超过 2000
自 2020 年 7 月份开源以来,Flink CDC 社区倒退迅速,在 GitHub 的关注度继续走高。回顾 Flink CDC 我的项目的倒退,在 2021 年 9 月初,Flink CDC 我的项目的 GitHub star 首次超过 1000,也是这个时候 Flink CDC 公布了 2.0 版本,正式进入大规模生产可用阶段,社区的倒退速度也犹如装上了减速引擎。
越来越多的人晓得并开始应用 Flink CDC,泛滥的开发者参加到 Flink CDC 的奉献中。仅过来半年,Flink CDC 我的项目的 GitHub star 数就实现了翻番。截至发稿前,Flink CDC 我的项目的 GitHub star 数达到 2015,fork 数达到了 660,issue 数达到了 582。这就是开源的力量!
社区的倒退离不开整体社区开发者的奉献和用户的反对,目前 Flink CDC 我的项目的贡献者已减少至 34 人,贡献者来自 Cloudera、RedHat、Vinted、阿里巴巴、蚂蚁、网易、XTransfer 等国内外公司。Flink CDC 社区用户群倒退也十分迅速,中文用户群成立半年多便达到 3800+ 人。
<img src=”https://img.alicdn.com/imgextra/i4/O1CN0169PKeU25TPvj4EYsR_!!6000000007527-2-tps-828-1068.png” alt=”img” style=”zoom:33%;” />
依据社区用户群和公开材料统计,目前应用 Flink CDC 的公司包含 Cloudera、Vinted、阿里巴巴、蚂蚁、网易、腾讯、哔哩哔哩、XTransfer、37 手游、农业银行、民生银行、深圳市领星网络、大健云仓等国内外云厂商和知名企业。通过这些云厂商提供的流计算服务和多家企业实际,咱们发现正有越来越多的用户借助 Flink CDC 来疾速实现数据实时集成和数据湖实时构建。
二、新增 Maintainer 成员
Flink CDC 社区的疾速倒退离不开贡献者们的致力,在 Flink CDC 社区高速倒退的过程中,涌现了一批沉闷的高质量的贡献者。通过 Flink CDC 社区 Maintainer 小组讨论,Flink CDC 社区曾经邀请 Jiabao-Sun (孙家宝) 退出 Flink CDC 社区的 Maintainer 列表。
孙家宝老师是 XTransfer 基础架构部的资深 Java 开发工程师,负责 XTransfer 基础设施和大数据平台建设,他长期沉闷在 Flink CDC 社区,作为外围贡献者在社区奉献了包含 MongoDB CDC Connector 在内的多个 PR,同时在社区 issue 列表和 Flink CDC 社区群十分踊跃,帮忙社区开发者和用户解答了十分多的问题,为社区倒退做出了极大的奉献。
期待孙家宝老师作为 Flink CDC 我的项目的 Maintainer,为 Flink CDC 的倒退带来更多元的视角,帮忙更多的社区贡献者和用户。也心愿将来能有更多的贡献者能够退出 Maintainer 列表,一直推动社区的倒退。
三、Flink CDC 2.2 版本前瞻
通过社区 3 个月的开发,曾经合并了 47 commits,Flink CDC 2.2 版本也行将与大家见面,蕴含了许多用户期待已久的性能。
- 2.2 版本会新增 SqlServer CDC,TiDB CDC,OceanBase CDC 三个 Connector,反对从上三种数据库中读取全量和增量 CDC 数据。
- MySQL CDC 反对动静加表,如果你一个 CDC pipeline 监控了 4 张表,忽然有天老板想让你加几张表,你必定不想另起作业 (浪费资源),那么这个 feature 能够让你在已有 pipeline 中减少须要监控的表,而无需从新读取已同步的表。
- 所有 CDC Connector 都能够兼容 Flink 1.13 和 Flink 1.14 版本,意味着同一个 Connector 能够跑在不同版本的集群上。
- 增量快照读取算法形象成通用框架,便于其余 connector 接入。只需额定实现大量代码,新 connector 便能反对无锁读取、多并发读取、全程断点续传等性能。
- MongoDB CDC 反对正则表达式过滤汇合, 在 2.1 版本里 MongoDB CDC 只能捕捉单个汇合或者 DB 下的全副汇合,2.2 版本将提供正则匹配汇合反对。
- MySQL CDC 将反对 MySQL 5.6,这对低版本的 MySQL 用户来讲相对是个好消息。
- 此外,2.2 版本也修复了很多用户反馈 bug 和小的改良。
社区的贡献者们正在紧锣密鼓地筹备 2.2 版本的公布,目前预计 3 月中下旬便能与用户见面,也欢送感兴趣的小伙伴成为 Flink CDC 的贡献者,一起参加设计、研发和测试,独特推动社区的倒退!
更多 Flink 相干技术问题,可扫码退出社区钉钉交换群
第一工夫获取最新技术文章和社区动静,请关注公众号~