共计 3129 个字符,预计需要花费 8 分钟才能阅读完成。
点亮 ⭐️ Star · 照亮开源之路
版本更新
明天,Apache SeaTunnel(Incubating) 2.2.0-beta 版本正式公布。新版本对 Connector API 进行了重构,将连接器与引擎解偶,同时社区基于新 API 实现了大量连接器的接入,并修复了上个版本中存在的应用性问题,进步了版本稳定性和应用效率。
本文将为大家介绍 Apache SeaTunnel(Incubating) 2.2.0-beta 版本更新的具体内容。
- Release Note: https://github.com/apache/inc…
- 下载地址:https://seatunnel.apache.org/download
- Quick Start 文档:https://seatunnel.apache.org/docs/2.2.0-beta/category/start-v2
次要性能更新
01 Connector API 重构
近期,社区与用户对于 Apache SeaTunnel(Incubating) 反对 Spark 3.x 与 Flink 1.14 的呼声很高,但此前版本的 API 难以同时反对多个引擎版本。为此,社区将 Connector API 进行了重构(下文称为 Connector-V2),与引擎解偶,并对立了连接器参数。
架构演进可参考往期文章:
- Apache SeaTunnel(Incubating)与计算引擎的解耦之道,重构 API 咱们做了些什么
- SeaTunnel 连接器 V1 到 V2 的架构演进与探索
同时,咱们基于 Connector-V2 反对了大量连接器,并适配了 Flink 1.13.x 与 Spark 2.4.x,具体列表如下:
同时反对 Source 与 Sink
目前仅反对 Source
目前仅反对 Sink
02 新增元数据(Catalog)治理性能
此外,2.2.0-beta 版本新增了 Catalog API 和 MySQL Catalog,用于治理和发现元数据。
03 新增对立格式化(Format)性能
为了更好地进行格式化,Apache SeaTunnel(Incubating) 2.2.0-beta 版本还新增了 Format API 和 JSON Format,用于非结构化、半结构化连接器对数据进行格式化。
具体性能更新:
- 反对 MySQL 元数据管理 #2042
- 反对 JSON 格式化 #2014
- 反对 Clickhouse 无明码:#2393
- 反对在 Flink 中同时应用多种 Split Transform #2268
- 反对在 Spark 中应用被代理的 Redis Sink #2150
优化项
- 对立解析命令行参数 #2470
- 增加插件下载脚本 #2831
- 优化 License #2798
- 重构 E2E 模块
- 移除连接器的 dist 模块 #2709
- 优化依赖治理 #2606
- 优化 maven shade 打包 #2665
- 降级 Junit4 版本至 5.9.0 #2305
Bug 修复
依据用户的反馈,咱们修复了一些应用性问题,比方命令行某些非凡参数解析谬误,进一步提高了稳定性。
- 修复命令行变量带有 ‘,’ 时解析谬误 #2523
- 修复 Zip 压缩可能写入到谬误门路 #2843
- 修复 Spark 数据流被两次获取 #2764
- 修复 Windows 环境文件下进行 E2E 测试报门路异样 #2715
文档更新
依据用户的反馈,咱们修复了一些文档问题,并增加了局部疏导文档,使用户或贡献者能够更快上手 Apache SeaTunnel(Incubating)。
- 修复 Kafka 文档参数谬误 #2863
- 修复 JDBC 文档参数默认值谬误 #2776
- 修复 Flink SQL 连接器中 ES 文档的单词谬误 #2634
- 增加 checkstyle 插件在 SeaTunnel 中的应用疏导 #2535
- 增加贡献者在更新 / 新增第三方依赖时的 License 解决疏导 #2494
总结和瞻望
作为一个 Apache 孵化我的项目,SeaTunnel 社区迅速倒退,这得益于开源社区所有贡献者们的自私奉献和开源布道,更离不开宽广 SeaTunnel 用户群体的踊跃反馈。作为 Connector API 重构后的第一个 beta 版本,SeaTunnel 社区期待大家踊跃试用并给与反馈。为了更好地进行开源社区建设,在 SeaTunnel 社区接下来的社区规划中,将次要聚焦四个方向:
扩充与欠缺 Connector & Catalog 生态,反对更多 Connector & Catalog,如 TiDB、Doris、Stripe 等,并欠缺现有的连接器,进步其可用性与性能等;
- 反对 CDC 连接器,用于反对实时增量同步场景。
对连接器感兴趣的同学能够关注该 Umbrella:https://github.com/apache/inc…
- 反对引擎的更多版本
如 Spark 3.x、Flink 1.14.x 等
对反对 Spark 3.3 感兴趣的同学能够关注该 PR:https://github.com/apache/inc…
- 反对更多数据集成场景(SeaTunnel Engine)
用于解决整库同步、表构造变更同步、工作失败影响粒度大等现有引擎不能解决的痛点。
对 engine 感兴趣的同学能够关注该 Umbrella:https://github.com/apache/inc…
- 更简略易用(SeaTunnel Web)
提供 Web 界面以 DAG/SQL 等形式使操作更简略,更加直观地展现 Catalog、Connector、Job 等;
接入调度平台,使工作治理更简略。
对 Web 感兴趣的同学能够关注咱们的 Web 子项目:https://github.com/apache/inc…
致谢
感激所有为该版本做出奉献的 41 位社区贡献者,正是大家的付出与致力,让咱们可能疾速推出这个版本,也欢送更多的同学参加到 Apache SeaTunnel(Incubating) 社区奉献中。
残缺贡献者列表
GitHub ID 按字母排序
Apache SeaTunnel
// 放弃联系 //
微信号 : Seatunnel
来,和社区一起成长!
Apache SeaTunnel(Incubating) 是一个分布式、高性能、易扩大、用于海量数据(离线 & 实时)同步和转化的数据集成平台。
仓库地址:
https://github.com/apache/inc…
网址:
https://seatunnel.apache.org/
Proposal:
https://cwiki.apache.org/conf…
Apache SeaTunnel(Incubating) 2.1.0 下载地址:
https://seatunnel.apache.org/…
衷心欢送更多人退出!
可能进入 Apache 孵化器,SeaTunnel(原 Waterdrop) 新的途程才刚刚开始,但社区的发展壮大须要更多人的退出。咱们置信,在 「Community Over Code」(社区大于代码)、「Open and Cooperation」(凋谢合作)、「Meritocracy」(精英治理)、以及「 多样性与共识决策」等 The Apache Way 的指引下,咱们将迎来更加多元化和容纳的社区生态,共建开源精力带来的技术提高!
咱们诚邀各位有志于让外乡开源立足寰球的搭档退出 SeaTunnel 贡献者小家庭,一起共建开源!
提交问题和倡议:
https://github.com/apache/inc…
奉献代码:
https://github.com/apache/inc…
订阅社区开发邮件列表 :
[email protected]
开发邮件列表:
[email protected]
退出 Slack:
https://join.slack.com/t/apac…
关注 Twitter:
https://twitter.com/ASFSeaTunne