乐趣区

关于大数据:新起点大数据分布式可视化的-DAG-任务调度系统-Taier-正式发布14版本

咱们很快乐向大家发表,2023 年 4 月 14 日,Taier 正式公布 1.4 版本。自 2022 年 2 月份 Taier 正式开源以来,收到了很多开发者和行业用户的踊跃评估,在诸多生产环境中已失去充沛利用。Taier 1.4 版本正是排汇了各类实践经验及大家的倡议,进行了此次迭代优化。

本次更新不仅蕴含了性能优化和稳定性的晋升,还新增了各类工作类型、欠缺大量工作性能,优化应用场景,继续加强开源产品化技术能力和利用能力。

Taier 是一款好用又弱小的大数据分布式可视化的 DAG 任务调度零碎,旨在升高 ETL 开发成本、进步大数据平台稳定性。它让大数据开发人员能够在 Taier 间接进行业务逻辑的开发,而不必关怀工作盘根错节的依赖关系与底层的大数据平台的架构实现,将工作的重心更多地聚焦在业务之中。

截至目前(2023 年 4 月 17 日),Taier 在 GitHub 的 Star 数曾经冲破 1.1 k,并领有 37 名社区贡献者,咱们在此对所有参加到 Taier 我的项目及社区建设的敌人们表白由衷的感激。

目前新版本已在 Github 与 Gitee 上线,欢送大家返回体验。

Github:

https://github.com/DTStack/Taier

Gitee:

https://gitee.com/dtstack_dev_0/taier

社区官网:

https://dtstack.github.io/Taier/

Taier 1.4 版本更新亮点

新增工作类型

· 新增 DataX 组件,在无 Hadoop 环境的状况下,Taier 能够通过执行 DataX 的工作来实现异构数据源之间高速稳固的数据同步的能力,加强 Taier 在单机模式下的根底性能。

· 新增 Greenplum、GaussDB、MySQL、Postgresql、Sqlserver、TiDB、Vertica、Maxcompute 等工作类型,欠缺 Taier 相干 SQL 工作类型。

· 新增 Hadoop MR 工作类型,能够通过自行编写 Map/Reduce 的代码,来执行对应的数据集的解决。

欠缺工作性能

· Script 组件新增 Standalone 模式, 反对 Python、Shell 工作本地执行,移除脚本工作对 Hadoop 环境的强依赖。

· 数据同步工作反对 Hive3 的数据源向导模式配置。

· HiveSQL、Spark SQL 的长期查问表反对定时清理。

优化应用场景

· 兼容 Taier 在 Window 环境下部署运行的环境问题。

· 优化 Taier 局部元数据表构造信息、欠缺表构造备注信息。

· 优化控制台组件配置参数信息,移除环境相干参数信息,Spark 组件反对主动上传 SqlProxy 包,缩小组件配置依赖。

接下来

Taier 1.4 版本的公布是又一个全新的开始,开发团队不会停下脚步,将来将依据用户反馈减速迭代继续优化,欠缺 Taier 的性能和文档,满足用户更多场景的应用,推动国内开源生态的倒退。

Taier 此前的问题离不开每一位参与者的奉献与反对,踏上这个新的终点,Taier 的将来也仍需大家共同努力,让 Taier 朝着好用又弱小的 DAG 任务调度零碎的指标继续前进。
《数据治理行业实际白皮书》下载地址:https://fs80.cn/380a4b

想理解或征询更多无关袋鼠云大数据产品、行业解决方案、客户案例的敌人,浏览袋鼠云官网:https://www.dtstack.com/?src=szsf

同时,欢送对大数据开源我的项目有趣味的同学退出「袋鼠云开源框架钉钉技术 qun」,交换最新开源技术信息,qun 号码:30537511,我的项目地址:https://github.com/DTStack

退出移动版