原文链接:当咱们在聊「开源大数据调度零碎 Taier」的数据开发性能时,到底在探讨什么?
课件获取:关注公众号__“数栈研习社”,__后盾私信__“Taier”__ 取得直播课件
视频回放:点击这里
Taier 开源我的项目地址:github 丨 gitee 喜爱咱们的我的项目给咱们点个__ STAR!STAR!!STAR!!!(重要的事件说三遍)__
技术交换钉钉 qun:30537511
本期咱们带大家回顾一下摘月同学的直播分享《Taier 数据开发介绍》
之前三期内容,咱们为大家分享了 Taier 入门、控制台以及 Web 前端架构的介绍。本次分享咱们将从 Taier 的数据开发性能,到工作运行、性能可扩大点以及将来布局为大家进行解说。
一、数据开发性能介绍
Taier 是袋鼠云开源我的项目之一,是一个分布式可视化的 DAG 任务调度零碎,旨在升高 ETL 开发成本、进步大数据平台稳定性,Taier 的数据开发性能次要分为以下三种:
1、资源管理
资源管理通常应用在 UDF 等自定义函数的场景中,也能够在工作开发中应用。在 Taier 中,对于函数援用,次要用在 Spark、Flink 自定义函数中,而在工作援用中,则次要用于 Flink 工作。
2、函数治理
自定义函数解决流程如下图所示:
函数治理在 Taier 中的具体实现次要包含以下两个方面:
- 基于 calcite 实现不同数据源 SQL 自定义函数解析
- 应用 SQL 运行前创立长期函数代替创立永恒函数,使函数应用更加灵便
3、工作治理
Taier 现反对工作:Flink SQL、实时采集、数据同步(ChunJun)、Spark SQL、HiveSQL
Taier 中有两块辨别,别离为集群和数据开发,如果想在 Taier 中跑一个工作,须要先在集群中进行配置,具体组件与工作关系如下图:
二、Taier 工作运行解说
理解完 Taier 数据开发的性能介绍后,咱们来为大家分享 Taier 的工作运行逻辑。
1、Spark Sql、Hive Sql 长期运行流程
Spark Sql、Hive Sql 长期运行流程次要分为工作编写、SQL 解决、SQL 执行三步,以下图为 SparkSql 执行流程:
2、Spark Sql、Hive Sql 运行依赖
Spark Sql、Hive Sql 运行依赖次要包含以下两类:
● Sql 解析(基于 calcite 进行)
· Sql Type 解析
· 函数、表名解析
● 数据源插件
· 对立不同数据源操作入口
· 封装数据源对应的数据操作方法
三、性能可扩大点介绍
以后而言,Taier 中的性能还较为简单,只凋谢了次要流程的性能,在开源中还有许多可扩大点,接下来为大家介绍 Taier 的性能可扩大点。
1、性能扩大——数据权限管制
在 sparkThrift、hiveserver 中去进行 create、insert into、alter、select 时,不同的公司、不同的人有不一样的数据权限管制,面对这种状况,能够利用 Apache Ranger 大数据权限治理框架进行权限配置。
具体地址为:
github:https://github.com/ranger/ranger
2、性能扩大——数据血源追踪
通过 SQL 解析能够失去表和表之间的关系,以及不同表中字段之间的血源关系。
● 实现工具:calcite
● 可操作工作:SparkSql、HiveSql、数据同步(ChunJun)
用 sql 举例:
create table zy_0710_1 (id int, name string);
create table zy_0710_2 as select id , name from zy_0710_1;
create table zy_0710_3 as select id , name from zy_0710_2;
四、Taier1.2 尝鲜
最初为大家介绍将来不久将公布的 Taier1.2 新版本尝鲜:
●集群治理
控制台 ui 降级
● 数据开发
- 集群租户绑定流程简化
- 工作开发代码层面优化
- 工作新增 schema 配置
● 新增性能
- FlinkSql 反对 jar 包形式
- 新增工作流工作
- 自定义扩大开发工作
袋鼠云开源框架钉钉技术交换 qun(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack