乐趣区

关于大数据:当我们在聊开源大数据调度系统Taier的数据开发功能时到底在讨论什么

原文链接:当咱们在聊「开源大数据调度零碎 Taier」的数据开发性能时,到底在探讨什么?

课件获取:关注公众号__“数栈研习社”,__后盾私信__“Taier”__ 取得直播课件

视频回放:点击这里

Taier 开源我的项目地址:github 丨 gitee 喜爱咱们的我的项目给咱们点个__ STAR!STAR!!STAR!!!(重要的事件说三遍)__

技术交换钉钉 qun:30537511

本期咱们带大家回顾一下摘月同学的直播分享《Taier 数据开发介绍》

之前三期内容,咱们为大家分享了 Taier 入门、控制台以及 Web 前端架构的介绍。本次分享咱们将从 Taier 的数据开发性能,到工作运行、性能可扩大点以及将来布局为大家进行解说。

一、数据开发性能介绍

Taier 是袋鼠云开源我的项目之一,是一个分布式可视化的 DAG 任务调度零碎,旨在升高 ETL 开发成本、进步大数据平台稳定性,Taier 的数据开发性能次要分为以下三种:

1、资源管理

资源管理通常应用在 UDF 等自定义函数的场景中,也能够在工作开发中应用。在 Taier 中,对于函数援用,次要用在 Spark、Flink 自定义函数中,而在工作援用中,则次要用于 Flink 工作。

2、函数治理

自定义函数解决流程如下图所示:

函数治理在 Taier 中的具体实现次要包含以下两个方面:

  1. 基于 calcite 实现不同数据源 SQL 自定义函数解析
  2. 应用 SQL 运行前创立长期函数代替创立永恒函数,使函数应用更加灵便

3、工作治理

Taier 现反对工作:Flink SQL、实时采集、数据同步(ChunJun)、Spark SQL、HiveSQL

Taier 中有两块辨别,别离为集群和数据开发,如果想在 Taier 中跑一个工作,须要先在集群中进行配置,具体组件与工作关系如下图:

二、Taier 工作运行解说

理解完 Taier 数据开发的性能介绍后,咱们来为大家分享 Taier 的工作运行逻辑。

1、Spark Sql、Hive Sql 长期运行流程

Spark Sql、Hive Sql 长期运行流程次要分为工作编写、SQL 解决、SQL 执行三步,以下图为 SparkSql 执行流程:

2、Spark Sql、Hive Sql 运行依赖

Spark Sql、Hive Sql 运行依赖次要包含以下两类:

● Sql 解析(基于 calcite 进行)

· Sql Type 解析

· 函数、表名解析

● 数据源插件

· 对立不同数据源操作入口

· 封装数据源对应的数据操作方法

三、性能可扩大点介绍

以后而言,Taier 中的性能还较为简单,只凋谢了次要流程的性能,在开源中还有许多可扩大点,接下来为大家介绍 Taier 的性能可扩大点。

1、性能扩大——数据权限管制

在 sparkThrift、hiveserver 中去进行 create、insert into、alter、select 时,不同的公司、不同的人有不一样的数据权限管制,面对这种状况,能够利用 Apache Ranger 大数据权限治理框架进行权限配置。

具体地址为:

github:https://github.com/ranger/ranger

2、性能扩大——数据血源追踪

通过 SQL 解析能够失去表和表之间的关系,以及不同表中字段之间的血源关系。

● 实现工具:calcite

● 可操作工作:SparkSql、HiveSql、数据同步(ChunJun)

用 sql 举例:

create table zy_0710_1 (id int, name string);

create table zy_0710_2 as select id , name from zy_0710_1;

create table zy_0710_3 as select id , name from zy_0710_2;

四、Taier1.2 尝鲜

最初为大家介绍将来不久将公布的 Taier1.2 新版本尝鲜:

●集群治理

控制台 ui 降级

● 数据开发

  1. 集群租户绑定流程简化
  2. 工作开发代码层面优化
  3. 工作新增 schema 配置

● 新增性能

  1. FlinkSql 反对 jar 包形式
  2. 新增工作流工作
  3. 自定义扩大开发工作

袋鼠云开源框架钉钉技术交换 qun(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack

退出移动版