关于大数据:当我们在聊开源大数据调度系统Taier的数据开发功能时到底在讨论什么

原文链接：当咱们在聊「开源大数据调度零碎 Taier」的数据开发性能时，到底在探讨什么？

课件获取：关注公众号__“数栈研习社”，__后盾私信__“Taier”__ 取得直播课件

视频回放：点击这里

Taier 开源我的项目地址：github 丨 gitee 喜爱咱们的我的项目给咱们点个__ STAR！STAR！！STAR！！！（重要的事件说三遍）__

技术交换钉钉 qun：30537511

本期咱们带大家回顾一下摘月同学的直播分享《Taier 数据开发介绍》

之前三期内容，咱们为大家分享了 Taier 入门、控制台以及 Web 前端架构的介绍。本次分享咱们将从 Taier 的数据开发性能，到工作运行、性能可扩大点以及将来布局为大家进行解说。

Taier 是袋鼠云开源我的项目之一，是一个分布式可视化的 DAG 任务调度零碎，旨在升高 ETL 开发成本、进步大数据平台稳定性，Taier 的数据开发性能次要分为以下三种：

资源管理通常应用在 UDF 等自定义函数的场景中，也能够在工作开发中应用。在 Taier 中，对于函数援用，次要用在 Spark、Flink 自定义函数中，而在工作援用中，则次要用于 Flink 工作。

自定义函数解决流程如下图所示：

函数治理在 Taier 中的具体实现次要包含以下两个方面：

基于 calcite 实现不同数据源 SQL 自定义函数解析
应用 SQL 运行前创立长期函数代替创立永恒函数，使函数应用更加灵便

Taier 现反对工作：Flink SQL、实时采集、数据同步（ChunJun）、Spark SQL、HiveSQL

Taier 中有两块辨别，别离为集群和数据开发，如果想在 Taier 中跑一个工作，须要先在集群中进行配置，具体组件与工作关系如下图：

理解完 Taier 数据开发的性能介绍后，咱们来为大家分享 Taier 的工作运行逻辑。

Spark Sql、Hive Sql 长期运行流程次要分为工作编写、SQL 解决、SQL 执行三步，以下图为 SparkSql 执行流程：

Spark Sql、Hive Sql 运行依赖次要包含以下两类：

● Sql 解析（基于 calcite 进行）

· Sql Type 解析

· 函数、表名解析

● 数据源插件

· 对立不同数据源操作入口

· 封装数据源对应的数据操作方法

以后而言，Taier 中的性能还较为简单，只凋谢了次要流程的性能，在开源中还有许多可扩大点，接下来为大家介绍 Taier 的性能可扩大点。

在 sparkThrift、hiveserver 中去进行 create、insert into、alter、select 时，不同的公司、不同的人有不一样的数据权限管制，面对这种状况，能够利用 Apache Ranger 大数据权限治理框架进行权限配置。

具体地址为：

github：https://github.com/ranger/ranger

通过 SQL 解析能够失去表和表之间的关系，以及不同表中字段之间的血源关系。

● 实现工具：calcite

● 可操作工作：SparkSql、HiveSql、数据同步（ChunJun)

用 sql 举例：

create table zy_0710_1 (id int, name string);

create table zy_0710_2 as select id , name from zy_0710_1;

create table zy_0710_3 as select id , name from zy_0710_2;

最初为大家介绍将来不久将公布的 Taier1.2 新版本尝鲜：

●集群治理

控制台 ui 降级

● 数据开发

集群租户绑定流程简化
工作开发代码层面优化
工作新增 schema 配置

● 新增性能

FlinkSql 反对 jar 包形式
新增工作流工作
自定义扩大开发工作

袋鼠云开源框架钉钉技术交换 qun（30537511），欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息，开源我的项目库地址：https://github.com/DTStack

关于大数据:当我们在聊开源大数据调度系统Taier的数据开发功能时到底在讨论什么

一、数据开发性能介绍

1、资源管理

2、函数治理

3、工作治理

二、Taier 工作运行解说

1、Spark Sql、Hive Sql 长期运行流程

2、Spark Sql、Hive Sql 运行依赖

三、性能可扩大点介绍

1、性能扩大——数据权限管制

2、性能扩大——数据血源追踪

四、Taier1.2 尝鲜