关于大数据:当我们在聊开源大数据调度系统Taier的数据开发功能时到底在讨论什么

原文链接：当咱们在聊「开源大数据调度零碎Taier」的数据开发性能时，到底在探讨什么？

课件获取：关注公众号__ “数栈研习社”，__后盾私信__ “Taier”__ 取得直播课件

视频回放：点击这里

Taier 开源我的项目地址：github 丨 gitee 喜爱咱们的我的项目给咱们点个__ STAR！STAR！！STAR！！！（重要的事件说三遍）__

技术交换钉钉 qun：30537511

本期咱们带大家回顾一下摘月同学的直播分享《Taier数据开发介绍》

之前三期内容，咱们为大家分享了Taier入门、控制台以及Web前端架构的介绍。本次分享咱们将从Taier的数据开发性能，到工作运行、性能可扩大点以及将来布局为大家进行解说。

一、数据开发性能介绍

Taier 是袋鼠云开源我的项目之一，是一个分布式可视化的DAG任务调度零碎，旨在升高ETL开发成本、进步大数据平台稳定性，Taier的数据开发性能次要分为以下三种：

1、资源管理

资源管理通常应用在UDF等自定义函数的场景中，也能够在工作开发中应用。在Taier中，对于函数援用，次要用在Spark、Flink自定义函数中，而在工作援用中，则次要用于Flink工作。

2、函数治理

自定义函数解决流程如下图所示：

函数治理在Taier中的具体实现次要包含以下两个方面：

基于calcite实现不同数据源SQL自定义函数解析
应用SQL运行前创立长期函数代替创立永恒函数，使函数应用更加灵便

3、工作治理

Taier现反对工作：Flink SQL、实时采集、数据同步（ChunJun）、Spark SQL、HiveSQL

Taier中有两块辨别，别离为集群和数据开发，如果想在Taier中跑一个工作，须要先在集群中进行配置，具体组件与工作关系如下图：

二、Taier工作运行解说

理解完Taier数据开发的性能介绍后，咱们来为大家分享Taier的工作运行逻辑。

1、Spark Sql、Hive Sql长期运行流程

Spark Sql、Hive Sql 长期运行流程次要分为工作编写、SQL解决、SQL执行三步，以下图为SparkSql执行流程：

2、Spark Sql 、Hive Sql 运行依赖

Spark Sql 、Hive Sql 运行依赖次要包含以下两类：

● Sql解析（基于calcite进行）

· Sql Type 解析

· 函数、表名解析

● 数据源插件

· 对立不同数据源操作入口

· 封装数据源对应的数据操作方法

三、性能可扩大点介绍

以后而言，Taier中的性能还较为简单，只凋谢了次要流程的性能，在开源中还有许多可扩大点，接下来为大家介绍Taier的性能可扩大点。

1、性能扩大——数据权限管制

在sparkThrift、hiveserver中去进行create、insert into、alter、select时，不同的公司、不同的人有不一样的数据权限管制，面对这种状况，能够利用Apache Ranger大数据权限治理框架进行权限配置。

具体地址为：

github：https://github.com/ranger/ranger

2、性能扩大——数据血源追踪

通过SQL解析能够失去表和表之间的关系，以及不同表中字段之间的血源关系。

● 实现工具：calcite

● 可操作工作：SparkSql、HiveSql、数据同步（ChunJun)

用sql举例：

create table zy_0710_1 (id int, name string);

create table zy_0710_2 as select id , name from zy_0710_1;

create table zy_0710_3 as select id , name from zy_0710_2;

四、Taier1.2尝鲜

最初为大家介绍将来不久将公布的Taier1.2新版本尝鲜：

●集群治理

控制台ui降级

● 数据开发

集群租户绑定流程简化
工作开发代码层面优化
工作新增schema配置

● 新增性能

FlinkSql反对jar包形式
新增工作流工作
自定义扩大开发工作

袋鼠云开源框架钉钉技术交换qun（30537511），欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息，开源我的项目库地址：https://github.com/DTStack

关于大数据:当我们在聊开源大数据调度系统Taier的数据开发功能时到底在讨论什么

一、数据开发性能介绍

1、资源管理

2、函数治理

3、工作治理

二、Taier工作运行解说

1、Spark Sql、Hive Sql长期运行流程

2、Spark Sql 、Hive Sql 运行依赖

三、性能可扩大点介绍

1、性能扩大——数据权限管制

2、性能扩大——数据血源追踪

四、Taier1.2尝鲜

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:当我们在聊开源大数据调度系统Taier的数据开发功能时到底在讨论什么

一、数据开发性能介绍

1、资源管理

2、函数治理

3、工作治理

二、Taier工作运行解说

1、Spark Sql、Hive Sql长期运行流程

2、Spark Sql 、Hive Sql 运行依赖

三、性能可扩大点介绍

1、性能扩大——数据权限管制

2、性能扩大——数据血源追踪

四、Taier1.2尝鲜

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复