关于大数据:数据平台调度升级改造-从Azkaban-平滑过度到-Apache-DolphinScheduler-的操作实践

Fordeal的数据平台调度零碎之前是基于Azkaban进行二次开发的，然而在用户层面、技术层面都存在一些痛点问题难以被解决。比方在用户层面短少工作可视化编辑界面、补数等必要性能，导致用户上手难体验差。在技术层面，架构过期，继续迭代难度大。基于这些状况，通过竞品比照和调研后，Fordeal数据平台新版零碎决定基于Apache DolphinScheduler进行降级革新。那整个迁徙过程中开发人员是如何让应用方平滑过渡到新零碎，又做出了哪些致力呢？

5月 Apache Dolphinscheduler 线上 Meetup，来自 Fordeal 的大数据开发工程师卢栋给大家分享了平台迁徙的实践经验

讲师介绍

卢栋Fordeal 大数据开发工程师。5年的数据开发相干教训，目前就任于Fordeal，次要关注的数据技术方向包含：湖仓一体、MPP数据库、数据可视化等。

本次演讲次要蕴含四个局部：

Fordeal数据平台调度零碎的需要剖析
迁徙到Apache Dolphin Scheduler过程中如何适配
适配实现后如何实现特新加强
将来布局

01 需要剖析

01 Fordeal 利用背景

Fordeal 数据平台调度零碎最早是基于Azkaban进行二次开发的。反对机器分组，SHELL动静参数、依赖检测后勉强能够满足应用，但在日常应用中仍然存在以下三个问题，别离是在用户、技术和运维的层面。

首先在用户层面，不足可视化的编辑、补数等必要的性能。只有技术的同学能力应用该调度平台，而其余没有根底的同学如果应用就非常容易出错，并且Azkaban 的报错模式导致开发人员对其进行针对性地进行批改。

第二在技术层面，Fordeal 数据平台调度零碎的技术架构十分古老，前后端并不拆散，想要减少一个性能，二开的难度十分高。

第三在运维层面，也是最大的问题。零碎不定时会进去 flow 执行卡死的问题。要解决这个问题，须要登录到数据库，删除 execution flow外面的ID，再重启 Worker 和 API服务，过程非常繁琐。

02 Fordeal 所做的调研

因而，在2019年Apache DolphinScheduler开源时，咱们就及时地关注到，并开始理解是否能够进行迁徙。过后一起调研了三款软件，Apache Dolphin Scheduler、Azkaban和Airflow。咱们基于五大需要。

首选JVM系语言。因为JVM系语言在线程、开发文档等方面较为成熟。

Airflow基于Python其实和咱们当初的体系并无二异，非技术同学无奈应用
分布式架构，反对HA。Azkaban的work并不是分布式web和master服务是耦合在一起，因而属于单节点。
工作流必须反对DSL和可视化编辑。这样能够保障技术同学能够用DSL进行书写，可视化则面向用户，用以扩充用户面。
前后端拆散，支流架构。前后端能够离开进行开发，剥离开来后耦合度也会升高。
社区活跃度。最初关注的的社区活跃度对于开发也非常重要，如果常常存在一些“陈年”老bug都须要本人进行批改，那会大大降低开发效率。

03 Fordeal 当初的架构

现在咱们的数据架构如上图。Apache Dolphin Scheduler承接了整个生命周期从HDFS、S3采集到K8S计算再到基于Spark、Flink的开发。两边的olphinScheduler和Zookeeper都是作为基础性的架构。咱们的调度信息如下：Master x2、Worker x6、API x1（承载接口等），目前日均工作流实例：3.5k，日均工作实例15k+。（下图为1.2.0版本架构图）

02 适配迁徙

01 外部零碎对接

Fordeal外部零碎须要上线对用户提供拜访，这时候必须对接几个外部服务，以升高用户上手老本和缩小运维工作。次要包含以下三个零碎。

单点登录零碎：

基于JWT实现的SSO零碎，一次登录，认证所有。
工单零碎：

DS对我的项目的受权接入工单，防止人肉运维。

（接入所有受权动作，实现自动化）
告警平台：

扩大DS告警模式，将告警信息全副发送到外部告警平台，用户可配置电话、企业微信等模式告警。

下方三张图就是对应别离是登录零碎、工单权限和企业微信的告警。

02 Azkaban 的兼容

Azkaban的Flow治理是基于自定义的DSL配置，每个Flow配置蕴含的Node数量多则800+少则1个，其更新的形式次要有三类。

1、用户本地保留，每次批改后zip压缩上传，用户自行保护Flow的信息。2、所有的flow配置和资源都托管git，在Azkaban我的项目设置中绑定git地址，git是由咱们自行开发的，git提交后在页面点击刷新按钮。3、所有的Flow托管到配置核心，对接Azkaban的上传接口去笼罩掉之前的调度信息。

上图为一部分数仓我的项目的flow配置文件。想要把Azkaban迁徙到Apache DolphinScheduler中，咱们一共列出了十点需要。

DS上传接口反对Flow配置文件的解析并生成工作流。（反对嵌套flow）Flow的配置文件就相当于 Azkaban 的DAG文件，如果不配适咱们就要本人写代码解析配置文件，将Flow转成Json。
DS资源核心反对文件夹（托管Azkaban我的项目下的所有资源）过后咱们的1.2.0版本过后没有文件夹性能，而咱们的数仓有许多文件夹，因而咱们必须要反对。
DS提供client包，提供根底的数据结构类和工具类，不便调用API，生成工作流的配置。
DS反对工作流并发管制（并行或跳过）
DS工夫参数需反对配置时区（例如：dt=$[ZID_CTT yyyy-MM=dd=1]）。尽管咱们配置的时区大多在海内，但对于用户而言，他们更心愿看到北京时区。
DS跑数和部署界面反对全局变量覆写。因为咱们的版本较低，一些相似补数的性能都没有，工作流用什么变量跑，心愿用户能够本人设置。
DS DAG图反对task多选操作。
DS task日志输入最终执行内容，不便用户查看调试。
DS 反对运行中失败工作手动重试。通常一次跑数仓须要数个小时，其中有几个task可能因为代码问题报错，咱们心愿能够在不中断工作流的状况下，手动重试，把谬误的节点逐个批改完后重试。这样最终的状态是胜利的。
数仓我的项目需反对一键迁徙，放弃用户的工作习惯（jenkins 对接DS）。

在咱们与五六个组进行一直的沟通和革新后，这十点需要最终满足。

03 性能优化汇总

从 Azkaban 齐全迁徙到 Apache DolphinScheduler 实现大略用时一年，因为波及到API用户，波及到 git 用户，还有反对各种各样性能用户，每个项目组都会提出本人的需要，在帮助其余团队迁徙的整个过程中，依据用户应用反馈，共提交了140+个优化 commit，以下是 commit 分类词云。

03 个性加强

01 前端重构

对于为什么咱们要重构，咱们的痛点到底是什么？咱们列出了一下几点。首先，Azkaban的操作步骤过于繁琐。用户想要找一个工作流定义时，首先要关上我的项目，找到我的项目首页中的工作流列表，再找到定义，用户无奈一眼找到我想要的定义。第二，我无奈通过名字、分组等条件检索到工作流定义和实例。第三，无奈通过URL分享工作流定义和实例详情。第四，数据库表和API设计不合理，查询卡顿，常常会呈现长事务告警。第五，界面很多中央写死布局，如设置了宽度，导致增加列不能很好适配电脑和手机。第六，工作流定义和实例短少批量操作。但凡程序必定有谬误，如何批量重试，成为用户十分头疼的问题。

执行计划

基于 AntDesign 库开发新的一套前端界面。
弱化我的项目概念，不想让用户过多去关注我的项目这个概念，我的项目只作为工作流或实例的标签。

目前电脑版只有四个入口，首页、工作流列表、执行列表和资源核心列表，手机版只有两个入口，别离是工作流列表和执行列表。
简化操作步骤，将工作流列表和执行列表放在第一入口。
优化查问条件和索引，减少批量操作接口等。

减少联结索引。
齐全适配电脑和手机（除了编辑 dag ，其余性能都统一）

02 依赖调度

什么是依赖调度？即工作流实例或 Task 实例胜利后被动登程上游工作流或 Task 跑数（执行状态为依赖执行）。构想以下几个场景，上游工作流须要依据上游工作流的调度工夫去设置本人的定时工夫；上游跑数失败后，上游定时跑数是也会呈现谬误；上游补数，只能告诉所有上游业务方补数。数仓上下游定时距离调整难，计算集群资源利用率没有最大化（K8S）。因为用户并不是继续提交的。

构思图（按层触发工作流）

依赖调度规定

工作流反对工夫，依赖，两者组合调度（且与或）
工作流内的Task反对依赖调度（不受定时限度）。
依赖调度须要设置一个依赖周期，只有当所有的依赖在这个周期内满足才会触发。
依赖调度最小的设置单位是 Task ，反对依赖多个工作流或 Task （只反对且关系）。
工作流仅仅只是一个执行树中的组概念，就是说不会限度Task。

手机工作流依赖详情

03 工作拓展

拓展更多的 Task 类型，将罕用的性能形象并提供编辑界面，升高应用老本，咱们次要扩大了以下几个。

数据开放平台（DOP）：

次要是提供数据导入导出性能（反对Hive、Hbase，Mysql、ES、Postgre、Redis、S3）
数据品质：基于Deequ开发的数据校验。

对数据进行形象供用户应用。
SQL-Prest数据源：SQL模块反对Presto数据源
血统数据采集：内置到所有Task中，Task裸露血统须要的所有数据

04 监控告警

架构为Java+Spring下的服务监控，平台是有一套通用的Grafana监控看板，监控数据存储在Prometheus，咱们的准则是服务外部不做监控，只须要把数据裸露进去即可，不反复造轮子，革新列表为：

API、Master和Worker服务接入micrometer-registry-prometheus，采集通用数据并裸露Prometheus采集接口。
采集Master和Worker执行线程池状态数据，如Master和Worker正在运行的工作流实例、数据库等，用于后续的监控优化和告警（下右图）。
Prometheus侧配置服务状态异样告警，比方一段时间内工作流实例运行数小于n（阻塞）、服务内存&CPU告警等等。

04 将来布局

01 跟进社区个性

目前Fordeal线上运行的版本是基于社区第一个**Apache版本（1.2.0）**进行二开的，通过监控咱们也发现了几个问题。

数据库压力大，网络IO费用高
Zookeeper 充当了队列角色，时不时对导致磁盘IOPS飙升，存在隐患
Command 生产和Task散发模型比较简单，导致机器负载不平均
这个调度模型中应用了十分多的轮询逻辑（Thread.sleep），调度生产、散发、检测等效率不高

社区倒退迅速，当下的架构也更加的正当易用，很多问题失去了解决，咱们近期比拟关注的问题是Master间接对Worker的散发工作，加重Zookeeper 的压力，**Task 类型插件化，易于后续扩大。**Master配置或自定义散发逻辑，机器简单更加正当。更完满的容错机制和运维工具（优雅高低线），当初Worker没有优雅高低线性能，当初更新Worker的做法是切掉流量，让线程池归零后再高低线，比拟平安。

02 欠缺数据同步

目前只提供了工作流实例的执行统计，粒度比拟粗，后续须要反对更细化的统计数据，如依照 Task 筛选进行统计分析，依照执行树进行统计分析，依照最耗时的执行路径分析等（对其进行优化）。

再次，减少更多的数据同步性能，如执行统计增加同步、环比阈值告警等性能，这些都是基于工作流的告警。

03 连贯其余零碎

当调度迭代稳固后，会逐渐充当根底组件应用，提供更加便当的接口和可嵌入的窗口（iframe），让更多的下层数据利用（如BI零碎，预警系统）等对接进来，提供根底的调度性能。

我的分享就到这里，谢谢大家认真浏览！

关于大数据:数据平台调度升级改造-从Azkaban-平滑过度到-Apache-DolphinScheduler-的操作实践

讲师介绍

01 需要剖析

01 Fordeal 利用背景

02 Fordeal 所做的调研

03 Fordeal 当初的架构

02 适配迁徙

01 外部零碎对接

02 Azkaban 的兼容

03 性能优化汇总

03 个性加强

01 前端重构

执行计划

02 依赖调度

依赖调度规定

03 工作拓展

04 监控告警

04 将来布局

01 跟进社区个性

02 欠缺数据同步

03 连贯其余零碎

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:数据平台调度升级改造-从Azkaban-平滑过度到-Apache-DolphinScheduler-的操作实践

讲师介绍

01 需要剖析

01 Fordeal 利用背景

02 Fordeal 所做的调研

03 Fordeal 当初的架构

02 适配迁徙

01 外部零碎对接

02 Azkaban 的兼容

03 性能优化汇总

03 个性加强

01 前端重构

执行计划

02 依赖调度

依赖调度规定

03 工作拓展

04 监控告警

04 将来布局

01 跟进社区个性

02 欠缺数据同步

03 连贯其余零碎

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复