简介:DataWorks 迁徙助手提供工作搬站性能,反对将开源调度引擎 Oozie、Azkaban、Airflow 的工作疾速迁徙至 DataWorks。本文次要介绍如何将开源 Azkaban 工作流调度引擎中的作业迁徙至 DataWorks 上。
DataWorks 迁徙助手提供工作搬站性能,反对将开源调度引擎 Oozie、Azkaban、Airflow 的工作疾速迁徙至 DataWorks。本文次要介绍如何将开源 Azkaban 工作流调度引擎中的作业迁徙至 DataWorks 上。
反对迁徙的 Azkaban 版本
反对全副版本的 Azkaban 迁徙。
整体迁徙流程
迁徙助手反对开源工作流调度引擎到 DataWorks 体系的大数据开发工作迁徙的根本流程如下图所示。
针对不同的开源调度引擎,DataWorks 迁徙助手会出一个相干的工作导出计划。
整体迁徙流程为:通过迁徙助手调度引擎作业导出能力,将开源调度引擎中的作业导出;再将作业导出包上传至迁徙助手中,通过工作类型映射,将映射后的作业导入至 DataWorks 中。作业导入时可设置将工作转换为 MaxCompute 类型作业、EMR 类型作业、CDH 类型作业等。
Azkaban 作业导出
Azkaban 工具自身具备导出工作流的能力,有本人的 Web 控制台,如下图所示:
操作步骤:
1. 进入 Project 页面
2. 点击 Flows,会列出 Project 上面所有的工作流(Flow)
3. 点击 Download 即可下载 Project 的导出文件
Azkaban 导出包格局原生 Azkaban 即可,导出包 Zip 文件外部为 Azakaban 的某个 Project 的所有工作(Job) 和关系信息。
Azkaban 作业导入
拿到了开源调度引擎的导出工作包后,用户能够拿这个 zip 包到迁徙助手的迁徙助手 -> 工作上云 -> 调度引擎作业导入页面上传导入包进行包剖析。
导入包剖析胜利后点击确认,进入导入工作设置页面,页面中会展现剖析进去的调度工作信息。
开源调度导入设置
用户能够点击高级设置,设置 Azkaban 工作与 DataWorks 工作的转换关系。不同的开源调度引擎,在高级设置外面的设置界面基本一致,如下图:
高级设置项介绍:
• sparkt-submit 转换为:导入过程会去剖析用户的工作是不是 sparkt-submit 工作,如果是的话,会将 spark-submit 工作转换为对应的 DataWorks 工作类型,比如说:ODPS_SPARK/EMR_SPARK/CDH_SPARK 等
• 命令行 SQL 工作转换为:开源引擎很多工作类型是命令行运行 SQL,比如说 hive -e, beeline -e, impala-shell 等等,迁徙助手会依据用户抉择的指标类型做对应的转换。比方能够转换成 ODPS_SQL, EMR_HIVE, EMR_IMPALA, EMR_PRESTO, CDH_HIVE, CDH_PRESTO, CDH_IMPALA 等等
• 指标计算引擎类型:这个次要是影响的是 Sqoop 同步的目标端的数据写入配置。咱们会默认将 sqoop 命令转换为数据集成工作。计算引擎类型决定了数据集成工作的目标端数据源应用哪个计算引擎的 project。
• Shell 类型转换为:SHELL 类型的节点在 Dataworks 依据不同计算引擎会有很多种,比方 EMR_SHELL,CDH_SHELL,DataWorks 本人的 Shell 节点等等。
• 未知工作转换为:对目前迁徙助手无奈解决的工作,咱们默认用一个工作类型去对应,用户能够抉择 SHELL 或者虚节点 VIRTUAL
• SQL 节点转换为:DataWorks 上的 SQL 节点类型也因为绑定的计算引擎的不同也有很多种。比方 EMR_HIVE,EMR_IMPALA、EMR_PRESTO,CDH_HIVE,CDH_IMPALA,CDH_PRESTO,ODPS_SQL,EMR_SPARK_SQL,CDH_SPARK_SQL 等,用户能够抉择转换为哪种工作类型。
留神:这些导入映射的转换值是动态变化的,和以后我的项目空间绑定的计算引擎无关,转换关系如下。
导入至 DataWorks + MaxCompute
导入至 DataWorks + EMR
导入至 DataWorks + CDH
执行导入
设置完映射关系后,点击开始导入即可。导入实现后,请进入数据开发中查看导入后果。
数据迁徙
大数据集群上的数据迁徙,可参考:DataWorks 数据集成或 MMA。
原文链接
本文为阿里云原创内容,未经容许不得转载。