简介:DataWorks迁徙助手提供工作搬站性能,反对将开源调度引擎Oozie、Azkaban、Airflow的工作疾速迁徙至DataWorks。本文次要介绍如何将开源Azkaban工作流调度引擎中的作业迁徙至DataWorks上。

DataWorks迁徙助手提供工作搬站性能,反对将开源调度引擎Oozie、Azkaban、Airflow的工作疾速迁徙至DataWorks。本文次要介绍如何将开源Azkaban工作流调度引擎中的作业迁徙至DataWorks上。

反对迁徙的Azkaban版本

反对全副版本的Azkaban迁徙。

整体迁徙流程

迁徙助手反对开源工作流调度引擎到DataWorks体系的大数据开发工作迁徙的根本流程如下图所示。


针对不同的开源调度引擎,DataWorks迁徙助手会出一个相干的工作导出计划。
整体迁徙流程为:通过迁徙助手调度引擎作业导出能力,将开源调度引擎中的作业导出;再将作业导出包上传至迁徙助手中,通过工作类型映射,将映射后的作业导入至DataWorks中。作业导入时可设置将工作转换为MaxCompute类型作业、EMR类型作业、CDH类型作业等。

Azkaban作业导出

Azkaban工具自身具备导出工作流的能力,有本人的Web控制台,如下图所示:

操作步骤:
1.进入Project页面
2.点击Flows,会列出Project上面所有的工作流(Flow)
3.点击Download即可下载Project的导出文件
Azkaban导出包格局原生Azkaban即可,导出包Zip文件外部为Azakaban的某个Project的所有工作(Job)和关系信息。

Azkaban作业导入

拿到了开源调度引擎的导出工作包后,用户能够拿这个zip包到迁徙助手的迁徙助手->工作上云->调度引擎作业导入页面上传导入包进行包剖析。

导入包剖析胜利后点击确认,进入导入工作设置页面,页面中会展现剖析进去的调度工作信息。

开源调度导入设置

用户能够点击高级设置,设置Azkaban工作与DataWorks工作的转换关系。不同的开源调度引擎,在高级设置外面的设置界面基本一致,如下图:

高级设置项介绍:

• sparkt-submit转换为:导入过程会去剖析用户的工作是不是sparkt-submit工作,如果是的话,会将spark-submit工作转换为对应的DataWorks工作类型,比如说:ODPS_SPARK/EMR_SPARK/CDH_SPARK等

• 命令行 SQL工作转换为:开源引擎很多工作类型是命令行运行SQL,比如说hive -e, beeline -e, impala-shell等等,迁徙助手会依据用户抉择的指标类型做对应的转换。比方能够转换成ODPS_SQL, EMR_HIVE, EMR_IMPALA, EMR_PRESTO, CDH_HIVE, CDH_PRESTO, CDH_IMPALA等等

• 指标计算引擎类型:这个次要是影响的是Sqoop同步的目标端的数据写入配置。咱们会默认将sqoop命令转换为数据集成工作。计算引擎类型决定了数据集成工作的目标端数据源应用哪个计算引擎的project。

• Shell类型转换为:SHELL类型的节点在Dataworks依据不同计算引擎会有很多种,比方EMR_SHELL,CDH_SHELL,DataWorks本人的Shell节点等等。

• 未知工作转换为:对目前迁徙助手无奈解决的工作,咱们默认用一个工作类型去对应,用户能够抉择SHELL或者虚节点VIRTUAL

• SQL节点转换为:DataWorks上的SQL节点类型也因为绑定的计算引擎的不同也有很多种。比方 EMR_HIVE,EMR_IMPALA、EMR_PRESTO,CDH_HIVE,CDH_IMPALA,CDH_PRESTO,ODPS_SQL,EMR_SPARK_SQL,CDH_SPARK_SQL等,用户能够抉择转换为哪种工作类型。

留神:这些导入映射的转换值是动态变化的,和以后我的项目空间绑定的计算引擎无关,转换关系如下。

导入至DataWorks + MaxCompute

导入至DataWorks + EMR

导入至DataWorks + CDH

执行导入

设置完映射关系后,点击开始导入即可。导入实现后,请进入数据开发中查看导入后果。

数据迁徙

大数据集群上的数据迁徙,可参考:DataWorks数据集成或MMA。
原文链接
本文为阿里云原创内容,未经容许不得转载。