关于sql:DataWorks搬站方案Airflow作业迁移至DataWorks

简介：DataWorks提供工作搬站性能，反对将开源调度引擎Oozie、Azkaban、Airflow的工作疾速迁徙至DataWorks。本文次要介绍如何将开源Airflow工作流调度引擎中的作业迁徙至DataWorks上

DataWorks提供工作搬站性能，反对将开源调度引擎Oozie、Azkaban、Airflow的工作疾速迁徙至DataWorks。本文次要介绍如何将开源Airflow工作流调度引擎中的作业迁徙至DataWorks上。

反对迁徙的Airflow版本

Airflow反对迁徙的版本：python >= 3.6.x airfow >=1.10.x

整体迁徙流程

迁徙助手反对开源工作流调度引擎到DataWorks体系的大数据开发工作迁徙的根本流程如下图示。

针对不同的开源调度引擎，DataWorks迁徙助手会出一个相干的工作导出计划。

整体迁徙流程为：通过迁徙助手调度引擎作业导出能力，将开源调度引擎中的作业导出；再将作业导出包上传至迁徙助手中，通过工作类型映射，将映射后的作业导入至DataWorks中。作业导入时可设置将工作转换为MaxCompute类型作业、EMR类型作业、CDH类型作业等。

Airflow作业导出

导出原理介绍：在用户的Airflow的执行环境外面，利用Airflow的Python库加载用户在Ariflow上调度的dag folder（用户本人的dag python文件所在目录）。导出工具在内存中通过Airflow的Python库去读取dag的外部工作信息及其依赖关系，将生成的dag信息通过写入json文件导出。

具体的执行命令可进入迁徙助手->工作上云->调度引擎作业导出->Airflow页面中查看。

Airflow作业导入

拿到了开源调度引擎的导出工作包后，用户能够拿这个zip包到迁徙助手的迁徙助手->工作上云->调度引擎作业导入页面上传导入包进行包剖析。

导入包剖析胜利后点击确认，进入导入工作设置页面，页面中会展现剖析进去的调度工作信息。

开源调度导入设置

用户能够点击高级设置，设置Airflow工作与DataWorks工作的转换关系。不同的开源调度引擎，在高级设置外面的设置界面基本一致如下。

高级设置项介绍：

sparkt-submit转换为：导入过程会去剖析用户的工作是不是sparkt-submit工作，如果是的话，会将spark-submit工作转换为对应的DataWorks工作类型，比如说：ODPS\_SPARK/EMR\_SPARK/CDH\_SPARK等
命令行 SQL工作转换为：开源引擎很多工作类型是命令行运行SQL，比如说hive -e, beeline -e, impala-shell等等，迁徙助手会依据用户抉择的指标类型做对应的转换。比方能够转换成ODPS\_SQL, EMR\_HIVE, EMR\_IMPALA, EMR\_PRESTO, CDH\_HIVE, CDH\_PRESTO, CDH\_IMPALA等等
指标计算引擎类型：这个次要是影响的是Sqoop同步的目标端的数据写入配置。咱们会默认将sqoop命令转换为数据集成工作。计算引擎类型决定了数据集成工作的目标端数据源应用哪个计算引擎的project。
Shell类型转换为：SHELL类型的节点在Dataworks依据不同计算引擎会有很多种，比方EMR\_SHELL，CDH\_SHELL，DataWorks本人的Shell节点等等。
未知工作转换为：对目前迁徙助手无奈解决的工作，咱们默认用一个工作类型去对应，用户能够抉择SHELL或者虚节点VIRTUAL
SQL节点转换为：DataWorks上的SQL节点类型也因为绑定的计算引擎的不同也有很多种。比方 EMR\_HIVE，EMR\_IMPALA、EMR\_PRESTO，CDH\_HIVE，CDH\_IMPALA，CDH\_PRESTO，ODPS\_SQL，EMR\_SPARK\_SQL，CDH\_SPARK\_SQL等，用户能够抉择转换为哪种工作类型。

留神：这些导入映射的转换值是动态变化的，和以后我的项目空间绑定的计算引擎无关，转换关系如下。

导入至DataWorks + MaxCompute

设置项	可选值
sparkt-submit转换为	ODPS_SPARK
<span>命令行 SQL工作转换为</span>	ODPS_SQL、ODPS_SPARK_SQL
<span>指标计算引擎类型</span>	ODPS
<span>Shell类型转换为</span>	DIDE_SHELL
<span>未知工作转换为</span>	DIDE_SHELL、VIRTUAL
<span>SQL节点转换为</span>	ODPS_SQL、ODPS_SPARK_SQL

### 导入至DataWorks + EMR

设置项	可选值
sparkt-submit转换为	EMR_SPARK
命令行 SQL工作转换为	EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL
指标计算引擎类型	EMR
Shell类型转换为	DIDE_SHELL, EMR_SHELL
未知工作转换为	DIDE_SHELL、VIRTUAL
SQL节点转换为	EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL

### 导入至DataWorks + CDH

设置项	可选值
sparkt-submit转换为	CDH_SPARK
命令行 SQL工作转换为	CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL
指标计算引擎类型	CDH
Shell类型转换为	DIDE_SHELL
未知工作转换为	DIDE_SHELL、VIRTUAL
SQL节点转换为	CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL

## 执行导入

设置完映射关系后，点击开始导入即可。导入实现后，请进入数据开发中查看导入后果。

## 数据迁徙

大数据集群上的数据迁徙，可参考：DataWorks数据集成或MMA。

工作上云具体文档：https://help.aliyun.com/document\_detail/181296.html

> 版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于sql:DataWorks搬站方案Airflow作业迁移至DataWorks

反对迁徙的Airflow版本

整体迁徙流程

Airflow作业导出

Airflow作业导入

开源调度导入设置

导入至DataWorks + MaxCompute

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于sql:DataWorks搬站方案Airflow作业迁移至DataWorks

反对迁徙的Airflow版本

整体迁徙流程

Airflow作业导出

Airflow作业导入

开源调度导入设置

导入至DataWorks + MaxCompute

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复