关于大数据:Azkaban快速入门

先说一些废话

因为之前本人工作中有用过Azkaban作为自动化任务调度工具，所以想参考本人之前的应用教训，总结一下对于Azkaban的应用，不便大家应用Azkaban疾速实现企业级自动化工作

如何抉择市面上的任务调度工具

简略的工作
Linux crontab是用来定期执行程序的命令
简单的工作
Oozie/Azkaban/Airflow/DolphinScheduler
Azkaban 是一个分布式工作流管理程序，解决Hadoop工作依赖性问题
Oozie 相比 Azkaban 是一个重量级的任务调度零碎，性能全面，但配置应用也更简单
Airflow 应用python脚本
DolphinScheduler 应用可视化的形式操作，国产，所以当初比拟火

Azkaban和Oozie之间的区别

总体来说，ooize相比azkaban是一个重量级的任务调度零碎，性能全面，但配置应用也更简单，
如果能够不在意某些性能的缺失，轻量级调度器azkaban是很不错的候选对象

性能
- 两者均能够调度linux、mapreduce、pig、spark、java等脚本工作流工作
- 两者均能够定时执行工作流工作
工作流定义
- Azkaban应用Properties文件定义工作流
- Oozie应用XML文件定义工作流
工作流传参
- Azkaban反对间接传参，例如${input}
- Oozie反对参数和EL表达式，例如${fs:dirSize(myInputDir)}
定时执行
- Azkaban的定时执行工作是基于工夫的
- Oozie的定时执行工作基于工夫和输出数据，功能强大，然而带来配置的复杂度比拟高
资源管理
- Azkaban有较严格的权限管制，如用户对工作流进行读/写/执行等操作
- Oozie暂无严格的权限管制，多人合作就比拟麻烦了
工作流执行
- Azkaban有三种运行模式：solo server mode、 two server mode、multiple executor mode
- Oozie作为工作流服务器运行，反对多用户和多工作流
工作流治理
- Azkaban反对浏览器以及ajax形式操作工作流
- Oozie反对命令行、HTTP REST、Java API、浏览器操作工作流
依赖
- Azkaban依赖于MySql
- Oozie依赖于hadoop

什么是Azkaban

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，次要用于在一个工作流内以一个特定的程序运行一组工作和流程，
它的配置是通过简略的key:value对的形式，通过配置中的dependencies 来设置依赖关系。
Azkaban应用job配置文件建设工作之间的依赖关系，并提供一个易于应用的web用户界面保护和跟踪你的工作流。

Azkaban的特点

兼容任何版本的hadoop
易于应用的Web用户界面
简略的工作流的上传
不便设置工作之间的关系
调度工作流
模块化和可插拔的插件机制
认证/受权(权限的工作)
可能杀死并重新启动工作流
无关失败和胜利的电子邮件揭示

架构

AzkabanWebServer

AzkabanWebServer是整个Azkaban工作流零碎的次要管理者，它用户登录认证、负责project治理、定时执行工作流、跟踪工作流执行进度等一系列工作

AzkabanExecutorServer

负责具体的工作流的提交、执行，它们通过mysql数据库来协调工作的执行

关系型数据库（MySQL）

存储大部分执行流状态，AzkabanWebServer和AzkabanExecutorServer都须要拜访数据库

部署模式

Solo
- WebServer和ExecServer都启动在一个JVM中，就一个过程
- 应用内置的H2数据库来存储元数据
Two Server
- 一台机器模式：只有一台ExecutorServer
- WebServer和ExecutorServer是不同的独立的过程
- 应用MySQL存储元数据
Multiple Executor
- 从3.+ 开始，反对多个Executor
- 多台机器模式：多个ExecutorServer
- WebServer和Executor能够不在一台机器上
- 应用MySQL存储元数据
应用多Executor模式的注意事项
为确保所选的 Executor 可能精确的执行工作，咱们须在以下两种计划任选其一，举荐应用计划二
计划一：指定特定的 Executor（hadoop101）去执行工作
- 在MySQL中Azkaban数据库executors表中，查问hadoop101上的Executor的id
- 在执行工作流程时退出useExecutor属性
计划二：在Executor所在所有节点部署工作所需脚本和利用

装置依赖包及其作用

# 该包中就是所有的建表语句，次要是配置 MySQLazkaban-db-3.84.4.tar.gz  # 执行服务器（Executor）配置azkaban-exec-server-3.84.4.tar.gz  # 服务器（Web）配置azkaban-web-server-3.84.4.tar.gz

拜访端口号

默认是8443，能够通过批改配置文件azkaban.properties的形式更改端口号
端口号应用规定：jetty.ssl.port > jetty.port
然而应用jetty.ssl.port的前提是jetty.use.ssl = true，这个配置示意开启ssl安全套接层，否则应用jetty.port端口

# 示例配置文件jetty.use.ssl=falsejetty.maxThreads=25jetty.ssl.port=8443jetty.port=8081jetty.keystore=keystorejetty.password=passwordjetty.keypassword=passwordjetty.truststore=keystorejetty.trustpassword=password

根本应用

次要性能

Projects：最重要的局部，创立一个工程，所有flows将在工程中运行
Scheduling: 显示定时工作
Executing: 显示以后运行的工作
History: 显示历史运行工作

根本流程步骤

首先须要阐明的是因为利用界面化操作，所以相干的文件间接在本地windows零碎里去编辑，创立，打包zip即可

创立xxx.project工程文件

# 作用：  # 示意采纳新的 Flow-API 形式解析 flow 文件# 内容：  # 示意以后解析 flow 文件的 azkaban 版本为 2.0azkaban-flow-version: 2.0

创立xxx.flow流程工作文件

# 作用：  # 示意作业调度过程# 内容：  # yaml 语法的编写  # name 示意 job 的名称  # type 示意 job 的类型  # command 示意你要执行作业的形式为命令，这里意思输出Hello Worldnodes:  - name: jobA    type: command    config:      command: echo "Hello World"

将上述两个文件压缩成一个.zip文件，并上传 须要留神的是：压缩包的文件名称必须是英文
上传后，如果想看Job的内容是什么，能够在Job Command中能够查看解析出工作内容
点击Flows中Command工作，能够进入到工作的具体界面，Execute能够执行工作，Schedul能够进行定时调度
执行后的工作中，点击Job List能够查看执行日志，Flow Log能够查看流程日志，绿色示意胜利，蓝色示意正在执行，红色示意执行失败
工作执行后，能够在History中查看工作历史记录

常见工作类型

执行 shell 命令

type=commandcommand=echo 'hello-world'

执行 shell 脚本

type=commandcommand=sh hello-world.sh

执行 Spark 程序

type=commandcommand=/usr/install/spark/bin/spark-submit --class com.test.AzkabanTest test-0.1.0.jar

执行 hive 命令、脚本

type=commandcommand=beeline -u jdbc:hive://localhost:7777 -n hive -p hive -f 'test.sql'

执行 MapReduce 程序

type=commandcommand=${HADOOP_HOME}bin/hadoop jar hadoop-mapreduce-examples--0.1.0.jarmapreduce-test ${input} ${output}

多任务依赖案例

应用dependsOn属性来示意依赖，他的值是一个数组

# 示例 basic.flow# JobA 和 JobB 执行完了，能力执行 JobCnodes:  - name: jobA  type: command  config:    command: echo "I’m JobA"  - name: jobB  type: command  config:    command: echo "I’m JobB"  - name: jobC    type: command    # jobC 依赖 JobA 和 JobB    dependsOn:      - jobA      - jobB    config:      command: echo "I’m JobC"

失败重试

主动失败重试

应用retries和 retry.backoff来配置重试次数，重试的工夫距离

# 示例 basic.flow，在工作中配置nodes:  - name: JobA    type: command    config:      # 执行脚本      command: sh xxx.sh      # 重试次数 3次      retries: 3      # 重试间隔时间 10000ms 也就是10s      retry.backoff: 10000      # 示例 basic.flow，在flow的全局配置config:  retries: 3  retry.backoff: 10000nodes:  - name: jobA    type: command    config:      command: sh xxxq.sh  - name: jobB  type: command  config:    command: sh xxxb.sh  - name: jobC    type: command    dependsOn:      - jobA      - jobB    config:      command: sh xxxc.sh

手动失败重试

在Flow View界面右键点击须要重拾的Job，抉择须要的从新执行的某个过程，Enable和Disable上面都别离有如下参数：

Parents：该作业的上一个工作
Ancestors：该作业前的所有工作
Children：该作业后的一个工作
Descendents：该作业后的所有工作
Enable All：所有的工作

运行Java主类办法

JavaProcess 类型能够运行一个自定义主类办法，type 类型为 javaprocess，可用的配置为：

Xms：最小堆
Xmx：最大堆
classpath：类门路
java.class：要运行的Java对象，其中必须蕴含Main办法
main.args：Main办法的参数

运行Java主类办法案例

# 示例 basic.flownodes:  - name: test_java    type: javaprocess    config:      Xms: 96M      Xmx: 200M      java.class: com.fx67ll.springboot.AzkabanTest

应用条件工作流

应用运行时参数来应用条件

基本原理
- 父Job将参数写入 JOB_OUTPUT_PROP_FILE 所指向的环境变量文件
- 子Job应用EL表达式 ${jobName:param} 来获取父Job输入的参数并定义执行条件

反对的条件参数

== 等于!= 不等于> 大于>= 大于等于< 小于<= 小于等于&& 与|| 或! 非

案例：JobB依赖JobA，然而JobB不须要每天都执行，只须要每个周一执行

# 示例 JobA.shecho "do JobA"# 获取以后是周几wk=`date + %w`echo "{\"wk\":$wk}" >$JOB_OUTPUT_PROP_FILE# 示例 JobB.shecho "do JobB"# 示例 basic.flownodes:  - name: jobA    type: command    config:      command: sh JobA.sh  - name: jobB    type: command    dependsOn:      - jobA    config:      command: sh JobB.sh      condition: ${JobA:wk} == 1

应用预约义宏

Azkaban 中预置了几个非凡的判断条件，称为预约义宏，预约义宏会依据所有父 Job 的实现状况进行判断，再决定是否执行，可用的预约义宏如下：

# all_success: 示意父 Job 全副胜利才执行(默认)  # all_done：示意父 Job 全副实现才执行  # all_failed：示意父 Job 全副失败才执行  # one_success：示意父 Job 至多一个胜利才执行  # one_failed：示意父 Job 至多一个失败才执行  # 示例 JobA.shecho "do JobA"# 示例 JobB.shecho "do JobB"# 示例 JobC.shecho "do JobC"# 示例 basic.flownodes:  - name: jobA    type: command    config:      command: sh JobA.sh  - name: jobB    type: command    config:      command: sh JobA.sh    dependsOn:      - jobA      - jobB    config:      command: sh JobC.sh      condition: one_success      # 提交的时候成心不提交 JobB.sh，以测试预约义宏是否失效

定时执行

在执行工作流时候，抉择左下角Schedule按钮，在Schedule Flow Options配置即可

告警

邮件告警

能够参考视频教程————大数据Azkaban教程具体学习，这里前期会补上阐明

电话告警