先说一些废话
因为之前本人工作中有用过 Azkaban 作为自动化任务调度工具,所以想参考本人之前的应用教训,总结一下对于 Azkaban 的应用,不便大家应用 Azkaban 疾速实现企业级自动化工作
如何抉择市面上的任务调度工具
- 简略的工作
Linux crontab 是用来定期执行程序的命令 - 简单的工作
Oozie/Azkaban/Airflow/DolphinScheduler
Azkaban 是一个分布式工作流管理程序,解决 Hadoop 工作依赖性问题
Oozie 相比 Azkaban 是一个重量级的任务调度零碎,性能全面,但配置应用也更简单
Airflow 应用 python 脚本
DolphinScheduler 应用可视化的形式操作,国产,所以当初比拟火
Azkaban 和 Oozie 之间的区别
总体来说,ooize 相比 azkaban 是一个重量级的任务调度零碎,性能全面,但配置应用也更简单,
如果能够不在意某些性能的缺失,轻量级调度器 azkaban 是很不错的候选对象
-
性能
- 两者均能够调度 linux、mapreduce、pig、spark、java 等脚本工作流工作
- 两者均能够定时执行工作流工作
-
工作流定义
- Azkaban 应用 Properties 文件定义工作流
- Oozie 应用 XML 文件定义工作流
-
工作流传参
- Azkaban 反对间接传参,例如
${input}
- Oozie 反对参数和 EL 表达式,例如
${fs:dirSize(myInputDir)}
- Azkaban 反对间接传参,例如
-
定时执行
- Azkaban 的定时执行工作是基于工夫的
- Oozie 的定时执行工作基于工夫和输出数据,功能强大,然而带来配置的复杂度比拟高
-
资源管理
- Azkaban 有较严格的权限管制,如用户对工作流进行读 / 写 / 执行等操作
- Oozie 暂无严格的权限管制,多人合作就比拟麻烦了
-
工作流执行
- Azkaban 有三种运行模式:solo server mode、two server mode、multiple executor mode
- Oozie 作为工作流服务器运行,反对多用户和多工作流
-
工作流治理
- Azkaban 反对浏览器以及 ajax 形式操作工作流
- Oozie 反对命令行、HTTP REST、Java API、浏览器操作工作流
-
依赖
- Azkaban 依赖于 MySql
- Oozie 依赖于 hadoop
什么是 Azkaban
Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,次要用于在一个工作流内以一个特定的程序运行一组工作和流程,
它的配置是通过简略的 key:value 对的形式,通过配置中的 dependencies 来设置依赖关系。
Azkaban 应用 job 配置文件建设工作之间的依赖关系,并提供一个易于应用的 web 用户界面保护和跟踪你的工作流。
Azkaban 的特点
- 兼容任何版本的 hadoop
- 易于应用的 Web 用户界面
- 简略的工作流的上传
- 不便设置工作之间的关系
- 调度工作流
- 模块化和可插拔的插件机制
- 认证 / 受权(权限的工作)
- 可能杀死并重新启动工作流
- 无关失败和胜利的电子邮件揭示
架构
AzkabanWebServer
AzkabanWebServer
是整个 Azkaban 工作流零碎的次要管理者,它用户登录认证、负责 project 治理、定时执行工作流、跟踪工作流执行进度等一系列工作
AzkabanExecutorServer
负责具体的工作流的提交、执行,它们通过 mysql 数据库来协调工作的执行
关系型数据库(MySQL)
存储大部分执行流状态,AzkabanWebServer
和 AzkabanExecutorServer
都须要拜访数据库
部署模式
-
Solo
- WebServer 和 ExecServer 都启动在一个 JVM 中,就一个过程
- 应用内置的 H2 数据库来存储元数据
-
Two Server
- 一台机器模式:只有一台 ExecutorServer
- WebServer 和 ExecutorServer 是不同的独立的过程
- 应用 MySQL 存储元数据
-
Multiple Executor
- 从 3.+ 开始,反对多个 Executor
- 多台机器模式:多个 ExecutorServer
- WebServer 和 Executor 能够不在一台机器上
- 应用 MySQL 存储元数据
应用多 Executor 模式的注意事项
为确保所选的 Executor 可能精确的执行工作,咱们须在以下两种计划任选其一,举荐应用计划二
-
计划一:指定特定的 Executor(hadoop101)去执行工作
- 在
MySQL
中Azkaban
数据库executors
表中,查问hadoop101 上的 Executor 的 id
- 在执行工作流程时退出
useExecutor
属性
- 在
- 计划二:在
Executor
所在所有节点部署工作所需脚本和利用
装置依赖包及其作用
# 该包中就是所有的建表语句,次要是配置 MySQL
azkaban-db-3.84.4.tar.gz
# 执行服务器(Executor)配置
azkaban-exec-server-3.84.4.tar.gz
# 服务器(Web)配置
azkaban-web-server-3.84.4.tar.gz
拜访端口号
默认是 8443,能够通过批改配置文件azkaban.properties
的形式更改端口号
端口号应用规定:jetty.ssl.port > jetty.port
然而应用 jetty.ssl.port
的前提是jetty.use.ssl = true
,这个配置示意开启 ssl 安全套接层,否则应用 jetty.port 端口
# 示例配置文件
jetty.use.ssl=false
jetty.maxThreads=25
jetty.ssl.port=8443
jetty.port=8081
jetty.keystore=keystore
jetty.password=password
jetty.keypassword=password
jetty.truststore=keystore
jetty.trustpassword=password
根本应用
次要性能
- Projects:最重要的局部,创立一个工程,所有
flows
将在工程中运行 - Scheduling: 显示定时工作
- Executing: 显示以后运行的工作
- History: 显示历史运行工作
根本流程步骤
- 首先须要阐明的是因为利用界面化操作,所以相干的文件间接在本地 windows 零碎里去编辑,创立,打包 zip 即可
-
创立
xxx.project
工程文件# 作用:# 示意采纳新的 Flow-API 形式解析 flow 文件 # 内容:# 示意以后解析 flow 文件的 azkaban 版本为 2.0 azkaban-flow-version: 2.0
-
创立
xxx.flow
流程工作文件# 作用:# 示意作业调度过程 # 内容:# yaml 语法的编写 # name 示意 job 的名称 # type 示意 job 的类型 # command 示意你要执行作业的形式为命令,这里意思输出 Hello World nodes: - name: jobA type: command config: command: echo "Hello World"
- 将上述两个文件压缩成一个
.zip
文件,并上传 须要留神的是:压缩包的文件名称必须是英文 - 上传后,如果想看
Job
的内容是什么,能够在Job Command
中能够查看解析出工作内容 - 点击
Flows
中Command
工作,能够进入到工作的具体界面,Execute
能够执行工作,Schedul
能够进行定时调度 - 执行后的工作中,点击
Job List
能够查看执行日志,Flow Log
能够查看流程日志,绿色示意胜利,蓝色示意正在执行,红色示意执行失败 - 工作执行后,能够在
History
中查看工作历史记录
常见工作类型
执行 shell 命令
type=command
command=echo 'hello-world'
执行 shell 脚本
type=command
command=sh hello-world.sh
执行 Spark 程序
type=command
command=/usr/install/spark/bin/spark-submit --class com.test.AzkabanTest test-0.1.0.jar
执行 hive 命令、脚本
type=command
command=beeline -u jdbc:hive://localhost:7777 -n hive -p hive -f 'test.sql'
执行 MapReduce 程序
type=command
command=${HADOOP_HOME}bin/hadoop jar hadoop-mapreduce-examples--0.1.0.jar
mapreduce-test ${input} ${output}
多任务依赖案例
应用 dependsOn
属性来示意依赖,他的值是一个数组
# 示例 basic.flow
# JobA 和 JobB 执行完了,能力执行 JobC
nodes:
- name: jobA
type: command
config:
command: echo "I’m JobA"
- name: jobB
type: command
config:
command: echo "I’m JobB"
- name: jobC
type: command
# jobC 依赖 JobA 和 JobB
dependsOn:
- jobA
- jobB
config:
command: echo "I’m JobC"
失败重试
主动失败重试
应用 retries
和 retry.backoff
来配置重试次数,重试的工夫距离
# 示例 basic.flow,在工作中配置
nodes:
- name: JobA
type: command
config:
# 执行脚本
command: sh xxx.sh
# 重试次数 3 次
retries: 3
# 重试间隔时间 10000ms 也就是 10s
retry.backoff: 10000
# 示例 basic.flow,在 flow 的全局配置
config:
retries: 3
retry.backoff: 10000
nodes:
- name: jobA
type: command
config:
command: sh xxxq.sh
- name: jobB
type: command
config:
command: sh xxxb.sh
- name: jobC
type: command
dependsOn:
- jobA
- jobB
config:
command: sh xxxc.sh
手动失败重试
在 Flow View
界面右键点击须要重拾的 Job
,抉择须要的从新执行的某个过程,Enable
和Disable
上面都别离有如下参数:
- Parents:该作业的上一个工作
- Ancestors:该作业前的所有工作
- Children:该作业后的一个工作
- Descendents:该作业后的所有工作
- Enable All:所有的工作
运行 Java 主类办法
JavaProcess 类型能够运行一个自定义主类办法,type 类型为 javaprocess,可用的配置为:
- Xms:最小堆
- Xmx:最大堆
- classpath:类门路
- java.class:要运行的
Java 对象
,其中必须蕴含Main
办法 - main.args:
Main
办法的参数
运行 Java 主类办法案例
# 示例 basic.flow
nodes:
- name: test_java
type: javaprocess
config:
Xms: 96M
Xmx: 200M
java.class: com.fx67ll.springboot.AzkabanTest
应用条件工作流
应用运行时参数来应用条件
-
基本原理
- 父 Job 将参数写入
JOB_OUTPUT_PROP_FILE
所指向的环境变量文件 - 子 Job 应用 EL 表达式
${jobName:param}
来获取父 Job 输入的参数并定义执行条件
- 父 Job 将参数写入
-
反对的条件参数
== 等于 != 不等于 > 大于 >= 大于等于 < 小于 <= 小于等于 && 与 || 或 ! 非
-
案例:JobB 依赖 JobA,然而 JobB 不须要每天都执行,只须要每个周一执行
# 示例 JobA.sh echo "do JobA" # 获取以后是周几 wk=`date + %w` echo "{\"wk\":$wk}" >$JOB_OUTPUT_PROP_FILE # 示例 JobB.sh echo "do JobB" # 示例 basic.flow nodes: - name: jobA type: command config: command: sh JobA.sh - name: jobB type: command dependsOn: - jobA config: command: sh JobB.sh condition: ${JobA:wk} == 1
应用预约义宏
Azkaban 中预置了几个非凡的判断条件,称为预约义宏,预约义宏会依据所有父 Job 的实现状况进行判断,再决定是否执行,可用的预约义宏如下:
# all_success: 示意父 Job 全副胜利才执行(默认) # all_done:示意父 Job 全副实现才执行 # all_failed:示意父 Job 全副失败才执行 # one_success:示意父 Job 至多一个胜利才执行 # one_failed:示意父 Job 至多一个失败才执行 # 示例 JobA.sh echo "do JobA" # 示例 JobB.sh echo "do JobB" # 示例 JobC.sh echo "do JobC" # 示例 basic.flow nodes: - name: jobA type: command config: command: sh JobA.sh - name: jobB type: command config: command: sh JobA.sh dependsOn: - jobA - jobB config: command: sh JobC.sh condition: one_success # 提交的时候成心不提交 JobB.sh,以测试预约义宏是否失效
定时执行
在执行工作流时候,抉择左下角 Schedule
按钮,在 Schedule Flow Options
配置即可
告警
邮件告警
能够参考视频教程————大数据 Azkaban 教程具体学习,这里前期会补上阐明
电话告警
能够参考视频教程————大数据 Azkaban 教程具体学习,这里前期会补上阐明
YAML
什么是 YAML
YAML(YAML 不是标记语言)是一种非常灵活的格局,简直是 JSON 的超集,曾经被用在一些驰名的我的项目中,如 Travis CI、Circle CI 和 AWS CloudFormation。
YAML 的库简直和 JSON 一样无处不在。除了反对正文、换行符分隔、多行字符串、裸字符串和更灵便的类型零碎之外,YAML 也反对援用文件,以防止反复代码。
YAML 简介
- YAML 语言的设计参考了 JSON,XML 和 SDL 等语言,YAML 强调以数据为核心,简洁易读,编写简略
- YAML 语言(发音 /ˈjæməl/)的设计指标,就是不便人类读写,它本质上是一种通用的数据串行化格局
- YAML 有一个小的怪癖,所有的 YAML 文件开始行都应该是
---
,这是 YAML 格局的一部分,表明一个文件的开始
有意思的命名
YAML 全称是 “YAML Ain’t a Markup Language”(YAML 不是一种置标语言)的递归缩写。
在开发的这种语言时,YAML 的意思其实是:”Yet Another Markup Language”(仍是一种置标语言)
语法特点
大小写敏感
通过缩进示意层级关系
禁止应用 tab 缩进,只能应用空格键
缩进的空格数目不重要,只有雷同层级左对齐即可
应用 # 示意正文
反对的数据结构
- 对象:键值对的汇合,又称为映射(mapping)/ 哈希(hashes)/ 字典(dictionary)
- 数组:一组按秩序排列的值,又称为序列(sequence)/ 列表(list)
- 纯量(scalars):单个的、不可再分的值
语法阐明
-
引号
a. 双引号 "":不会本义字符串外面的特殊字符,特殊字符作为自身想示意的意思。name: "123\n123" 输入:123 换行 123 b. 单引号 '':会将字符串外面的特殊字符本义为字符串解决 name: "123\n123" 输入:123\n123 c. 如果不加引号将会本义特殊字符,当成字符串解决
-
文本块
a. |:应用 | 标注的文本内容缩进示意的块,能够保留块中已有的回车换行 value: | hello world! 输入:hello 换行 world!b. + 示意保留文字块开端的换行,- 示意删除字符串开端的换行 value: | hello value: |- hello value: |+ hello 输入:hello\n hello hello\n\n(有多少个回车就有多少个 \n) 留神 "|" 与 文本之间须另起一行 c. >:应用 > 标注的文本内容缩进示意的块,将块中回车替换为空格,最终连接成一行 value: > hello world! 输入:hello 空格 world!留神 ">" 与 文本之间的空格,应用定界符 ""(双引号)、''(单引号)或回车示意的块,最终示意成一行
-
锚点与援用
应用 & 定义数据锚点(即要复制的数据),应用 * 援用锚点数据(即数据的复制目的地)name: &a yaml book: *a books: - java - *a - python 输入 book:yaml 输入 books:[java,yaml,python] 留神 * 援用局部不能追加内容
-
纯量与数据类型约定
a. 纯量是最根本的、不可再分的值 b. 字符串 应用 ''或"" 或不应用引号 value0: 'hello World!' value1: "hello World!" value2: hello World! c. 布尔值 true 或 false 示意 d. 数字 12 # 整数 014 # 八进制整数 0xC # 十六进制整数 13.4 # 浮点数 1.2e+34 # 指数 .inf 空值 # 无穷大 c. 空值 null 或~ 示意 d. 日期 应用 iso-8601 规范示意日期 date: 2018-01-01t16:59:43.10-05:00 在 springboot 中 yaml 文件的工夫格局 date: yyyy/MM/dd HH:mm:ss e. 强制类型转换 YAML 容许应用个感叹号!,强制转换数据类型,单叹号通常是自定义类型,双叹号是内置类型 money: !!str 123 date: !Boolean true f. 内置类型:!!int # 整数类型 !!float # 浮点类型 !!bool # 布尔类型 !!str # 字符串类型 !!binary # 也是字符串类型 !!timestamp # 日期工夫类型 !!null # 空值 !!set # 汇合 !!omap,!!pairs # 键值列表或对象列表 !!seq # 序列,也是列表 !!map # 键值表
-
对象
Map(属性和值)(键值对)的模式:key: 空格 v:示意一堆键值对,空格不可省略 car: color: red brand: BMW 一行写法 car:{color: red,brand: BMW} 相当于 json:{"color":"red","brand":"BMW"} 例如示意 url 属性值 url: https://www.liuluanyi.cn 转为 JavaScript 如下: {url: 'https://www.liuluanyi.cn'} YAML 也容许另一种写法,将所有键值对写成一个行内对象 host: {ip: 10.1.1.1, port: 2222} 转为 JavaScript 如下: {host: { ip: '10.1.1.1', port: 2222} }
-
数组
a. 一组连词线结尾的行,形成一个数组 brand: - audi - bmw - ferrari 一行写法 brand: [audi,bmw,ferrari] 相当于 json ["auri","bmw","ferrari"] b. 数组对象:列表中的所有成员都开始于雷同的缩进级别,并且应用一个 --- 作为结尾 --- ipaddr: - 120.168.117.21 - 120.168.117.22 - 120.168.117.23 转为 JavaScript 如下: ipaddr: ['120.168.117.21', '120.168.117.22', '120.168.117.23'] c. 数据结构的子成员是一个数组,则能够在该项上面缩进一个空格。- - source - destination - services 转为 JavaScript 如下: [[ 'source', 'destination', 'services'] ] d. 数组也能够采纳行内 (或者流式) 表示法。services: [FTP, SSH] companies: [{id: 1,name: company1,price: 200W},{id: 2,name: company2,price: 500W}] 转为 JavaScript 如下: {services: [ 'FTP', 'SSH'] } { companies: [{ id: 1, name: 'company1', price: '200W'}, {id: 2, name: 'company2', price: '500W'} ] } f. 对象和数组复合应用 languages: - Ruby - Perl - Python websites: YAML: yaml.org Ruby: ruby-lang.org Python: python.org 转为 JavaScript 如下: {languages: [ 'Ruby', 'Perl', 'Python'], websites: {YAML: 'yaml.org', Ruby: 'ruby-lang.org', Python: 'python.org'} }
-
常量
布尔值 boolean: - TRUE #true,True 都能够 - FALSE #false,False 都能够 浮点数 float: - 3.14 - 6.8523015e+5 #能够应用迷信计数法 整数 int: - 123 - 0b1010_0111_0100_1010_1110 #二进制示意 Null null: nodeName: 'node' parent: ~ #应用~ 示意 null 字符串 string: - 哈哈 - 'Hello world' #能够应用双引号或者单引号包裹特殊字符 - newline newline2 #字符串能够拆成多行,每一行会被转化成一个空格 工夫 date: - 2018-02-17 #日期必须应用 ISO 8601 格局,即 yyyy-MM-dd 日期 datetime: - 2018-02-17T15:02:31+08:00 #工夫应用 ISO 8601 格局,工夫和日期之间应用 T 连贯,最初应用 + 代表时区 转为 JavaScript 如下: {boolean: [ true, false], float: [3.14, 685230.15], int: [123, 685230], null: {nodeName: 'node', parent: null}, string: ['哈哈', 'Hello world', 'newline newline2'], date: [Sat Feb 17 2018 08:00:00 GMT+0800 (中国规范工夫) ], datetime: [Sat Feb 17 2018 15:02:31 GMT+0800 (中国规范工夫) ] }
-
特殊符号总结
a. YAML 容许应用两个感叹号,强制转换数据类型 test1: !!str 123 test2: !!str true 转为 JavaScript 如下: {test1: '123', test2: 'true'} b. … 和 --- 配合应用,在一个配置文件中代表一个文件的完结:--- time: 20:03:20 player: Sammy Sosa action: strike (miss) ... --- time: 20:03:47 player: Sammy Sosa action: grand slam ... c. > 在字符串中折叠换行,| 保留换行符,这两个符号是 YAML 中字符串常常应用的符号 this: | Foo Bar that: > Foo Bar 转为 JavaScript 如下: {this: 'Foo\nBar\n', that: 'Foo Bar\n'} d. 援用,反复的内容在 YAML 中能够应用 & 来实现锚点定义,应用 * 来实现锚点援用 defaults: &defaults adapter: postgres host: localhost development: database: myapp_development <<: *defaults test: database: myapp_test <<: *defaults 转为 JavaScript 如下: {defaults: { adapter: 'postgres', host: 'localhost'}, development: { database: 'myapp_development', adapter: 'postgres', host: 'localhost' }, test: { database: 'myapp_test', adapter: 'postgres', host: 'localhost' } } 留神,不能独立的定义锚点,比方不能间接这样写:&SS Sammy Sosa 另外,锚点可能定义更简单的内容,比方:default: &default - Mark McGwire - Sammy Sosa hr: *default 那么 hr 相当于援用了 default 的数组,留神,hr: *default 要写在同一行
我是 fx67ll.com,如果您发现本文有什么谬误,欢送在评论区探讨斧正,感谢您的浏览!
如果您喜爱这篇文章,欢送拜访我的 本文 github 仓库地址,为我点一颗 Star,Thanks~ :)
转发请注明参考文章地址,非常感谢!!!