关于大数据:Azkaban快速入门

因为之前本人工作中有用过 Azkaban 作为自动化任务调度工具，所以想参考本人之前的应用教训，总结一下对于 Azkaban 的应用，不便大家应用 Azkaban 疾速实现企业级自动化工作

简略的工作
Linux crontab 是用来定期执行程序的命令
简单的工作
Oozie/Azkaban/Airflow/DolphinScheduler
Azkaban 是一个分布式工作流管理程序，解决 Hadoop 工作依赖性问题
Oozie 相比 Azkaban 是一个重量级的任务调度零碎，性能全面，但配置应用也更简单
Airflow 应用 python 脚本
DolphinScheduler 应用可视化的形式操作，国产，所以当初比拟火

总体来说，ooize 相比 azkaban 是一个重量级的任务调度零碎，性能全面，但配置应用也更简单，
如果能够不在意某些性能的缺失，轻量级调度器 azkaban 是很不错的候选对象

性能
- 两者均能够调度 linux、mapreduce、pig、spark、java 等脚本工作流工作
- 两者均能够定时执行工作流工作
工作流定义
- Azkaban 应用 Properties 文件定义工作流
- Oozie 应用 XML 文件定义工作流
工作流传参
- Azkaban 反对间接传参，例如${input}
- Oozie 反对参数和 EL 表达式，例如${fs:dirSize(myInputDir)}
定时执行
- Azkaban 的定时执行工作是基于工夫的
- Oozie 的定时执行工作基于工夫和输出数据，功能强大，然而带来配置的复杂度比拟高
资源管理
- Azkaban 有较严格的权限管制，如用户对工作流进行读 / 写 / 执行等操作
- Oozie 暂无严格的权限管制，多人合作就比拟麻烦了
工作流执行
- Azkaban 有三种运行模式：solo server mode、two server mode、multiple executor mode
- Oozie 作为工作流服务器运行，反对多用户和多工作流
工作流治理
- Azkaban 反对浏览器以及 ajax 形式操作工作流
- Oozie 反对命令行、HTTP REST、Java API、浏览器操作工作流
依赖
- Azkaban 依赖于 MySql
- Oozie 依赖于 hadoop

Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器，次要用于在一个工作流内以一个特定的程序运行一组工作和流程，
它的配置是通过简略的 key:value 对的形式，通过配置中的 dependencies 来设置依赖关系。
Azkaban 应用 job 配置文件建设工作之间的依赖关系，并提供一个易于应用的 web 用户界面保护和跟踪你的工作流。

兼容任何版本的 hadoop
易于应用的 Web 用户界面
简略的工作流的上传
不便设置工作之间的关系
调度工作流
模块化和可插拔的插件机制
认证 / 受权(权限的工作)
可能杀死并重新启动工作流
无关失败和胜利的电子邮件揭示

AzkabanWebServer是整个 Azkaban 工作流零碎的次要管理者，它用户登录认证、负责 project 治理、定时执行工作流、跟踪工作流执行进度等一系列工作

负责具体的工作流的提交、执行，它们通过 mysql 数据库来协调工作的执行

存储大部分执行流状态，AzkabanWebServer和 AzkabanExecutorServer 都须要拜访数据库

Solo
- WebServer 和 ExecServer 都启动在一个 JVM 中，就一个过程
- 应用内置的 H2 数据库来存储元数据
Two Server
- 一台机器模式：只有一台 ExecutorServer
- WebServer 和 ExecutorServer 是不同的独立的过程
- 应用 MySQL 存储元数据
Multiple Executor
- 从 3.+ 开始，反对多个 Executor
- 多台机器模式：多个 ExecutorServer
- WebServer 和 Executor 能够不在一台机器上
- 应用 MySQL 存储元数据
应用多 Executor 模式的注意事项

为确保所选的 Executor 可能精确的执行工作，咱们须在以下两种计划任选其一，举荐应用计划二
计划一：指定特定的 Executor（hadoop101）去执行工作
- 在 MySQL 中Azkaban数据库 executors 表中，查问hadoop101 上的 Executor 的 id
- 在执行工作流程时退出 useExecutor 属性
计划二：在 Executor 所在所有节点部署工作所需脚本和利用

# 该包中就是所有的建表语句，次要是配置 MySQL
azkaban-db-3.84.4.tar.gz  

# 执行服务器（Executor）配置
azkaban-exec-server-3.84.4.tar.gz  

# 服务器（Web）配置
azkaban-web-server-3.84.4.tar.gz

默认是 8443，能够通过批改配置文件azkaban.properties 的形式更改端口号
端口号应用规定：jetty.ssl.port > jetty.port
然而应用 jetty.ssl.port 的前提是jetty.use.ssl = true，这个配置示意开启 ssl 安全套接层，否则应用 jetty.port 端口

# 示例配置文件
jetty.use.ssl=false
jetty.maxThreads=25

jetty.ssl.port=8443
jetty.port=8081

jetty.keystore=keystore
jetty.password=password
jetty.keypassword=password
jetty.truststore=keystore
jetty.trustpassword=password

Projects：最重要的局部，创立一个工程，所有 flows 将在工程中运行
Scheduling: 显示定时工作
Executing: 显示以后运行的工作
History: 显示历史运行工作

首先须要阐明的是因为利用界面化操作，所以相干的文件间接在本地 windows 零碎里去编辑，创立，打包 zip 即可

创立 xxx.project 工程文件

# 作用：# 示意采纳新的 Flow-API 形式解析 flow 文件
# 内容：# 示意以后解析 flow 文件的 azkaban 版本为 2.0
azkaban-flow-version: 2.0

创立 xxx.flow 流程工作文件

# 作用：# 示意作业调度过程
# 内容：# yaml 语法的编写
  # name 示意 job 的名称
  # type 示意 job 的类型
  # command 示意你要执行作业的形式为命令，这里意思输出 Hello World
nodes:
  - name: jobA
    type: command
    config:
      command: echo "Hello World"

将上述两个文件压缩成一个 .zip 文件，并上传 须要留神的是：压缩包的文件名称必须是英文
上传后，如果想看 Job 的内容是什么，能够在 Job Command 中能够查看解析出工作内容
点击 Flows 中Command工作，能够进入到工作的具体界面，Execute能够执行工作，Schedul能够进行定时调度
执行后的工作中，点击 Job List 能够查看执行日志，Flow Log能够查看流程日志，绿色示意胜利，蓝色示意正在执行，红色示意执行失败
工作执行后，能够在 History 中查看工作历史记录

type=command
command=echo 'hello-world'

type=command
command=sh hello-world.sh

type=command
command=/usr/install/spark/bin/spark-submit --class com.test.AzkabanTest test-0.1.0.jar

type=command
command=beeline -u jdbc:hive://localhost:7777 -n hive -p hive -f 'test.sql'

type=command
command=${HADOOP_HOME}bin/hadoop jar hadoop-mapreduce-examples--0.1.0.jar
mapreduce-test ${input} ${output}

应用 dependsOn 属性来示意依赖，他的值是一个数组

# 示例 basic.flow
# JobA 和 JobB 执行完了，能力执行 JobC

nodes:
  - name: jobA
  type: command
  config:
    command: echo "I’m JobA"

  - name: jobB
  type: command
  config:
    command: echo "I’m JobB"

  - name: jobC
    type: command
    # jobC 依赖 JobA 和 JobB
    dependsOn:
      - jobA
      - jobB
    config:
      command: echo "I’m JobC"

应用 retries 和 retry.backoff来配置重试次数，重试的工夫距离

# 示例 basic.flow，在工作中配置
nodes:
  - name: JobA
    type: command
    config:
      # 执行脚本
      command: sh xxx.sh
      # 重试次数 3 次
      retries: 3
      # 重试间隔时间 10000ms 也就是 10s
      retry.backoff: 10000
      
# 示例 basic.flow，在 flow 的全局配置
config:
  retries: 3
  retry.backoff: 10000
nodes:
  - name: jobA
    type: command
    config:
      command: sh xxxq.sh
  - name: jobB
  type: command
  config:
    command: sh xxxb.sh
  - name: jobC
    type: command
    dependsOn:
      - jobA
      - jobB
    config:
      command: sh xxxc.sh

在 Flow View 界面右键点击须要重拾的 Job，抉择须要的从新执行的某个过程，Enable 和Disable上面都别离有如下参数：

Parents：该作业的上一个工作
Ancestors：该作业前的所有工作
Children：该作业后的一个工作
Descendents：该作业后的所有工作
Enable All：所有的工作

JavaProcess 类型能够运行一个自定义主类办法，type 类型为 javaprocess，可用的配置为：

Xms：最小堆
Xmx：最大堆
classpath：类门路
java.class：要运行的 Java 对象，其中必须蕴含Main 办法
main.args：Main办法的参数

# 示例 basic.flow
nodes:
  - name: test_java
    type: javaprocess
    config:
      Xms: 96M
      Xmx: 200M
      java.class: com.fx67ll.springboot.AzkabanTest

基本原理
- 父 Job 将参数写入 JOB_OUTPUT_PROP_FILE 所指向的环境变量文件
- 子 Job 应用 EL 表达式 ${jobName:param} 来获取父 Job 输入的参数并定义执行条件

反对的条件参数

== 等于
!= 不等于
> 大于
>= 大于等于
< 小于
<= 小于等于
&& 与
|| 或
! 非

案例：JobB 依赖 JobA，然而 JobB 不须要每天都执行，只须要每个周一执行

# 示例 JobA.sh
echo "do JobA"
# 获取以后是周几
wk=`date + %w`
echo "{\"wk\":$wk}" >$JOB_OUTPUT_PROP_FILE

# 示例 JobB.sh
echo "do JobB"

# 示例 basic.flow
nodes:
  - name: jobA
    type: command
    config:
      command: sh JobA.sh
  - name: jobB
    type: command
    dependsOn:
      - jobA
    config:
      command: sh JobB.sh
      condition: ${JobA:wk} == 1

Azkaban 中预置了几个非凡的判断条件，称为预约义宏，预约义宏会依据所有父 Job 的实现状况进行判断，再决定是否执行，可用的预约义宏如下：

# all_success: 示意父 Job 全副胜利才执行(默认)  
# all_done：示意父 Job 全副实现才执行  
# all_failed：示意父 Job 全副失败才执行  
# one_success：示意父 Job 至多一个胜利才执行  
# one_failed：示意父 Job 至多一个失败才执行  

# 示例 JobA.sh
echo "do JobA"

# 示例 JobB.sh
echo "do JobB"

# 示例 JobC.sh
echo "do JobC"

# 示例 basic.flow
nodes:
  - name: jobA
    type: command
    config:
      command: sh JobA.sh
  - name: jobB
    type: command
    config:
      command: sh JobA.sh
    dependsOn:
      - jobA
      - jobB
    config:
      command: sh JobC.sh
      condition: one_success
      
# 提交的时候成心不提交 JobB.sh，以测试预约义宏是否失效

在执行工作流时候，抉择左下角 Schedule 按钮，在 Schedule Flow Options 配置即可

能够参考视频教程————大数据 Azkaban 教程具体学习，这里前期会补上阐明

YAML（YAML 不是标记语言）是一种非常灵活的格局，简直是 JSON 的超集，曾经被用在一些驰名的我的项目中，如 Travis CI、Circle CI 和 AWS CloudFormation。
YAML 的库简直和 JSON 一样无处不在。除了反对正文、换行符分隔、多行字符串、裸字符串和更灵便的类型零碎之外，YAML 也反对援用文件，以防止反复代码。

YAML 语言的设计参考了 JSON，XML 和 SDL 等语言，YAML 强调以数据为核心，简洁易读，编写简略
YAML 语言（发音 /ˈjæməl/）的设计指标，就是不便人类读写，它本质上是一种通用的数据串行化格局
YAML 有一个小的怪癖，所有的 YAML 文件开始行都应该是 ---，这是 YAML 格局的一部分，表明一个文件的开始
有意思的命名
YAML 全称是 “YAML Ain’t a Markup Language”（YAML 不是一种置标语言）的递归缩写。
在开发的这种语言时，YAML 的意思其实是：”Yet Another Markup Language”（仍是一种置标语言）

大小写敏感
通过缩进示意层级关系
禁止应用 tab 缩进，只能应用空格键
缩进的空格数目不重要，只有雷同层级左对齐即可
应用 # 示意正文

对象：键值对的汇合，又称为映射（mapping）/ 哈希（hashes）/ 字典（dictionary）
数组：一组按秩序排列的值，又称为序列（sequence）/ 列表（list）
纯量（scalars）：单个的、不可再分的值

引号

a. 双引号 ""：不会本义字符串外面的特殊字符，特殊字符作为自身想示意的意思。name: "123\n123" 
输入：123 换行 123

b. 单引号 ''：会将字符串外面的特殊字符本义为字符串解决
name: "123\n123"
输入：123\n123

c. 如果不加引号将会本义特殊字符，当成字符串解决

文本块

a. |：应用 | 标注的文本内容缩进示意的块，能够保留块中已有的回车换行
value: |
   hello
   world!
输入：hello 换行 world！b. + 示意保留文字块开端的换行，- 示意删除字符串开端的换行  
value: |
hello

value: |-
hello

value: |+
hello
输入：hello\n hello hello\n\n(有多少个回车就有多少个 \n)
留神 "|" 与 文本之间须另起一行

c. >：应用 > 标注的文本内容缩进示意的块，将块中回车替换为空格，最终连接成一行
value: > hello
world!
输入：hello 空格 world！留神 ">" 与 文本之间的空格，应用定界符 ""（双引号）、''（单引号）或回车示意的块，最终示意成一行

锚点与援用

应用 & 定义数据锚点（即要复制的数据），应用 * 援用锚点数据（即数据的复制目的地）name: &a yaml
book: *a
books: 
   - java
   - *a
   - python

输入 book：yaml
输入 books：[java,yaml,python]

留神 * 援用局部不能追加内容

纯量与数据类型约定

a. 纯量是最根本的、不可再分的值  

b. 字符串
应用 ''或"" 或不应用引号
value0: 'hello World!'
value1: "hello World!"
value2: hello World!

c. 布尔值
true 或 false 示意  

d. 数字
12 # 整数 
014 # 八进制整数 
0xC # 十六进制整数 
13.4 # 浮点数 
1.2e+34 # 指数 
.inf 空值 # 无穷大

c. 空值
null 或~ 示意

d. 日期
应用 iso-8601 规范示意日期
date: 2018-01-01t16:59:43.10-05:00
在 springboot 中 yaml 文件的工夫格局 date: yyyy/MM/dd HH:mm:ss

e. 强制类型转换
YAML 容许应用个感叹号!，强制转换数据类型，单叹号通常是自定义类型，双叹号是内置类型  
money: !!str
123
date: !Boolean
true

f. 内置类型：!!int # 整数类型 
!!float # 浮点类型 
!!bool # 布尔类型 
!!str # 字符串类型 
!!binary # 也是字符串类型 
!!timestamp # 日期工夫类型 
!!null # 空值 
!!set # 汇合 
!!omap,!!pairs # 键值列表或对象列表
!!seq # 序列，也是列表 !!map # 键值表

对象

Map（属性和值）（键值对）的模式：key: 空格 v：示意一堆键值对，空格不可省略  

car:
    color: red
    brand: BMW

一行写法
car:{color: red，brand: BMW}

相当于 json：{"color":"red","brand":"BMW"}

例如示意 url 属性值  
url: https://www.liuluanyi.cn 
转为 JavaScript 如下:
{url: 'https://www.liuluanyi.cn'}

YAML 也容许另一种写法，将所有键值对写成一个行内对象  
host: {ip: 10.1.1.1, port: 2222} 
转为 JavaScript 如下:
{host: { ip: '10.1.1.1', port: 2222} }

数组

a. 一组连词线结尾的行，形成一个数组  
brand:
   - audi
   - bmw
   - ferrari

一行写法
brand: [audi,bmw,ferrari]
相当于 json
["auri","bmw","ferrari"]

b. 数组对象：列表中的所有成员都开始于雷同的缩进级别，并且应用一个 --- 作为结尾  
---
ipaddr:
- 120.168.117.21
- 120.168.117.22
- 120.168.117.23
转为 JavaScript 如下:
ipaddr: ['120.168.117.21', '120.168.117.22', '120.168.117.23']

c. 数据结构的子成员是一个数组，则能够在该项上面缩进一个空格。-
 - source
 - destination
 - services
转为 JavaScript 如下:
[[ 'source', 'destination', 'services'] ]

d. 数组也能够采纳行内 (或者流式) 表示法。services: [FTP, SSH]
companies: [{id: 1,name: company1,price: 200W},{id: 2,name: company2,price: 500W}]
转为 JavaScript 如下:
{services: [ 'FTP', 'SSH'] }
{ companies: 
   [{ id: 1, name: 'company1', price: '200W'},
     {id: 2, name: 'company2', price: '500W'} ] }

f. 对象和数组复合应用
languages:
 - Ruby
 - Perl
 - Python 
websites:
 YAML: yaml.org 
 Ruby: ruby-lang.org 
 Python: python.org 
转为 JavaScript 如下:
{languages: [ 'Ruby', 'Perl', 'Python'],
  websites: {YAML: 'yaml.org', Ruby: 'ruby-lang.org', Python: 'python.org'} }

常量

布尔值 boolean: 
    - TRUE  #true,True 都能够
    - FALSE  #false，False 都能够

浮点数 float:
    - 3.14
    - 6.8523015e+5  #能够应用迷信计数法

整数 int:
    - 123
    - 0b1010_0111_0100_1010_1110    #二进制示意

Null null:
    nodeName: 'node'
    parent: ~  #应用~ 示意 null

字符串 string:
    - 哈哈
    - 'Hello world'  #能够应用双引号或者单引号包裹特殊字符
    - newline
      newline2    #字符串能够拆成多行，每一行会被转化成一个空格

工夫 date:
    - 2018-02-17    #日期必须应用 ISO 8601 格局，即 yyyy-MM-dd

日期 datetime: 
    -  2018-02-17T15:02:31+08:00    #工夫应用 ISO 8601 格局，工夫和日期之间应用 T 连贯，最初应用 + 代表时区

转为 JavaScript 如下:
{boolean: [ true, false],
  float: [3.14, 685230.15],
  int: [123, 685230],
  null: {nodeName: 'node', parent: null},
  string: ['哈哈', 'Hello world', 'newline newline2'],
  date: [Sat Feb 17 2018 08:00:00 GMT+0800 (中国规范工夫) ],
  datetime: [Sat Feb 17 2018 15:02:31 GMT+0800 (中国规范工夫) ] }

特殊符号总结

a. YAML 容许应用两个感叹号，强制转换数据类型  
test1: !!str 123
test2: !!str true
转为 JavaScript 如下:
{test1: '123', test2: 'true'}

b. … 和 --- 配合应用，在一个配置文件中代表一个文件的完结：---
time: 20:03:20
player: Sammy Sosa
action: strike (miss)
...
---
time: 20:03:47
player: Sammy Sosa
action: grand slam
...

c. > 在字符串中折叠换行，| 保留换行符，这两个符号是 YAML 中字符串常常应用的符号
this: |
  Foo
  Bar
that: >
  Foo
  Bar
转为 JavaScript 如下:
{this: 'Foo\nBar\n', that: 'Foo Bar\n'}

d. 援用，反复的内容在 YAML 中能够应用 & 来实现锚点定义，应用 * 来实现锚点援用
defaults: &defaults
  adapter:  postgres
  host:     localhost
development:
  database: myapp_development
  <<: *defaults
test:
  database: myapp_test
  <<: *defaults
转为 JavaScript 如下:
{defaults: { adapter: 'postgres', host: 'localhost'},
  development: 
   { database: 'myapp_development',
     adapter: 'postgres',
     host: 'localhost' },
  test: 
   { database: 'myapp_test',
     adapter: 'postgres',
     host: 'localhost' } }

留神，不能独立的定义锚点，比方不能间接这样写：&SS Sammy Sosa
另外，锚点可能定义更简单的内容，比方：default: &default
    - Mark McGwire
    - Sammy Sosa
hr: *default
那么 hr 相当于援用了 default 的数组，留神，hr: *default 要写在同一行

我是 fx67ll.com，如果您发现本文有什么谬误，欢送在评论区探讨斧正，感谢您的浏览！
如果您喜爱这篇文章，欢送拜访我的本文 github 仓库地址，为我点一颗 Star，Thanks~ :)
转发请注明参考文章地址，非常感谢！！！

先说一些废话

如何抉择市面上的任务调度工具

Azkaban 和 Oozie 之间的区别

什么是 Azkaban

Azkaban 的特点

架构

AzkabanWebServer

AzkabanExecutorServer

关系型数据库（MySQL）

部署模式

应用多 Executor 模式的注意事项

装置依赖包及其作用

拜访端口号

根本应用

次要性能

根本流程步骤

常见工作类型

执行 shell 命令

执行 shell 脚本

执行 Spark 程序

执行 hive 命令、脚本

执行 MapReduce 程序

多任务依赖案例

失败重试

主动失败重试

手动失败重试

运行 Java 主类办法

运行 Java 主类办法案例

应用条件工作流

应用运行时参数来应用条件

应用预约义宏

定时执行

告警

邮件告警

电话告警

YAML

什么是 YAML

YAML 简介

语法特点

反对的数据结构

语法阐明