先说一些废话

因为之前本人工作中有用过Azkaban作为自动化任务调度工具,所以想参考本人之前的应用教训,总结一下对于Azkaban的应用,不便大家应用Azkaban疾速实现企业级自动化工作

如何抉择市面上的任务调度工具

  1. 简略的工作
    Linux crontab是用来定期执行程序的命令
  2. 简单的工作
    Oozie/Azkaban/Airflow/DolphinScheduler
    Azkaban 是一个分布式工作流管理程序,解决Hadoop工作依赖性问题
    Oozie 相比 Azkaban 是一个重量级的任务调度零碎,性能全面,但配置应用也更简单
    Airflow 应用python脚本
    DolphinScheduler 应用可视化的形式操作,国产,所以当初比拟火

Azkaban和Oozie之间的区别

总体来说,ooize相比azkaban是一个重量级的任务调度零碎,性能全面,但配置应用也更简单,
如果能够不在意某些性能的缺失,轻量级调度器azkaban是很不错的候选对象

  1. 性能

    • 两者均能够调度linux、mapreduce、pig、spark、java等脚本工作流工作
    • 两者均能够定时执行工作流工作
  2. 工作流定义

    • Azkaban应用Properties文件定义工作流
    • Oozie应用XML文件定义工作流
  3. 工作流传参

    • Azkaban反对间接传参,例如${input}
    • Oozie反对参数和EL表达式,例如${fs:dirSize(myInputDir)}
  4. 定时执行

    • Azkaban的定时执行工作是基于工夫的
    • Oozie的定时执行工作基于工夫和输出数据,功能强大,然而带来配置的复杂度比拟高
  5. 资源管理

    • Azkaban有较严格的权限管制,如用户对工作流进行读/写/执行等操作
    • Oozie暂无严格的权限管制,多人合作就比拟麻烦了
  6. 工作流执行

    • Azkaban有三种运行模式:solo server mode、 two server mode、multiple executor mode
    • Oozie作为工作流服务器运行,反对多用户和多工作流
  7. 工作流治理

    • Azkaban反对浏览器以及ajax形式操作工作流
    • Oozie反对命令行、HTTP REST、Java API、浏览器操作工作流
  8. 依赖

    • Azkaban依赖于MySql
    • Oozie依赖于hadoop

什么是Azkaban

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,次要用于在一个工作流内以一个特定的程序运行一组工作和流程,
它的配置是通过简略的key:value对的形式,通过配置中的dependencies 来设置依赖关系。
Azkaban应用job配置文件建设工作之间的依赖关系,并提供一个易于应用的web用户界面保护和跟踪你的工作流。

Azkaban的特点

  1. 兼容任何版本的hadoop
  2. 易于应用的Web用户界面
  3. 简略的工作流的上传
  4. 不便设置工作之间的关系
  5. 调度工作流
  6. 模块化和可插拔的插件机制
  7. 认证/受权(权限的工作)
  8. 可能杀死并重新启动工作流
  9. 无关失败和胜利的电子邮件揭示

架构

AzkabanWebServer

AzkabanWebServer是整个Azkaban工作流零碎的次要管理者,它用户登录认证、负责project治理、定时执行工作流、跟踪工作流执行进度等一系列工作

AzkabanExecutorServer

负责具体的工作流的提交、执行,它们通过mysql数据库来协调工作的执行

关系型数据库(MySQL)

存储大部分执行流状态,AzkabanWebServerAzkabanExecutorServer都须要拜访数据库

部署模式

  1. Solo

    • WebServer和ExecServer都启动在一个JVM中,就一个过程
    • 应用内置的H2数据库来存储元数据
  2. Two Server

    • 一台机器模式:只有一台ExecutorServer
    • WebServer和ExecutorServer是不同的独立的过程
    • 应用MySQL存储元数据
  3. Multiple Executor

    • 从3.+ 开始,反对多个Executor
    • 多台机器模式:多个ExecutorServer
    • WebServer和Executor能够不在一台机器上
    • 应用MySQL存储元数据

    应用多Executor模式的注意事项

    为确保所选的 Executor 可能精确的执行工作,咱们须在以下两种计划任选其一,举荐应用计划二

  4. 计划一:指定特定的 Executor(hadoop101)去执行工作

    • MySQLAzkaban数据库executors表中,查问hadoop101上的Executor的id
    • 在执行工作流程时退出useExecutor属性
  5. 计划二:在Executor所在所有节点部署工作所需脚本和利用

装置依赖包及其作用

# 该包中就是所有的建表语句,次要是配置 MySQLazkaban-db-3.84.4.tar.gz  # 执行服务器(Executor)配置azkaban-exec-server-3.84.4.tar.gz  # 服务器(Web)配置azkaban-web-server-3.84.4.tar.gz  

拜访端口号

默认是8443,能够通过批改配置文件azkaban.properties的形式更改端口号
端口号应用规定:jetty.ssl.port > jetty.port
然而应用jetty.ssl.port的前提是jetty.use.ssl = true,这个配置示意开启ssl安全套接层,否则应用jetty.port端口

# 示例配置文件jetty.use.ssl=falsejetty.maxThreads=25jetty.ssl.port=8443jetty.port=8081jetty.keystore=keystorejetty.password=passwordjetty.keypassword=passwordjetty.truststore=keystorejetty.trustpassword=password

根本应用

次要性能

  1. Projects:最重要的局部,创立一个工程,所有flows将在工程中运行
  2. Scheduling: 显示定时工作
  3. Executing: 显示以后运行的工作
  4. History: 显示历史运行工作

根本流程步骤

  1. 首先须要阐明的是因为利用界面化操作,所以相干的文件间接在本地windows零碎里去编辑,创立,打包zip即可
  2. 创立xxx.project工程文件

    # 作用:  # 示意采纳新的 Flow-API 形式解析 flow 文件# 内容:  # 示意以后解析 flow 文件的 azkaban 版本为 2.0azkaban-flow-version: 2.0
  3. 创立xxx.flow流程工作文件

    # 作用:  # 示意作业调度过程# 内容:  # yaml 语法的编写  # name 示意 job 的名称  # type 示意 job 的类型  # command 示意你要执行作业的形式为命令,这里意思输出Hello Worldnodes:  - name: jobA    type: command    config:      command: echo "Hello World"
  4. 将上述两个文件压缩成一个.zip文件,并上传 须要留神的是:压缩包的文件名称必须是英文
  5. 上传后,如果想看Job的内容是什么,能够在Job Command中能够查看解析出工作内容
  6. 点击FlowsCommand工作,能够进入到工作的具体界面,Execute能够执行工作,Schedul能够进行定时调度
  7. 执行后的工作中,点击Job List能够查看执行日志,Flow Log能够查看流程日志,绿色示意胜利,蓝色示意正在执行,红色示意执行失败
  8. 工作执行后,能够在History中查看工作历史记录

常见工作类型

执行 shell 命令

type=commandcommand=echo 'hello-world'

执行 shell 脚本

type=commandcommand=sh hello-world.sh

执行 Spark 程序

type=commandcommand=/usr/install/spark/bin/spark-submit --class com.test.AzkabanTest test-0.1.0.jar

执行 hive 命令、脚本

type=commandcommand=beeline -u jdbc:hive://localhost:7777 -n hive -p hive -f 'test.sql'

执行 MapReduce 程序

type=commandcommand=${HADOOP_HOME}bin/hadoop jar hadoop-mapreduce-examples--0.1.0.jarmapreduce-test ${input} ${output}

多任务依赖案例

应用dependsOn属性来示意依赖,他的值是一个数组

# 示例 basic.flow# JobA 和 JobB 执行完了,能力执行 JobCnodes:  - name: jobA  type: command  config:    command: echo "I’m JobA"  - name: jobB  type: command  config:    command: echo "I’m JobB"  - name: jobC    type: command    # jobC 依赖 JobA 和 JobB    dependsOn:      - jobA      - jobB    config:      command: echo "I’m JobC"

失败重试

主动失败重试

应用retries retry.backoff来配置重试次数,重试的工夫距离

# 示例 basic.flow,在工作中配置nodes:  - name: JobA    type: command    config:      # 执行脚本      command: sh xxx.sh      # 重试次数 3次      retries: 3      # 重试间隔时间 10000ms 也就是10s      retry.backoff: 10000      # 示例 basic.flow,在flow的全局配置config:  retries: 3  retry.backoff: 10000nodes:  - name: jobA    type: command    config:      command: sh xxxq.sh  - name: jobB  type: command  config:    command: sh xxxb.sh  - name: jobC    type: command    dependsOn:      - jobA      - jobB    config:      command: sh xxxc.sh

手动失败重试

Flow View界面右键点击须要重拾的Job,抉择须要的从新执行的某个过程,EnableDisable上面都别离有如下参数:

  1. Parents:该作业的上一个工作
  2. Ancestors:该作业前的所有工作
  3. Children:该作业后的一个工作
  4. Descendents:该作业后的所有工作
  5. Enable All:所有的工作

运行Java主类办法

JavaProcess 类型能够运行一个自定义主类办法,type 类型为 javaprocess,可用的配置为:

  • Xms:最小堆
  • Xmx:最大堆
  • classpath:类门路
  • java.class:要运行的Java对象,其中必须蕴含Main办法
  • main.args:Main办法的参数

运行Java主类办法案例

# 示例 basic.flownodes:  - name: test_java    type: javaprocess    config:      Xms: 96M      Xmx: 200M      java.class: com.fx67ll.springboot.AzkabanTest

应用条件工作流

应用运行时参数来应用条件

  1. 基本原理

    • 父Job将参数写入 JOB_OUTPUT_PROP_FILE 所指向的环境变量文件
    • 子Job应用EL表达式 ${jobName:param} 来获取父Job输入的参数并定义执行条件
  2. 反对的条件参数

    == 等于!= 不等于> 大于>= 大于等于< 小于<= 小于等于&& 与|| 或! 非
  3. 案例:JobB依赖JobA,然而JobB不须要每天都执行,只须要每个周一执行

    # 示例 JobA.shecho "do JobA"# 获取以后是周几wk=`date + %w`echo "{\"wk\":$wk}" >$JOB_OUTPUT_PROP_FILE# 示例 JobB.shecho "do JobB"# 示例 basic.flownodes:  - name: jobA    type: command    config:      command: sh JobA.sh  - name: jobB    type: command    dependsOn:      - jobA    config:      command: sh JobB.sh      condition: ${JobA:wk} == 1

    应用预约义宏

    Azkaban 中预置了几个非凡的判断条件,称为预约义宏,预约义宏会依据所有父 Job 的实现状况进行判断,再决定是否执行,可用的预约义宏如下:

    # all_success: 示意父 Job 全副胜利才执行(默认)  # all_done:示意父 Job 全副实现才执行  # all_failed:示意父 Job 全副失败才执行  # one_success:示意父 Job 至多一个胜利才执行  # one_failed:示意父 Job 至多一个失败才执行  # 示例 JobA.shecho "do JobA"# 示例 JobB.shecho "do JobB"# 示例 JobC.shecho "do JobC"# 示例 basic.flownodes:  - name: jobA    type: command    config:      command: sh JobA.sh  - name: jobB    type: command    config:      command: sh JobA.sh    dependsOn:      - jobA      - jobB    config:      command: sh JobC.sh      condition: one_success      # 提交的时候成心不提交 JobB.sh,以测试预约义宏是否失效  

定时执行

在执行工作流时候,抉择左下角Schedule按钮,在Schedule Flow Options配置即可

告警

邮件告警

能够参考视频教程————大数据Azkaban教程具体学习,这里前期会补上阐明

电话告警

能够参考视频教程————大数据Azkaban教程具体学习,这里前期会补上阐明

YAML

什么是YAML

YAML(YAML 不是标记语言)是一种非常灵活的格局,简直是 JSON 的超集,曾经被用在一些驰名的我的项目中,如 Travis CI、Circle CI 和 AWS CloudFormation。
YAML 的库简直和 JSON 一样无处不在。除了反对正文、换行符分隔、多行字符串、裸字符串和更灵便的类型零碎之外,YAML 也反对援用文件,以防止反复代码。

YAML简介

  1. YAML语言的设计参考了JSON,XML和SDL等语言,YAML 强调以数据为核心,简洁易读,编写简略
  2. YAML 语言(发音 /jæml/ )的设计指标,就是不便人类读写,它本质上是一种通用的数据串行化格局
  3. YAML 有一个小的怪癖,所有的 YAML 文件开始行都应该是 ---,这是 YAML 格局的一部分, 表明一个文件的开始
    有意思的命名
    YAML 全称是 "YAML Ain’t a Markup Language"(YAML不是一种置标语言)的递归缩写。
    在开发的这种语言时,YAML 的意思其实是:"Yet Another Markup Language"(仍是一种置标语言)

语法特点

大小写敏感通过缩进示意层级关系禁止应用 tab 缩进,只能应用空格键缩进的空格数目不重要,只有雷同层级左对齐即可应用 # 示意正文

反对的数据结构

  1. 对象:键值对的汇合,又称为映射(mapping)/ 哈希(hashes) / 字典(dictionary)
  2. 数组:一组按秩序排列的值,又称为序列(sequence) / 列表(list)
  3. 纯量(scalars):单个的、不可再分的值

语法阐明

  1. 引号

    a. 双引号"":不会本义字符串外面的特殊字符,特殊字符作为自身想示意的意思。name: "123\n123" 输入: 123 换行 123b. 单引号'':会将字符串外面的特殊字符本义为字符串解决name: "123\n123"输入: 123\n123c. 如果不加引号将会本义特殊字符,当成字符串解决
  2. 文本块

    a. |:应用|标注的文本内容缩进示意的块,能够保留块中已有的回车换行value: |   hello   world!输入:hello 换行 world!b. +示意保留文字块开端的换行,-示意删除字符串开端的换行  value: |hellovalue: |-hellovalue: |+hello输入:hello\n hello hello\n\n(有多少个回车就有多少个\n)留神 "|" 与 文本之间须另起一行c. >:应用 > 标注的文本内容缩进示意的块,将块中回车替换为空格,最终连接成一行value: > helloworld!输入:hello 空格 world!留神 ">" 与 文本之间的空格,应用定界符""(双引号)、''(单引号)或回车示意的块,最终示意成一行  
  3. 锚点与援用

    应用 & 定义数据锚点(即要复制的数据),应用 * 援用锚点数据(即数据的复制目的地)  name: &a yamlbook: *abooks:    - java   - *a   - python输入book: yaml输入books:[java,yaml,python]留神 * 援用局部不能追加内容
  4. 纯量与数据类型约定

    a. 纯量是最根本的、不可再分的值  b. 字符串应用''或""或不应用引号value0: 'hello World!'value1: "hello World!"value2: hello World!c. 布尔值true或false示意  d. 数字12 # 整数 014 # 八进制整数 0xC # 十六进制整数 13.4 # 浮点数 1.2e+34 # 指数 .inf空值 # 无穷大c. 空值null或~示意d. 日期应用 iso-8601 规范示意日期date: 2018-01-01t16:59:43.10-05:00在springboot中yaml文件的工夫格局 date: yyyy/MM/dd HH:mm:sse. 强制类型转换YAML 容许应用个感叹号!,强制转换数据类型,单叹号通常是自定义类型,双叹号是内置类型  money: !!str123date: !Booleantruef. 内置类型:!!int # 整数类型 !!float # 浮点类型 !!bool # 布尔类型 !!str # 字符串类型 !!binary # 也是字符串类型 !!timestamp # 日期工夫类型 !!null # 空值 !!set # 汇合 !!omap,!!pairs # 键值列表或对象列表!!seq # 序列,也是列表 !!map # 键值表
  5. 对象

    Map(属性和值)(键值对)的模式:key: 空格 v :示意一堆键值对,空格不可省略  car:    color: red    brand: BMW一行写法car:{   color: red,brand: BMW}相当于json:{"color":"red","brand":"BMW"}例如示意url属性值  url: https://www.liuluanyi.cn 转为 JavaScript 如下:{ url: 'https://www.liuluanyi.cn'}YAML 也容许另一种写法,将所有键值对写成一个行内对象  host: { ip: 10.1.1.1, port: 2222 } 转为 JavaScript 如下:{ host: { ip: '10.1.1.1', port: 2222 } }
  6. 数组

    a. 一组连词线结尾的行,形成一个数组  brand:   - audi   - bmw   - ferrari一行写法brand: [audi,bmw,ferrari]相当于json["auri","bmw","ferrari"]b. 数组对象:列表中的所有成员都开始于雷同的缩进级别,并且应用一个 --- 作为结尾  ---ipaddr:- 120.168.117.21- 120.168.117.22- 120.168.117.23转为 JavaScript 如下:ipaddr: [ '120.168.117.21', '120.168.117.22', '120.168.117.23' ]c. 数据结构的子成员是一个数组,则能够在该项上面缩进一个空格。- - source - destination - services转为 JavaScript 如下:[ [ 'source', 'destination', 'services' ] ]d. 数组也能够采纳行内(或者流式)表示法。services: [FTP, SSH]companies: [{id: 1,name: company1,price: 200W},{id: 2,name: company2,price: 500W}]转为 JavaScript 如下:{ services: [ 'FTP', 'SSH' ] }{ companies:    [ { id: 1, name: 'company1', price: '200W' },     { id: 2, name: 'company2', price: '500W' } ] }f. 对象和数组复合应用languages: - Ruby - Perl - Python websites: YAML: yaml.org  Ruby: ruby-lang.org  Python: python.org 转为 JavaScript 如下:{ languages: [ 'Ruby', 'Perl', 'Python' ],  websites: { YAML: 'yaml.org', Ruby: 'ruby-lang.org', Python: 'python.org' } }
  7. 常量

    布尔值 boolean:     - TRUE  #true,True都能够    - FALSE  #false,False都能够浮点数 float:    - 3.14    - 6.8523015e+5  #能够应用迷信计数法整数 int:    - 123    - 0b1010_0111_0100_1010_1110    #二进制示意Null null:    nodeName: 'node'    parent: ~  #应用~示意null字符串 string:    - 哈哈    - 'Hello world'  #能够应用双引号或者单引号包裹特殊字符    - newline      newline2    #字符串能够拆成多行,每一行会被转化成一个空格工夫 date:    - 2018-02-17    #日期必须应用ISO 8601格局,即yyyy-MM-dd日期 datetime:     -  2018-02-17T15:02:31+08:00    #工夫应用ISO 8601格局,工夫和日期之间应用T连贯,最初应用+代表时区转为 JavaScript 如下:{ boolean: [ true, false ],  float: [ 3.14, 685230.15 ],  int: [ 123, 685230 ],  null: { nodeName: 'node', parent: null },  string: [ '哈哈', 'Hello world', 'newline newline2' ],  date: [ Sat Feb 17 2018 08:00:00 GMT+0800 (中国规范工夫) ],  datetime: [ Sat Feb 17 2018 15:02:31 GMT+0800 (中国规范工夫) ] }
  8. 特殊符号总结

    a. YAML 容许应用两个感叹号,强制转换数据类型  test1: !!str 123test2: !!str true转为 JavaScript 如下:{ test1: '123', test2: 'true' }b. … 和---配合应用,在一个配置文件中代表一个文件的完结:---time: 20:03:20player: Sammy Sosaaction: strike (miss)...---time: 20:03:47player: Sammy Sosaaction: grand slam...c. >在字符串中折叠换行,| 保留换行符,这两个符号是YAML中字符串常常应用的符号this: |  Foo  Barthat: >  Foo  Bar转为 JavaScript 如下:{ this: 'Foo\nBar\n', that: 'Foo Bar\n' }d. 援用,反复的内容在YAML中能够应用&来实现锚点定义,应用 * 来实现锚点援用defaults: &defaults  adapter:  postgres  host:     localhostdevelopment:  database: myapp_development  <<: *defaultstest:  database: myapp_test  <<: *defaults转为 JavaScript 如下:{ defaults: { adapter: 'postgres', host: 'localhost' },  development:    { database: 'myapp_development',     adapter: 'postgres',     host: 'localhost' },  test:    { database: 'myapp_test',     adapter: 'postgres',     host: 'localhost' } }留神,不能独立的定义锚点,比方不能间接这样写: &SS Sammy Sosa另外,锚点可能定义更简单的内容,比方:default: &default    - Mark McGwire    - Sammy Sosahr: *default那么hr相当于援用了default的数组,留神,hr: *default 要写在同一行  

我是 fx67ll.com,如果您发现本文有什么谬误,欢送在评论区探讨斧正,感谢您的浏览!
如果您喜爱这篇文章,欢送拜访我的 本文github仓库地址,为我点一颗Star,Thanks~ :)
转发请注明参考文章地址,非常感谢!!!