赵强老师大数据工作流引擎Oozie

37次阅读

共计 2624 个字符,预计需要花费 7 分钟才能阅读完成。

一、什么是工作流?

工作流(WorkFlow)就是工作流程的计算模型,即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算。工作流要解决的主要问题是:为实现某个业务目标,在多个参与者之间,利用计算机,按某种预定规则自动传递。下面我们以“员工请假的流程”为例,来为大家介绍什么是工作流。

这个例子包含了一个完整的员工请假流程。从“请假流程开始”,到“员工填写请假条”,再到“部门经理审批”,如果审批不通过,流程回到“员工填写请假条”;如果部门经理审批通过,则流程进入下一个节点;直到最后的流程结束。在 Java 中,我们可以使用一些框架帮助我们来实现这样的过程。Java 的三大主流工作流引擎分别是:Shark,osworkflow,JBPM

二、什么是 Oozie?

关于什么是 Oozie,其实 Oozie 是服务于 Hadoop 生态系统的工作流调度工具,Job 运行平台是区别于其他调度工具的最大的不同。但其实现的思路跟一般调度工具几乎完全相同。Oozie 工作流通过 HPDL(一种通过 XML 自定义处理的语言, 类似 JBOSS JBPM 的 JPDL) 来构造。Oozie 工作流中的 Action 在运程系统运行如 (Hadoop,Pig 服务器上)。一旦 Action 完成,远程服务器将回调 Oozie 的接口 并通知 Action 已经完成,这时 Oozie 又会以同样的方式执行工作流中的下一个 Action,直到工作流中所有 Action 都完成 (完成包括失败)。Oozie 工作流提供各种类型的 Action 用于支持不同的需要,如 Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java 以及 Oozie 子流程。Oozie 也支持自定义扩展以上各种类型的 Action。

一个正常工作的 Oozie 系统须包含如下四个模块:Oozie Client、Oozie Server、DataBase 和 Hadoop 集群。

  • Oozie Client 可以通过 Web Service API、Java API、Command line 方式向 Oozie Server 提交工作流任务请求。Oozie 客户端可以通过 REST API 或者 Web GUI 来从 Oozie 服务端获取 Job 的日志流。通常在 Client 端包括工作流配置文件、工作流属性文件和工作流库。
  • Oozie Server 负责接收客户端请求、调度工作任务、监控工作流的执行状态。Oozie 本身不会执行具体的 Job,而是将 Job 的配置信息发送到执行环境。
  • DataBase 用于存储 Bundle、Coordinator、Workflow 工作流的 Action 信息、Job 信息,记录 Oozie 系统信息。简单说,除了 Oozie 运行日志存在本地硬盘不存在 DB 中,其他信息都存储到 DB。
  • Hadoop 集群运行 Oozie 工作流的实体,负责处理 Oozie Server 提交来的各种 Job。包括 HDFS、MapReduce、Hive、Sqoop 等 Hadoop 组件提交的 Job。

三、编译 Oozie

  • 使用的版本信息如下
Hadoop 2.4.1
JDK 1.7
Maven 3.5.0
Oozie 4.3
  • 在 oozie 解压后的目录下,编译 oozie,执行命令:
bin/mkdistro.sh -DskipTests -Dhadoop.version=2.4.1

注意:如果第一次安装,Maven 会自动下载依赖的 jar 包,时间可能    会比较长。

  • 如果出现下面的错误,表示 Maven 的内存溢出。

 设置环境变量:export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=128m",并且重新编译。
  • 编译完成,成功出现以下提示。

四、安装部署 Oozie

  • 解压安装包
tar -zxvf oozie-4.3.0-distro.tar.gz -C ~/training/
  • 设置环境变量

  • 建立 MySQL 数据库
create database oozie;
create user 'oozieowner'@'%' identified by 'password';              
grant all on oozie.* TO 'oozieowner'@'%'; 
grant all on oozie.* TO 'oozieowner'@'localhost' identified by 'password';
  • 修改文件:conf/oozie-site.xml

  • 配置 oozie 的 web console
(*)创建目录:mkdir /root/training/oozie-4.3.0/libext(*)将文件 ext-2.2.zip 和 mysql 的驱动上传到这个目录(*)拷贝 $HADOOP_HOME/share/hadoop/*/*.jar 和 $HADOOP_HOME/share/hadoop/*/lib/*.jar 到 Oozie 的 libext 目录下(*)由于 hadoop 和 oozie 自带的 tomcat jar 包有冲突,所以需要把冲突的 jar 包驱动。执行下面的命令:cd /root/training/oozie-4.3.0/libext
      mv servlet-api-2.5.jar servlet-api-2.5.jar.bak
      mv jsp-api-2.1.jar jsp-api-2.1.jar.bak
      mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak
      mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak 
  • 初始化 oozie
(*)生成 oozie web console 的 war 包:oozie-setup.sh prepare-war(*)初始化数据库:ooziedb.sh create -sqlfile oozie.sql -run(*)将不同任务依赖的共享 jar 包上传到 HDFS:oozie-setup.sh sharelib create -fs hdfs://hadoop111:9000(*)修改 oozie-4.3.0/oozie-server/conf/server.xml,注释掉下面的记录:

  • 启动 oozie 和 Hadoop 的 historyserver
oozied.sh start
mr-jobhistory-daemon.sh start historyserver
  • 访问 URL 地址:http://192.168.88.111:11000/oozie/

正文完
 0