清华大数据赵强_为何需要工作流引擎

清华大数据赵强_为何需要工作流引擎一、什么是工作流? 工作流(WorkFlow)就是工作流程的计算模型,即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算。工作流要解决的主要问题是:为实现某

【赵强老师】大数据工作流引擎Oozie

清华大数据赵强_为何需要工作流引擎

一、什么是工作流?

工作流(WorkFlow)就是工作流程的计算模型,即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算。工作流要解决的主要问题是:为实现某个业务目标,在多个参与者之间,利用计算机,按某种预定规则自动传递。下面我们以“员工请假的流程”为例,来为大家介绍什么是工作流。

清华大数据赵强_为何需要工作流引擎

这个例子包含了一个完整的员工请假流程。从“请假流程开始”,到“员工填写请假条”,再到“部门经理审批”,如果审批不通过,流程回到“员工填写请假条”;如果部门经理审批通过,则流程进入下一个节点;直到最后的流程结束。在Java中,我们可以使用一些框架帮助我们来实现这样的过程。Java的三大主流工作流引擎分别是:Shark,osworkflow,JBPM

二、什么是Oozie?

关于什么是Oozie,其实Oozie是服务于Hadoop生态系统的工作流调度工具,Job运行平台是区别于其他调度工具的最大的不同。但其实现的思路跟一般调度工具几乎完全相同。Oozie工作流通过HPDL(一种通过XML自定义处理的语言,类似JBOSS JBPM的JPDL)来构造。Oozie工作流中的Action在运程系统运行如(Hadoop,Pig服务器上)。一旦Action完成,远程服务器将回调Oozie的接口 并通知Action已经完成,这时Oozie又会以同样的方式执行工作流中的下一个Action,直到工作流中所有Action都完成(完成包括失败)。Oozie工作流提供各种类型的Action用于支持不同的需要,如Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java以及Oozie子流程。Oozie也支持自定义扩展以上各种类型的Action。

一个正常工作的Oozie系统须包含如下四个模块:Oozie Client、Oozie Server、DataBase和Hadoop集群。

  • Oozie Client可以通过Web Service API、Java API、Command line 方式向Oozie Server提交工作流任务请求。Oozie客户端可以通过REST API或者Web GUI来从Oozie服务端获取Job的日志流。通常在Client端包括工作流配置文件、工作流属性文件和工作流库。
  • Oozie Server负责接收客户端请求、调度工作任务、监控工作流的执行状态。Oozie本身不会执行具体的Job,而是将Job的配置信息发送到执行环境。
  • DataBase用于存储Bundle、Coordinator、Workflow工作流的Action信息、Job信息,记录Oozie系统信息。简单说,除了Oozie 运行日志存在本地硬盘不存在DB中,其他信息都存储到DB。
  • Hadoop集群运行Oozie工作流的实体,负责处理Oozie Server提交来的各种Job。包括HDFS、MapReduce、Hive、Sqoop等Hadoop组件提交的Job。

三、编译Oozie

  • 使用的版本信息如下
Hadoop 2.4.1
JDK 1.7
Maven 3.5.0
Oozie 4.3

代码100分

  • 在oozie解压后的目录下,编译oozie,执行命令:

代码100分bin/mkdistro.sh -DskipTests -Dhadoop.version=2.4.1

注意:如果第一次安装,Maven会自动下载依赖的jar包,时间可能    会比较长。

  • 如果出现下面的错误,表示Maven的内存溢出。

清华大数据赵强_为何需要工作流引擎

设置环境变量:export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=128m"
并且重新编译。

  • 编译完成,成功出现以下提示。

清华大数据赵强_为何需要工作流引擎

四、安装部署Oozie

  • 解压安装包
代码100分tar -zxvf oozie-4.3.0-distro.tar.gz -C ~/training/

  • 设置环境变量

清华大数据赵强_为何需要工作流引擎

  • 建立MySQL数据库
create database oozie;
create user "oozieowner"@"%" identified by "password";              
grant all on oozie.* TO "oozieowner"@"%"; 
grant all on oozie.* TO "oozieowner"@"localhost" identified by "password";

  • 修改文件:conf/oozie-site.xml

清华大数据赵强_为何需要工作流引擎

  • 配置oozie的web console
(*)创建目录:mkdir /root/training/oozie-4.3.0/libext
(*)将文件ext-2.2.zip和mysql的驱动上传到这个目录
(*)拷贝$HADOOP_HOME/share/hadoop/*/*.jar和$HADOOP_HOME/share/hadoop/*/lib/*.jar到Oozie的libext目录下
(*)由于hadoop和oozie自带的tomcat jar包有冲突,所以需要把冲突的jar包驱动。执行下面的命令:
      
      cd /root/training/oozie-4.3.0/libext
      mv servlet-api-2.5.jar servlet-api-2.5.jar.bak
      mv jsp-api-2.1.jar jsp-api-2.1.jar.bak
      mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak
      mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak

  • 初始化oozie
(*)生成oozie web console的war包:oozie-setup.sh prepare-war
(*)初始化数据库:ooziedb.sh create -sqlfile oozie.sql -run
(*)将不同任务依赖的共享jar包上传到HDFS:
      oozie-setup.sh sharelib create -fs hdfs://hadoop111:9000

(*)修改oozie-4.3.0/oozie-server/conf/server.xml,注释掉下面的记录: 

清华大数据赵强_为何需要工作流引擎

  • 启动oozie和Hadoop的historyserver
oozied.sh start
mr-jobhistory-daemon.sh start historyserver

  • 访问URL地址:http://192.168.88.111:11000/oozie/

清华大数据赵强_为何需要工作流引擎

清华大数据赵强_为何需要工作流引擎

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/7689.html

(0)
上一篇 2023-03-16
下一篇 2023-03-16

相关推荐

  • 数据库读写分离架构,为什么我不喜欢「建议收藏」

    数据库读写分离架构,为什么我不喜欢「建议收藏」RD:单库数据量太大,数据库扛不住了,我要申请一个数据库从库,读写分离。DBA:数据量多少?RD:5000w左右。DBA:读写吞吐量呢?RD:读QPS约200,写QPS约30左右。上周在公司听到两个…

    2023-04-06
    141
  • Python注释的使用与规范

    Python注释的使用与规范Python作为目前最流行的编程语言之一,在各个领域都有广泛的应用。然而,当Python代码量越来越大,难以一下子理解代码的含义时,注释便显得尤为重要。注释不仅方便其他开发者了解代码逻辑,也可以帮助自己快速回忆代码的意图。在本文中,我们将讨论Python注释的使用与规范。

    2024-04-17
    67
  • 优雅地处理Python多异常情况

    优雅地处理Python多异常情况在Python编程过程中我们可能会遇到各种各样的异常情况,这些异常情况可能是系统异常、程序逻辑错误、输入错误等等。针对不同的异常情况,我们需要有不同的处理方式。本文将介绍在Python中优雅地处理多异常情况的方式。

    2024-02-13
    89
  • 学习使用PyCharm Debug调试Python程序

    学习使用PyCharm Debug调试Python程序本文将介绍如何在PyCharm中使用调试器Debug调试Python程序。调试器是用于查找和解决软件中的错误的重要工具,它可以帮助程序员更快地找出问题所在且更快地解决问题。在PyCharm中使用调试器Debug可以一步一步地执行程序并查看正在执行的每个代码行,同时还可以检查变量的值和状态。

    2024-07-12
    32
  • mysql生产环境运维方案_生产环境和正式环境

    mysql生产环境运维方案_生产环境和正式环境第一次写博客,有漏洞的地方希望大佬指正 背景:优化公司老系统中的一条慢sql,查看执行过程如下: sql虽然比较简单,平时执行也没发现什么问题,但一到生产环境系统频繁调用,问题就显现出来了,整个系统停

    2023-02-03
    142
  • MySQL总结(十)表连接查询(内、外连接)-详解[通俗易懂]

    MySQL总结(十)表连接查询(内、外连接)-详解[通俗易懂]表连接查询 1.什么是多表查询 准备数据 # 创建部门表 create table dept( id int primary key auto_increment, name varchar(20)…

    2023-03-10
    143
  • 吐血整理60个Redis面试题「终于解决」

    吐血整理60个Redis面试题「终于解决」1.Redis 是一个基于内存的高性能key-value数据库。 2.Redis相比memcached有哪些优势: memcached所有的值均是简单的字符串,redis作为其替代者,支持更为丰富的…

    2023-03-31
    144
  • Python Listbox with Tkinter: 完全指南

    Python Listbox with Tkinter: 完全指南Tkinter是Python中常用的图形用户界面(GUI)工具包之一。Tkinter具有一系列的小部件,可以轻松创建各种类型的GUI应用程序,其中之一是Listbox。Listbox是一个小部件,用于在窗口中显示一系列的项目,并允许用户通过单击列表中的项目进行选择。

    2024-01-14
    99

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注