Azkaban Overview

Overview

为什么需要工作流调度系统

一个完整的数据分析系统通常都是由大量任务单元组成：shell 脚本程序，java 程序，mapreduce 程序、hive 脚本等
各任务单元之间存在时间先后及前后依赖关系
为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；

例如，我们可能有这样一个需求，某个业务系统每天产生 20G 原始数据，我们每天都要对其进行处理，处理步骤如下所示：

1、通过 Hadoop 先将原始数据同步到 HDFS 上；
2、借助 MapReduce 计算框架对原始数据进行转换，生成的数据以分区表的形式存储到多张 Hive 表中；
3、需要对 Hive 中多个表的数据进行 JOIN 处理，得到一个明细数据 Hive 大表；
4、将明细数据进行各种统计分析，得到结果报表信息；
5、需要将统计分析得到的结果数据同步到业务系统中，供业务调用使用。

工作流调度实现方式

简单的任务调度：直接使用 linux 的 crontab 来定义；
复杂的任务调度：开发调度平台或使用现成的开源调度系统，比如 ooize、azkaban、airflow 等

常见工作流调度系统

市面上目前有许多工作流调度器
在 hadoop 领域，常见的工作流调度器有 Oozie, Azkaban,Cascading,Hamake 等

Azkaban 介绍

azkaban 官网：
https://azkaban.github.io/

Azkaban 是由 Linkedin 开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。
Azkaban 定义了一种 KV 文件 (properties) 格式来建立任务之间的依赖关系，并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。
它有如下功能特点：

Web 用户界面
方便上传工作流
方便设置任务之间的关系
调度工作流
认证 / 授权 (权限的工作)
能够杀死并重新启动工作流
模块化和可插拔的插件机制
项目工作区
工作流和任务的日志记录和审计