关于大数据:万字长文Hadoop入门笔记附资料

大数据迅速倒退，然而Hadoop的根底位置始终没有扭转。了解并把握Hadoop相干常识对于之后的相干组件学习有着地基的作用。本文整顿了Hadoop基础理论常识与罕用组件介绍，尽管有一些组件曾经不太罕用。然而了解第一批组件的相干常识对于当前的学习很有帮忙，将来的很多组件也借鉴了之前的设计理念。

文章较长，倡议珍藏后浏览。

相干学习材料能够通过上面的形式下载，本文只是整顿了大数据Hadoop基本知识，有精力的同学能够通过相干书籍进行更深刻的学习。

本文通过以下章节由浅入深学习，倡议浏览前有肯定的Linux根底和Java根底，并搭建好大数据环境。相干常识能够在大数据流动中获取。

一个最简略的大数据系统就是通过，zookeeper进行协调服务，并通过任务调度对hive或者mr进行计算工作执行，通过数据传输与内部零碎建立联系。当然架构在不变动，最新的大数据架构远不止于此。但这些根本的组件对于了解大数据的原理十分的有帮忙。

这些组件互相配合，最终造成了Hadoop的生态体系。

注释开始~

一、大数据发展史

信息时代数据量的爆炸性增长，让大数据的倒退异样迅速。简略来说大数据是：

1、有海量的数据

2、有对海量数据进行开掘的需要

3、有对海量数据进行开掘的软件工具（hadoop、spark、flink......）

Hadoop与大数据

HADOOP最早起源于Nutch我的项目。Nutch的设计指标是构建一个大型的全网搜索引擎，包含网页抓取、索引、查问等性能，但随着抓取网页数量的减少，遇到了重大的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。

——分布式文件系统（GFS），可用于解决海量网页的存储。

——分布式计算框架MAPREDUCE，可用于解决海量网页的索引计算问题。

Nutch的开发人员实现了相应的开源实现HDFS和MAPREDUCE，并从Nutch中剥离成为独立我的项目HADOOP，到2008年1月，HADOOP成为Apache顶级我的项目，迎来了它的疾速发展期。

大数据组件

在大数据的倒退中，组件化始终都是一个十分大的趋势。屏蔽简单的底层研发，只关注数据工程与数据分析自身，让大数据得以迅速地倒退。而开源的技术倒退更是让大数据的倒退失去了长足的提高，大量的公司及集体奉献了很多的开源计划。这也让数据采集，荡涤，剖析，利用都变得轻而易举。

Hadoop，Hive，Spark，Flink等等开源框架一直的倒退呈现。

这些组件相互配合，独特构建起了大数据的平台体系。所以学习好大数据的相干组件常识就十分的重要，也是做好大数据利用的根底。

大数据架构

大数据的技术与利用的倒退同步进行，催生着架构的一直演变。

从离线到实时，从数据仓库到数据湖，从大数据平台到数据中台。有人会说大数据有点夸张，大屏泛滥没有理论利用。然而事物的倒退正是通过了从概念到实际到落地的过程。不得不抵赖，大数据的架构在一直的向更好的方向演变。

大数据倒退

大数据的利用范畴在逐步的扩充，用户画像，举荐零碎等等畛域都是大数据在撑持。而数据治理的倒退让数据安全，数据品质也失去了器重。

将来的大数据，将是大数据+数据分析+人工智能的结合体，架构和技术都将一直的演进，越来越影响并扭转咱们的生存。

大数据的倒退让大数据相干岗位的需要猛增，大数据工程师，架构师，数据分析师，大数据运维等等都是十分不错的职业抉择。不过要揭示的是大数据的技术倒退迅速，要放弃学习，一直的获取新的常识。

二、分布式协调服务——Zookeeper

在学习hadoop组件之前，要先理解下zookeeper。zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务。

简略的说zk解决了分布式系统的一致性问题，能够将须要一致性的数据放在zk中，同时zk也提供了监听等机制。zk为hadoop分布式的实现提供了保障，所以大家之后不必纠结hadoop很多的操作是如何实现的，很多都依赖了zk。

zk是什么?

1、Zookeeper是为别的分布式程序服务的

2、Zookeeper自身就是一个分布式程序（只有有半数以上节点存活，zk就能失常服务）

3、Zookeeper所提供的服务涵盖：主从协调、服务器节点动静高低线、对立配置管理、分布式共享锁、对立名称服务……

4、尽管说能够提供各种服务，然而zookeeper在底层其实只提供了两个性能：

a、治理(存储，读取)用户程序提交的数据；

b、并为用户程序提供数据节点监听服务；

不仅是大数据畛域，在很多分布式系统中，zk都有着十分大的利用。

Zookeeper工作机制

1、Zookeeper：一个leader，多个follower组成的集群

2、全局数据统一：每个server保留一份雷同的数据正本，client无论连贯到哪个server，数据都是统一的

3、分布式读写，更新申请转发，由leader施行

4、更新申请程序进行，来自同一个client的更新申请按其发送程序顺次执行

5、数据更新原子性，一次数据更新要么胜利（半数以上节点胜利），要么失败

6、实时性，在肯定工夫范畴内，client能读到最新数据

Zookeeper数据结构

1、层次化的目录构造，命名合乎惯例文件系统标准(见下图)

2、每个节点在zookeeper中叫做znode,并且其有一个惟一的门路标识

3、节点Znode能够蕴含数据(只能存储很小量的数据，<1M;最好是1k字节以内)和子节点

4、客户端利用能够在节点上设置监视器

zookeeper的选举机制

（1）Zookeeper集群中只有超过半数以上的服务器启动，集群能力失常工作；

（2）在集群失常工作之前，myid小的服务器给myid大的服务器投票，直到集群失常工作，选出Leader；

（3）选出Leader之后，之前的服务器状态由Looking扭转为Following，当前的服务器都是Follower。

zk命令行操作

运行 zkCli.sh –server <ip>进入命令行工具

查看znode门路 ls /aaa

获取znode数据 get /aaa

zk客户端API

org.apache.zookeeper.Zookeeper是客户端入口主类，负责建设与server的会话

它提供以下几类次要办法：

性能	形容
create	在本地目录树中创立一个节点
delete	删除一个节点
exists	测试本地是否存在指标节点
get/set data	从指标节点上读取 / 写数据
get/set ACL	获取 / 设置指标节点访问控制列表信息
get children	检索一个子节点上的列表
sync	期待要被传送的数据

三、分布式文件系统——HDFS

HDFS概念

分而治之：将大文件、大批量文件，分布式寄存在大量服务器上，以便于采取分而治之的形式对海量数据进行运算剖析；

HDFS是一个文件系统，用于存储文件，通过对立的命名空间——目录树来定位文件；

HDFS是分布式的，由很多服务器联结起来实现其性能，集群中的服务器有各自的角色；

重要个性：

HDFS中的文件在物理上是分块存储（block），块的大小能够配置；

HDFS文件系统会给客户端提供一个对立的形象目录树，客户端通过门路来拜访文件，形如：hdfs://namenode:port/dir/file;

目录构造及文件分块地位信息(元数据)的治理由namenode节点承当——namenode是HDFS集群主节点，负责保护整个hdfs文件系统的目录树，以及每一个门路（文件）所对应的block块信息;

文件的各个block的存储管理由datanode节点承当——datanode是HDFS集群从节点，每一个block都能够在多个datanode上存储多个正本;

HDFS是设计成适应一次写入，屡次读出的场景，且不反对文件的批改(适宜用来做数据分析，并不适宜用来做网盘利用，因为，不便批改，提早大，网络开销大，老本太高)

HDFS基本操作

不同的hadoop版本，hdfs操作命令不同。上面是hadoop3的操作命令，如果是其余版本要查问对应的操作命令，能够应用-help 来查看帮忙。

1、查问命令
　　hdfs dfs -ls / 查问/目录下的所有文件和文件夹

　hdfs dfs -ls -R 以递归的形式查问/目录下的所有文件

2、创立文件夹
　　hdfs dfs -mkdir /test 创立test文件夹

3、创立新的空文件
　　hdfs dfs -touchz /aa.txt 在/目录下创立一个空文件aa.txt

4、减少文件
　　hdfs dfs -put aa.txt /test 将当前目录下的aa.txt文件复制到/test目录下（把-put换成-copyFromLocal成果一样-moveFromLocal会移除本地文件）

5、查看文件内容
　　hdfs dfs -cat /test/aa.txt 查看/test目录下文件aa.txt的内容（将-cat 换成-text成果一样）

6、复制文件
　　hdfs dfs -copyToLocal /test/aa.txt . 将/test/aa.txt文件复制到当前目录（.是指当前目录，也可指定其余的目录）

7、删除文件或文件夹
　　hdfs dfs -rm -r /test/aa.txt 删除/test/aa.txt文件（/test/aa.txt能够替换成文件夹就是删除文件夹）

8、重命名文件
　　hdfs dfs -mv /aa.txt /bb.txt 将/aa.txt文件重命名为/bb.txt

9、将源目录中的所有文件排序合并到一个本地文件
　　hdfs dfs -getmerge / local-file 将/目录下的所有文件合并到本地文件local-file中

能够拜访web端对文件操作有一个直观的意识。拜访NameNode Web UI进行查看。

咱们能够了解为咱们通过命令对文件及文件夹进行了操作，但这都是hdfs给咱们提供的服务，而hdfs底层会将咱们的文件分布式存储。

HDFS工作机制

能够通过hdfs的工作机制来了解一下原理。来理解一下hdfs是如何通过指令实现文件存取工作的。

HDFS集群分为两大角色：NameNode、DataNode (Secondary Namenode)
NameNode负责管理整个文件系统的元数据
DataNode 负责管理用户的文件数据块
文件会依照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上
每一个文件块能够有多个正本，并存放在不同的datanode上
Datanode会定期向Namenode汇报本身所保留的文件block信息，而namenode则会负责放弃文件的正本数量
HDFS的外部工作机制对客户端放弃通明，客户端申请拜访HDFS都是通过向namenode申请来进行

写数据

客户端要向HDFS写数据，首先要跟namenode通信以确认能够写文件并取得接管文件block的datanode，而后，客户端按程序将文件一一block传递给相应datanode，并由接管到block的datanode负责向其余datanode复制block的正本。

读数据

客户端将要读取的文件门路发送给namenode，namenode获取文件的元信息（次要是block的寄存地位信息）返回给客户端，客户端依据返回的信息找到相应datanode一一获取文件的block并在客户端本地进行数据追加合并从而取得整个文件。

咱们要了解的是namenode的工作机制尤其是元数据管理机制，这对于当前做数据治理也十分的有帮忙。

Namenode的工作机制

1、namenode职责：负责客户端申请的响应,元数据的治理（查问，批改）。

2、namenode对数据的治理采纳了三种存储模式：

内存元数据(NameSystem)

磁盘元数据镜像文件

数据操作日志文件（可通过日志运算出元数据）

3、元数据存储形式：

内存中有一份残缺的元数据(内存meta data)

磁盘有一个“准残缺”的元数据镜像（fsimage）文件(在namenode的工作目录中)

用于连接内存metadata和长久化元数据镜像fsimage之间的操作日志（edits文件）

4、checkpoint：每隔一段时间，会由secondary namenode将namenode上积攒的所有edits和一个最新的fsimage下载到本地，并加载到内存进行merge（这个过程称为checkpoint）

Datanode工作机制

1、Datanode工作职责：

存储管理用户的文件块数据

定期向namenode汇报本身所持有的block信息（通过心跳信息上报）

2、Datanode掉线判断

datanode过程死亡或者网络故障造成datanode无奈与namenode通信，namenode不会立刻把该节点断定为死亡，要通过一段时间。

客户端操作

hdfs提供了对外的api，能够进行客户端的操作。咱们只须要引入相干依赖就能够进行操作了。

这里是java示例，也有其余语言的操作。这种根本的操作前期的新组件也都有代替的计划，这里次要是相熟为主。

<dependency>    <groupId>org.apache.hadoop</groupId>    <artifactId>hadoop-hdfs-client</artifactId></dependency>

如果是windows下研发，要指定hadoop安装包地位，能力引入相干包操作，安装包能够去材料中查看。

示例代码如下：

Configuration conf = new Configuration();fs = FileSystem.get(new URI("hdfs://192.168.137.101:9820"), conf, "root");fs.copyFromLocalFile(new Path("D:\\aaa.txt"), new Path("/aaa"));fs.close();

四、分布式运算框架——Mapreduce

Mapreduce是一个分布式运算程序的编程框架。大略的意思能够了解为对于hdfs中的分布式数据，能够通过Mapreduce这种分布式的框架形式来进行简单的运算。试想一下，如果手写分布式运算，要进行任务分配，分批执行，再汇总。这是非常复杂的工程，分布式运算框架的作用就是简化这个过程。

Mapreduce是偏底层的技术，前期的Hive框架将sql语句转化成Mapreduce语句进行执行，来简化操作。前期的spark，flink也都是反对sql语句的。不过这种分布式估算的思维还是十分的重要，也影响了起初很多框架的运算原理。理论工作中不会遇到，然而要对原理有一个理解。

一个残缺的mapreduce程序在分布式运行时有三类实例过程：

1、MRAppMaster：负责整个程序的过程调度及状态协调

2、mapTask：负责map阶段的整个数据处理流程

3、ReduceTask：负责reduce阶段的整个数据处理流程

执行流程

1、一个mr程序启动的时候，最先启动的是MRAppMaster，MRAppMaster启动后依据本次job的形容信息，计算出须要的maptask实例数量，而后向集群申请机器启动相应数量的maptask过程

2、 maptask过程启动之后，依据给定的数据切片(哪个文件的哪个偏移量范畴)范畴进行数据处理，主体流程为：

a) 利用客户指定的inputformat来获取RecordReader读取数据，造成输出KV对

b) 将输出KV对传递给客户定义的map()办法，做逻辑运算，并将map()办法输入的KV对收集到缓存

c) 将缓存中的KV对依照K分区排序后一直溢写到磁盘文件

3、 MRAppMaster监控到所有maptask过程工作实现之后（真实情况是，某些maptask过程解决实现后，就会开始启动reducetask去已实现的maptask处fetch数据），会依据客户指定的参数启动相应数量的reducetask过程，并告知reducetask过程要解决的数据范畴（数据分区）

4、Reducetask过程启动之后，依据MRAppMaster告知的待处理数据所在位置，从若干台maptask运行所在机器上获取到若干个maptask输入后果文件，并在本地进行从新归并排序，而后依照雷同key的KV为一个组，调用客户定义的reduce()办法进行逻辑运算，并收集运算输入的后果KV，而后调用客户指定的outputformat将后果数据输入到内部存储。

mapreduce的shuffle机制

mapreduce中，map阶段解决的数据如何传递给reduce阶段，是mapreduce框架中最要害的一个流程，这个流程就叫shuffle；

具体来说：就是将maptask输入的处理结果数据，分发给reducetask，并在散发的过程中，对数据按key进行了分区和排序；

Shuffle中的缓冲区大小会影响到mapreduce程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。

随后将mr的程序开发好，并运行即可，这就波及到一个问题。如何运行。

五、资源调度——Yarn

在hadoop最开始的版本中，mapreduce的程序要想运行必须本人进行调度，调配资源。这就导致治理越老越凌乱，Yarn就呈现了。

Apache Hadoop YARN：Yet Another Resource Negotiator，另一种资源协调者。

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。随着hadoop的倒退，yarn始终是最外围的资源调度核心，将来咱们写的spark，flink程序都能够通过Yarn来进行调度。

YARN的重要概念

1、 yarn并不分明用户提交的程序的运行机制

2、 yarn只提供运算资源的调度（用户程序向yarn申请资源，yarn就负责分配资源）

3、 yarn中的主管角色叫ResourceManager

4、 yarn中具体提供运算资源的角色叫NodeManager

5、这样一来，yarn其实就与运行的用户程序齐全解耦，就意味着yarn上能够运行各种类型的分布式运算程序（mapreduce只是其中的一种），比方mapreduce、spark，flink……

6、所以，spark等运算框架都能够整合在yarn上运行，只有他们各自的框架中有合乎yarn标准的资源申请机制即可

Yarn就成为一个通用的资源调度平台，从此，企业中以前存在的各种运算集群都能够整合在一个物理集群上，进步资源利用率，不便数据共享。

ResourceManager

ResourceManager是YARN中的主节点服务，它负责集群中所有资源的对立治理和作业调度。

简略来讲，ResourceManager次要实现的性能包含：

与客户端交互，解决来自客户端的申请；
启动和治理ApplicationMaster，并在它运行失败时重新启动它；
治理NodeManager，接管来自NodeManager的资源汇报信息，并向NodeManager下达治理指令（比方杀死container等）；
资源管理与调度，接管来自ApplicationMaster的资源申请申请，并为之分配资源。

NodeManager

NodeManager是YARN集群中的每个具体节点的资源和工作管理者。NodeManager的次要性能包含：

定时向ResourceManager汇报本节点上的资源应用状况和各个Container的运行状态；
接管并解决ApplicationMaster对container的启动、进行等各种申请；
治理Container的生命周期，监控Container的资源应用；
治理工作日志和不同应用程序用到的从属服务（auxiliary service）。

ApplicationMaster

用户提交的每个应用程序均蕴含一个ApplicationMaster，次要性能包含：

与ResourceManager调度器协商以获取资源；
将失去的资源进一步调配给外部的工作；
与NodeManager通信以启动或进行工作；
监控所有工作的运行状态，并在工作运行失败时负责进行容错解决。

Container

Container是YARN中的资源形象，它封装了某个节点上的多个维度的资源，如CPU、内存、磁盘、网络等。当ApplicationMaster向ResourceManager申请资源时，ResourceManager为ApplicationMaster 返回的资源是用Container示意的。

当用户向YARN中提交一个应用程序后，YARN将分两个阶段运行该应用程序：

第一阶段：启动ApplicationMaster；

第二阶段：由ApplicationMaster创立应用程序；为它申请资源，并监控它的整个运行过程，直到运行实现。

第1步：

client 读取作业配置信息并创立Job的环境，调用job.waitForCompletion 办法，向集群提交一个MapReduce 作业。

第2步：

资源管理器给任务分配一个新的作业ID 。

第3步：

作业的client核实作业的输入门路，计算输出文件的分片，将作业的资源 (包含：Jar包、配置文件，split信息等) 拷贝到HDFS集群上的作业提交目录。

第4步：

通过调用资源管理器的submitApplication()来提交作业。

第5步：

当资源管理器收到submitApplciation()的申请时，就将该申请发给调度器 (scheduler)，调度器向NodeManager发送一个启动container的申请。

第6步：

节点管理器NodeManager启动container，外部运行着一个主类为 MRAppMaster的Java利用。其通过发明一些对象来监控作业的进度，失去各个task的进度和实现报告。

第7步：

而后其通过分布式文件系统HDFS来获取由客户端提前计算好的输出split，而后为每个输出split创立一个map工作，依据mapreduce.job.reduces创立 reduce工作对象。

第8步：

如果不是小作业，那利用管理器向资源管理器申请container来运行所有的map和reduce工作。

这些申请是通过心跳来传输的，包含每个map工作的数据地位。比方：寄存输出split的主机名和机架(rack)，调度器利用这些信息来调度工作，尽量将任务分配给存储数据的节点或雷同机架的节点。

第9步：

当一个工作由资源管理器的调度器调配给一个container后，AppMaster通过分割NodeManager来启动container。

第10步：

工作由一个主类为YarnChild的Java利用执行，在运行工作之前首先本地化工作须要的资源。比方：作业配置、JAR文件以及分布式缓存的所有依赖文件。

第11步：

最初，启动并运行map或reduce工作。

同理在向yarn提交spark程序时也会按这种形式进行。这就让资源的调度与程序自身拆散。

六、数仓工具——Hive

Hive是基于Hadoop的一个数据仓库工具(离线)，能够将结构化的数据文件映射为一张数据库表，并提供类SQL查问性能。

Hive解决了MapReduce的简单研发问题，采纳类SQL语法学习成本低。

Hive须要有一个存储元数据的数据库，能够用mysql等等。

简略来说，通过Hive就能够与hdfs文件建设映射关系。咱们只须要通过开发hivesql语句，就能够对hdfs上的文件进行操作了。

Hive基本操作

hive中有一个默认的库：

库名： default

库目录：hdfs://ip:9000/user/hive/warehouse

新建库：

create database db_order;

库建好后，在hdfs中会生成一个库目录：

hdfs://hdp20-01:9000/user/hive/warehouse/db_order.db

建表：

use db_order;

create table t_order(id string,create_time string,amount float,uid string);

表建好后，会在所属的库目录中生成一个表目录

/user/hive/warehouse/db_order.db/t_order

只是，这样建表的话，hive会认为表数据文件中的字段分隔符为 ^A

正确的建表语句为：

create table t_order(id string,create_time string,amount float,uid string)

row format delimited

fields terminated by ',';

这样就指定了，咱们的表数据文件中的字段分隔符为 ","

删除表：

drop table t_order;

删除表的成果是：

hive会从元数据库中革除对于这个表的信息；

hive还会从hdfs中删除这个表的表目录；

外部表与内部表

外部表(MANAGED_TABLE)：表目录依照hive的标准来部署，位于hive的仓库目录/user/hive/warehouse中

内部表(EXTERNAL_TABLE)：表目录由建表用户本人指定

create external table t_access(ip string,url string,access_time string)

row format delimited

fields terminated by ','

location '/access/log';

内部表和外部表的个性差异：

1、外部表的目录在hive的仓库目录中 VS 内部表的目录由用户指定

2、drop一个外部表时：hive会革除相干元数据，并删除表数据目录

3、drop一个内部表时：hive只会革除相干元数据；

一个hive的数据仓库，最底层的表，肯定是来自于内部零碎，为了不影响内部零碎的工作逻辑，在hive中可建external表来映射这些内部零碎产生的数据目录；

而后，后续的etl操作，产生的各种表倡议用managed_table

分区表

分区表的本质是：在表目录中为数据文件创建分区子目录，以便于在查问时，MR程序能够针对分区子目录中的数据进行解决，缩减读取数据的范畴。

比方，网站每天产生的浏览记录，浏览记录应该建一个表来寄存，然而，有时候，咱们可能只须要对某一天的浏览记录进行剖析

这时，就能够将这个表建为分区表，每天的数据导入其中的一个分区；

当然，每日的分区目录，应该有一个目录名（分区字段）

示例：

create table t_access(ip string,url string,access_time string)partitioned by(dt string)row format delimitedfields terminated by ',';

数据导入导出

形式1：导入数据的一种形式：

手动用hdfs命令，将文件放入表目录；

形式2：在hive的交互式shell中用hive命令来导入本地数据到表目录

hive>load data local inpath '/root/order.data.2' into table t_order;

形式3：用hive命令导入hdfs中的数据文件到表目录

hive>load data inpath '/access.log' into table t_access partition(dt='20210806');

文件格式

HIVE反对很多种文件格式： SEQUENCE FILE | TEXT FILE | PARQUET FILE | RC FILE

create table t_pq(movie string,rate int) stored as textfile;

create table t_pq(movie string,rate int) stored as sequencefile;

create table t_pq(movie string,rate int) stored as parquetfile;

七、任务调度——azkaban

azkaban是一个工作流调度零碎。与之类似的还有oozie，airflow等等。

一个残缺的数据分析系统通常都是由大量工作单元组成：

shell脚本程序，java程序，mapreduce程序、hive脚本等；

各工作单元之间存在工夫先后及前后依赖关系；

为了很好地组织起这样的简单执行打算，须要一个工作流调度零碎来调度执行。

在理论工作中，绝不是一个程序就能搞定所有的。须要分为多个程序运行，还有前后程序，所以任务调度零碎始终存在。也在一直的倒退。

简略的任务调度：间接应用linux的crontab来定义；

简单的任务调度：开发调度平台

或应用现成的开源调度零碎，比方ooize、azkaban等。

Azkaban介绍

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的程序运行一组工作和流程。Azkaban定义了一种KV文件格式来建设工作之间的依赖关系，并提供一个易于应用的web用户界面保护和跟踪你的工作流。

地址:https://github.com/azkaban/az...

Azkaban应用

Azkaba内置的工作类型反对command、java

1、创立job形容文件

vi command.job

command.jobtype=command command=echo 'hello'

2、将job资源文件打包成zip文件

zip command.job

3、通过azkaban的web治理平台创立project并上传job压缩包

首先创立project

上传zip包

4、启动执行该job

Command类型多job工作流flow

1、创立有依赖关系的多个job形容

第一个job：foo.job

foo.jobtype=commandcommand=echo foo

第二个job：bar.job依赖foo.job

bar.jobtype=commanddependencies=foocommand=echo bar

2、将所有job资源文件打到一个zip包中

3、在azkaban的web治理界面创立工程并上传zip包

4、启动工作流flow

HDFS操作工作

1、创立job形容文件

fs.jobtype=commandcommand=/home/hadoop/apps/hadoop-2.6.1/bin/hadoop fs -mkdir /azaz

2、将job资源文件打包成zip文件

3、通过azkaban的web治理平台创立project并上传job压缩包

4、启动执行该job

八、数据传输Sqoop

Sqoop是一个用于在Hadoop\和关系型数据库之间流转数据的一个工具。能够应用Sqoop将数据从关系型数据库系统(RDBMS)比方MySQL或者Oracle导入到hadoop分布式文件系统(HDFS)上，而后数据在Hadoop MapReduce上转换，以及将数据导出到RDBMS中。
　　Sqoop主动实现了下面提到的很多过程，Sqoop应用MapReduce来导入和导出数据，这样既能够提供并行化操作又能够进步容错能力。

Sqoop是Apache软件基金会的一个开源我的项目。能够拜访http://Sqoop.apache.org获取，sqoop目前曾经趋于稳定，从apache退休了。

在每天定时定时调度把mysql数据传到大数据集群中，或者把hive中数据传走时会用到。不过随时数据实时化的要求变高，sqoop的作用小了很多。然而一些历史数据的导入还是须要的。

Sqoop应用

Sqoop提供了一系列的操作工具，应用Sqoop须要指定你想要应用的具体工具，以及提供对应的一些参数，应用形式如下。

sqoop tool-name [tool-arguments]

能够应用sqoop help命令查看帮忙信息

sqoop helpAvailable commands:  codegen            生成Java代码  create-hive-table  依据表构造生成hive表  eval               执行SQL语句并返回后果  export             导出HDFS文件到数据库表  help               帮忙  import             从数据库导入数据到HDFS  import-all-tables  导入数据库所有表到HDFS  list-databases     列举所有的database  list-tables        列举数据库中的所有表  version            查看版本信息

能够看到，sqoop提供的操作工具有10个。具体工具的应用帮忙能够sqoop help (tool-name)或者sqoop tool-name --help进行查看。

sqoop-import

import工具能够用于从RDBMS中导入一张表到HDFS。表中的每一条记录对应生成HDFS文件中的每一行。这些记录能够以text files或者Avro或者SequenceFiles格局进行存储。

应用办法如下

$ sqoop-import (generic-args) (import-args)

参数列表-import基本参数

参数	形容
–connect < jdbc-uri >	JDBC连贯串
–connection-manager < class-name >	连贯治理类
–driver < class-name >	手动指定JDBC驱动类
–hadoop-mapred-home < dir >	能够笼罩$HADOOP_MAPRED_HOME
–help	应用帮忙
–password-file	指定蕴含明码的文件
-P	执行import时会暂停，期待用户手动输出明码
–password < password >	间接将明码写在命令行中
–username < username >	指定用户名
–verbose	显示Sqoop工作更多执行信息
–connection-param-file < filename >	可选的参数，用于提供连贯参数
–relaxed-isolation	设置每个mapmer的连贯事务隔离

Hive参数

以下是导入到 Hive 中时可选的参数：

--hive-home <dir>：笼罩 $HIVE_HOME。--hive-import：将表导入Hive（如果没有设置，则应用Hive的默认分隔符。）--hive-overwrite：笼罩Hive表中的现有数据。--create-hive-table：如果设置，那么如果存在指标hivetable，作业将失败。默认状况下，此属性为false。--hive-table <table-name>：设置导入到Hive时要应用的表名。--hive-drop-import-delims：导入到Hive时，从字符串字段中删除\n、\r和\01。--hive-delims-replacement：在导入到Hive时，将字符串字段中的\n、\r和\01替换为用户定义的字符串。--hive-partition-key：调配到分区的Hive字段的名称。--hive-partition-value <v>：作为该工作导入到Hive中的分区键的字符串值。

示例：

bin/sqoop import \--connect jdbc:mysql://hostname:3306/mydb \--username root \--password root \--table mytable \--num-mappers 1 \--hive-import \--hive-database mydb \--hive-table mytable \--fields-terminated-by "\t" \--delete-target-dir \--hive-overwrite

sqoop-export

Sqoop的export工具能够从HDFS同步一系列文件数据到RDBMS中。应用这个工具的前提是导出指标表在数据库必须存在。导出文件依据用户指定的分隔符转化成一系列的输入记录。
　　默认的导出操作会将这些记录转化成一系列的INSERT语句，依据这些语句将记录插入到关系型数据库中。而在update模式下，Sqoop会生成一系列的UPDATE语句，将数据库中曾经存在的记录进行更新。在call模式下，Sqoop会为每一条记录调用一个存储过程来解决。

$ sqoop-export (generic-args) (export-args)

基本参数

*参数*	*形容*
–connect < jdbc-uri >	JDBC连贯串
–connection-manager < class-name >	连贯治理类
–driver < class-name >	手动指定JDBC驱动类
–hadoop-mapred-home < dir >	能够笼罩$HADOOP_MAPRED_HOME
–help	应用帮忙
–password-file	指定蕴含明码的文件
-P	执行import时会暂停，期待用户手动输出明码
–password < password >	间接将明码写在命令行中
–username < username >	指定用户名

示例：

$ bin/sqoop export \--connect jdbc:mysql://hostname:3306/mydb \--username root \--password root \--table mytable \--num-mappers 1 \--export-dir /user/hive/warehouse/mydb.db/mytable \--input-fields-terminated-by "\t"

九、数据收集-Flume

Flume是一个分布式、牢靠、和高可用的海量日志采集、聚合和传输的零碎
反对在日志零碎中定制各类数据发送方，用于收集数据
Flume提供对数据进行简略解决，并写到各种数据接管方

Flume是成熟的开源日志采集零碎，且自身就是hadoop生态体系中的一员，与hadoop体系中的各种框架组件具备天生的亲和力，可扩展性强。

绝对于用Shell脚本和Java的收集形式，躲避了对日志采集过程中的容错解决不便管制，缩小了开发工作量。

例如对于实时的日志剖析这种场景中，对数据采集局部的可靠性、容错能力要求通常不会十分严苛，因而应用通用的flume日志采集框架齐全能够满足需要。

Flume的配置

装置好flume当前须要对其进行配置。

flume通过事件(agent)进行运作，事件下蕴含如下的概念。

Source: 用来定义采集零碎的源头

Channel: 把Source采集到的日志进行传输,解决

Sink:定义数据的目的地

上面是一个示例。

有一个概念就是，咱们定义了agent1这个agent。

定义了agent1.sources的系列设置去执行tail -F实时的采集日志数据。

通过Channel传输，最初指定Sink将日志存入hdfs。

agent1.sources = source1agent1.sinks = sink1agent1.channels = channel1# Describe/configure tail -F source1#应用exec作为数据源source组件agent1.sources.source1.type = exec #应用tail -F命令实时收集新产生的日志数据agent1.sources.source1.command = tail -F /var/logs/nginx/access_logagent1.sources.source1.channels = channel1#configure host for source#配置一个拦截器插件agent1.sources.source1.interceptors = i1agent1.sources.source1.interceptors.i1.type = host#应用拦截器插件获取agent所在服务器的主机名agent1.sources.source1.interceptors.i1.hostHeader = hostname#配置sink组件为hdfsagent1.sinks.sink1.type = hdfs#a1.sinks.k1.channel = c1#agent1.sinks.sink1.hdfs.path=hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H%M%S#指定文件sink到hdfs上的门路agent1.sinks.sink1.hdfs.path=hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H-%M_%hostname#指定文件名前缀agent1.sinks.sink1.hdfs.filePrefix = access_logagent1.sinks.sink1.hdfs.maxOpenFiles = 5000 #指定每批下沉数据的记录条数agent1.sinks.sink1.hdfs.batchSize= 100agent1.sinks.sink1.hdfs.fileType = DataStreamagent1.sinks.sink1.hdfs.writeFormat =Text#指定下沉文件按1G大小滚动agent1.sinks.sink1.hdfs.rollSize = 1024*1024*1024#指定下沉文件按1000000条数滚动agent1.sinks.sink1.hdfs.rollCount = 1000000#指定下沉文件按30分钟滚动agent1.sinks.sink1.hdfs.rollInterval = 30#agent1.sinks.sink1.hdfs.round = true#agent1.sinks.sink1.hdfs.roundValue = 10#agent1.sinks.sink1.hdfs.roundUnit = minuteagent1.sinks.sink1.hdfs.useLocalTimeStamp = true# Use a channel which buffers events in memory#应用memory类型channelagent1.channels.channel1.type = memoryagent1.channels.channel1.keep-alive = 120agent1.channels.channel1.capacity = 500000agent1.channels.channel1.transactionCapacity = 600# Bind the source and sink to the channelagent1.sources.source1.channels = channel1agent1.sinks.sink1.channel = channel1

随后将flume用指定的配置文件启动即可。

bin/flume-ng agent --conf ./conf -f ./conf/weblog.properties.2 -n agent留神：启动命令中的 -n 参数要给配置文件中配置的agent名称

目前市面针对日志采集的有 Flume，Logstash，Filebeat，Fluentd ，rsyslog 很多种。但根本的原理是雷同的，要依据公司的状况进行抉择。

本文从大数据实践到罕用的根底组件进行的笔记的整顿，更深刻的hadoop理论知识倡议通过书籍进行深刻的浏览学习。而Spark，Flink等组件的学习将会通过独自的文章进行笔记整顿。心愿对大家有所帮忙，更多大数据相干常识，请关注 大数据流动~