关于hadoop:hadoop基础整理

一、大数据概念

次要解决海量数据的存储和数据分析计算的问题

8bite =1 Byte,1k=1024Byte,

Bite Byte KB MB,GB,TB,PB,EB,ZB,YB,BB,NB,DB

大数据特点：

Volume 大量 (局部企业数据量达EB)

Velocity 高速（数据处理效率要高）

Variety 多样。（结构化+非结构化）

value 低价值密度

二、从hadoop框架探讨大数据生态

Hadoop
hadoop的初衷是采纳大量的便宜机器，组成一个集群！实现大数据的存储和计算！

1 hadoop 1.x和2.x区别

1.x和2.x的区别是将资源调度和治理进行拆散！由对立的资源调度平台YARN进行大数据计算资源的调度！
晋升了Hadoop的通用性！Hadoop搭建的集群中的计算资源，不仅能够运行Hadoop中的MR程序！也能够运行其余计算框架的程序！

在hadoop不久之后，因为MR的低效性，呈现了许多更为高效的计算框架！
例如： Tez，Storm,Spark，Flink

实现大数据的计算
①写程序，程序须要复合计算框架的要求！

    java---->main----->运行
    MapReduce(编程模型)----->Map--Reducer

②运行程序，申请计算资源(cpu+内存，磁盘IO，网络IO)

    java----->JVM------>OS----->申请计算资源
    1.0: MapReduce(编程模型)---->JobTracker----->JVM----->申请计算资源
    2.0: MapReduce(编程模型)---->jar------>运行时，将jar包中的工作，提交给YARN，和YARN进行通信
            由YARN中的组件-----JVM------>申请计算资源

2 hadoop的组件

HDFS（框架）:负责大数据的存储
YARN（框架）：负责大数据的资源调度

MR(编程模型)：应用Hadoop制订的编程要求，编写程序，实现大数据的计算！

2.1 HDFS：负责大数据的存储

Namenode(1个)：
- 负责文件，名称等元数据(属性信息)的存储！
  文件名，大小，文件切分了多少块(block)，创立和批改工夫等！
- 职责：承受客户端的申请；承受DN的申请；向DN分配任务
DataNode（N个）
- 负责文件中数据的存储！
- 负责承受NM调配的工作；负责数据块(block)的治理(读，写)！
可选过程：SecondaryNamenode(N个): 负责辅助NameNode工作！

2.2 MapReduce

MapReduce(编程标准)：程序中有Mapper(简略解决)和Reducer(合并)

遵循MapReduce的编程标准，编写的程序，打包后，称为一个Job(工作)！

Job须要提交到YARN上，向YARN申请计算资源，运行Job中的Task(过程)！

Job会先创立一个过程MRAppMaster(mapreduce 利用管理者)，由MRAppMaster向YARN申请资源！
MRAppMaster负责监控Job中各个Task运行状况，进行容错治理！

2.3 Yarn：负责集群中所有计算资源的治理和调度！

ResourceManager(1个): 负责整个集群所有资源的治理！
- 负责承受客户端的提交Job的申请！
- 负责向NM分配任务！
- 负责承受NM上报的信息！
NodeManager(N个): 负责单台计算机所有资源的治理！
- 负责和RM进行通信，上报本机中的可用资源！
- 负责支付RM调配的工作！
- 负责为Job中的每个Task调配计算资源！
Container（容器）: 对工作运行环境的形象
- NodeManager为Job的某个Task调配了2个CPU和2G内存的计算资源！
  ，防止被其余的task抢占资源！
- 将计算资源，封装到一个Container中，在Container中的资源，会被临时隔离
- 以后Task运行完结后，以后Container中的资源会被开释！容许其余task来应用
ApplicationMaster ：数据切分，为应用程序申请资源，并调配给外部工作，工作监控与容错

三、Hadoop 的运行环境搭建

1、重要目录

（1）bin目录：寄存对Hadoop相干服务（HDFS,YARN）进行操作的脚本

（2）etc目录：Hadoop的配置文件目录，寄存Hadoop的配置文件

（3）lib目录：寄存Hadoop的本地库（对数据进行压缩解压缩性能）

（4）sbin目录：寄存启动或进行Hadoop相干服务的脚本

（5）share目录：寄存Hadoop的依赖jar包、文档、和官网案例

2、配置文件

（1）4个默认的配置文件：

     地位：  HADOOP_HOME/share/xxxx.jar/xxx-default.xml

文件名：core-default.xml：设置hadoop最外围的参数！
hdfs-default.xml 保留的是hdfs相干的参数！

mapred-default.xml: MR程序在运行时，须要应用的参数！

yarn-default.xml: yarn在启动时，须要的参数！

（2）4个可自定义的配置文件：xxx-site.xml

core-site.xml：用户自定义的设置hadoop最外围的参数！
hdfs-site.xml 用户自定义的保留的是hdfs相干的参数！

mapred-site.xml: 用户自定义的MR程序在运行时，须要应用的参数！
yarn-site.xml: 用户自定义的yarn在启动时，须要的参数！

（3） tips

能够自定义配置文件的目录： hadoop –config 配置文件的目录
如果没有配置，默认读取 HADOOP_HOME/etc/hadoop 中对应的配置文件！

Hadoop在启动时，先加载4个默认的配置文件，再加载用户自定义的配置文件，如果用户自定义的配置文件中有和4个默认配置文件中门的参数，能够笼罩之前曾经加载的值！

hadoop-daemon.sh start namenode脚本在执行时，只会去默认的目录中读取配置文件！

3、hadoop的运行模式：本地模式、伪分布式模式以及齐全分布式模式

（1）本地模式：在本机上应用hdfs，应用的就是本地的文件系统

设置办法：

core-site.xml 中fs.defaultFS=file:/// (默认，不必批改)

（2）伪分布式：NN和DN在一台机器，且只有一个DN节点

设置办法：

配置集群
指定HDFS中namenode的地址，core-site.xml 中fs.defaultFS=hdfs://hadoop101:9000

配置hdfs-site.xml指定HDFS正本的数量dfs.replication

启动集群

格式化nameNode ，bin/hdfs namenode -format,启动namenode，datanode

启动NN： hadoop-daemon.sh start namenode

            进行NN：  hadoop-daemon.sh stop namenode
            启动DN：  hadoop-daemon.sh start datanode
            进行DN：  hadoop-daemon.sh stop datanode
            应用：  hadoop fs  命令  文件门路

查看集群jps
jps是JDK中的命令，不是Linux命令。不装置JDK不能应用jps

Yarn上运行mapreduce程序

实现大数据的计算！

     ①依照MR的标准编写一个程序
     ②将程序打包为jar
     ③运行jar中的程序

两种运行模式：
取决于参数： mapreduce.framework.name=local（默认）
①本地模式(在本机上运行MR) mapreduce.framework.name=local

     在本机运行MR！在本机应用多线程的形式，运行多个Task!

②在YARN上运行 mapreduce.framework.name=yarn

 将MR提交给YARN，由YARN将Job中的多个task调配到多台机器中，启动container运行task!
         须要启动YARN，YARN由RM和NM过程组成！

（3）齐全分布式

筹备3台客户机 P0501&wo

四、HDFS（hadoop distributed file system）分布式文件系统

1. hfs 不反对对文件的随机读写，能够追加，但不能批改

起因：文件在HDFS上存储时，以block为根本单位存储的

a. 没有提供对文件的在线寻址性能

b. 文件以块模式存储，批改了一个块中的内容，就会影响以后块之后的所有块，效率低

2. HDFS 不适宜存小文件

起因： HDFS存储了大量的小文件，会升高NN的服务能力

NN负责文件元数据（属性，块的映射）的治理，NN在运行时，必须将以后集群中存储的所有文件的元数据全副加载到内存，NN须要大量的内存

4. 同一个文件在同一时刻只能有一个客户端写入

5. 块大小，取决于dfs.blocksize ，2.x 默认为128M，1.x 默认为64M

起因：基于最佳传输损耗实践（在一次传输中，寻址工夫占用总传输工夫的1%时，本次传输的损耗最小，为最佳性价比传输）

不管对磁盘的文件进行读还是写，都须要先进行寻址

目前硬件的倒退条件，一般磁盘写的速率大略为100M/s，寻址工夫个别为10ms

块在传输时，每64k还须要校验一次，因而块大小，必须为2的n次方

6. 块大小须要适合调节

不能太大，a. 在一些分块读取的场景，不够灵便，会带来额定的网络耗费；b.在上传文件时，一旦产生故障，会造成资源的节约。

不能太小，a. 块太小，同样大小的文件，会占用过多的NN的元数据空间;b. 块太小，在进行读写操作时，会耗费额定的寻址空间

7 正本数的概念指的是最大正本数

默认块大小128M，指的是块的最大大小。每个块最多存128M，如果以后块存储的数据不满128M，存了多少数据，就占用多少磁盘空间，一个块只属于一个文件。

8 shell操作

hadoop fs 既能够对本地文件系统进行操作还能够操作分布式文件系统

hdfs dfs 只能操作分布式文件系统

hadoop fs -help +命令，可查帮忙文档

9 HDFS的写数据流程

①服务端启动HDFS中的NN和DN过程
②客户端创立一个分布式文件系统客户端，由客户端向NN发送申请，申请上传文件
③NN解决申请，查看客户端是否有权限上传，门路是否非法等
④查看通过，NN响应客户端能够上传
⑤客户端依据本人设置的块大小，开始上传第一个块，默认0-128M,
NN依据客户端上传文件的正本数(默认为3)，依据机架感知策略选取指定数量的DN节点返回
⑥客户端依据返回的DN节点，申请建设传输通道

客户端向最近(网络举例最近)的DN节点发动通道建设申请，由这个DN节点顺次向通道中的(间隔以后DN间隔最近)
下一个节点发送建设通道申请，各个节点发送响应 ，通道建设胜利

⑦客户端每读取64K的数据，封装为一个packet(数据包，传输的根本单位)，将packet发送到通道的下一个节点

通道中的节点收到packet之后，落盘(测验)存储，将packet发送到通道的下一个节点！
每个节点在收到packet后，向客户端发送ack确认音讯！

⑧一个块的数据传输实现之后，通道敞开，DN向NN上报音讯，曾经收到某个块
⑨第一个块传输实现，第二块开始传输，顺次反复⑤-⑧，直到最初一个块传输实现，NN向客户端响应传输实现！

客户端敞开输入流

10 异样写流程

①-⑥见上
⑦客户端每读取64K的数据，封装为一个packet，封装胜利的packet，放入到一个队列中，这个队列称为dataQuene(待发送数据包)
在发送时，先将dataQuene中的packet按程序发送，发送后再放入到ackquene(正在发送的队列)。
每个节点在收到packet后，向客户端发送ack确认音讯！
如果一个packet在发送后，曾经收到了所有DN返回的ack确认音讯，这个packet会在ackquene中删除！
如果一个packet在发送后，在收到DN返回的ack确认音讯时超时，传输停止，ackquene中的packet会回滚到
dataQuene。

从新建设通道，剔除坏的DN节点。建设实现之后，持续传输！
只有有一个DN节点收到了数据，DN上报NN曾经收完此块，NN就认为以后块曾经传输胜利！
NN会主动保护正本数！

11 机架感知

2.7.2默认的策略：
第一个正本放在本地机架的一个DN节点
第二个正本放在本地机架的另一个DN节点

    本地机架的网络拓扑举例最多为2，速度快！

第三个正本放在其余机架的一个DN节点

    为了安全性

tomcat服务器日志
数据库服务卡mysql数据客户端()

五、MapReduce

六、zookeeper

1、概述：zookeeper= 文件系统+告诉机制

开源的分布式的，为分布式应用提供协调服务的apache我的项目，多用作为集群提供服务的中间件

负责存储和治理大家都关怀的数据，eg，hdfs 的url

Zookeeper是java编写的一个开源的分布式的存储中间件！
Zookeeper能够用来存储分布式系统中各个过程都关怀的外围数据！
Zookeeper采取观察者模式设计，能够运行客户端在读取数据时，设置一个观察者一旦察看的节点触发了指定的事件，服务端会告诉客户端线程，客户端能够执行回调办法，执行对应的操作！

2、特点：

（1）一致性：zookpeer 中的数据按程序分批入库，并最终统一

（2）原子性：一次数据更新要么胜利要么失败

（3）繁多视图：client 无论连贯到哪个zk节点，数据都是统一的

（4）可靠性：每次对zk的操作状态都会保留到服务器，每个server保留一份雷同的数据正本（和hdfs不一样，dhfs 每个datanode 数据不统一）

（5）更新申请程序进行，来自同一个client的更新申请按其发送程序顺次执行

（6）实时性：在肯定范畴内，client 能读取到最新数据

3、数据结构

与unix文件系统相似，整体可看作一棵树，每个节点称作一个znode，每个znode能够相似看作一个目录，其余能够创立子目录

zookeeper 集群本身保护了一套数据结构，存储构造是一个树形构造，其上每个节点，成为znode，每个znode默认能存1M的数据，每个znode能够通过其门路惟一标示

4、利用场景：

数据公布与订阅：实用于配置信息多设施共享，会产生动态变化

软负载平衡：负责收集服务信息与状态监控

集群治理：每台机器的运行状态收集

5、应用

启动：   bin/zkServer.sh start
             bin/zkCli.sh -server host:port
             
进行：   bin/zkServer.sh stop
          bin/zkCli.sh -server host:port  close|exit
          
增：   create [-s] [-e]  path  data
                -s:  创立一个带序号的znode
                -e:  创立一个长期znode，长期的znode被所创立的session领有，一旦session敞开，长期
                        节点会被删除
删：   delete  path 
            rmr   path
改：   set  path  data

查：   get  path 
       stat path
       ls   path
       ls2  path
反对四字命令
nc hadoop101 2181  ruok
设置观察者
  get  path watch：  监听指定节点数据的变动
    ls   path watch：  监听以后门路子阶段数据的变动，一旦新增或删除了子节点，会触发事件
    留神： 观察者在设置后，只有当次无效！

二、ZK集群的注意事项

ZK在设计时，采纳了paxos协定设计，这个协定要求，集群半数以上服务实例存储，集群
```
才能够失常提供服务
```

ZK集群中，server有Leader 和Followwer两种角色

Leader只有一个，在集群启动时，主动选举产生！

选举Leader时，只有数据和Leader放弃同步的Follower有权参加竞选Leader!
在竞选Leader时，serverid大的Server有劣势！

集群模式ZK的写流程

①客户端能够连贯任意的zkserver实例，向server发送写申请命令
②如果以后连贯的server不是Leader，server会将写命令发送给Leader
③Leader将写操作命令播送到集群的其余节点，所有节点都执行写操作命令
④一旦集群中半数以上的节点写数据胜利，Leader会响应以后Server，让以后Server
        响应客户端，写操作实现！

关于hadoop:hadoop基础整理

一、大数据概念

二、从hadoop框架探讨大数据生态

1 hadoop 1.x和2.x区别

2 hadoop的组件

2.1 HDFS：负责大数据的存储

2.2 MapReduce

2.3 Yarn：负责集群中所有计算资源的治理和调度！

三、Hadoop 的运行环境搭建

1、重要目录

2、配置文件

3、hadoop的运行模式：本地模式、伪分布式模式以及齐全分布式模式

四、HDFS（hadoop distributed file system）分布式文件系统

1. hfs 不反对对文件的随机读写，能够追加，但不能批改

2. HDFS 不适宜存小文件

4. 同一个文件在同一时刻只能有一个客户端写入

5. 块大小，取决于dfs.blocksize ，2.x 默认为128M，1.x 默认为64M

6. 块大小须要适合调节

7 正本数的概念指的是最大正本数

8 shell操作

9 HDFS的写数据流程

10 异样写流程

11 机架感知

五、MapReduce

六、zookeeper

1、概述：zookeeper= 文件系统+告诉机制

2、特点：

3、数据结构

4、利用场景：

5、应用

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于hadoop:hadoop基础整理

一、大数据概念

二、从hadoop框架探讨大数据生态

1 hadoop 1.x和2.x区别

2 hadoop的组件

2.1 HDFS：负责大数据的存储

2.2 MapReduce

2.3 Yarn：负责集群中所有计算资源的治理和调度！

三、Hadoop 的运行环境搭建

1、重要目录

2、配置文件

3、hadoop的运行模式：本地模式、伪分布式模式以及齐全分布式模式

四、HDFS（hadoop distributed file system）分布式文件系统

1. hfs 不反对对文件的随机读写，能够追加，但不能批改

2. HDFS 不适宜存小文件

4. 同一个文件在同一时刻只能有一个客户端写入

5. 块大小，取决于dfs.blocksize ，2.x 默认为128M，1.x 默认为64M

6. 块大小须要适合调节

7 正本数的概念指的是最大正本数

8 shell操作

9 HDFS的写数据流程

10 异样写流程

11 机架感知

五、MapReduce

六、zookeeper

1、概述：zookeeper= 文件系统+告诉机制

2、特点：

3、数据结构

4、利用场景：

5、应用

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复