关于hadoop:Hadoop学习笔记Yarn

Hadoop学习笔记—Yarn

@(Hadoop)[hadoop, yarn]

[TOC]

上一份工作次要负责大数据平台的建设，在这个过程中积攒了一些Hadoop生态组件的搭建和应用笔记，因为工夫关系，不打算去批改其中的错别字和排版问题，间接释出原始笔记。

一些基本知识

ResourceManager 的复原

当ResourceManager 挂掉重启后，为了使之前的工作可能继续执行，而不是从新执行。势必须要yarn记录利用运行过程的状态。

运行状态能够存储在

ZooKeeper
FileSystem 比方hdfs
LevelDB

应用zookeeper做为状态存储的典型配置为

<property>   <description>Enable RM to recover state after starting. If true, then   yarn.resourcemanager.store.class must be specified</description>   <name>yarn.resourcemanager.recovery.enabled</name>   <value>true</value> </property> <property>   <description>The class to use as the persistent store.</description>   <name>yarn.resourcemanager.store.class</name>   <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value> </property> <property>   <description>Comma separated list of Host:Port pairs. Each corresponds to a ZooKeeper server   (e.g. "127.0.0.1:3000,127.0.0.1:3001,127.0.0.1:3002") to be used by the RM for storing RM state.   This must be supplied when using org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore   as the value for yarn.resourcemanager.store.class</description>   <name>hadoop.zk.address</name>   <value>127.0.0.1:2181</value> </property>

Resource Manager的HA

基于zookeeper实现active 和standby 的多个ResourceManager之间的主动故障切换。 active Resource Manager只能有一个，而standby 能够有多个

为了避免故障主动转移时的脑裂，举荐下面的ResourceManager recovery 状态存储应用也应用zk。
同时敞开zk的zookeeper.DigestAuthenticationProvider.superDigest配置，防止zk的管理员拜访到YARN application/user credential information

一个demo配置如下

<property>  <name>yarn.resourcemanager.ha.enabled</name>  <value>true</value></property><property>  <name>yarn.resourcemanager.cluster-id</name>  <value>cluster1</value></property><property>  <name>yarn.resourcemanager.ha.rm-ids</name>  <value>rm1,rm2</value></property><property>  <name>yarn.resourcemanager.hostname.rm1</name>  <value>master1</value></property><property>  <name>yarn.resourcemanager.hostname.rm2</name>  <value>master2</value></property><property>  <name>yarn.resourcemanager.webapp.address.rm1</name>  <value>master1:8088</value></property><property>  <name>yarn.resourcemanager.webapp.address.rm2</name>  <value>master2:8088</value></property><property>  <name>hadoop.zk.address</name>  <value>zk1:2181,zk2:2181,zk3:2181</value></property>

文档：https://hadoop.apache.org/doc...

YARN Node Labels

基于Label，将一个Yarn治理的集群，划分为多个分区。不同的queue能够应用不同的分区。

文档：https://hadoop.apache.org/doc...

YARN Node Attributes

对Node Manager定义一组属性值，使得应用程序可能基于这些属性值，来抉择Node Mananger，并将其利用的container部署到下面

文档：https://hadoop.apache.org/doc...

Web Application Proxy

集群中运行利用的application master 须要提供一些web ui给ResourceManager，以便其对立治理。但集群中可能有歹意利用，提供了具备平安危险的web ui. 为了升高平安危险，yarn 应用一个名为Web Application Proxy的利用。领有接管Application Master提供给的web ui链接，将申请中的cookies 进行剥离，同时将不平安的链接标记进去。

默认状况下Web Application Proxy 是作为Resource Manager的一部分启动。不须要独自配置。如果要独自部署，须要额定配置。
文档：https://hadoop.apache.org/doc...

YARN Timeline Server

可能存储和查问以后、历史的利用执行信息。TimeLine Server中的存储数据结构为

timeline Domain 对应一个用户的利用列表
Time Entity 定义一个利用
Timeline Events定义该利用的执行事件，比方利用启动，利用执行，利用完结等

Timeline Server分为V1和V2版本，V1版本将数据存储在levelDb中，v2版将数据存储在hbase中

文档：https://hadoop.apache.org/doc...

基于yarn的API，编写一个能够部署到yarn集群执行的利用

https://hadoop.apache.org/doc...

利用平安

yarn为了保障利用的运行平安，有一系列的机制先限度利用的权限之类的

文档：https://hadoop.apache.org/doc...

Node Manager

后面说了ResourceMananger 须要重启后，能从原地继续执行工作。Node Mananger在挂掉重启后，也须要有相应的复原个性。
其具体的配置，参见文档。

文档：https://hadoop.apache.org/doc...

Health Checker Service

Node Mananger的健康检查服务，其提供两种健康检查器

Disk Checker 查看node manager的磁盘健康状况，并基于此上报给Resource Manager
External Health Script 管理员能够指定一些自定义的健康检查脚本，供Node Manager的 Health Checker Service调用

CGroups with YARN

yarn应用linux的CGroups实现资源隔离和管制，相干配置见文档：
https://hadoop.apache.org/doc...

Secure Containers

将各利用container 限度在提交他的用户权限下，不同用户提交的利用container 不能拜访彼此的文件、文件夹。具体配置
文档：https://hadoop.apache.org/doc...

移除节点

有两种形式：

normal 间接把要移除的节点从集群中摘除
Gracefully 期待节点上的工作执行结束后摘除
文档：https://hadoop.apache.org/doc...

Opportunistic Containers 机会主义容器

yarn个别只在对应的Node manager有资源时，才会将一个工作对应的container 调配到该NM. 但开启Opportunistic Containers后，即使对应的node manager没有资源，也会将contaienr 调配到NM，等到NM闲暇时，马上开始执行，是为机会主义者。这在肯定水平能进步集群的资源利用率。
文档：

配置部署

部署用户。依照Hadoop官网的倡议。yarn相干组件，应用yarn用来治理

根本部署形式

启动RM

$HADOOP_HOME/bin/yarn --daemon start resourcemanager

启动NM

$HADOOP_HOME/bin/yarn --daemon start nodemanager

启动proxyServer

$HADOOP_HOME/bin/yarn --daemon start proxyserver

切换到mapred用户下，启动historyserver

$HADOOP_HOME/bin/mapred --daemon start historyserver

高效能部署

yarn自身由多个组件组成，且有些组件还有多个节点，比方nodemanager，一次启动去到多个机器上执行是件很繁琐的事件。hadoop发型包，提供了sbin/start-yarn.sh 和 sbin/stop-yarn.sh两个脚本去启停yarn相干的所有组件：比方nodemanager、resourcemanager、proxyserver 。

他实现的原理是，基于hadoop安装包中的/opt/hadoop-3.2.1/etc/hadoop/workers文件，去登录到相应的机器，实现组件的执行。workers中定义了所有datanode的机器host。登录形式是基于SSH的免密登录形式，具体配置参见：https://www.cnblogs.com/nices...

如果发动脚本执行的机器，自身也须要部署一个nodemanager。那么他须要配置本人对本人的SSH免密登录

通yarn-site.xml ，脚本曾经能够晓得resource manager的组件机器。所以workers文件中，只须要设置所有的node manager的机器host

个别yarn的node manager会跟hdfs的 datanode部署在一起，所以hdfs的批量启停，也是用的这个workers文件。

但下面说的$HADOOP_HOME/bin/mapred --daemon start historyserver不属于，只属于mapreduce，所以还是要独自启停，通过yarn的相干脚本是不能治理它的。之所以将这个historyserver放到yarn的文档中来写，是为了偷懒，没独自搞一个mr的wend

一些谬误

谬误1

在yarn的治理界面，发现提交的sql，执行有以下谬误

yarn谬误谬误: 找不到或无奈加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

问题起因是，yarn的类门路有问题。通过hadoop官网的yarn-default.xml文件得悉，yarn加载的类门路配置yarn.application.classpath的默认值为

$HADOOP_CONF_DIR, $HADOOP_COMMON_HOME/share/hadoop/common/*, $HADOOP_COMMON_HOME/share/hadoop/common/lib/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/*, $HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*, $HADOOP_YARN_HOME/share/hadoop/yarn/*, $HADOOP_YARN_HOME/share/hadoop/yarn/lib/* For Windows: %HADOOP_CONF_DIR%, %HADOOP_COMMON_HOME%/share/hadoop/common/*, %HADOOP_COMMON_HOME%/share/hadoop/common/lib/*, %HADOOP_HDFS_HOME%/share/hadoop/hdfs/*, %HADOOP_HDFS_HOME%/share/hadoop/hdfs/lib/*, %HADOOP_YARN_HOME%/share/hadoop/yarn/*, %HADOOP_YARN_HOME%/share/hadoop/yarn/lib/*

门路中的许多环境变量都没有配置。解决办法有2

将对应的环境变量配置上，以使yarn的默认配置可能失常加载上。举荐这种
应用hadoop classpath命令，看下hadoop应用的类门路都有哪些，将其拷贝进去，在yarn-site.xml中配置，举例

```

<name>yarn.application.classpath</name><value>/opt/hadoop-3.2.1/etc/hadoop:/opt/hadoop-3.2.1/share/hadoop/common/lib/*:/opt/hadoop-3.2.1/share/hadoop/common/*:/opt/hadoop-3.2.1/share/hadoop/hdfs:/opt/hadoop-3.2.1/share/hadoop/hdfs/lib/*:/opt/hadoop-3.2.1/share/hadoop/hdfs/*:/opt/hadoop-3.2.1/share/hadoop/mapreduce/lib/*:/opt/hadoop-3.2.1/share/hadoop/mapreduce/*:/opt/hadoop-3.2.1/share/hadoop/yarn:/opt/hadoop-3.2.1/share/hadoop/yarn/lib/*:/opt/hadoop-3.2.1/share/hadoop/yarn/*</value>

</property>

### 谬误2通过historyserver， 在Mapreduce阶段，看到异样

org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxService:mapreduce_shuffle does not exist at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at

起因，这是因为mr应用了mapreduce_shuffle辅助服务，但yarn没有配置。解决办法，同样是批改yarn-site.xml，在其中退出以下配置

<name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>

</property>
<property>

<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

### 谬误3

ontainer [pid=26153,containerID=container_e42_1594730232763_0121_02_000006] is running 598260224B beyond the 'VIRTUAL' memory limit. Current usage: 297.5 MB of 1 GB physical memory used; 2.7 GB of 2.1 GB virtual memory used. Killing container.
Dump of the process-tree for container_e42_1594730232763_0121_02_000006 :

    |- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS) SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES) FULL_CMD_LINE

谬误的意思是，yarn调配给container的虚拟内存，超过了限度。起因是，一个container应用的内存，除了物理内存，还能够应用操作系统的虚拟内存，也即硬盘。container分为两种类型，map 和reduce。决定map的container的物理内存大小为`mapreduce.map.memory.mb`决定reduce的物理内存为`mapreduce.reduce.memory.mb`决定map container所能申请的虚拟内存大小的公式是：`mapreduce.map.memory.mb` * `yarn.nodemanager.vmem-pmem-ratio`决定reduce container所能申请的虚拟内存带下是公式是：`mapreduce.reduce.memory.mb` * `yarn.nodemanager.vmem-pmem-ratio`。所以要解决虚拟内存超限有两个方法：- 增大container的物理内存大小。即增大`mapreduce.map.memory.mb` 或 `mapreduce.reduce.memory.mb`- 增大虚拟内存申请的比率`yarn.nodemanager.vmem-pmem-ratio`## 参考资料https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.6.5/bk_yarn-resource-management/content/ref-c2ececdf-c68e-4095-99b5-15b4c31701ba.1.htmlhttps://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/ResourceManagerRestart.htmlhttps://web.archive.org/web/20170610145449/http://hortonworks.com/blog/how-to-plan-and-configure-yarn-in-hdp-2-0/