关于程序员:腾讯云EMR基于YARN针对云原生容器化的优化与实践

导语 | 传统HADOOP生态系统应用YARN治理/调度计算资源，该零碎⼀般具备显著的资源使⽤周期。实时计算集群资源耗费次要在⽩天，而数据报表型业务则安顿在离线计算集群中。离在线业务离开部署的首要问题就是资源使用率低，耗费老本⾼。随着业务的增⻓和突发的报表计算需要，为了解决为离线集群预留资源，腾讯云EMR团队和容器团队联合推出Hadoop Yarn on Kubernetes Pod，以提⾼容器资源使用率，升高资源老本，将闲时容器集群CPU使⽤率晋升数倍之多。本文次要介绍HADOOP资源调度器YARN在容器环境中的优化与实际。

一、Hadoop Yarn on Kubernetes Pod 混合部署模式

Hadoop Yarn on Kubernetes Pod 计划提供弹性扩缩容和离在线混合部署两项性能。弹性扩缩容次要聚焦于如何利⽤云原生资源，疾速扩容资源以补充算力。离在线混合部署模式的目标是为了充沛应用在线集群的闲暇资源，尽可能减少为离线集群预留闲暇资源的频次。

EMR弹性扩缩容模块（yarn-autoscaler）提供按负载和按工夫弹性伸缩两种扩缩容形式。对于按负载伸缩，用户能够对不同指标设置阈值来触发扩缩容，比方设置Yarn队列中availablevcore、 pending vcore、available mem、pending mem。亦能够应用工夫扩缩规定，按天、按周、按月等规定指定触发。

当弹性规定被触发后，离在线部署模块获取以后在线TKE集群中能够提供的闲置算力的规格及数量，调用Kubernetes api创立对应数量的资源，ex-scheduler扩大调度器确保Pod被创立在残余资源更多的节点上，该POD负责启动YARN的服务。

通过该计划，Yarn的NodeManager服务能够疾速部署到POD节点中。但也Yarn原生调度没有思考异构资源，由此引发了两个问题：

1. AM的POD被驱赶，导致APP失败

在node节点的资源紧缺的条件下，kubelet为了保障node节点的稳定性，回触发被动驱赶pod的机制。如果该节点存在AM服务，则整个Application就要被视为失败，ResourceManager此时会重新分配AM。对于计算量很大的工作，Application重跑的代价不可接受。

2. Yarn原生非独占分区资源共享局限性

Yarn的标签分区个性⽀持独占分区（Exclusive），非独占分区（Non-exclusive）。

独占分区（Exclusive）：例如指定独占分区x，Yarn的container只会调配到该x分区。
非独占分区（Non-exclusive）：例如非独占分区x，x分区的资源能够共享给default分区。

只有当指定分区default时，default上运⾏的Application能够使⽤分区x的资源。

然而在理论使⽤场景中，⽤户要给各个业务部门调配各自的独占分区资源，同时会划分出供各部门应用的default分区。default分区资源会比拟短缺，业务部门心愿可能应用本人的独占分区和同时充分利用default分区资源，独占分区资源和default分区都不够用的时候，才会触发弹性扩容，往属于本人的独占分区中扩容资源。

二、对Yarn革新带来的挑战

对上述feature的开发，除了需要技术本⾝的难度。还须要思考到尽可能升高用户存量集群稳定性的影响，缩小用户业务侧革新老本。

集群稳定性：Hadoop Yarn作为大数据系统中的根底调度组件，如果改变过多，引发的故障几率就会增大。同时引入的feature,必然须要降级存量集群的Haoop Yarn。降级操作要做到对存量业务集群无感知，不能影响到当天的业务。
业务侧应用老本：引入的新feature也必须合乎原⽣yarn的应用习惯，不便业务侧用户了解，同时升高业务侧对代码的革新。

1. AM自主抉择存储介质

目前Yarn的社区没有思考云上异构资源混合部署的特点。在线TKE集群中，当资源缓和时会对容器进行驱赶。为了防止Appliction从新计算，浪费资源的景象，必须提供AM能够指定是否调配到POD 类型资源。

自主抉择存储介质中，应用配置化标识，由NodeManager通过RPC上报是否将资源提供给AM应用，ResourceManager通过上报信息决定将Application的AM调配到稳固资源介质中。由NodeManager通过配置化上报信息的益处是不言而喻的：

去集中化：缩小ResourceManager解决逻辑。否则，扩容资源时，还需将资源信息通过RPC/配置流入到ResourceManager中。如无必要，勿增实体，对ResourceManager的革新应该轻量化。
集群稳定性：存量业务集群对Yarn降级后，须要重启NodeManager, 只须要重启ResourceManager。Yare的高可用个性可保障降级过程对业务无影响。无需重启NodeManager 的起因是，NM默认将本机资源视为可调配。
简略易用：用户能够通过配置⾃由决定工作资源领有调配AM的权力，不单单局限POD容器资源。

2. 多标签动态分配资源

Yarn的原生标签设计中，提交工作时的标签表达式中只能含有单个标签。如果为了提⾼利用率，同时应用多个分区资源，就必须将非default分区设置为Non-exclusive个性。标签表达式必须解决如下三个问题：

资源隔离：分区A设置Non-exclusive后，资源被其余分区上的APP占用后，无奈及时替换给分区A的App。
自在共享资源：只有default分区才有资格申请Non-exclusive分区资源。
动静抉择分区资源：多分区资源共享时，无奈依据分区残余资源大小抉择可用区，影响工作执行效率。

腾讯云EMR团队通过反对扩大表达式语法，减少对逻辑运算符表达式的反对，使App能够申请多个分区资源。同时开发资源统计模块动静统计分区可用资源，为App调配最合适的分区。

三、实操演练

测试环境：指定172.17.48.28/172.17.48.17的NodeManager为default分区，172.17.48.29/172.17.48.26的NodeManager为x分区。

队列设置：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>yarn.scheduler.capacity.root.queues</name>
<value>a,b</value>
</property>


<property>
<name>yarn.scheduler.capacity.root.accessible-node-labels.x.capacity</nam e>
<value>100</value>
</property>


<property>
<name>yarn.scheduler.capacity.root.accessible-node-labels.y.capacity</nam e>
<value>100</value>
</property>


<!-- configuration of queue-a -->
<property>
<name>yarn.scheduler.capacity.root.a.accessible-node-labels</name>
<value>x</value>
</property>


<property>
<name>yarn.scheduler.capacity.root.a.capacity</name>
<value>50</value>
</property>


<property>
<name>yarn.scheduler.capacity.root.a.accessible-node-labels.x.capacity</n ame>
<value>100</value>
</property>


<!-- configuration of queue-b -->
<property>
<name>yarn.scheduler.capacity.root.b.accessible-node-labels</name>
<value>y</value>
</property>


<property>
<name>yarn.scheduler.capacity.root.b.capacity</name>
<value>50</value>
</property>


<property>
<name>yarn.scheduler.capacity.root.b.accessible-node-labels.y.capacity</n ame>
<value>100</value>
</property>


</configuration>

1. 规定AM只能调配在172.17.48.28

对另外三个节点的NodeManager节点配置如下配置项:

yarn.nodemanager.am-alloc-disabled = true

配置后，提交的Application的AM只能在172.17.48.28节点启动。

2. 应用组合标签

通过mapreduce.job.node-label-expression指定标签表达式，x||示意同时应用x/default分区。

hadoop jar /usr/local/service/hadoop/share/hadoop/mapreduce/hadoop-mapredu ce-examples-3.1.2.jar pi -D mapreduce.job.queuename="a" -D mapreduce.job. node-label-expression="x||" 10 10

应用该命令提交后，察看到Application的container被调配在x/default分区。

四、Hadoop Yarn on Kubernetes Pod 最佳实际

该客户大数据利用和存储跑在Yarn治理的大数据集群，在生产环境中，面临诸多问题，次要体现在大数据的算力有余和在线业务波谷时资源的节约。如离线计算在算力有余时，数据准时性无奈失去保障，尤其是当遇到随机紧急大数据查问工作，没有可用的计算资源，只能停掉已有的计算工作，或者等已有工作实现，⽆论哪种⽅式，总体工作执行的效率都会大打折扣。

基于Hadoop Yarn on Kubernetes Pod 计划，将离线工作主动扩容至云上集群，与TKE在线业务集群混合部署，充分利用云上波谷时段的闲置资源，进步离线业务的算力，并利用云上资源疾速的弹性扩容能力，及时补充离线计算的算力。

通过Hadoop Yarn on Kubernetes Pod ⽅案对客户的在线TKE集群资源应用进下优化后，集群闲时CPU使用率能进步500%。

五、总结

本文提出了基于YARN针对云原生容器化的优化与实际，在混合部署云原生环境中，极大地提高了工作运行的稳定性，高效性，无效进步了集群资源利用率，节约硬件老本。在将来，咱们会探讨更多大数据云原生场景，为企业客户带来更多的理论效益。

作者简介

张翮，腾讯云高级工程师，目前次要负责腾讯云大数据产品弹性MapReduce的管控相干模块，和重要组件Hive的技术研发。向Apache Hive，Apache Calcite开源我的项目奉献过代码，毕业于电子科技大学。

关于程序员:腾讯云EMR基于YARN针对云原生容器化的优化与实践

一、Hadoop Yarn on Kubernetes Pod 混合部署模式

1. AM的POD被驱赶，导致APP失败

2. Yarn原生非独占分区资源共享局限性

二、对Yarn革新带来的挑战

1. AM自主抉择存储介质

2. 多标签动态分配资源

三、实操演练

1. 规定AM只能调配在172.17.48.28

2. 应用组合标签

四、Hadoop Yarn on Kubernetes Pod 最佳实际

五、总结

作者简介

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于程序员:腾讯云EMR基于YARN针对云原生容器化的优化与实践

一、Hadoop Yarn on Kubernetes Pod 混合部署模式

1. AM的POD被驱赶，导致APP失败

2. Yarn原生非独占分区资源共享局限性

二、对Yarn革新带来的挑战

1. AM自主抉择存储介质

2. 多标签动态分配资源

三、实操演练

1. 规定AM只能调配在172.17.48.28

2. 应用组合标签

四、Hadoop Yarn on Kubernetes Pod 最佳实际

五、总结

作者简介

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复