乐趣区

关于程序员:大数据资源管理方案研究

1. 钻研背景

在理论的大数据工程部署中,多个业务部门常常须要运行多个数据利用,在搭建 Hadoop 集群时,常常面临如何划分大数据集群及进行资源隔离的问题。另外,因为估算无限等起因,数据运维部门也有管制估算,缩小大数据集群节点个数,同时保障重点业务性能等诉求。

现有大数据集群个别反对 2 种资源管理形式,包含物理多租和逻辑多租,别离介绍如下。在物理多租模式中,每个租户领有本人的 MRS 集群,资源和数据物理隔离。它的特点如下:

  • 租户间的资源齐全物理隔离,隔离级别较高,租户间齐全互不影响;但闲暇资源无奈供其余租户应用,存在资源节约。
  • 不同租户的数据在不同集群内,数据共享须要手工搬运数据,效率较低;
  • 管理模式比较简单,对管理员技能要求绝对较低;
  • 运维治理工作量较大,须要保护多套集群。比方集群降级须要每个集群逐个降级。

在逻辑多租模式中,多个租户共用同一个集群,通过集群内的多租户平安体系,实现多租户之间的资源资源和权限管控。它的特点如下:

  • 租户间的资源能够动静调配,A 租户不应用的资源可供 B 租户应用,有助于晋升平台的整体资源利用率;
  • 不同租户间的数据在同一平台内,可通过权限放通实现数据的共享,数据免搬运;
  • 对管理员技能要求高,要求相熟各个多租户的个性与基本原理,正当进行多租户资源和权限的布局和调配;
  • 运维治理工作量较小,一套集群对立治理。


图 1. 大数据物理多租示意图


图 2. 大数据逻辑多租示意图

2. 问题剖析

在进行大数据集群划分时,须要实现两个次要指标。首先,须要确保不同数据业务之间的资源隔离,保障各个数据业务的性能;其次,为了管制估算,须要想方法缩小节点个数。为了实现上述两个指标,须要做以下三方面的工作:

工作一、为了缩小节点个数,须要合并集群,

  • 缩小 MRS 集群个数,缩小 MRS 管控节点;

工作二、采纳逻辑多租和多实例,实现资源隔离,

  • 对于反对 YARN 的组件,通过逻辑多租实现,实现资源隔离;
  • 对于不反对 YARN 的组件,通过多实例和物理机部署,实现资源隔离;

工作三、局部组件进一步合部,缩小节点个数,

  • 反对 YARN 的组件(HIVE/SPARK/HETU/FLINK),适配同样硬件的组件,能够合部在一个资源池内,通过多租户机制隔离,进一步缩小节点个数;
  • 对于多个 HBASE 集群,采纳多实例的办法,进行硬件资源隔离。

为了既能保障重点业务的性能,又能缩小节点个数,只能将既适配同样硬件,又能基于同一资源调度器工作的组件合部。上面,咱们就剖析不同大数据组件适配的硬件类型,次要是从硬盘类型、资源调度器、业务类型等角度剖析。

表 1. 大数据组件分类

思考因素一、计算资源调度器不同,放在不同的节点

  • 基于 YARN 的组件,包含 HIVE/SPARKE/Flink/Hetu/;
  • 不是基于 YARN 的组件,包含 Flume/REDIS/ES/KAFKA;

思考因素二、硬盘类型雷同,能力合布

  • SSD:flink、flume、Redis;
  • SATA:spark + hive, hbase, hetu 引擎;
  • SAS: ElasticSearch, Kafka;

思考因素三、业务分类

  • 离线剖析业务,HIVE/SPARK/HBASE/ES/HETU;
  • 实时流式解决业务,Flink/Redis/Kafka;

其中,实时流式解决业务对可靠性要求较高,倡议独自部署。

3. 计划介绍

图 3. 大数据资源管理策略

为了解决上述问题,咱们提出如下计划。首先,咱们将组件分为反对 YARN 的组件和不反对 YARN 的组件,次要策略如下。

次要策略一,针对反对 YARN 调度的组件,通过资源池进行资源隔离,次要步骤如下:

  • 布局机器资源,将相干资源布局给反对 YARN 的组件,并在这些机器下面装置 Node Manager;
  • 通过资源池将计算节点离开,不同的租户利用跑到不同的机器上;
  • 能够反对 SATA 硬盘的组件,调配对立的资源池,通过租户、子租户机制,进一步划分资源;
  • 要求 SSD 盘的组件,调配相应的资源池和租户,通过租户,独占资源。

次要策略二,针对不反对 YARN 调度的组件,通过物理机隔离,这些物理机不装 Node Manager。次要步骤如下:

  • 布局机器资源,将相干资源布局给不反对 YARN 的组件,不要在这些机器下面装置 Node Manager;
  • 针对其不同组件要求不同的硬盘类型,调配不同的机器,并在下面装置不同的组件;
  • 针对多个 HBASE 集群,采纳多实例和硬件隔离的形式,进行资源隔离;
  • 如果单个子集群的负载过小,且适配同样硬件的组件,能够进一步合部。

4. 计划案例


图 4. 物理机集群部署计划


图 5. 逻辑多租部署计划

上面咱们联合一个具体的我的项目,比照以下物理机集群计划和逻辑部署计划的成果。在图 4,形容了一个物理机部署计划,共有 6 集群,30 控节点。在图 5,将上述 6 集群合并为一个集群,通过资源池和多实例的形式,来做资源隔离。比照两个计划,能够发现以逻辑多租为主的部署计划,将显著缩小 MRS 的管控节点,同时也能保障各项业务的资源隔离。

本文由华为云公布

退出移动版