关于大数据:阿里云EMR20平台让大数据更简单

46次阅读

共计 3339 个字符,预计需要花费 9 分钟才能阅读完成。

摘要:本文整顿自阿里云资深技术专家李钰 (绝顶) 在 阿里云 EMR2.0 线上发布会 的分享。本篇内容次要分为三个局部:
1.EMR 平台概述
2.EMR2.0 新平台外围能力
3. 总结

一、EMR 平台概述

EMR 平台是开源大数据的云原生运行环境,阿里云 EMR 依据云原生的特点,在弹性伸缩、稳定性、智能化和研发效力四个方面进行了大量的性能优化:

  • Elasticity 弹性伸缩,算力按需申请开释,冲破 IDC 物理限度;
  • Stability 稳定性,故障节点主动替换弥补,要害事件主动告警;
  • Intelligence 智能化,智能探查资源节约,预警集群潜在危险;
  • Efficiency 研发效力,业务高效开发调试,作业一键调度上线。

二、EMR2.0 新平台外围能力

Elasticity 弹性

基于工夫的弹性伸缩能力

  • 弹性规定:定时减少或者缩小 ECS 实例数量;
  • 实用场景:业务负载变动存在工夫周期性;
  • 老本节俭:通过采取这种策略,与预置固定资源相比能够节俭大量资源;应用抢占式实例能够进一步降低成本;
  • 应用形式:在节点组上设置扩容规定的时候,抉择按工夫扩容;反对以下设置:执行频率和执行工夫;规定的有效期;重试过期工夫;单次扩容的节点数等。

基于指标的弹性伸缩能力

  • 弹性规定:通过预设的基于负载指标的规定,动静调整 ECS 实例数量;
  • 实用场景:业务负载动态变化,无固定工夫周期性;
  • 老本节俭:通过采取这种策略,能够动静的适应业务负载的变动;应用抢占式实例能够进一步降低成本;
  • 应用形式:在节点组上设置扩容规定的时候,抉择按负载扩容;反对以下设置:集群负载指标(比方“YARN 资源队列 pending 利用数”);指标统计周期和统计规定;反复几次后扩容;单次扩容的节点数;冷却工夫等。

反对抢占式实例

  • 能力:反对实例规格筛选,单节点组可抉择多达 10 种不同规格;老本优化策略反对主动选取高价实例规格出价;
  • 成果:生产实证可升高 80%+ 老本;典型客户案例撑持;
  • 应用形式:
  1. 创立抢占式实例节点组:在集群创立实现后,新增抢占式实例的节点组;
  2. 抉择实例规格:

1)节点组的配置中抉择抢占式实例规格,最多能够抉择十种规格,能够依据每种规格的开释率和折扣率进行取舍;
2)同时也反对依照资源筛选规格,比方:4 核 16G;

  1. 反对两种不同的策略:

1)优先级策略,节点组所有实例都必须应用抢占式实例,而后依照设定的优先级程序申请抢占式实例;

1. 劣势:最大化的降低成本;
2. 劣势:抢占式实例库存有余时,业务无奈及时获取到所需资源;

2)老本优化策略,会智能的优先应用抢占式实例,在抢占式实例库存有余时会补充按量实例;

1. 劣势:在及时响应业务资源需要和综合老本上达到较好的均衡。

性能大幅晋升

EMR 新平台相比于老平台在性能上失去了大幅晋升,次要体现在以下三个方面:

a. 高并行能力

  • 节点组内和多节点组间均反对并行扩容
  • 反对缩容期间并行扩容,反对突发业务变动

b. 疾速响应能力

  • 更高的弹性速度,100 节点扩容工夫 <2 分钟
  • 更快的感应速度,指标检测周期 <30 秒;

c. 大规模服务能力

  • 单次反对扩容节点数 >1000;

下图中左边的柱状图显示了 EMR1.0 和 EMR2.0 平台弹性扩容速度的比照,能够看到,EMR2.0 新平台对于不同规模的弹性扩容速度都能够稳固的管制在两分钟之内,扩容工夫不会随扩容节点数减少线性增长。

Stability 稳定性

反对节点故障容忍和弥补

EMR 新平台反对节点故障容忍和弥补,次要体现在两个方面:

a. 故障节点不影响扩容

  • Core/Task 节点 CPU 打满不影响扩容;
  • Core/Task 节点 OS Hang 不影响扩容;
  • Core/Task 节点宕机不影响扩容;

b. 计算节点故障主动替换弥补

  • Task 节点 OS Hang 反对主动弥补;
  • Task 节点磁盘满反对主动弥补;
  • Task 节点网络问题反对主动弥补;

节点故障容忍和弥补须要手动开启。依据后盾统计,在开启后,集群全场景稳定性可晋升 1 个 9。

更加全面的服务巡检和事件告诉

a. 服务巡检

  • 在集群服务页面能够看到所有的大数据引擎服务,以及每个引擎组件的衰弱状态;
  • 针对不同组件的健康检查项进行继续巡检,并实时上报;
  • 帮忙用户及时发现和解决问题;

b. 事件告诉

  • 在集群监控页面,减少了事件核心,事件可按工夫 / 类型 / 等级进行筛选;
  1. 比方:在下图右下的截图中显示 Critical 等级事件“Spark_HistoryServer 组件衰弱状态异样”,用户能够筛选 Critical 级别事件,并进行针对性的解决;
  • 关键性事件可订阅实时告警,从而更及时的发现问题并进行解决;

Intelligence 智能化

EMR 新平台智能化能力次要体现在 EMR 新产品 EMR Doctor 的能力。EMR Doctor 致力于帮忙用户更好的进行大数据集群的治理和运维。

EMR Doctor 通过集群日报和实时检测的性能达到防止资源节约、危险提前预警和实时剖析倡议的外围成果。

EMR Doctor 防止资源节约

a. 通过健康检查服务的集群日报性能查看集群是否存在资源节约

  • 针对集群日报中不衰弱的报告能够点击“查看报告”;
  • 比方:在下图左下的截图中显示“内存利用率较低”;

b. 通过工作评分倒排 Top N,找到资源节约最多的作业进行优化

  • 在发现“内存利用率较低”的问题后进入详情页面找到资源节约最多的作业;
  • 点击进入作业详情页面,依据提供的优化倡议对这些作业进行优化;

c. 通过继续优化,最大化利用资源,避免浪费。

EMR Doctor 危险提前预警

集群日报性能的另一个外围成果是危险提前预警。

a. 可能影响集群衰弱的问题

  • 小文件或者冷数据占比过大;
  • 数据本地化率低;
  • 计算工作激增导致资源耗费过快;

b. 可能的解决方案:

  • 小文件数量过多:提前进行整合解决;
  • 冷数据占比过大:进行数据分层,将冷数据分层搁置到低成本存储(例如 OSS)上,升高整体老本;
  • 数据本地化率低:进行提前晋升,防止业务拜访提早;
  • 计算工作激增导致资源耗费过快:提前减少资源,防止资源有余导致的业务期待和受损;

总体来说,针对集群呈现的衰弱问题,集群日报可能给出预警,实现提前发现、提前解决。

EMR Doctor 实时剖析倡议

  • 通过健康检查服务的实时检测性能,触发实时剖析并查看倡议;
  • 实时检测性能笼罩 Yarn 队列实时资源用量,以后资源节约作业 Top N,存储数据实时本地化率等;
  • 集群整体变慢或者业务无奈提交时,能够触发实时检测辅助诊断和运维。

Efficiency 研发效力

EMR 新平台推出全新 EMR Studio 的 Serverless 服务,次要包含两方面:全托管 Notebook 服务和全托管 Workflow 服务,通过这两个服务实现交互式大数据开发和调式,以及一键式作业调度上线的性能。

EMR Studio 交互式大数据开发和调试

  • EMR Studio 全托管 Notebook 服务:反对多种大数据引擎,包含:Spark、Hive、Trino、Impala、ClickHouse、StarRocks 等;
  • 即开即用,没有集群创立流程,无需额定购买云资源;
  • 兼容 Jupyter 应用习惯,无缝对接 EMR 各计算 / 存储引擎,不便用户通过 Notebook 提交作业到 EMR 资源集群,进行运行和验证。

EMR Studio 一键式大数据作业调度和上线

  • EMR Studio 全托管 Workflow 服务;
  • 即开即用,没有集群创立流程,无需额定购买云资源;
  • 兼容 Apache DolphinScheduler,无缝对接 EMR 集群;不便用户在工作流定义中退出 EMR Notebook 下面曾经开发和调试完的作业,进行调度和上线;

同时,EMR Studio Workflow 还打算反对调度其余云产品创立的作业,比方阿里云 VVP 等。

EMR Notebook 和 Workflow 产品目前均处于邀测状态,欢送有趣味的敌人分割咱们申请试用。

总结:EMR 新平台的“黑科技”

最初,让咱们一起回顾一下 EMR 新平台的“黑科技”。

a. Elasticity 降本增效

  • 疾速灵便的弹性伸缩能力;
  • 全方位反对抢占式实例;

b. Stability 稳固便捷

  • 故障节点主动发现和弥补;
  • 主动实时巡检;
  • 事件告警告诉;

c. Intelligence 智能辅助

  • 防止资源节约;
  • 危险提前预警;
  • 实时剖析倡议;

d. Efficiency 高效开发

  • 交互式开发调试;
  • 一键调度上线;

以上是 EMR 2.0 新平台的外围能力,欢送大家应用和反馈。

原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0