关于大数据:阿里云EMR-20重新定义新一代开源大数据平台

31次阅读

共计 3683 个字符,预计需要花费 10 分钟才能阅读完成。

摘要:本文整顿自阿里云高级产品专家何源 (荆杭) 在 阿里云 EMR2.0 线上发布会 的分享。本篇内容次要分为三个局部:

  1. 开源大数据的痛点及 EMR 产品历程
  2. EMR2.0 新特色
  3. 总结

一、开源大数据的痛点及 EMR 产品历程

开源大数据的痛点

  • 如何晋升性能,升高资源老本

全面的性能优化须要大量的研发投入且门槛较高;大数据资源使用量大,宽广用户都在一直摸索降本计划。

  • 如何升高运维老本

开源大数据组件泛滥,开发上手绝对容易,然而一旦业务规模和业务复杂度回升当前,所带来的运维难度和开销也随之急剧回升。

  • 如何保障数据和工作的可靠性

数据是公司的无形资产,数据的失落往往是灾难性的,只管有多正本,然而动辄几十台,甚至上百台、上千台的服务器在机器故障、集群降级、迁徙过程中要保障数据的可靠性是一件不容易的事,而成千上万的工作实时或周期性的运行,也会耗费大量的运维投入。

  • 如何治理数据开发和治理

实现团队协同开发、平安合规的应用数据以及治理数据,也须要有方法论的撑持和产品反对。

EMR 产品历程

如下图所示,自 2016 年阿里云推出 EMR 以来,阿里云 EMR 团队始终致力于解决以上痛点。

通过一系列的性能优化,阿里云在 CloudSort 和 TPC-DS 上获得了世界第一的问题,推出了全托管的元数据和数据湖产品,大大降低了运维难度和运维老本。

通过 DataWorks on EMR 以及 EMR Studio 等产品,大大简化了数据开发以及数据治理的接入门槛。

二、EMR2.0 新特色

概述

基于云原生的理念和阿里云上日益成熟的设施,阿里云推出 EMR 2.0,构建新一代开源大数据的基础设施。

EMR 2.0 的新特色包含:

全新平台体验

  • 集群创立速度 2 倍以上优化;
  • 集群扩容速度 3 倍以上晋升;
  • 弹性规模反对千台以上;
  • 故障节点迁徙;
  • 集群诊断工具;

全新数据开发

  • 全托管 EMR Notebook (Jupyter);
  • Workflow (Dolphinscheduler);
  • 数据开发治理平台 Dataworks on EMR;

全新资源状态

  • EMR on ECS,反对倚天 g8,性价比晋升超过 40%;
  • EMR on ACK(K8s);
  • EMR Serverless;

全新剖析场景

  • 新版数据湖
  • 数据分析
  • 数据服务
  • 实时数据流
  • 数据迷信

EMR 2.0 产品架构

如下图所示,EMR 2.0 产品架构自下而上包含:

硬件资源

EMR 2.0 反对 ECS(Intel, AMD, 倚天)/ 神龙 /ECI;

存储资源

在存储资源上,数据湖架构曾经曾经逐渐成为业界的共识,阿里云在对象存储 OSS 技术上降级为 OSS-HDFS 兼容 HDFS API;

调度资源

反对 EMR on ECS、EMR on ACK、EMR Serverless

管控平台

  • 监控告警;
  • 弹性调度;
  • 集群诊断;
  • 故障弥补;
  • 权限 & 平安;
  • 组件治理;

剖析场景

  • 新版数据湖 Datalake;
  • 数据分析 OLAP;
  • 实时数据流 Dataflow;
  • 数据服务 DataServing;
  • 数据迷信 DataScience;

开发工具

  • 开源解决方案 EMR Studio (Notebook, Workflow);
  • 企业级开发平台 DataWorks on EMR

元数据管理和湖治理

在原有的数据湖构建 DLF 上 新增了权限生命周期治理、湖治理等新个性。

全新平台体验

阿里云 EMR2.0 围绕弹性、稳定性、智能、效率四个方面对 EMR 进行了全面降级。

Elasticity 弹性

  • 集群创立,弹性性能大幅晋升;
  • 异构实例,竞价实例满足个性化弹性需要;

Stability 稳定性

  • 节点迁徙,故障节点主动弥补;
  • 组件状态巡检,事件告诉;

Intelligence 智能

  • 集群资源诊断;
  • 危险预警;
  • 实时检测;

Efficiency 效率

  • 交互式数据开发;
  • 一键工作提交;
  • 配置导出 & 集群克隆。

全新数据开发

EMR 2.0 提供两套解决方案供不同用户抉择,别离是:基于 Jupyter 和 DolphinScheduler 的 EMR Studio 开源解决方案,和阿里云自研的企业级数据开发与治理 DataWorks on EMR。

EMR Studio (Notebook, Workflow)

  • 基于 Jupyter 的全托管 SaaS 化的 Notebook
  1. 间接在 EMR 管控台页面创立一个 notebook 并疾速与 EMR 集群进行关联,几分钟内就能够开始
  2. 对数据进行剖析,无需放心代码的保留以及计算资源保护;对 Jupyter Notebook 进行了优化:如反对 StarRocks 疾速指定引擎类型;
  • 基于 Apache DolphinScheduler 的全托管 SaaS 化的 Workflow
  1. 开箱即用,一键关联集群;

EMR Studio 提供了全新的开源数据开发体验,在 EMR 服务费之外,不收取额定费用。

DataWorks on EMR,企业级数据开发与治理

DataWorks 是一套在阿里外部历经几万用户十几年打磨的产品,可能满足企业一站式数据开发和数据治理的诉求。DataWorks 反对数据集成、数据开发调度、数据建模、数据品质、数据地图、数据安全、数据分析、数据服务以及凋谢的 API 等能力:

  • 数据集成:基于 DataX,反对几十种数据源作为 source 和 sink 进行数据同步;
  • 数据开发:线上的 IDE,反对 Spark、Hive、Presto、ClickHouse 的开发;
  • 数据品质:依据工作配置的规定,对工作的产出后果进行正确性验证;
  • 数据地图:采集字段级粒度的数据血统;
  • 数据安全:提供表和字段级别的权限治理;
  • 数据分析:提供疾速交互式的剖析和可视化剖析能力;
  • 数据服务:简化数据查问服务的开发,通过写 SQL 就能够提供数据查问的接口;
  • 开发平台:提供一系列的 API 供用户进行二次开发。

全新资源状态

随着云原生技术越来越成熟,EMR 也提供了各种资源管理状态。

EMR on ECS

  • 反对组件最全,自定义能力最强;
  • 跟传统模式最靠近,便于疾速迁徙;

EMR on ACK

  • 齐全兼容 K8S,10 秒级资源调度;
  • 反对 Spark, Flink, Presto, RSS 组件;
  • 配合 ECI,主动弹性,秒级扩容;
  • 残缺的工作提交、治理、监控能力;

EMR Serverless

  • 首先推出的是 StarRocks;
  • 全托管,最小化的运维老本;
  • 高可用,SLA 99.99%;
  • 开箱即用,对接 EMR Notebook;
  • 成本低,按需扩容资源。

新硬件,倚天性价比晋升 40% 以上

在 2022 年云栖大会上,阿里云推出了中国首个云上大规模利用自研 CPU 倚天 710,EMR2.0 也将推出倚天机型。倚天采纳最先进的 ARM 架构和生产工艺,在通用智能性能晋升的根底上,升高了整体的资源老本:

  • 在 ECS 价格方面,倚天 G8 系列较 X86 的机器系列价格升高 20% 以上,计算型系列价格升高超过 30%,大幅升高企业老本;在性能方面,物理核的倚天机型性能更高,CPU 占用率更低;
  • 在 EMR 对倚天机型适配后,进行了 TPC-DS 的 Benchmark 测试,在 G8Y 与 G7 的比照中,同样采纳了六台 8core 32G 的机型,倚天的 TPC-DS 耗时缩小 25%。

全新剖析场景

EMR 联合本身的技术劣势和实践经验,对大数据场景进行了分类,不便用户疾速构建适宜业务的大数据集群:

数据湖

  • 数据湖集群蕴含 Spark、Hive、Yarn、Presto、Hudi、Deltalake、RSS、Kyuubi 等组件;反对用户构建数据仓库,进行数据 ETL 以及数据湖剖析;

实时数据流

  • 实时数据流蕴含 Flink、Kafka 等组件;反对用户进行实时计算,构建在线决策、实时监控、实时计算等零碎;

数据分析

  • 数据分析次要蕴含 StarRocks、Doris、ClickHouse 等组件;广泛应用于用户画像剖析,交互式剖析,构建 BI 报表零碎和对接业务零碎;

数据服务

  • 数据服务次要蕴含 Hbase、Phoenix 组件;反对时序数据分析、feeds 流推送和用户行为收集;

数据迷信

  • 数据迷信次要蕴含 Tensorflow、PyTorch 组件;
  • 面向机器学习、数据挖掘、特色建模等场景;

对于局部客户出于老本管制的思考,心愿将多种业务混部在一个集群,EMR 还反对自定义集群,能够将多种场景下的组件混合部署在一起。

以用户应用最多的数据湖场景为例,EMR 在计算、存储和治理方面都做了大量的优化。

  • 在存储层面,EMR 推出 OSS-HDFS,可齐全兼容 HDFS API,用户能够平滑的将 HDFS 迁徙到 OSS 上;
  • 在计算层面,计算工作无需二次开发,能够间接运行在存算拆散的数据湖架构上;
  • 在 1PB 的场景下测算,通过正当的冷热分层,能够节俭 40% 的资源老本,同时计算资源也能够实现按需或者按负载弹性应用,大大降低了资源耗费;
  • 在计算引擎层面,EMR 对 Spark/Hive/Trino/StarRocks 等引擎进行优化,ETL 和剖析场景下性能有显著晋升;
  • 在数据湖治理层面,DLF 湖治理实现湖数据生命周期治理,包含:元数治理与服务、权限管制与审计、数据品质管制、湖表治理与优化、存储管理与优化、全新数据迁徙入湖。

总结

EMR2.0 从管控到引擎,从资源状态到利用场景都在踊跃翻新,心愿更好的解决用户在开源大数据遇到的痛点问题。

EMR2.0 的控制台入口也降级到了 emr-next,欢送返回应用新版 EMR:https://emr-next.console.aliy…

原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0