关于大数据:阿里云EMR-20重新定义新一代开源大数据平台

摘要：本文整顿自阿里云高级产品专家何源(荆杭)在阿里云EMR2.0线上发布会的分享。本篇内容次要分为三个局部：

开源大数据的痛点及EMR产品历程

EMR2.0 新特色

总结

一、开源大数据的痛点及EMR产品历程

开源大数据的痛点

如何晋升性能，升高资源老本

全面的性能优化须要大量的研发投入且门槛较高；大数据资源使用量大，宽广用户都在一直摸索降本计划。

如何升高运维老本

开源大数据组件泛滥，开发上手绝对容易，然而一旦业务规模和业务复杂度回升当前，所带来的运维难度和开销也随之急剧回升。

如何保障数据和工作的可靠性

数据是公司的无形资产，数据的失落往往是灾难性的，只管有多正本，然而动辄几十台，甚至上百台、上千台的服务器在机器故障、集群降级、迁徙过程中要保障数据的可靠性是一件不容易的事，而成千上万的工作实时或周期性的运行，也会耗费大量的运维投入。

如何治理数据开发和治理

实现团队协同开发、平安合规的应用数据以及治理数据，也须要有方法论的撑持和产品反对。

EMR产品历程

如下图所示，自2016年阿里云推出EMR以来，阿里云EMR团队始终致力于解决以上痛点。

通过一系列的性能优化，阿里云在 CloudSort 和 TPC-DS 上获得了世界第一的问题，推出了全托管的元数据和数据湖产品，大大降低了运维难度和运维老本。

通过 DataWorks on EMR 以及 EMR Studio 等产品，大大简化了数据开发以及数据治理的接入门槛。

二、EMR2.0 新特色

概述

基于云原生的理念和阿里云上日益成熟的设施，阿里云推出 EMR 2.0，构建新一代开源大数据的基础设施。

EMR 2.0的新特色包含：

全新平台体验

集群创立速度2倍以上优化；
集群扩容速度3倍以上晋升；
弹性规模反对千台以上；
故障节点迁徙；
集群诊断工具；

全新数据开发

全托管EMR Notebook (Jupyter)；
Workflow (Dolphinscheduler)；
数据开发治理平台Dataworks on EMR；

全新资源状态

EMR on ECS，反对倚天g8，性价比晋升超过40%；
EMR on ACK(K8s)；
EMR Serverless；

全新剖析场景

新版数据湖
数据分析
数据服务
实时数据流
数据迷信

EMR 2.0产品架构

如下图所示，EMR 2.0产品架构自下而上包含：

硬件资源

EMR 2.0反对ECS（Intel, AMD, 倚天）/神龙/ECI；

存储资源

在存储资源上，数据湖架构曾经曾经逐渐成为业界的共识，阿里云在对象存储OSS 技术上降级为 OSS-HDFS 兼容 HDFS API；

调度资源

反对 EMR on ECS、EMR on ACK、EMR Serverless

管控平台

监控告警；
弹性调度；
集群诊断；
故障弥补；
权限&平安；
组件治理；

剖析场景

新版数据湖 Datalake；
数据分析 OLAP；
实时数据流 Dataflow；
数据服务 DataServing；
数据迷信 DataScience；

开发工具

开源解决方案 EMR Studio (Notebook, Workflow) ；
企业级开发平台 DataWorks on EMR

元数据管理和湖治理

在原有的数据湖构建DLF上新增了权限生命周期治理、湖治理等新个性。

全新平台体验

阿里云EMR2.0 围绕弹性、稳定性、智能、效率四个方面对 EMR 进行了全面降级。

Elasticity 弹性

集群创立，弹性性能大幅晋升；
异构实例，竞价实例满足个性化弹性需要；

Stability 稳定性

节点迁徙，故障节点主动弥补；
组件状态巡检，事件告诉；

Intelligence 智能

集群资源诊断；
危险预警；
实时检测；

Efficiency 效率

交互式数据开发；
一键工作提交；
配置导出&集群克隆。

全新数据开发

EMR 2.0提供两套解决方案供不同用户抉择，别离是：基于 Jupyter 和 DolphinScheduler 的 EMR Studio 开源解决方案，和阿里云自研的企业级数据开发与治理 DataWorks on EMR。

EMR Studio (Notebook, Workflow)

基于 Jupyter 的全托管SaaS化的 Notebook

间接在EMR管控台页面创立一个 notebook 并疾速与EMR集群进行关联，几分钟内就能够开始
对数据进行剖析，无需放心代码的保留以及计算资源保护；对 Jupyter Notebook 进行了优化：如反对 StarRocks 疾速指定引擎类型；

基于 Apache DolphinScheduler 的全托管SaaS化的 Workflow

开箱即用，一键关联集群；

EMR Studio 提供了全新的开源数据开发体验，在EMR服务费之外，不收取额定费用。

DataWorks on EMR，企业级数据开发与治理

DataWorks 是一套在阿里外部历经几万用户十几年打磨的产品，可能满足企业一站式数据开发和数据治理的诉求。DataWorks 反对数据集成、数据开发调度、数据建模、数据品质、数据地图、数据安全、数据分析、数据服务以及凋谢的API等能力：

数据集成：基于DataX，反对几十种数据源作为 source 和 sink 进行数据同步；
数据开发：线上的 IDE，反对 Spark、Hive、Presto、ClickHouse 的开发；
数据品质：依据工作配置的规定，对工作的产出后果进行正确性验证；
数据地图：采集字段级粒度的数据血统；
数据安全：提供表和字段级别的权限治理；
数据分析：提供疾速交互式的剖析和可视化剖析能力；
数据服务：简化数据查问服务的开发，通过写 SQL 就能够提供数据查问的接口；
开发平台：提供一系列的 API 供用户进行二次开发。

全新资源状态

随着云原生技术越来越成熟，EMR 也提供了各种资源管理状态。

EMR on ECS

反对组件最全，自定义能力最强；
跟传统模式最靠近，便于疾速迁徙；

EMR on ACK

齐全兼容 K8S，10秒级资源调度；
反对 Spark, Flink, Presto, RSS 组件；
配合 ECI，主动弹性，秒级扩容；
残缺的工作提交、治理、监控能力；

EMR Serverless

首先推出的是 StarRocks；
全托管，最小化的运维老本；
高可用，SLA 99.99%；
开箱即用，对接 EMR Notebook；
成本低，按需扩容资源。

新硬件，倚天性价比晋升40%以上

在2022年云栖大会上，阿里云推出了中国首个云上大规模利用自研CPU倚天710，EMR2.0 也将推出倚天机型。倚天采纳最先进的ARM架构和生产工艺，在通用智能性能晋升的根底上，升高了整体的资源老本：

在ECS价格方面，倚天G8系列较X86的机器系列价格升高20%以上，计算型系列价格升高超过30%，大幅升高企业老本；在性能方面，物理核的倚天机型性能更高，CPU占用率更低；
在EMR对倚天机型适配后，进行了 TPC-DS 的 Benchmark 测试，在G8Y与G7的比照中，同样采纳了六台8core 32G的机型，倚天的TPC-DS耗时缩小25%。

全新剖析场景

EMR联合本身的技术劣势和实践经验，对大数据场景进行了分类，不便用户疾速构建适宜业务的大数据集群：

数据湖

数据湖集群蕴含 Spark、Hive、Yarn、Presto、Hudi、Deltalake、RSS、Kyuubi 等组件；反对用户构建数据仓库，进行数据 ETL 以及数据湖剖析；

实时数据流

实时数据流蕴含 Flink、Kafka 等组件；反对用户进行实时计算，构建在线决策、实时监控、实时计算等零碎；

数据分析

数据分析次要蕴含 StarRocks、Doris、ClickHouse 等组件；广泛应用于用户画像剖析，交互式剖析，构建BI报表零碎和对接业务零碎；

数据服务

数据服务次要蕴含 Hbase、Phoenix 组件；反对时序数据分析、feeds流推送和用户行为收集；

数据迷信

数据迷信次要蕴含 Tensorflow、PyTorch 组件；
面向机器学习、数据挖掘、特色建模等场景；

对于局部客户出于老本管制的思考，心愿将多种业务混部在一个集群，EMR 还反对自定义集群，能够将多种场景下的组件混合部署在一起。

以用户应用最多的数据湖场景为例，EMR 在计算、存储和治理方面都做了大量的优化。

在存储层面，EMR 推出 OSS-HDFS，可齐全兼容 HDFS API，用户能够平滑的将 HDFS 迁徙到 OSS 上；
在计算层面，计算工作无需二次开发，能够间接运行在存算拆散的数据湖架构上；
在1PB的场景下测算，通过正当的冷热分层，能够节俭40%的资源老本，同时计算资源也能够实现按需或者按负载弹性应用，大大降低了资源耗费；
在计算引擎层面，EMR 对 Spark/Hive/Trino/StarRocks 等引擎进行优化，ETL 和剖析场景下性能有显著晋升；
在数据湖治理层面，DLF湖治理实现湖数据生命周期治理，包含：元数治理与服务、权限管制与审计、数据品质管制、湖表治理与优化、存储管理与优化、全新数据迁徙入湖。

总结

EMR2.0 从管控到引擎，从资源状态到利用场景都在踊跃翻新，心愿更好的解决用户在开源大数据遇到的痛点问题。

EMR2.0 的控制台入口也降级到了emr-next，欢送返回应用新版EMR：https://emr-next.console.aliy…

原文链接

本文为阿里云原创内容，未经容许不得转载。

关于大数据:阿里云EMR-20重新定义新一代开源大数据平台

一、开源大数据的痛点及EMR产品历程

开源大数据的痛点

EMR产品历程

二、EMR2.0 新特色

概述

EMR 2.0产品架构

全新平台体验

全新数据开发

全新资源状态

全新剖析场景

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:阿里云EMR-20重新定义新一代开源大数据平台

一、开源大数据的痛点及EMR产品历程

开源大数据的痛点

EMR产品历程

二、EMR2.0 新特色

概述

EMR 2.0产品架构

全新平台体验

全新数据开发

全新资源状态

全新剖析场景

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复