乐趣区

关于spark:EMR-on-ACK-全新发布助力企业高效构建大数据平台

简介:阿里云 EMR on ACK 为用户提供了全新的构建大数据平台的形式,用户能够将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器利用治理的能力劣势,用户只须要专一在大数据作业自身。用户能够便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100% 兼容开源,性能优于开源。

一、背景介绍

技术趋势

  • 存储与计算拆散,向云原生演进
  • 在线业务、AI、大数据对立接入 ACK 集群,错峰调度,离线在线混部,晋升机器利用率
  • 对立运维入口,对立运维工具链,对立监控体系
  • 以集群为核心 -> 以作业为核心
  • 多版本反对,例如能够同时跑 Spark2.x、Spark3.x

云原生面临挑战

计算与存储拆散:如何构建以对象存储 OSS 为底座的 HCFS 文件系统

• 须要齐全兼容现有的 HDFS

• 性能对标 HDFS,老本升高

计算引擎 shuffle 数据存算拆散:如何解决 ACK 混合异构机型
• 异构机型没有本地盘

• 社区 [Spark-25299] 探讨,反对 Spark 动静资源,成为业界共识

ACK 调度能力:如何解决调度性能瓶颈

• 性能对标 Yarn

• 多级队列治理

错峰调度

• 借助 K8s 操作系统能力,编排组织各种业务的波峰波谷

EMR on ACK 劣势

Remote Shuffle Service 提供两头 shuffle 数据的存储计算拆散计划

• 能够使计算节点无需本地盘和云盘

• 反对关上 Spark 动静资源性能,Spark-25299 终极计划

JindoFS 针对 OSS 存储提供湖减速解决方案

• Block 模式 1TB TPCDS 场景下有 15% 以上的性能晋升

调度层面反对 Scheduler Framework V2

• 调度性能比社区晋升 3x 以上

• 提供多级队列治理

引擎能力加强

• 10TB TPCDS Benchmark 场景下,EMR Spark 比社区有 3x 性能晋升

• Hudi、DeltaLake 比社区性能性能加强

残缺的错峰调度计划

二、EMR 容器化架构

EMR on ACK 架构

  • 轻量化管控,对接已有数据平台
  • 通过数据开发集群 / 调度平台提交到不同的执行平台
  • 错峰调度,依据业务顶峰低峰策略调整
  • 云原生数据湖架构,ACK 弹性扩缩容能力强
  • ACK 治理异构机型集群,灵活性好

三、产品介绍

新建集群

地区:目前凋谢杭州、上海、北京、深圳等地区(继续凋谢中)

集群类型:Spark、Shuffle Service、Presto

Spark — 通用的分布式大数据处理引擎

  • 提供了 ETL、离线批处理、数据建模等能力

Shuffle Service — 针对 EMR 计算引擎提供优化的 Shuffle 服务

• 解决 Kubernetes 下对本地盘的依赖问题

• 解决大规模计算集群的网络和磁盘的 IO 瓶颈

• 反对计算与存储拆散的架构,可服务多个 EMR 集群

Presto — 基于内存的分布式 SQL 交互式查问引擎

  • 反对多种数据源

• 适宜 PB 级海量数据的简单剖析,以及跨数据源的查问

组件版本:Spark (3.1.1)

专属节点:

• 现有 ACK 集群,share 局部节点给到 EMR

• 新建 ACK 集群,可抉择整个集群为专属节点

OSS Bucket:用于存储作业、日志、jar 包等信息

集群治理

集群 ID/ 名称:点击进入作业管理

  • 集群状态:检测集群是否可用
  • 所属 ACK 集群:可关联到现有 ACK 集群
  • 配置:Spark 作业配置
  • 开释:开释空间

原文链接
本文为阿里云原创内容,未经容许不得转载。

退出移动版