作者:容器服务团队
云上大数据的 Kubernetes 技术路线
以后,大数据与机器学习畛域颇为关注存储与计算拆散架构,逐步向云原生演进。以 Spark 为例,云下或自有服务器能够抉择 Hadoop 调度反对 Spark,云上的 Spark 则会思考如何充沛享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少 Spark on Kubernetes 的优良实际。
大数据云原生化面临的挑战
存储和计算拆散的架构,同时又带来挑战,例如:怎么构建以阿里云对象存储 OSS 为底座的 HDFS 文件系统?须要齐全兼容现有的 HDFS,还要实现在性能对标 HDFS 的同时降低成本;计算引擎 shuffle 数据存算拆散,又要思考如何解决 ACK 混合异构机型的反对问题,以及业界十分关注如何反对 Spark 动静资源。
引入 Kubernetes 之后,如何调度优化性能瓶颈?性能对标 Yarn、实现多级队列治理。还有,如何借助 K8s,编排组织各种业务的波峰波谷,实现错峰调度?等等。
通过阿里云容器服务 ACK 运行开源大数据工作,将以集群为核心的视角切换成以作业为核心视角,还能够实现在线业务、AI、大数据对立接入 ACK 集群,错峰调度,离线在线混部,晋升机器利用率。并且,实现了运维入口、运维工具链、监控体系的三重对立。此外,还反对多版本,如同时运行 Spark2.x 和 Spark 3.x 工作。
EMR on ACK 的架构与劣势
12 月,阿里云 EMR 2.0 正式公布,从平台体验、数据开发、资源状态、剖析场景等方面实现全面翻新。其中在资源状态侧,EMR 能够部署在阿里云容器服务 ACK 平台,缩小对底层集群资源的运维投入,以便于用户更加专一大数据工作自身。
EMR on ACK 为用户提供了全新的构建大数据平台的形式,用户能够将开源大数据服务部署在阿里云容器服务(ACK)上。利用 ACK 在服务部署和对高性能可伸缩的容器利用治理的能力劣势,用户只须要专一在大数据作业自身。用户能够便捷地将 Spark、Presto、Flink 作业执行在 ACK 集群上,100% 兼容开源,性能优于开源。
EMR on ACK 架构如下
- 轻量化管控,对接已有数据平台
- 通过数据开发集群 / 调度平台提交到不同的执行平台
- 错峰调度,依据业务顶峰低峰策略调整
- 云原生数据湖架构,ACK 弹性扩缩容能力强
- ACK 治理异构机型集群,灵活性好
EMR on ACK 具备以下劣势
- Remote Shuffle Service 提供两头 shuffle 数据的存储计算拆散计划
-
- 能够使计算节点无需本地盘和云盘
- 反对关上 Spark 动静资源性能,Spark-25299
终极计划
- JindoFS 针对 OSS 存储提供湖减速解决方案
-
- Block 模式 1TB TPCDS 场景下有 15% 以上的性能晋升
- 调度层面反对 Scheduler Framework V2
-
- 调度性能比社区晋升 3x 以上
- 提供多级队列治理
- 引擎能力加强
-
- 10TB TPCDS Benchmark 场景下,EMR Spark
比社区有 3x 性能晋升 - Hudi、DeltaLake 比社区性能性能加强
- 10TB TPCDS Benchmark 场景下,EMR Spark
- 残缺的错峰调度计划
国内出名广告营销服务商汇量科技已应用 EMR 产品 4 年。在业务快速增长的大好形势下,汇量科技面临越来越多的困扰:如数据起源简单、数据量大、数据维度多、实时经营业务秒级数据新鲜度需要等业务需要;本次降级后,汇量科技在素材平台、热力引擎等业务的大数据平台搭建上,数据同步和及查问效率有数倍晋升,零碎稳定性显著晋升,未再呈现之前 cpu、mem、io 负载低等状况。
EMR on ACK:
https://help.aliyun.com/docum…
点击此处移步阿里云 EMR 2.0 发布会,理解更多