阿里云重磅公布全链路数据湖解决方案,次要蕴含开源大数据平台 E-MapReduce(EMR) + 一站式大数据数据开发治理平台 DataWorks + 数据湖构建 DLF + 对象存储 OSS 等外围产品。
近日,阿里云 EMR 重磅推出新版数据湖 Datalake,100% 兼容社区大数据开源组件,具备极强的弹性能力,反对数据湖构建 DLF,数据湖存储 OSS 和 OSS-HDFS,反对 Delta Lake、Hudi、Iceberg 三种湖格局。同时新版本 Datalake 对接阿里云一站式大数据开发治理平台 DataWorks,积淀阿里巴巴十多年大数据建设方法论,为客户实现从入湖、建模、开发、调度、治理、平安等全链路数据湖开发治理能力,帮忙客户晋升数据的利用效率。
另外,解决方案提供了“对立元数据管理、数据入湖、数据存储、缓存减速、弹性计算、容器、数据分析、工作编排、运维治理,以及平安”等全面数据湖能力。通过了工业和信息化部中国信息通信研究院大数据能力专项评测,荣获“云原生数据湖根底能力专项评测证书”。
阿里云全链路数据湖开发治理解决方案架构
阿里云全链路数据湖开发治理解决方案应用 OSS/OSS–HDFS 作为数据湖存储,DLF 作为数据湖构建和管理工具,JindoFS 进行湖缓存减速,EMR 作为弹性计算引擎进行湖计算,DataWorks 进行数据开发和治理。DataWorks 各模块与 DataLake 深度集成,从而实现一站式数据湖开发治理。
EMR 新版数据湖集群
外围运维管控能力介绍
弹性能力
- 弹性伸缩反对按集群负载和按工夫 2 种模式
- 弹性伸缩组反对多种实例规格
- 反对抢占式实例(相较按量付费老本升高 80% 以上)
- 反对老本优化模式(弹性比例的按量付费 + 包年包月)
集群管控能力
- 分钟级别创立和扩容集群,无需手动部署和启动服务
- 欠缺的集群监控和告警体系,笼罩硬件和引擎服务,反对配置告警模板
新版数据湖比照 Hadoop 集群劣势
性能更优
- 速度放慢
新版数据湖集群节点组扩容速度失去显著晋升,单批次大规模节点扩容速度晋升 80%
Hadoop | DataLake | |
---|---|---|
弹性扩容 10 节点 | 4 分钟 | 1 分 10 秒 |
弹性扩容 50 节点 | 8 分钟 | 1 分 30 秒 |
弹性扩容 100 节点 | 10 分钟 | 1 分 50 秒 |
- 反对并发
反对工作节点(task 节点类型)多节点组并行扩缩容,可能笼罩多种应用场景,业务效率成倍晋升。
性能更全
- 弹性伸缩能力更强
能够同时配置按工夫伸缩和按负载伸缩;反对优先下线负载低的节点;配置规定不依赖于是否运行弹性伸缩流动,可灵便批改配置(仅影响下一次触发)。
- 执行逻辑更贴近应用场景
多方位调研用户实在应用场景,性能执行逻辑设计更贴近业务理论。如:
1)弹性伸缩扩容策略反对多实例抉择并按程序弹出(兜底库存有余场景),弹性伸缩缩容反对配置优雅下线并默认按负载抉择指标节点下线(缩小缩容时对集群工作影响)
2)同一节点组多个弹性规定同时触发时,默认依照用户规定排序顺次失效(灵便应答多种应用场景)
- 操作体验优化
更丰盛的配置提醒和操作疏导,并新增配置项预校验逻辑,升高用户学习老本和操作失败概率。
老本更省
- 弹性伸缩性能更优,性能笼罩更宽泛的场景
弹性伸缩失效更快,反对性能更全。能够帮忙用户更快更好地对硬件资源进行麻利治理,依据业务须要设置相干策略,主动变更集群规模,缩小硬件资源节约。
- 通过灵便配置抢占式实例进一步压缩老本
在新增节点组时,提供欠缺的抢占式实例配置策略和兜底策略供用户配置,用户能够依据其业务诉求灵便配置,通过配置抢占式实例可能进一步压缩老本。
与 Hadoop 集群全面比照
模块 | 性能项 | 新版数据湖集群 | Hadoop 集群 |
---|---|---|---|
集群 | 集群创立工夫 | 均匀工夫小于 5 分钟。 | 均匀工夫小于 10 分钟。 |
集群节点组新增节点 | 均匀工夫小于 3.5 分钟。 | 均匀工夫小于 10 分钟。 | |
凋谢 API | 反对。 | 反对。 | |
域名反对 | Private Zone。 | hosts 地址映射。 | |
磁盘扩容 | 反对热扩容,无需重启集群服务。 | 不反对热扩容,需重启集群服务失效。 | |
节点组 | 交换机 | 能够在新建节点组时抉择交换机。 | 仅反对在集群创立时抉择,集群创立后不可更改。 |
挂载公网 | 能够在创立集群的 硬件配置 页面的 实例 区域,抉择是否为节点组开启公网。* 没有节点组类型的限度。 | 仅反对在集群创立时抉择是否开启公网,创立后如果您须要应用公网 IP 地址拜访,请在 ECS 上申请开明公网 IP 地址,详情请参见弹性公网 IP 中的申请 EIP 的内容。 仅反对 Master 节点组挂载公网。 | |
附加平安组 | 反对。 | 不反对。 | |
部署集 | 能够在创立集群 硬件配置 页面的 实例 区域,抉择是否开启部署集开关。 能够在新增 Core 节点组时,抉择是否开启部署集开关。 | 性能受限。 | |
节点组状态 | 反对。 | 不反对。 | |
混合节点 | 反对同规格的不同机型混合。 | 仅反对同规格机型。 弹性伸缩节点反对混合节点。 | |
弹性伸缩 | 弹性伸缩 | 弹性伸缩与节点组解耦,从独立的功能模块转为节点组操作,应用更加便捷。 | 须要专用的弹性伸缩组,该节点组不可进行手动扩缩容。 |
伸缩规定 | 配置规定不依赖于是否运行弹性伸缩流动,可灵便批改配置(仅影响下一次触发)。 同一节点组多个规定同时触发时,会依照用户规定排序顺次失效。 | 配置规定受到弹性伸缩状态限度,批改后无奈立刻失效。 同一节点组多个规定同时触发时,随机失效。 | |
伸缩记录 | 丰盛了弹性伸缩记录信息。在 查看详情 页面新增了 触发规定快照 和执行后果 参数,可能疾速查看触发起因和变更节点信息。 | 提供根底的伸缩记录列表。 | |
指标采集频繁 | 每 30 秒采集一次。 | 每 30 秒采集一次。 | |
伸缩流动失效工夫 | 规定利用后 1~30 秒。 | 规定利用后 1~2 分钟。 | |
扩缩容 | 扩缩容流动 | 弹性伸缩流动与手动扩缩容流动运行机制雷同。区别仅在于触发条件不同: 弹性伸缩须要弹性伸缩规定触发。 手动扩缩容须要人为触发。 反对暂停弹性伸缩流动。 多个 Task 节点组的扩缩容流动彼此独立,互不影响。 弹性缩容依据节点负载和创立工夫,智能选中指标节点,缩小业务影响。 | 弹性伸缩流动和手动扩缩容流动是两套机制,互不兼容。 弹性伸缩流动不反对暂停状态。 同时仅反对一个节点组进行(弹性)扩缩容。 弹性缩容节点抉择具备随机性。 |
高可用与软件应用 | 高可用 | 不再反对本地 MySQL 作为 Hive Metastore 数据库。 | 反对本地 MySQL 作为 Hive Metastore 数据库。 |
反对部署集,3 台 Master 散布在不同底层硬件以升高硬件危险。 | 默认不反对部署集。 | ||
NameNode 与 Resource Manager 部署于 3 节点,并不再反对 2 Master 模式。 | Namenode 与 Resource Manager 仅部署于 2 节点,反对 2 Master 模式。 | ||
集群利用组件 | 反对可选 | 必选 + 可选。 | |
Spark2 与 Hadoop3 组合 | 反对。 | 不反对。 | |
Spark3 与 Hadoop2 组合 | 反对。 | EMR-3.38.0 之后版本反对同时部署。 |
DataWorks 全链路开发治理能力介绍
DataWorks 基于 EMR-Datalake、EMR-Clickhouse、CDP 等大数据引擎,为数据湖 / 数据仓库 / 湖仓一体等解决方案提供对立的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks 从 2009 年起一直积淀阿里巴巴大数据建设方法论,通过智能数据建模、全域数据集成、高效数据开发、被动数据治理(数据品质、数据地图等)、全面数据安全、疾速剖析服务六大全链路数据治理的能力,与数万名政务 / 金融 / 批发 / 互联网 / 能源 / 制作等客户携手,助力产业数字化降级。
智能数据建模
DataWorks 智能数据建模积淀阿里巴巴数据中台建模方法论,以维度建模为根底,从数仓布局、数据规范、维度建模、数据指标四个方面,以业务视角对业务的数据进行诠释,让数据仓库的建设向规范化,可继续倒退方向演进。针对 Datalake 的智能数据建模能力将在 2022 年 8 月份正式公布。
全域数据集成
DataWorks 数据集成是开源 DataX 的商业化团队,在数据湖场景下反对 50+ 种数据源之间的离线同步,蕴含数据湖常见的 HDFS、Hive、HBase、OSS、Kafka 等数据源,MySql、Oracle、SQLServer 等数据库。同时,针对 IDC>> 云上、云厂商 >> 云厂商、云产品 >> 云产品、云账号 >> 云账号等各种同步场景,提供网络连通的解决方案,让客户在简单网络环境、丰盛的异构数据源之间,仍旧保持高速稳固的数据挪动能力。
高效数据开发
DataWorks 数据开发(DataStudio)与运维核心面向 EMR-Datalake、EMR-CK、CDH 等引擎,提供可视化开发的主界面,赋予用户智能代码开发、多引擎混编工作流、规范化工作公布的弱小能力,帮忙用户轻松构建数据湖、离线数仓、实时数仓与即席剖析零碎,保证数据生产的高效与稳固。
数据开发 - 外围开发调度能力
- 反对 EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR shell、EMR Presto、EMR Impala、EMR Spark Streaming 共八种节点。
- 远超开源的超大规模调度稳固能力(双 11 单日千万级工作实例)
- 分钟 / 小时 / 天 / 周 / 月多种调度周期
- 业务流程全局参数 / 节点上下文传参
数据开发 - 多种可视化数据对象治理及管制节点
- 可视化资源文件上传(HDFS/OSS)
- 可视化治理 UDF(Java)
- 可视化建表(反对 HDFS/OSS)
- 归并、赋值、程序、循环、分支等管制节点。
- 多种调度周期混合编排
- 可视化业务流程编排
数据开发 - 智能 SQL 编辑器
- 语法高亮
- 关键词主动补全
- 表 / 字段信息提醒
- 函数信息提醒
工作运维 - 运行诊断
运行诊断可帮忙用户疾速定位工作出错起因,例如
- 上游依赖未实现
- 调度资源有余
- 数据品质规定拦挡
- 基线破线
同时领有补数据相干能力,不便用户疾速解决运维状况。在告警方面,运维核心反对多种告警形式
- 反对 Webhook(钉钉、微信、飞书)、电话、短信、邮件等多渠道告警
- 反对基于值班表配置告警人员
工作运维 - 智能基线
智能基线是 DataWorks 独创的监控技术,具备国家专利,用户无需配置每个工作的告警工夫,仅需配置最终产出节点的告警工夫,智能基线会基于历史的工作运行状况,在外围工作可能无奈准时产出时,做提前告警,保障外围工作的生产稳固。
被动数据治理
DataWorks 数据治理蕴含数据治理核心、数据品质、数据地图等多个产品,笼罩事先、事中、预先的数据生命周期,通过数据治理衰弱分、品质规定、数据大血统等能力,将书面的数据治理标准落地成平台化的产品能力,让数据治理不再一个“阶段性我的项目”,而是一个“可继续的经营我的项目”。
数据品质
EMR HIVE 节点反对 DataWorks 数据品质规定,内置 37 种数据品质规定模板,能够进行可视化、批量数据品质规定配置,进步数据品质规定配置效率。同时该模块与数据开发调度深度集成,可通过调度触发规定运行,节俭计算资源,及时发现问题。
- 反对 37 种内置数据品质模板规定
- 反对批量配置规定、规定模板
- 反对绑定调度引擎并在品质报警时阻塞业务流程
- 反对动静阈值(顶会论文技术,算法主动断定告警阈值)
- 反对 SQL 自定义规定
- 反对短信、邮件、钉钉告警
- 反对自定义数据品质报告
- 反对品质问题解决记录
同时,数据品质反对强弱规定设置,进行灵便的运维管制。
- 强规定,间接阻塞上游工作运行,避免问题数据净化上游,节约上游执行的计算资源
- 弱规定,只告警,不阻塞工作运行,针对一些非核心工作。
数据地图
数据地图反对残缺的 EMR-Datalake 元数据体系,能够针对表名、字段名进行疾速搜寻,基于表、字段血统浏览上下游关系疾速找表,包含:
- 反对表根底信息、业务形容信息、产出信息等
- 反对分区、字段的明细信息与变更记录
- 反对表的产出信息解析(包含对表写入数据 或者 创立分区的调度工作)
- 反对表、字段的血统信息解析(实时解析)
- 反对对表进行分级分类、珍藏等操作
- 反对全局检索、按类目导航检索、按类目过滤
表根底信息:表血统信息:
全面数据安全
在数据安全方面,DataWorks 反对 Datalake 引擎数据全生命周期的平安治理。包含以下 5 个方面:
数据传输平安
- 数据源访问控制
数据存储平安
- 存储加密
- 数据备份
数据处理平安
Ranger 精细化数据受权管控
规范化开发流程,开发环境、生产环境执行身份独立治理
数据交换平安
数据脱敏
通用数据安全
RBAC 权限模型
操作行为审计
LDAP 认证治理
疾速剖析服务
SQL 查问:欠缺的 SQL 查问编辑器,反对即席查问 Hive、SparkSQL、Impala
电子表格:即席剖析数据,Web 类型的 Excel
数据服务:低代码疾速搭建 ClickHouse API
疾速开明应用
疾速入门:https://help.aliyun.com/docum…
应用须知:https://help.aliyun.com/docum…
迁徙助手
调度工作迁徙
为了帮忙客户疾速将原有的调度工作迁徙到 DataWorks 上应用,咱们提供了迁徙助手,反对以下工作迁徙能力:
- 反对 Airflow,Oozie,Azkaban 工作流迁徙
- 反对 EMR 数据开发一键迁徙至 DataWorks
- 工作空间之间各种数据对象迁徙