关于阿里云:重磅发布阿里云全链路数据湖开发治理解决方案

4次阅读

共计 5188 个字符,预计需要花费 13 分钟才能阅读完成。

阿里云重磅公布全链路数据湖解决方案,次要蕴含开源大数据平台 E-MapReduce(EMR) + 一站式大数据数据开发治理平台 DataWorks + 数据湖构建 DLF + 对象存储 OSS 等外围产品。

近日,阿里云 EMR 重磅推出新版数据湖 Datalake,100% 兼容社区大数据开源组件,具备极强的弹性能力,反对数据湖构建 DLF,数据湖存储 OSS 和 OSS-HDFS,反对 Delta Lake、Hudi、Iceberg 三种湖格局。同时新版本 Datalake 对接阿里云一站式大数据开发治理平台 DataWorks,积淀阿里巴巴十多年大数据建设方法论,为客户实现从入湖、建模、开发、调度、治理、平安等全链路数据湖开发治理能力,帮忙客户晋升数据的利用效率。

另外,解决方案提供了“对立元数据管理、数据入湖、数据存储、缓存减速、弹性计算、容器、数据分析、工作编排、运维治理,以及平安”等全面数据湖能力。通过了工业和信息化部中国信息通信研究院大数据能力专项评测,荣获“云原生数据湖根底能力专项评测证书”。

阿里云全链路数据湖开发治理解决方案架构

阿里云全链路数据湖开发治理解决方案应用 OSS/OSS–HDFS 作为数据湖存储,DLF 作为数据湖构建和管理工具,JindoFS 进行湖缓存减速,EMR 作为弹性计算引擎进行湖计算,DataWorks 进行数据开发和治理。DataWorks 各模块与 DataLake 深度集成,从而实现一站式数据湖开发治理。

EMR 新版数据湖集群

外围运维管控能力介绍

弹性能力

  1. 弹性伸缩反对按集群负载和按工夫 2 种模式
  2. 弹性伸缩组反对多种实例规格
  3. 反对抢占式实例(相较按量付费老本升高 80% 以上)
  4. 反对老本优化模式(弹性比例的按量付费 + 包年包月)

集群管控能力

  1. 分钟级别创立和扩容集群,无需手动部署和启动服务
  2. 欠缺的集群监控和告警体系,笼罩硬件和引擎服务,反对配置告警模板

新版数据湖比照 Hadoop 集群劣势

性能更优

  • 速度放慢

新版数据湖集群节点组扩容速度失去显著晋升,单批次大规模节点扩容速度晋升 80%

Hadoop DataLake
弹性扩容 10 节点 4 分钟 1 分 10 秒
弹性扩容 50 节点 8 分钟 1 分 30 秒
弹性扩容 100 节点 10 分钟 1 分 50 秒
  • 反对并发

反对工作节点(task 节点类型)多节点组并行扩缩容,可能笼罩多种应用场景,业务效率成倍晋升。
性能更全

  • 弹性伸缩能力更强

能够同时配置按工夫伸缩和按负载伸缩;反对优先下线负载低的节点;配置规定不依赖于是否运行弹性伸缩流动,可灵便批改配置(仅影响下一次触发)。

  • 执行逻辑更贴近应用场景

多方位调研用户实在应用场景,性能执行逻辑设计更贴近业务理论。如:
1)弹性伸缩扩容策略反对多实例抉择并按程序弹出(兜底库存有余场景),弹性伸缩缩容反对配置优雅下线并默认按负载抉择指标节点下线(缩小缩容时对集群工作影响)
2)同一节点组多个弹性规定同时触发时,默认依照用户规定排序顺次失效(灵便应答多种应用场景)

  • 操作体验优化

更丰盛的配置提醒和操作疏导,并新增配置项预校验逻辑,升高用户学习老本和操作失败概率。
老本更省

  • 弹性伸缩性能更优,性能笼罩更宽泛的场景

弹性伸缩失效更快,反对性能更全。能够帮忙用户更快更好地对硬件资源进行麻利治理,依据业务须要设置相干策略,主动变更集群规模,缩小硬件资源节约。

  • 通过灵便配置抢占式实例进一步压缩老本

在新增节点组时,提供欠缺的抢占式实例配置策略和兜底策略供用户配置,用户能够依据其业务诉求灵便配置,通过配置抢占式实例可能进一步压缩老本。

与 Hadoop 集群全面比照

模块 性能项 新版数据湖集群 Hadoop 集群
集群 集群创立工夫 均匀工夫小于 5 分钟。 均匀工夫小于 10 分钟。
集群节点组新增节点 均匀工夫小于 3.5 分钟。 均匀工夫小于 10 分钟。
凋谢 API 反对。 反对。
域名反对 Private Zone。 hosts 地址映射。
磁盘扩容 反对热扩容,无需重启集群服务。 不反对热扩容,需重启集群服务失效。
节点组 交换机 能够在新建节点组时抉择交换机。 仅反对在集群创立时抉择,集群创立后不可更改。
挂载公网 能够在创立集群的 硬件配置 页面的 实例 区域,抉择是否为节点组开启公网。* 没有节点组类型的限度。 仅反对在集群创立时抉择是否开启公网,创立后如果您须要应用公网 IP 地址拜访,请在 ECS 上申请开明公网 IP 地址,详情请参见弹性公网 IP 中的申请 EIP 的内容。 仅反对 Master 节点组挂载公网。
附加平安组 反对。 不反对。
部署集 能够在创立集群 硬件配置 页面的 实例 区域,抉择是否开启部署集开关。 能够在新增 Core 节点组时,抉择是否开启部署集开关。 性能受限。
节点组状态 反对。 不反对。
混合节点 反对同规格的不同机型混合。 仅反对同规格机型。 弹性伸缩节点反对混合节点。
弹性伸缩 弹性伸缩 弹性伸缩与节点组解耦,从独立的功能模块转为节点组操作,应用更加便捷。 须要专用的弹性伸缩组,该节点组不可进行手动扩缩容。
伸缩规定 配置规定不依赖于是否运行弹性伸缩流动,可灵便批改配置(仅影响下一次触发)。 同一节点组多个规定同时触发时,会依照用户规定排序顺次失效。 配置规定受到弹性伸缩状态限度,批改后无奈立刻失效。 同一节点组多个规定同时触发时,随机失效。
伸缩记录 丰盛了弹性伸缩记录信息。在 查看详情 页面新增了 触发规定快照 执行后果 参数,可能疾速查看触发起因和变更节点信息。 提供根底的伸缩记录列表。
指标采集频繁 每 30 秒采集一次。 每 30 秒采集一次。
伸缩流动失效工夫 规定利用后 1~30 秒。 规定利用后 1~2 分钟。
扩缩容 扩缩容流动 弹性伸缩流动与手动扩缩容流动运行机制雷同。区别仅在于触发条件不同: 弹性伸缩须要弹性伸缩规定触发。 手动扩缩容须要人为触发。 反对暂停弹性伸缩流动。 多个 Task 节点组的扩缩容流动彼此独立,互不影响。 弹性缩容依据节点负载和创立工夫,智能选中指标节点,缩小业务影响。 弹性伸缩流动和手动扩缩容流动是两套机制,互不兼容。 弹性伸缩流动不反对暂停状态。 同时仅反对一个节点组进行(弹性)扩缩容。 弹性缩容节点抉择具备随机性。
高可用与软件应用 高可用 不再反对本地 MySQL 作为 Hive Metastore 数据库。 反对本地 MySQL 作为 Hive Metastore 数据库。
反对部署集,3 台 Master 散布在不同底层硬件以升高硬件危险。 默认不反对部署集。
NameNode 与 Resource Manager 部署于 3 节点,并不再反对 2 Master 模式。 Namenode 与 Resource Manager 仅部署于 2 节点,反对 2 Master 模式。
集群利用组件 反对可选 必选 + 可选。
Spark2 与 Hadoop3 组合 反对。 不反对。
Spark3 与 Hadoop2 组合 反对。 EMR-3.38.0 之后版本反对同时部署。

DataWorks 全链路开发治理能力介绍

DataWorks 基于 EMR-Datalake、EMR-Clickhouse、CDP 等大数据引擎,为数据湖 / 数据仓库 / 湖仓一体等解决方案提供对立的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks 从 2009 年起一直积淀阿里巴巴大数据建设方法论,通过智能数据建模、全域数据集成、高效数据开发、被动数据治理(数据品质、数据地图等)、全面数据安全、疾速剖析服务六大全链路数据治理的能力,与数万名政务 / 金融 / 批发 / 互联网 / 能源 / 制作等客户携手,助力产业数字化降级。

智能数据建模

DataWorks 智能数据建模积淀阿里巴巴数据中台建模方法论,以维度建模为根底,从数仓布局、数据规范、维度建模、数据指标四个方面,以业务视角对业务的数据进行诠释,让数据仓库的建设向规范化,可继续倒退方向演进。针对 Datalake 的智能数据建模能力将在 2022 年 8 月份正式公布。

全域数据集成

DataWorks 数据集成是开源 DataX 的商业化团队,在数据湖场景下反对 50+ 种数据源之间的离线同步,蕴含数据湖常见的 HDFS、Hive、HBase、OSS、Kafka 等数据源,MySql、Oracle、SQLServer 等数据库。同时,针对 IDC>> 云上、云厂商 >> 云厂商、云产品 >> 云产品、云账号 >> 云账号等各种同步场景,提供网络连通的解决方案,让客户在简单网络环境、丰盛的异构数据源之间,仍旧保持高速稳固的数据挪动能力。

高效数据开发

DataWorks 数据开发(DataStudio)与运维核心面向 EMR-Datalake、EMR-CK、CDH 等引擎,提供可视化开发的主界面,赋予用户智能代码开发、多引擎混编工作流、规范化工作公布的弱小能力,帮忙用户轻松构建数据湖、离线数仓、实时数仓与即席剖析零碎,保证数据生产的高效与稳固。

数据开发 - 外围开发调度能力

  • 反对 EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR shell、EMR Presto、EMR Impala、EMR Spark Streaming 共八种节点。
  • 远超开源的超大规模调度稳固能力(双 11 单日千万级工作实例)
  • 分钟 / 小时 / 天 / 周 / 月多种调度周期
  • 业务流程全局参数 / 节点上下文传参

数据开发 - 多种可视化数据对象治理及管制节点

  • 可视化资源文件上传(HDFS/OSS)
  • 可视化治理 UDF(Java)
  • 可视化建表(反对 HDFS/OSS)
  • 归并、赋值、程序、循环、分支等管制节点。
  • 多种调度周期混合编排
  • 可视化业务流程编排

数据开发 - 智能 SQL 编辑器

  • 语法高亮
  • 关键词主动补全
  • 表 / 字段信息提醒
  • 函数信息提醒

工作运维 - 运行诊断
运行诊断可帮忙用户疾速定位工作出错起因,例如

  • 上游依赖未实现
  • 调度资源有余
  • 数据品质规定拦挡
  • 基线破线

同时领有补数据相干能力,不便用户疾速解决运维状况。在告警方面,运维核心反对多种告警形式

  • 反对 Webhook(钉钉、微信、飞书)、电话、短信、邮件等多渠道告警
  • 反对基于值班表配置告警人员

工作运维 - 智能基线
智能基线是 DataWorks 独创的监控技术,具备国家专利,用户无需配置每个工作的告警工夫,仅需配置最终产出节点的告警工夫,智能基线会基于历史的工作运行状况,在外围工作可能无奈准时产出时,做提前告警,保障外围工作的生产稳固。

被动数据治理

DataWorks 数据治理蕴含数据治理核心、数据品质、数据地图等多个产品,笼罩事先、事中、预先的数据生命周期,通过数据治理衰弱分、品质规定、数据大血统等能力,将书面的数据治理标准落地成平台化的产品能力,让数据治理不再一个“阶段性我的项目”,而是一个“可继续的经营我的项目”。

数据品质
EMR HIVE 节点反对 DataWorks 数据品质规定,内置 37 种数据品质规定模板,能够进行可视化、批量数据品质规定配置,进步数据品质规定配置效率。同时该模块与数据开发调度深度集成,可通过调度触发规定运行,节俭计算资源,及时发现问题。

  • 反对 37 种内置数据品质模板规定
  • 反对批量配置规定、规定模板
  • 反对绑定调度引擎并在品质报警时阻塞业务流程
  • 反对动静阈值(顶会论文技术,算法主动断定告警阈值)
  • 反对 SQL 自定义规定
  • 反对短信、邮件、钉钉告警
  • 反对自定义数据品质报告
  • 反对品质问题解决记录

同时,数据品质反对强弱规定设置,进行灵便的运维管制。

  • 强规定,间接阻塞上游工作运行,避免问题数据净化上游,节约上游执行的计算资源
  • 弱规定,只告警,不阻塞工作运行,针对一些非核心工作。

数据地图
数据地图反对残缺的 EMR-Datalake 元数据体系,能够针对表名、字段名进行疾速搜寻,基于表、字段血统浏览上下游关系疾速找表,包含:

  • 反对表根底信息、业务形容信息、产出信息等
  • 反对分区、字段的明细信息与变更记录
  • 反对表的产出信息解析(包含对表写入数据 或者 创立分区的调度工作)
  • 反对表、字段的血统信息解析(实时解析)
  • 反对对表进行分级分类、珍藏等操作
  • 反对全局检索、按类目导航检索、按类目过滤
    表根底信息:

    表血统信息:

全面数据安全

在数据安全方面,DataWorks 反对 Datalake 引擎数据全生命周期的平安治理。包含以下 5 个方面:
数据传输平安

  • 数据源访问控制

数据存储平安

  • 存储加密
  • 数据备份

数据处理平安
Ranger 精细化数据受权管控
规范化开发流程,开发环境、生产环境执行身份独立治理
数据交换平安
数据脱敏
通用数据安全
RBAC 权限模型
操作行为审计
LDAP 认证治理

疾速剖析服务

SQL 查问:欠缺的 SQL 查问编辑器,反对即席查问 Hive、SparkSQL、Impala

电子表格:即席剖析数据,Web 类型的 Excel

数据服务:低代码疾速搭建 ClickHouse API

疾速开明应用

疾速入门:https://help.aliyun.com/docum…
应用须知:https://help.aliyun.com/docum…

迁徙助手

调度工作迁徙

为了帮忙客户疾速将原有的调度工作迁徙到 DataWorks 上应用,咱们提供了迁徙助手,反对以下工作迁徙能力:

  • 反对 Airflow,Oozie,Azkaban 工作流迁徙
  • 反对 EMR 数据开发一键迁徙至 DataWorks
  • 工作空间之间各种数据对象迁徙
正文完
 0