关于阿里云:重磅发布阿里云全链路数据湖开发治理解决方案

52次阅读

共计 5188 个字符,预计需要花费 13 分钟才能阅读完成。

阿里云重磅公布全链路数据湖解决方案,次要蕴含开源大数据平台 E-MapReduce(EMR) + 一站式大数据数据开发治理平台 DataWorks + 数据湖构建 DLF + 对象存储 OSS 等外围产品。

近日,阿里云 EMR 重磅推出新版数据湖 Datalake,100% 兼容社区大数据开源组件,具备极强的弹性能力,反对数据湖构建 DLF,数据湖存储 OSS 和 OSS-HDFS,反对 Delta Lake、Hudi、Iceberg 三种湖格局。同时新版本 Datalake 对接阿里云一站式大数据开发治理平台 DataWorks,积淀阿里巴巴十多年大数据建设方法论,为客户实现从入湖、建模、开发、调度、治理、平安等全链路数据湖开发治理能力,帮忙客户晋升数据的利用效率。

另外,解决方案提供了“对立元数据管理、数据入湖、数据存储、缓存减速、弹性计算、容器、数据分析、工作编排、运维治理,以及平安”等全面数据湖能力。通过了工业和信息化部中国信息通信研究院大数据能力专项评测,荣获“云原生数据湖根底能力专项评测证书”。

阿里云全链路数据湖开发治理解决方案架构

阿里云全链路数据湖开发治理解决方案应用 OSS/OSS–HDFS 作为数据湖存储,DLF 作为数据湖构建和管理工具,JindoFS 进行湖缓存减速,EMR 作为弹性计算引擎进行湖计算,DataWorks 进行数据开发和治理。DataWorks 各模块与 DataLake 深度集成,从而实现一站式数据湖开发治理。

EMR 新版数据湖集群

外围运维管控能力介绍

弹性能力

  1. 弹性伸缩反对按集群负载和按工夫 2 种模式
  2. 弹性伸缩组反对多种实例规格
  3. 反对抢占式实例(相较按量付费老本升高 80% 以上)
  4. 反对老本优化模式(弹性比例的按量付费 + 包年包月)

集群管控能力

  1. 分钟级别创立和扩容集群,无需手动部署和启动服务
  2. 欠缺的集群监控和告警体系,笼罩硬件和引擎服务,反对配置告警模板

新版数据湖比照 Hadoop 集群劣势

性能更优

  • 速度放慢

新版数据湖集群节点组扩容速度失去显著晋升,单批次大规模节点扩容速度晋升 80%

HadoopDataLake
弹性扩容 10 节点 4 分钟 1 分 10 秒
弹性扩容 50 节点 8 分钟 1 分 30 秒
弹性扩容 100 节点10 分钟 1 分 50 秒
  • 反对并发

反对工作节点(task 节点类型)多节点组并行扩缩容,可能笼罩多种应用场景,业务效率成倍晋升。
性能更全

  • 弹性伸缩能力更强

能够同时配置按工夫伸缩和按负载伸缩;反对优先下线负载低的节点;配置规定不依赖于是否运行弹性伸缩流动,可灵便批改配置(仅影响下一次触发)。

  • 执行逻辑更贴近应用场景

多方位调研用户实在应用场景,性能执行逻辑设计更贴近业务理论。如:
1)弹性伸缩扩容策略反对多实例抉择并按程序弹出(兜底库存有余场景),弹性伸缩缩容反对配置优雅下线并默认按负载抉择指标节点下线(缩小缩容时对集群工作影响)
2)同一节点组多个弹性规定同时触发时,默认依照用户规定排序顺次失效(灵便应答多种应用场景)

  • 操作体验优化

更丰盛的配置提醒和操作疏导,并新增配置项预校验逻辑,升高用户学习老本和操作失败概率。
老本更省

  • 弹性伸缩性能更优,性能笼罩更宽泛的场景

弹性伸缩失效更快,反对性能更全。能够帮忙用户更快更好地对硬件资源进行麻利治理,依据业务须要设置相干策略,主动变更集群规模,缩小硬件资源节约。

  • 通过灵便配置抢占式实例进一步压缩老本

在新增节点组时,提供欠缺的抢占式实例配置策略和兜底策略供用户配置,用户能够依据其业务诉求灵便配置,通过配置抢占式实例可能进一步压缩老本。

与 Hadoop 集群全面比照

模块性能项新版数据湖集群Hadoop 集群
集群集群创立工夫均匀工夫小于 5 分钟。均匀工夫小于 10 分钟。
集群节点组新增节点均匀工夫小于 3.5 分钟。均匀工夫小于 10 分钟。
凋谢 API反对。反对。
域名反对Private Zone。hosts 地址映射。
磁盘扩容反对热扩容,无需重启集群服务。不反对热扩容,需重启集群服务失效。
节点组交换机能够在新建节点组时抉择交换机。仅反对在集群创立时抉择,集群创立后不可更改。
挂载公网能够在创立集群的 硬件配置 页面的 实例 区域,抉择是否为节点组开启公网。* 没有节点组类型的限度。 仅反对在集群创立时抉择是否开启公网,创立后如果您须要应用公网 IP 地址拜访,请在 ECS 上申请开明公网 IP 地址,详情请参见弹性公网 IP 中的申请 EIP 的内容。 仅反对 Master 节点组挂载公网。
附加平安组反对。不反对。
部署集 能够在创立集群 硬件配置 页面的 实例 区域,抉择是否开启部署集开关。 能够在新增 Core 节点组时,抉择是否开启部署集开关。性能受限。
节点组状态反对。不反对。
混合节点反对同规格的不同机型混合。 仅反对同规格机型。 弹性伸缩节点反对混合节点。
弹性伸缩弹性伸缩弹性伸缩与节点组解耦,从独立的功能模块转为节点组操作,应用更加便捷。须要专用的弹性伸缩组,该节点组不可进行手动扩缩容。
伸缩规定 配置规定不依赖于是否运行弹性伸缩流动,可灵便批改配置(仅影响下一次触发)。 同一节点组多个规定同时触发时,会依照用户规定排序顺次失效。 配置规定受到弹性伸缩状态限度,批改后无奈立刻失效。 同一节点组多个规定同时触发时,随机失效。
伸缩记录丰盛了弹性伸缩记录信息。在 查看详情 页面新增了 触发规定快照 执行后果 参数,可能疾速查看触发起因和变更节点信息。提供根底的伸缩记录列表。
指标采集频繁每 30 秒采集一次。每 30 秒采集一次。
伸缩流动失效工夫规定利用后 1~30 秒。规定利用后 1~2 分钟。
扩缩容扩缩容流动 弹性伸缩流动与手动扩缩容流动运行机制雷同。区别仅在于触发条件不同: 弹性伸缩须要弹性伸缩规定触发。 手动扩缩容须要人为触发。 反对暂停弹性伸缩流动。 多个 Task 节点组的扩缩容流动彼此独立,互不影响。 弹性缩容依据节点负载和创立工夫,智能选中指标节点,缩小业务影响。 弹性伸缩流动和手动扩缩容流动是两套机制,互不兼容。 弹性伸缩流动不反对暂停状态。 同时仅反对一个节点组进行(弹性)扩缩容。 弹性缩容节点抉择具备随机性。
高可用与软件应用高可用不再反对本地 MySQL 作为 Hive Metastore 数据库。反对本地 MySQL 作为 Hive Metastore 数据库。
反对部署集,3 台 Master 散布在不同底层硬件以升高硬件危险。默认不反对部署集。
NameNode 与 Resource Manager 部署于 3 节点,并不再反对 2 Master 模式。Namenode 与 Resource Manager 仅部署于 2 节点,反对 2 Master 模式。
集群利用组件反对可选必选 + 可选。
Spark2 与 Hadoop3 组合反对。不反对。
Spark3 与 Hadoop2 组合反对。EMR-3.38.0 之后版本反对同时部署。

DataWorks 全链路开发治理能力介绍

DataWorks 基于 EMR-Datalake、EMR-Clickhouse、CDP 等大数据引擎,为数据湖 / 数据仓库 / 湖仓一体等解决方案提供对立的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks 从 2009 年起一直积淀阿里巴巴大数据建设方法论,通过智能数据建模、全域数据集成、高效数据开发、被动数据治理(数据品质、数据地图等)、全面数据安全、疾速剖析服务六大全链路数据治理的能力,与数万名政务 / 金融 / 批发 / 互联网 / 能源 / 制作等客户携手,助力产业数字化降级。

智能数据建模

DataWorks 智能数据建模积淀阿里巴巴数据中台建模方法论,以维度建模为根底,从数仓布局、数据规范、维度建模、数据指标四个方面,以业务视角对业务的数据进行诠释,让数据仓库的建设向规范化,可继续倒退方向演进。针对 Datalake 的智能数据建模能力将在 2022 年 8 月份正式公布。

全域数据集成

DataWorks 数据集成是开源 DataX 的商业化团队,在数据湖场景下反对 50+ 种数据源之间的离线同步,蕴含数据湖常见的 HDFS、Hive、HBase、OSS、Kafka 等数据源,MySql、Oracle、SQLServer 等数据库。同时,针对 IDC>> 云上、云厂商 >> 云厂商、云产品 >> 云产品、云账号 >> 云账号等各种同步场景,提供网络连通的解决方案,让客户在简单网络环境、丰盛的异构数据源之间,仍旧保持高速稳固的数据挪动能力。

高效数据开发

DataWorks 数据开发(DataStudio)与运维核心面向 EMR-Datalake、EMR-CK、CDH 等引擎,提供可视化开发的主界面,赋予用户智能代码开发、多引擎混编工作流、规范化工作公布的弱小能力,帮忙用户轻松构建数据湖、离线数仓、实时数仓与即席剖析零碎,保证数据生产的高效与稳固。

数据开发 - 外围开发调度能力

  • 反对 EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR shell、EMR Presto、EMR Impala、EMR Spark Streaming 共八种节点。
  • 远超开源的超大规模调度稳固能力(双 11 单日千万级工作实例)
  • 分钟 / 小时 / 天 / 周 / 月多种调度周期
  • 业务流程全局参数 / 节点上下文传参

数据开发 - 多种可视化数据对象治理及管制节点

  • 可视化资源文件上传(HDFS/OSS)
  • 可视化治理 UDF(Java)
  • 可视化建表(反对 HDFS/OSS)
  • 归并、赋值、程序、循环、分支等管制节点。
  • 多种调度周期混合编排
  • 可视化业务流程编排

数据开发 - 智能 SQL 编辑器

  • 语法高亮
  • 关键词主动补全
  • 表 / 字段信息提醒
  • 函数信息提醒

工作运维 - 运行诊断
运行诊断可帮忙用户疾速定位工作出错起因,例如

  • 上游依赖未实现
  • 调度资源有余
  • 数据品质规定拦挡
  • 基线破线

同时领有补数据相干能力,不便用户疾速解决运维状况。在告警方面,运维核心反对多种告警形式

  • 反对 Webhook(钉钉、微信、飞书)、电话、短信、邮件等多渠道告警
  • 反对基于值班表配置告警人员

工作运维 - 智能基线
智能基线是 DataWorks 独创的监控技术,具备国家专利,用户无需配置每个工作的告警工夫,仅需配置最终产出节点的告警工夫,智能基线会基于历史的工作运行状况,在外围工作可能无奈准时产出时,做提前告警,保障外围工作的生产稳固。

被动数据治理

DataWorks 数据治理蕴含数据治理核心、数据品质、数据地图等多个产品,笼罩事先、事中、预先的数据生命周期,通过数据治理衰弱分、品质规定、数据大血统等能力,将书面的数据治理标准落地成平台化的产品能力,让数据治理不再一个“阶段性我的项目”,而是一个“可继续的经营我的项目”。

数据品质
EMR HIVE 节点反对 DataWorks 数据品质规定,内置 37 种数据品质规定模板,能够进行可视化、批量数据品质规定配置,进步数据品质规定配置效率。同时该模块与数据开发调度深度集成,可通过调度触发规定运行,节俭计算资源,及时发现问题。

  • 反对 37 种内置数据品质模板规定
  • 反对批量配置规定、规定模板
  • 反对绑定调度引擎并在品质报警时阻塞业务流程
  • 反对动静阈值(顶会论文技术,算法主动断定告警阈值)
  • 反对 SQL 自定义规定
  • 反对短信、邮件、钉钉告警
  • 反对自定义数据品质报告
  • 反对品质问题解决记录

同时,数据品质反对强弱规定设置,进行灵便的运维管制。

  • 强规定,间接阻塞上游工作运行,避免问题数据净化上游,节约上游执行的计算资源
  • 弱规定,只告警,不阻塞工作运行,针对一些非核心工作。

数据地图
数据地图反对残缺的 EMR-Datalake 元数据体系,能够针对表名、字段名进行疾速搜寻,基于表、字段血统浏览上下游关系疾速找表,包含:

  • 反对表根底信息、业务形容信息、产出信息等
  • 反对分区、字段的明细信息与变更记录
  • 反对表的产出信息解析(包含对表写入数据 或者 创立分区的调度工作)
  • 反对表、字段的血统信息解析(实时解析)
  • 反对对表进行分级分类、珍藏等操作
  • 反对全局检索、按类目导航检索、按类目过滤
    表根底信息:

    表血统信息:

全面数据安全

在数据安全方面,DataWorks 反对 Datalake 引擎数据全生命周期的平安治理。包含以下 5 个方面:
数据传输平安

  • 数据源访问控制

数据存储平安

  • 存储加密
  • 数据备份

数据处理平安
Ranger 精细化数据受权管控
规范化开发流程,开发环境、生产环境执行身份独立治理
数据交换平安
数据脱敏
通用数据安全
RBAC 权限模型
操作行为审计
LDAP 认证治理

疾速剖析服务

SQL 查问:欠缺的 SQL 查问编辑器,反对即席查问 Hive、SparkSQL、Impala

电子表格:即席剖析数据,Web 类型的 Excel

数据服务:低代码疾速搭建 ClickHouse API

疾速开明应用

疾速入门:https://help.aliyun.com/docum…
应用须知:https://help.aliyun.com/docum…

迁徙助手

调度工作迁徙

为了帮忙客户疾速将原有的调度工作迁徙到 DataWorks 上应用,咱们提供了迁徙助手,反对以下工作迁徙能力:

  • 反对 Airflow,Oozie,Azkaban 工作流迁徙
  • 反对 EMR 数据开发一键迁徙至 DataWorks
  • 工作空间之间各种数据对象迁徙
正文完
 0