阿里云重磅公布全链路数据湖解决方案,次要蕴含开源大数据平台 E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS 等外围产品。

近日,阿里云EMR重磅推出新版数据湖Datalake,100%兼容社区大数据开源组件,具备极强的弹性能力,反对数据湖构建DLF,数据湖存储OSS和OSS-HDFS,反对 Delta Lake、Hudi、Iceberg 三种湖格局。同时新版本 Datalake 对接阿里云一站式大数据开发治理平台DataWorks,积淀阿里巴巴十多年大数据建设方法论,为客户实现从入湖、建模、开发、调度、治理、平安等全链路数据湖开发治理能力,帮忙客户晋升数据的利用效率。

另外,解决方案提供了“对立元数据管理、数据入湖、数据存储、缓存减速、弹性计算、容器、数据分析、工作编排、运维治理,以及平安”等全面数据湖能力。通过了工业和信息化部中国信息通信研究院大数据能力专项评测,荣获“云原生数据湖根底能力专项评测证书”。

阿里云全链路数据湖开发治理解决方案架构

阿里云全链路数据湖开发治理解决方案应用 OSS/OSS–HDFS 作为数据湖存储,DLF 作为数据湖构建和管理工具,JindoFS 进行湖缓存减速,EMR 作为弹性计算引擎进行湖计算,DataWorks 进行数据开发和治理。DataWorks 各模块与 DataLake 深度集成,从而实现一站式数据湖开发治理。

EMR新版数据湖集群

外围运维管控能力介绍

弹性能力

  1. 弹性伸缩反对按集群负载和按工夫2种模式
  2. 弹性伸缩组反对多种实例规格
  3. 反对抢占式实例(相较按量付费老本升高80%以上)
  4. 反对老本优化模式(弹性比例的按量付费+包年包月)

集群管控能力

  1. 分钟级别创立和扩容集群,无需手动部署和启动服务
  2. 欠缺的集群监控和告警体系,笼罩硬件和引擎服务,反对配置告警模板

新版数据湖比照Hadoop集群劣势

性能更优

  • 速度放慢

新版数据湖集群节点组扩容速度失去显著晋升,单批次大规模节点扩容速度晋升80%

HadoopDataLake
弹性扩容 10 节点4分钟1分10秒
弹性扩容 50 节点8分钟1分30秒
弹性扩容 100节点10分钟1分50秒
  • 反对并发

反对工作节点(task节点类型)多节点组并行扩缩容,可能笼罩多种应用场景,业务效率成倍晋升。
性能更全

  • 弹性伸缩能力更强

能够同时配置按工夫伸缩和按负载伸缩;反对优先下线负载低的节点;配置规定不依赖于是否运行弹性伸缩流动,可灵便批改配置(仅影响下一次触发)。

  • 执行逻辑更贴近应用场景

多方位调研用户实在应用场景,性能执行逻辑设计更贴近业务理论。如:
1)弹性伸缩扩容策略反对多实例抉择并按程序弹出(兜底库存有余场景),弹性伸缩缩容反对配置优雅下线并默认按负载抉择指标节点下线(缩小缩容时对集群工作影响)
2)同一节点组多个弹性规定同时触发时,默认依照用户规定排序顺次失效(灵便应答多种应用场景)

  • 操作体验优化

更丰盛的配置提醒和操作疏导,并新增配置项预校验逻辑,升高用户学习老本和操作失败概率。
老本更省

  • 弹性伸缩性能更优,性能笼罩更宽泛的场景

弹性伸缩失效更快,反对性能更全。能够帮忙用户更快更好地对硬件资源进行麻利治理,依据业务须要设置相干策略,主动变更集群规模,缩小硬件资源节约。

  • 通过灵便配置抢占式实例进一步压缩老本

在新增节点组时,提供欠缺的抢占式实例配置策略和兜底策略供用户配置,用户能够依据其业务诉求灵便配置,通过配置抢占式实例可能进一步压缩老本。

与Hadoop集群全面比照

模块性能项新版数据湖集群Hadoop集群
集群集群创立工夫均匀工夫小于5分钟。均匀工夫小于10分钟。
集群节点组新增节点均匀工夫小于3.5分钟。均匀工夫小于10分钟。
凋谢API反对。反对。
域名反对Private Zone。hosts地址映射。
磁盘扩容反对热扩容,无需重启集群服务。不反对热扩容,需重启集群服务失效。
节点组交换机能够在新建节点组时抉择交换机。仅反对在集群创立时抉择,集群创立后不可更改。
挂载公网能够在创立集群的硬件配置页面的实例区域,抉择是否为节点组开启公网。* 没有节点组类型的限度。仅反对在集群创立时抉择是否开启公网,创立后如果您须要应用公网IP地址拜访,请在ECS上申请开明公网IP地址,详情请参见弹性公网IP中的申请EIP的内容。 仅反对Master节点组挂载公网。
附加平安组反对。不反对。
部署集能够在创立集群硬件配置页面的实例区域,抉择是否开启部署集开关。 能够在新增Core节点组时,抉择是否开启部署集开关。性能受限。
节点组状态反对。不反对。
混合节点反对同规格的不同机型混合。仅反对同规格机型。 弹性伸缩节点反对混合节点。
弹性伸缩弹性伸缩弹性伸缩与节点组解耦,从独立的功能模块转为节点组操作,应用更加便捷。须要专用的弹性伸缩组,该节点组不可进行手动扩缩容。
伸缩规定配置规定不依赖于是否运行弹性伸缩流动,可灵便批改配置(仅影响下一次触发)。 同一节点组多个规定同时触发时,会依照用户规定排序顺次失效。配置规定受到弹性伸缩状态限度,批改后无奈立刻失效。 同一节点组多个规定同时触发时,随机失效。
伸缩记录丰盛了弹性伸缩记录信息。在查看详情页面新增了触发规定快照执行后果参数,可能疾速查看触发起因和变更节点信息。提供根底的伸缩记录列表。
指标采集频繁每30秒采集一次。每30秒采集一次。
伸缩流动失效工夫规定利用后1~30秒。规定利用后1~2分钟。
扩缩容扩缩容流动弹性伸缩流动与手动扩缩容流动运行机制雷同。区别仅在于触发条件不同: 弹性伸缩须要弹性伸缩规定触发。 手动扩缩容须要人为触发。 反对暂停弹性伸缩流动。 多个Task节点组的扩缩容流动彼此独立,互不影响。 弹性缩容依据节点负载和创立工夫,智能选中指标节点,缩小业务影响。弹性伸缩流动和手动扩缩容流动是两套机制,互不兼容。 弹性伸缩流动不反对暂停状态。 同时仅反对一个节点组进行(弹性)扩缩容。 弹性缩容节点抉择具备随机性。
高可用与软件应用高可用不再反对本地MySQL作为Hive Metastore数据库。反对本地MySQL作为Hive Metastore数据库。
反对部署集,3台Master散布在不同底层硬件以升高硬件危险。默认不反对部署集。
NameNode与Resource Manager部署于3节点,并不再反对2 Master模式。Namenode与Resource Manager仅部署于2节点,反对2 Master模式。
集群利用组件反对可选必选 + 可选。
Spark2与Hadoop3组合反对。不反对。
Spark3与Hadoop2组合反对。EMR-3.38.0之后版本反对同时部署。

DataWorks全链路开发治理能力介绍

DataWorks基于EMR-Datalake、EMR-Clickhouse、CDP等大数据引擎,为数据湖/数据仓库/湖仓一体等解决方案提供对立的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks从2009年起一直积淀阿里巴巴大数据建设方法论,通过智能数据建模、全域数据集成、高效数据开发、被动数据治理(数据品质、数据地图等)、全面数据安全、疾速剖析服务六大全链路数据治理的能力,与数万名政务/金融/批发/互联网/能源/制作等客户携手,助力产业数字化降级。

智能数据建模

DataWorks智能数据建模积淀阿里巴巴数据中台建模方法论,以维度建模为根底,从数仓布局、数据规范、维度建模、数据指标四个方面,以业务视角对业务的数据进行诠释,让数据仓库的建设向规范化,可继续倒退方向演进。针对Datalake的智能数据建模能力将在2022年8月份正式公布。

全域数据集成

DataWorks数据集成是开源DataX的商业化团队,在数据湖场景下反对50+种数据源之间的离线同步,蕴含数据湖常见的HDFS、Hive、HBase、OSS、Kafka等数据源,MySql、Oracle、SQLServer等数据库。同时,针对IDC>>云上、云厂商>>云厂商、云产品>>云产品、云账号>>云账号等各种同步场景,提供网络连通的解决方案,让客户在简单网络环境、丰盛的异构数据源之间,仍旧保持高速稳固的数据挪动能力。

高效数据开发

DataWorks数据开发(DataStudio)与运维核心面向EMR-Datalake、EMR-CK、CDH等引擎,提供可视化开发的主界面,赋予用户智能代码开发、多引擎混编工作流、规范化工作公布的弱小能力,帮忙用户轻松构建数据湖、离线数仓、实时数仓与即席剖析零碎,保证数据生产的高效与稳固。

数据开发-外围开发调度能力

  • 反对EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR shell、EMR Presto、EMR Impala、EMR Spark Streaming共八种节点。
  • 远超开源的超大规模调度稳固能力(双11单日千万级工作实例)
  • 分钟/小时/天/周/月多种调度周期
  • 业务流程全局参数/节点上下文传参

数据开发-多种可视化数据对象治理及管制节点

  • 可视化资源文件上传(HDFS/OSS)
  • 可视化治理UDF(Java)
  • 可视化建表(反对HDFS/OSS)
  • 归并、赋值、程序、循环、分支等管制节点。
  • 多种调度周期混合编排
  • 可视化业务流程编排

数据开发-智能SQL编辑器

  • 语法高亮
  • 关键词主动补全
  • 表/字段信息提醒
  • 函数信息提醒

工作运维-运行诊断
运行诊断可帮忙用户疾速定位工作出错起因,例如

  • 上游依赖未实现
  • 调度资源有余
  • 数据品质规定拦挡
  • 基线破线

同时领有补数据相干能力,不便用户疾速解决运维状况。在告警方面,运维核心反对多种告警形式

  • 反对Webhook(钉钉、微信、飞书)、电话、短信、邮件等多渠道告警
  • 反对基于值班表配置告警人员

工作运维-智能基线
智能基线是DataWorks独创的监控技术,具备国家专利,用户无需配置每个工作的告警工夫,仅需配置最终产出节点的告警工夫,智能基线会基于历史的工作运行状况,在外围工作可能无奈准时产出时,做提前告警,保障外围工作的生产稳固。

被动数据治理

DataWorks数据治理蕴含数据治理核心、数据品质、数据地图等多个产品,笼罩事先、事中、预先的数据生命周期,通过数据治理衰弱分、品质规定、数据大血统等能力,将书面的数据治理标准落地成平台化的产品能力,让数据治理不再一个 “阶段性我的项目”,而是一个“可继续的经营我的项目”。

数据品质
EMR HIVE节点反对DataWorks数据品质规定,内置37种数据品质规定模板,能够进行可视化、批量数据品质规定配置,进步数据品质规定配置效率。同时该模块与数据开发调度深度集成,可通过调度触发规定运行,节俭计算资源,及时发现问题。

  • 反对37种内置数据品质模板规定
  • 反对批量配置规定、规定模板
  • 反对绑定调度引擎并在品质报警时阻塞业务流程
  • 反对动静阈值(顶会论文技术,算法主动断定告警阈值)
  • 反对SQL自定义规定
  • 反对短信、邮件、钉钉告警
  • 反对自定义数据品质报告
  • 反对品质问题解决记录

同时,数据品质反对强弱规定设置,进行灵便的运维管制。

  • 强规定,间接阻塞上游工作运行,避免问题数据净化上游,节约上游执行的计算资源
  • 弱规定,只告警,不阻塞工作运行,针对一些非核心工作。

数据地图
数据地图反对残缺的EMR-Datalake元数据体系,能够针对表名、字段名进行疾速搜寻,基于表、字段血统浏览上下游关系疾速找表,包含:

  • 反对表根底信息、业务形容信息、产出信息等
  • 反对分区、字段的明细信息与变更记录
  • 反对表的产出信息解析(包含对表写入数据 或者 创立分区的调度工作)
  • 反对表、字段的血统信息解析(实时解析)
  • 反对对表进行分级分类、珍藏等操作
  • 反对全局检索、按类目导航检索、按类目过滤
    表根底信息:

    表血统信息:

全面数据安全

在数据安全方面,DataWorks反对Datalake引擎数据全生命周期的平安治理。包含以下5个方面:
数据传输平安

  • 数据源访问控制

数据存储平安

  • 存储加密
  • 数据备份

数据处理平安
Ranger精细化数据受权管控
规范化开发流程,开发环境、生产环境执行身份独立治理
数据交换平安
数据脱敏
通用数据安全
RBAC权限模型
操作行为审计
LDAP认证治理

疾速剖析服务

SQL查问:欠缺的SQL查问编辑器,反对即席查问Hive、SparkSQL、Impala

电子表格:即席剖析数据,Web类型的Excel

数据服务:低代码疾速搭建ClickHouse API

疾速开明应用

疾速入门:https://help.aliyun.com/docum...
应用须知:https://help.aliyun.com/docum...

迁徙助手

调度工作迁徙

为了帮忙客户疾速将原有的调度工作迁徙到DataWorks上应用,咱们提供了迁徙助手,反对以下工作迁徙能力:

  • 反对Airflow,Oozie,Azkaban工作流迁徙
  • 反对EMR数据开发一键迁徙至DataWorks
  • 工作空间之间各种数据对象迁徙