关于阿里云:重磅发布阿里云全链路数据湖开发治理解决方案

阿里云重磅公布全链路数据湖解决方案，次要蕴含开源大数据平台 E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS 等外围产品。

近日，阿里云EMR重磅推出新版数据湖Datalake，100%兼容社区大数据开源组件，具备极强的弹性能力，反对数据湖构建DLF，数据湖存储OSS和OSS-HDFS，反对 Delta Lake、Hudi、Iceberg 三种湖格局。同时新版本 Datalake 对接阿里云一站式大数据开发治理平台DataWorks，积淀阿里巴巴十多年大数据建设方法论，为客户实现从入湖、建模、开发、调度、治理、平安等全链路数据湖开发治理能力，帮忙客户晋升数据的利用效率。

另外，解决方案提供了“对立元数据管理、数据入湖、数据存储、缓存减速、弹性计算、容器、数据分析、工作编排、运维治理，以及平安”等全面数据湖能力。通过了工业和信息化部中国信息通信研究院大数据能力专项评测，荣获“云原生数据湖根底能力专项评测证书”。

阿里云全链路数据湖开发治理解决方案架构

阿里云全链路数据湖开发治理解决方案应用 OSS/OSS–HDFS 作为数据湖存储，DLF 作为数据湖构建和管理工具，JindoFS 进行湖缓存减速，EMR 作为弹性计算引擎进行湖计算，DataWorks 进行数据开发和治理。DataWorks 各模块与 DataLake 深度集成，从而实现一站式数据湖开发治理。

EMR新版数据湖集群

外围运维管控能力介绍

弹性能力

弹性伸缩反对按集群负载和按工夫2种模式
弹性伸缩组反对多种实例规格
反对抢占式实例（相较按量付费老本升高80%以上）
反对老本优化模式（弹性比例的按量付费+包年包月）

集群管控能力

分钟级别创立和扩容集群，无需手动部署和启动服务
欠缺的集群监控和告警体系，笼罩硬件和引擎服务，反对配置告警模板

新版数据湖比照Hadoop集群劣势

性能更优

速度放慢

新版数据湖集群节点组扩容速度失去显著晋升，单批次大规模节点扩容速度晋升80%

	Hadoop	DataLake
弹性扩容 10 节点	4分钟	1分10秒
弹性扩容 50 节点	8分钟	1分30秒
弹性扩容 100节点	10分钟	1分50秒

反对并发

反对工作节点（task节点类型）多节点组并行扩缩容，可能笼罩多种应用场景，业务效率成倍晋升。
性能更全

弹性伸缩能力更强

能够同时配置按工夫伸缩和按负载伸缩；反对优先下线负载低的节点；配置规定不依赖于是否运行弹性伸缩流动，可灵便批改配置（仅影响下一次触发）。

执行逻辑更贴近应用场景

多方位调研用户实在应用场景，性能执行逻辑设计更贴近业务理论。如：
1）弹性伸缩扩容策略反对多实例抉择并按程序弹出（兜底库存有余场景），弹性伸缩缩容反对配置优雅下线并默认按负载抉择指标节点下线（缩小缩容时对集群工作影响）
2）同一节点组多个弹性规定同时触发时，默认依照用户规定排序顺次失效（灵便应答多种应用场景）

操作体验优化

更丰盛的配置提醒和操作疏导，并新增配置项预校验逻辑，升高用户学习老本和操作失败概率。
老本更省

弹性伸缩性能更优，性能笼罩更宽泛的场景

弹性伸缩失效更快，反对性能更全。能够帮忙用户更快更好地对硬件资源进行麻利治理，依据业务须要设置相干策略，主动变更集群规模，缩小硬件资源节约。

通过灵便配置抢占式实例进一步压缩老本

在新增节点组时，提供欠缺的抢占式实例配置策略和兜底策略供用户配置，用户能够依据其业务诉求灵便配置，通过配置抢占式实例可能进一步压缩老本。

与Hadoop集群全面比照

模块	性能项	新版数据湖集群	Hadoop集群
集群	集群创立工夫	均匀工夫小于5分钟。	均匀工夫小于10分钟。
	集群节点组新增节点	均匀工夫小于3.5分钟。	均匀工夫小于10分钟。
	凋谢API	反对。	反对。
	域名反对	Private Zone。	hosts地址映射。
	磁盘扩容	反对热扩容，无需重启集群服务。	不反对热扩容，需重启集群服务失效。
节点组	交换机	能够在新建节点组时抉择交换机。	仅反对在集群创立时抉择，集群创立后不可更改。
	挂载公网	能够在创立集群的硬件配置页面的实例区域，抉择是否为节点组开启公网。* 没有节点组类型的限度。	仅反对在集群创立时抉择是否开启公网，创立后如果您须要应用公网IP地址拜访，请在ECS上申请开明公网IP地址，详情请参见弹性公网IP中的申请EIP的内容。仅反对Master节点组挂载公网。
	附加平安组	反对。	不反对。
	部署集	能够在创立集群硬件配置页面的实例区域，抉择是否开启部署集开关。能够在新增Core节点组时，抉择是否开启部署集开关。	性能受限。
	节点组状态	反对。	不反对。
	混合节点	反对同规格的不同机型混合。	仅反对同规格机型。弹性伸缩节点反对混合节点。
弹性伸缩	弹性伸缩	弹性伸缩与节点组解耦，从独立的功能模块转为节点组操作，应用更加便捷。	须要专用的弹性伸缩组，该节点组不可进行手动扩缩容。
	伸缩规定	配置规定不依赖于是否运行弹性伸缩流动，可灵便批改配置（仅影响下一次触发）。同一节点组多个规定同时触发时，会依照用户规定排序顺次失效。	配置规定受到弹性伸缩状态限度，批改后无奈立刻失效。同一节点组多个规定同时触发时，随机失效。
	伸缩记录	丰盛了弹性伸缩记录信息。在查看详情页面新增了触发规定快照和执行后果参数，可能疾速查看触发起因和变更节点信息。	提供根底的伸缩记录列表。
	指标采集频繁	每30秒采集一次。	每30秒采集一次。
	伸缩流动失效工夫	规定利用后1~30秒。	规定利用后1~2分钟。
扩缩容	扩缩容流动	弹性伸缩流动与手动扩缩容流动运行机制雷同。区别仅在于触发条件不同：弹性伸缩须要弹性伸缩规定触发。手动扩缩容须要人为触发。反对暂停弹性伸缩流动。多个Task节点组的扩缩容流动彼此独立，互不影响。弹性缩容依据节点负载和创立工夫，智能选中指标节点，缩小业务影响。	弹性伸缩流动和手动扩缩容流动是两套机制，互不兼容。弹性伸缩流动不反对暂停状态。同时仅反对一个节点组进行（弹性）扩缩容。弹性缩容节点抉择具备随机性。
高可用与软件应用	高可用	不再反对本地MySQL作为Hive Metastore数据库。	反对本地MySQL作为Hive Metastore数据库。
		反对部署集，3台Master散布在不同底层硬件以升高硬件危险。	默认不反对部署集。
		NameNode与Resource Manager部署于3节点，并不再反对2 Master模式。	Namenode与Resource Manager仅部署于2节点，反对2 Master模式。
	集群利用组件	反对可选	必选 + 可选。
	Spark2与Hadoop3组合	反对。	不反对。
	Spark3与Hadoop2组合	反对。	EMR-3.38.0之后版本反对同时部署。

DataWorks全链路开发治理能力介绍

DataWorks基于EMR-Datalake、EMR-Clickhouse、CDP等大数据引擎，为数据湖/数据仓库/湖仓一体等解决方案提供对立的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者，DataWorks从2009年起一直积淀阿里巴巴大数据建设方法论，通过智能数据建模、全域数据集成、高效数据开发、被动数据治理（数据品质、数据地图等）、全面数据安全、疾速剖析服务六大全链路数据治理的能力，与数万名政务/金融/批发/互联网/能源/制作等客户携手，助力产业数字化降级。

智能数据建模

DataWorks智能数据建模积淀阿里巴巴数据中台建模方法论，以维度建模为根底，从数仓布局、数据规范、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让数据仓库的建设向规范化，可继续倒退方向演进。针对Datalake的智能数据建模能力将在2022年8月份正式公布。

全域数据集成

DataWorks数据集成是开源DataX的商业化团队，在数据湖场景下反对50+种数据源之间的离线同步，蕴含数据湖常见的HDFS、Hive、HBase、OSS、Kafka等数据源，MySql、Oracle、SQLServer等数据库。同时，针对IDC>>云上、云厂商>>云厂商、云产品>>云产品、云账号>>云账号等各种同步场景，提供网络连通的解决方案，让客户在简单网络环境、丰盛的异构数据源之间，仍旧保持高速稳固的数据挪动能力。

高效数据开发

DataWorks数据开发（DataStudio）与运维核心面向EMR-Datalake、EMR-CK、CDH等引擎，提供可视化开发的主界面，赋予用户智能代码开发、多引擎混编工作流、规范化工作公布的弱小能力，帮忙用户轻松构建数据湖、离线数仓、实时数仓与即席剖析零碎，保证数据生产的高效与稳固。

数据开发-外围开发调度能力

反对EMR Hive、EMR MR、EMR Spark SQL、EMR Spark、EMR shell、EMR Presto、EMR Impala、EMR Spark Streaming共八种节点。
远超开源的超大规模调度稳固能力（双11单日千万级工作实例）
分钟/小时/天/周/月多种调度周期
业务流程全局参数/节点上下文传参

数据开发-多种可视化数据对象治理及管制节点

可视化资源文件上传（HDFS/OSS）
可视化治理UDF（Java）
可视化建表（反对HDFS/OSS）
归并、赋值、程序、循环、分支等管制节点。
多种调度周期混合编排
可视化业务流程编排

数据开发-智能SQL编辑器

语法高亮
关键词主动补全
表/字段信息提醒
函数信息提醒

工作运维-运行诊断
运行诊断可帮忙用户疾速定位工作出错起因，例如

上游依赖未实现
调度资源有余
数据品质规定拦挡
基线破线

同时领有补数据相干能力，不便用户疾速解决运维状况。在告警方面，运维核心反对多种告警形式

反对Webhook（钉钉、微信、飞书）、电话、短信、邮件等多渠道告警
反对基于值班表配置告警人员

工作运维-智能基线
智能基线是DataWorks独创的监控技术，具备国家专利，用户无需配置每个工作的告警工夫，仅需配置最终产出节点的告警工夫，智能基线会基于历史的工作运行状况，在外围工作可能无奈准时产出时，做提前告警，保障外围工作的生产稳固。

被动数据治理

DataWorks数据治理蕴含数据治理核心、数据品质、数据地图等多个产品，笼罩事先、事中、预先的数据生命周期，通过数据治理衰弱分、品质规定、数据大血统等能力，将书面的数据治理标准落地成平台化的产品能力，让数据治理不再一个 “阶段性我的项目”，而是一个“可继续的经营我的项目”。

数据品质
EMR HIVE节点反对DataWorks数据品质规定，内置37种数据品质规定模板，能够进行可视化、批量数据品质规定配置，进步数据品质规定配置效率。同时该模块与数据开发调度深度集成，可通过调度触发规定运行，节俭计算资源，及时发现问题。

反对37种内置数据品质模板规定
反对批量配置规定、规定模板
反对绑定调度引擎并在品质报警时阻塞业务流程
反对动静阈值（顶会论文技术，算法主动断定告警阈值）
反对SQL自定义规定
反对短信、邮件、钉钉告警
反对自定义数据品质报告
反对品质问题解决记录

同时，数据品质反对强弱规定设置，进行灵便的运维管制。

强规定，间接阻塞上游工作运行，避免问题数据净化上游，节约上游执行的计算资源
弱规定，只告警，不阻塞工作运行，针对一些非核心工作。

数据地图
数据地图反对残缺的EMR-Datalake元数据体系，能够针对表名、字段名进行疾速搜寻，基于表、字段血统浏览上下游关系疾速找表，包含：

反对表根底信息、业务形容信息、产出信息等
反对分区、字段的明细信息与变更记录
反对表的产出信息解析（包含对表写入数据或者创立分区的调度工作）
反对表、字段的血统信息解析（实时解析）
反对对表进行分级分类、珍藏等操作
反对全局检索、按类目导航检索、按类目过滤
表根底信息：

表血统信息：

全面数据安全

在数据安全方面，DataWorks反对Datalake引擎数据全生命周期的平安治理。包含以下5个方面：
数据传输平安

数据源访问控制

数据存储平安

存储加密
数据备份

数据处理平安
Ranger精细化数据受权管控
规范化开发流程，开发环境、生产环境执行身份独立治理
数据交换平安
数据脱敏
通用数据安全
RBAC权限模型
操作行为审计
LDAP认证治理

疾速剖析服务

SQL查问：欠缺的SQL查问编辑器，反对即席查问Hive、SparkSQL、Impala

电子表格：即席剖析数据，Web类型的Excel

数据服务：低代码疾速搭建ClickHouse API

疾速开明应用

疾速入门：https://help.aliyun.com/docum...
应用须知：https://help.aliyun.com/docum...

迁徙助手

调度工作迁徙

为了帮忙客户疾速将原有的调度工作迁徙到DataWorks上应用，咱们提供了迁徙助手，反对以下工作迁徙能力：

反对Airflow，Oozie，Azkaban工作流迁徙
反对EMR数据开发一键迁徙至DataWorks
工作空间之间各种数据对象迁徙