关于数据湖:全链路数据湖开发治理解决方案20重磅升级全面增强数据入湖调度和治理能力

简介： 阿里云全链路数据湖开发治理解决方案能力继续降级，公布 2.0 版本。解决方案蕴含开源大数据平台 E -MapReduce(EMR)，一站式大数据数据开发治理平台 DataWorks，数据湖构建 DLF，对象存储 OSS 等外围产品。反对 EMR 新版数据湖 DataLake 集群（on ECS）、自定义集群（on ECS）、Spark 集群（on ACK）三种状态，对接阿里云一站式大数据开发治理平台 DataWorks，积淀阿里巴巴十多年大数据建设方法论，为客户实现从入湖、建模、开发、调度、治理、平安等全链路数据湖开发治理能力，帮忙客户晋升数据的利用效率。

阿里云全链路数据湖开发治理解决方案能力继续降级，公布 2.0 版本。解决方案蕴含开源大数据平台 E -MapReduce(EMR)，一站式大数据数据开发治理平台 DataWorks，数据湖构建 DLF，对象存储 OSS 等外围产品。

解决方案已反对 EMR 新版数据湖 DataLake 集群（on ECS）、自定义集群（on ECS）、Spark 集群（on ACK）三种状态，对接阿里云一站式大数据开发治理平台 DataWorks，积淀阿里巴巴十多年大数据建设方法论，为客户实现从入湖、建模、开发、调度、治理、平安等全链路数据湖开发治理能力，帮忙客户晋升数据的利用效率。

DataWorks 数据集成反对 MySQL 整库实时入湖 OSS（HUDI）、Kafka 实时入湖 OSS（HUDI）、MySQL 到 Hive 整库周期同步能力。

在 DataWorks 管控台抉择进入数据集成

在页面间接点击“创立我的数据同步”

抉择起源和去向类型就能够看到对应入湖能力

反对元数据主动注册到阿里云 DLF，不便用户进行湖治理;

反对 MySQL 实例级别的同步，即源端 MySQL 能够同时抉择多个库;

反对依照正则表达式选定起源 MySQL 库和表;

反对主动加库加表，即 MySQL 侧减少库或表后，能够主动同步至 OSS，无需手工干涉和操作。

.png”)

反对 Kafka json 数据增量实时入湖，秒级提早

反对在同步链路中对数据处理，包含数据过滤、脱敏、字符串替换、字段级别赋值等操作

反对依据 kafka json 数据 schema 变动，动静减少字段

反对对接阿里云 DLF，入湖元数据主动注册，实时可查可治理

反对自定义 OSS 湖端存储门路

.png”)

MySQL 整实例级别离线同步至 Hive，反对配置周期调度，也能够在 DataStudio 中依赖此同步调度节点为上游，反对历史全量同步和离线增量同步

.png”)

DataWorks 反对调度 spark-submit, spark-sql 类型作业到 EMR Spark 集群（on ACK），用户能够利用 ACK 的弹性能力按需调整集群资源，实现和应用程序混部，应用同一套运维计划的同时，最大水平利用资源。对于原先在新版数据湖 DataLake 集群和自定义集群中运行的 Spark 工作，反对一键迁徙到 ACK 集群，无需批改代码。

反对空间内各模块设置 yarn 队列

随着越来越多的客户开始应用数据湖解决数据、剖析数据，计算资源优先保障重要 ETL 工作产出成为了广泛诉求。DataWorks 反对为不同模块设置工作的 yarn 队列，包含数据分析、数据开发、运维等，保障不同场景的计算资源隔离需要。

反对工作空间级别 Spark Conf 设置

很多用户发现为每个 spark 作业设置 conf 是一件比拟繁琐的事件。而集群往往多部门共享，在集群级别做 default 设置会影响到其余用户。DataWorks 在反对单任务设置 conf 的同时，提供工作空间级别设置 spark conf 的能力, 作用于空间下的所有 spark 工作。

反对数据分析下载最多 500 万条记录

反对管理员设置最大下载量，通过数据分析模块，最多反对 500 万行数据下载到本地。

反对基于数据湖架构的数据衰弱分评估

Dataworks 数据治理核心提供笼罩事先问题检测、事中问题拦挡、预先问题发现的主动式数据治理能力。新增对 Dataworks 数据开发 +DLF 元数据管理用户，进行多维度数据衰弱分评估。

.png”)

反对基于研发 / 存储维度的数据治理问题辨认

面向 E-MapReduce 用户可反对数据标准治理场景，内置研发、存储、平安维度的十余类内置治理项及知识库，可面向 Dataworks EMR 研发过程中的数据工作及存储问题，进行基于治理项规定的主动问题发现，推动负责人进行问题的及时治理。

.png”)

数据治理核心反对基于 EMR Hive/Spark SQL 工作的事先被动治理

Dataworks 数据治理核心新增 10 种内置数据查看项，可针对 Dataworks 数据研发侧的 Hive SQL 及 Spark SQL 工作，针对提交、公布环节，进行数据问题的检查和主动拦挡，进行事先问题预防。

.png”)

钉钉扫码入群，体验 dataworks on emr 数据湖治理并取得首月开明优惠大礼包

关于数据湖:全链路数据湖开发治理解决方案20重磅升级全面增强数据入湖调度和治理能力

重点能力降级

加强数据入湖能力

MySQL 整库实时入湖 OSS(Hudi)

Kafka 实时入湖 OSS(Hudi)

MySQL 整库离线同步至 Hive

加强作业开发调度能力

反对 spark on ACK 集群调度

开发能力降级

反对空间内各模块设置 yarn 队列

反对工作空间级别 Spark Conf 设置

反对数据分析下载最多 500 万条记录

加强数据治理能力

数据治理核心能力降级

反对基于数据湖架构的数据衰弱分评估

反对基于研发 / 存储维度的数据治理问题辨认

数据治理核心反对基于 EMR Hive/Spark SQL 工作的事先被动治理