关于云原生:数据湖构建与计算

简介：2021 云栖大会云原生企业级数据湖专场，阿里云智能高级产品专家李冰为咱们带来《数据湖构建与计算》的分享。本文次要从数据的入湖和治理、引擎的抉择开展介绍了数据湖计划降本增效的个性。

本文次要从数据的入湖和治理、引擎的抉择开展分享了数据湖计划降本增效的个性。

以下是精彩视频内容整顿：

数据如何入湖和治理
引擎如何抉择

咱们在后面的分享当中理解到了 OSS 将作为数据湖计算当中的中心化的存储。其实数据湖计算实质上就是输出来自各种云上的数据源，通过一系列的转化运算，最终可能反对下层计算的 BI 和 AI 的剖析。那在整个数据湖的构建当中，其实咱们须要思考两个问题，一个是各种各样的数据，如何流入到 OSS 的存储当中，流入当前须要做怎么的治理和布局；第二个就是为了反对下层的业务，如何抉择计算引擎。接下来咱们带着这两个问题开始明天的分享。

如何搭建数据湖

存储配置
开明 OSS 存储
配置存储
元数据配置
元数据服务搭建
创立元数据
迁徙元数据
数据迁徙
实时数据 / 全量数据入湖
数据荡涤
更新元数据
平安治理
数据权限配置
数据审计
数据计算与剖析
交互式剖析
数据仓库
实时剖析
可视化报表剖析
机器学习

须要解决的问题：

元数据服务搭建简单，保护老本较高
实时数据入湖，开发周期长，运维老本高，须要构建流计算工作 SparkStreaming/Flink 对数据进行清理
多个计算引擎，须要配置多套元数据，且须要思考元数据同步，同步的准确性，实时性等问题
湖上的不同计算引擎应用了不同的权限体系，同一个资源的权限须要在多个引擎屡次配置，配置和保护老本高

首先咱们来看数据湖的构建。如果咱们没有一个规范的云产品，咱们在云上怎么样去搭建数据湖呢？我拆解了一下，大略须要五局部。

首先要抉择一个存储，咱们开明了 OSS 服务当前，抉择一个 burket，而后做一些根本的配置。第二步就是数据曾经存到 OSS 当前，如何治理数据的元数据。这外面可能会波及到目录的编排、scheme 的设计等。这一步其实是十分重要的，因为它会关系到前面的运算。在数据湖计算当中，存储是对立，计算是反对多类计算引擎的，所以咱们在设计元数据的时候，须要思考如何让它被所有的计算引擎去生产；当计算引擎对数据做了变更当前，元数据怎么样做到同步，放弃一致性。元数据设计完当前，咱们就须要思考重头戏 – 数据的迁徙。咱们晓得数据通常分为两大部分，一个是原始的历史数据怎么全量到云上，这部分咱们会通过一些工具，一次性的把它导入到 OSS 当中；还有一个须要去思考的就是增量数据怎么样可能实时的入湖，入湖当前抉择什么样的格局？这些数据进入数据湖当前，是否须要批改，批改的话对下面的引擎有没有影响？数据变了当前，对元数据怎么样把这个音讯带过来？以上是咱们在做数据迁徙时须要思考和解决的问题。

而后就是平安，咱们晓得数据湖尽管是凋谢的，然而拜访权限是有限度的，不能所有用户都能够拜访这些数据，所以咱们要有一个对立的权限布局。这外面咱们须要思考的问题是，这个权限是否能够被所有的引擎所读到和理解？如果我用了五种引擎，每一种引擎都设置他本人的权限和配置，这样对于应用和运维其实都是十分大的一个困扰。

元数据管理
对立元数据管理，对接多种计算引擎
兼容开源生态 API
主动生成元数据，升高应用老本
提供一键式元数据迁徙计划
访问控制
集中数据拜访权限管制，多引擎对立集中式赋权
数据拜访日志审计，统计数据访问信息
数据入湖
反对多种数据源入湖，MySQL、Polardb、SLS、OTS、Kafka 等
离线 / 实时入湖，反对 Delta/Hudi 等多种数据湖格局
数据摸索
反对便捷的数据探查能力，疾速对湖内（OSS）数据进行摸索与剖析
反对 Spark SQL 语法

基于后面的这些问题，在阿里云上，咱们提供了这样一个产品帮忙大家来实现数据湖的构建。这个产品叫 Data Lake Formation，简称 DLF。DLF 次要提供了四个能力。首先是数据的入湖，咱们晓得数据源是多种多样的，所以 DLF 数据入湖的这个性能，也是反对了阿里云上很多比拟通用和规范的数据源，比方 MySQL，SLS、Kafka 等等。针对入湖，用户能够抉择不同的入湖形式。离线还是实时、数据以什么格局进入？包含在入湖的过程当中，是否退出一些简略的计算，对这些数据做一些清理？或者退出一些自定义 UDF，以上这些能力在 DLF 当中都是反对的。而后数据进入当前，元数据的局部，咱们对外会提供了一个对立的元数据接口。这个接口是能够被阿里云上的大部分引擎去生产的，包含 EMR、Databricks、PAI、MaxCompute、Hologres 等等。并且这个元数据是反对一键同步的，比方我在 RDS 外面有一份元数据，转化成数据湖的计划当前，库表信息能够通过一键的形式同步到 DLF 当中。第三点就是权限的配置，用户只须要设置一次，比方某一个用户，对某一份数据有怎么的读取权限，设置好之后就能够被下面所有的引擎所共用。在这根底之上，DLF 还提供一个叫数据摸索的能力，这个是一个开箱即用的性能。用户数据进入到数据湖当前，能够通过它做一个疾速的验证。能够输出规范的 Spark SQL 语法，而后就能够查问出后果是不是用户所须要的，来验证这个数据的正确性。

说完了后面的数据湖构建当前，下一部分就是计算。其实在阿里云上，咱们有一个产品叫 EMR, 与其说 EMR 是一个产品，不如说它更像是一个开源大数据平台。在这个平台上，咱们提供十分多的 Hadoop 开源生态引擎，用户简直能够在这外面找到所有可能满足业务场景的引擎。首先 EMR 是构建在云原生的根底资源之上的，它是构建在 ECS 之上的，如果你有 ACK 的容器服务，也能够部署在容器上。而后存储的话，能够存到 OSS 上，而后有一个根底的管控平台，在这个平台上，会给用户提供一些运维部署、资源管理、弹性伸缩等等这样的能力，最终目标就是帮忙用户更简略，更容易的去运维大数据集群。而后 EMR 的引擎局部，一共提供了几十种不同的丰盛的引擎，这外面列举了几个比拟代表性的，用户能够依据不同的业务需要去抉择。值得一提的是，所有的引擎都能够作为数据湖的引擎，能够去生产 OSS 数据，把 OSS 作为它的最终存储。同时它能够对接到 DLF 下面，用户做完了元数据的配置、权限的配置后，就能够很不便的在 EMR 下来切换不同的引擎，这样能够达到元数据的对立和数据的对立。

降低成本
硬件老本
革新和应用老本
运维老本
提高效率
性能
资源利用率
可扩展性

咱们本人构建大数据平台的时候，其实比较关心的外围的两个问题，一个是老本，还有一个就是效率。这个也是 EMR 次要去解决的两个问题。这外面的老本其实包含三个方面，硬件的老本、软件的老本，还有前期运维的老本。置信这些是大家在线上来构建本人的大数据平台当中，肯定会遇到的十分头疼和急需面对的问题。另外与它绝对应的效率，咱们心愿可能最大限度的去进步资源的利用率。同时心愿集群是具备灵活性和可扩展性的。接下来咱们看一下 EMR 是怎么样去解决这两个问题的。

节省成本
复用已有 ACK 集群的闲暇资源
大数据和在线应用程序共享集群资源，削峰填谷
简化运维
一套运维体系，一套集群治理
晋升效率
利用 ACK/ECI 的资源疾速交付能力，资源获取工夫更短；
联合自研 Remote Shuffle Service，Spark 内核及资源调度优化，满足生产级业务需要

首先，EMR 在往年推出了一个新的个性，就是容器化的部署计划。之前传统的 EMR 都是部署在 ECS 上的，当初 EMR 能够部署在 ACK 上。这里的 ACK 其实是一个已有的 ACK 集群。随着大数据生态的倒退，Kubernetes 这个技术也越来越成熟，很多用户会把本人在线的业务，甚至是一些在线的作业去跑在 ACK 集群上。然而在线的业务有一个特点，它应用的工夫通常在白天，这样就造成了早晨这部分计算资源的闲暇。相比较大数据而言，很多是为了反对报表类的业务，所以它应用资源的高峰期大多在早晨。如果可能把大数据作业和在线作业跑在一套零碎外面，对用户来说就达到了削峰填谷、资源重复利用的能力。同时从运维的角度，只须要运维一套 ACK 的集群，这样就能够对立运维体系，升高运维老本。从 EMR 这一侧的引擎来说，从开源上大数据跑在 ACK 上，其实还是一个绝对初期的阶段，可能它有一些个性在企业级的利用上是没方法反对的。基于这一点，EMR 也做了很多引擎上的优化，包含提供了这种 Remote Shuffle 的能力，它次要是为了解决在 ACK 上的挂盘问题，另外在调度下面也做了很多深刻的优化，可能满足用户大数据量的企业级的查问剖析需要。

弹性伸缩

EMR 集群：固定资源 -> 固定资源 + 弹性动静资源

和线下的 IDC 集群相比，云上最显著的一个个性就是动静和可扩展性。为了最大限度的施展这部分的价值，EMR 提供了集群级别的弹性伸缩。简略来说就是比方原先有一个集群，这个集群是固定的，假如有 100 台节点，7×24 小时去跑。但其实在这 100 台节点当中，可能大部分工夫只用了外面 50% 的能力，这个时候会把集群做一个拆分，一部分只保留固定的计算资源，其余的高峰期则用一个弹性的资源去补救，这样就能够从硬件资源的应用下面去压缩老本。另外在 EMR 外面，对于弹性资源的局部是反对老本优化模式的。在 ECS 外面它有一种实力叫挑战式的实力，这种实力它的免费形式会比按量付费更便宜，这样就能够进一步的压缩计算的老本，真正做到按需创立机器资源，用户去谈这部分资源的时候，也能够依照本人的集群的负载或者是时间段去灵便的管制。

引擎优化

Spark

反对 Spark 3.1.2，绝对社区版 Spark 2，性能晋升 3 倍以上
针对简单剖析场景优化，TPC-DS 较社区版提速 59%
在 ACK 场景下，优化了调度性能，较社区版 K8S 有 4 倍晋升

Hive

TPC-DS 特定 SQL 达到数倍性能晋升，整体性能晋升 19%；
针对大表 Join 的性能优化

JindoFS

OSS 拜访减速，提供规范的 HDFS 拜访接口，反对 EMR 所有引擎
冷热数据主动拆散，对计算层通明
对文件的 ls/delete/rename 等操作，较开源计划性能数倍晋升

传统的大数据集群是跑在 Hadoop 生态上面的，它自身的存储是 HDFS，转换到数据湖当前，当你的介质变成了不是本地的 OSS 时，须要引擎下面做很多反对。我列举了几个比拟有代表性的，比方 Spark、Hive，在官网的 TPC-DS 下面能够看到咱们的问题是优于社区数倍的。另外值得一提的就是 JindoFS，这个组件是 EMR 自研的一个组件，能够把它看做承前启后的作用。对上面底层的话，它的数据还是存储在 OSS 下面，对下层的引擎除了在接口下面的反对以外，更多的是对 OSS 的拜访做了一个减速，并且让引擎可能很通明的去应用 OSS。数据落进来当前能够做到主动的冷热拆散，并且咱们和 OSS 团队做了深度的优化，OSS 在做一些文件级别的操作，尤其是小文件的操作下面，性能都要比开源的计划或者甚至有的场景下会比 HDFS 的性能更好。

丰盛的生态

更多开源组件
ClickHouse、StarRocks、EMR Studio（Notebook，AirFlow）、Spark 3.0 等
深度云产品集成
阿里云 DataWorks、阿里云容器服务（ACK）、云监控等
反对更多三方产品
Databricks、Cloudera、Confluent、神策等

EMR 更多的是一个开源的凋谢的大数据平台，在这个平台下面不仅有开源的产品，这部分的组件会依据市场状况逐渐减少到平台中。除此以外，作为阿里云上的一款产品，EMR 会和像 DataWorks、ACK、甚至还有云监控等产品做一个深度的集成，不便大家能充分利用阿里云上其余云产品的个性。除此之外，EMR 还会反对更多的第三方产品，比方 Databricks、Cloudera、Confluent、神策等来让平台有更好的扩展性和可集成性。

应用 EMR 降本增效

应用弹性伸缩，动静调整集群规模，按需购买 ECS 资源
利用已有 ACK 集群，大数据和在线利用共享计算资源
EMR 计算引擎的优化，进步工作执行效率
OSS 拜访利器 JindoFS，让迁徙更平滑

最初总结一下，其实 EMR 可能达到降本增效次要是从硬件和软件两方面。硬件上让计算更按需进行，不会有过多资源上的节约；软件上通过晋升引擎的性能来做到减速，让单位的计算的老本更低。

回到最开始提到的问题，构建数据湖的时候，咱们首先会应用 DLF 来实现数据的入湖和元数据的治理；通过 EMR 上丰盛的引擎来构建计算平台；而后利用 OSS 的存储来施展最大的价值，做数据的冷热分层，从而使整体的数据湖计划可能达到降本增效的目标。

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于云原生:数据湖构建与计算

一、面临的挑战

二、数据湖的构建

如何进行数据湖构建与治理

数据湖构建 Data Lake Formation

三、数据湖的计算

阿里云 EMR 开源大数据平台

次要解决两大问题

全新容器化部署 EMR on ACK

四、小结

Just My Socks（注册教程内含优惠码）

关于云原生:数据湖构建与计算

一、面临的挑战

二、数据湖的构建

如何进行数据湖构建与治理

数据湖构建 Data Lake Formation

三、数据湖的计算

阿里云 EMR 开源大数据平台

次要解决两大问题

全新容器化部署 EMR on ACK

四、小结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）