关于云原生:数据湖构建与计算

19次阅读

共计 5174 个字符,预计需要花费 13 分钟才能阅读完成。

简介:2021 云栖大会云原生企业级数据湖专场,阿里云智能高级产品专家李冰为咱们带来《数据湖构建与计算》的分享。本文次要从数据的入湖和治理、引擎的抉择开展介绍了数据湖计划降本增效的个性。

本文次要从数据的入湖和治理、引擎的抉择开展分享了数据湖计划降本增效的个性。

以下是精彩视频内容整顿:

一、面临的挑战

  • 数据如何入湖和治理
  • 引擎如何抉择

咱们在后面的分享当中理解到了 OSS 将作为数据湖计算当中的中心化的存储。其实数据湖计算实质上就是输出来自各种云上的数据源,通过一系列的转化运算,最终可能反对下层计算的 BI 和 AI 的剖析。那在整个数据湖的构建当中,其实咱们须要思考两个问题,一个是各种各样的数据,如何流入到 OSS 的存储当中,流入当前须要做怎么的治理和布局;第二个就是为了反对下层的业务,如何抉择计算引擎。接下来咱们带着这两个问题开始明天的分享。

二、数据湖的构建

如何进行数据湖构建与治理

如何搭建数据湖

  • 存储配置
    开明 OSS 存储
    配置存储
  • 元数据配置
    元数据服务搭建
    创立元数据
    迁徙元数据
  • 数据迁徙
    实时数据 / 全量数据入湖
    数据荡涤
    更新元数据
  • 平安治理
    数据权限配置
    数据审计
  • 数据计算与剖析
    交互式剖析
    数据仓库
    实时剖析
    可视化报表剖析
    机器学习

须要解决的问题:

  • 元数据服务搭建简单,保护老本较高
  • 实时数据入湖,开发周期长,运维老本高,须要构建流计算工作 SparkStreaming/Flink 对数据进行清理
  • 多个计算引擎,须要配置多套元数据,且须要思考元数据同步,同步的准确性,实时性等问题
  • 湖上的不同计算引擎应用了不同的权限体系,同一个资源的权限须要在多个引擎屡次配置,配置和保护老本高

首先咱们来看数据湖的构建。如果咱们没有一个规范的云产品,咱们在云上怎么样去搭建数据湖呢?我拆解了一下,大略须要五局部。

首先要抉择一个存储,咱们开明了 OSS 服务当前,抉择一个 burket,而后做一些根本的配置。第二步就是数据曾经存到 OSS 当前,如何治理数据的元数据。这外面可能会波及到目录的编排、scheme 的设计等。这一步其实是十分重要的,因为它会关系到前面的运算。在数据湖计算当中,存储是对立,计算是反对多类计算引擎的,所以咱们在设计元数据的时候,须要思考如何让它被所有的计算引擎去生产;当计算引擎对数据做了变更当前,元数据怎么样做到同步,放弃一致性。元数据设计完当前,咱们就须要思考重头戏 – 数据的迁徙。咱们晓得数据通常分为两大部分,一个是原始的历史数据怎么全量到云上,这部分咱们会通过一些工具,一次性的把它导入到 OSS 当中;还有一个须要去思考的就是增量数据怎么样可能实时的入湖,入湖当前抉择什么样的格局?这些数据进入数据湖当前,是否须要批改,批改的话对下面的引擎有没有影响?数据变了当前,对元数据怎么样把这个音讯带过来?以上是咱们在做数据迁徙时须要思考和解决的问题。

而后就是平安,咱们晓得数据湖尽管是凋谢的,然而拜访权限是有限度的,不能所有用户都能够拜访这些数据,所以咱们要有一个对立的权限布局。这外面咱们须要思考的问题是,这个权限是否能够被所有的引擎所读到和理解?如果我用了五种引擎,每一种引擎都设置他本人的权限和配置,这样对于应用和运维其实都是十分大的一个困扰。

数据湖构建 Data Lake Formation

  • 元数据管理
    对立元数据管理,对接多种计算引擎
    兼容开源生态 API
    主动生成元数据,升高应用老本
    提供一键式元数据迁徙计划
  • 访问控制
    集中数据拜访权限管制,多引擎对立集中式赋权
    数据拜访日志审计,统计数据访问信息
  • 数据入湖
    反对多种数据源入湖,MySQL、Polardb、SLS、OTS、Kafka 等
    离线 / 实时入湖,反对 Delta/Hudi 等多种数据湖格局
  • 数据摸索
    反对便捷的数据探查能力,疾速对湖内(OSS)数据进行摸索与剖析
    反对 Spark SQL 语法

基于后面的这些问题,在阿里云上,咱们提供了这样一个产品帮忙大家来实现数据湖的构建。这个产品叫 Data Lake Formation,简称 DLF。DLF 次要提供了四个能力。首先是数据的入湖,咱们晓得数据源是多种多样的,所以 DLF 数据入湖的这个性能,也是反对了阿里云上很多比拟通用和规范的数据源,比方 MySQL,SLS、Kafka 等等。针对入湖,用户能够抉择不同的入湖形式。离线还是实时、数据以什么格局进入?包含在入湖的过程当中,是否退出一些简略的计算,对这些数据做一些清理?或者退出一些自定义 UDF,以上这些能力在 DLF 当中都是反对的。而后数据进入当前,元数据的局部,咱们对外会提供了一个对立的元数据接口。这个接口是能够被阿里云上的大部分引擎去生产的,包含 EMR、Databricks、PAI、MaxCompute、Hologres 等等。并且这个元数据是反对一键同步的,比方我在 RDS 外面有一份元数据,转化成数据湖的计划当前,库表信息能够通过一键的形式同步到 DLF 当中。第三点就是权限的配置,用户只须要设置一次,比方某一个用户,对某一份数据有怎么的读取权限,设置好之后就能够被下面所有的引擎所共用。在这根底之上,DLF 还提供一个叫数据摸索的能力,这个是一个开箱即用的性能。用户数据进入到数据湖当前,能够通过它做一个疾速的验证。能够输出规范的 Spark SQL 语法,而后就能够查问出后果是不是用户所须要的,来验证这个数据的正确性。

三、数据湖的计算

阿里云 EMR 开源大数据平台

说完了后面的数据湖构建当前,下一部分就是计算。其实在阿里云上,咱们有一个产品叫 EMR, 与其说 EMR 是一个产品,不如说它更像是一个开源大数据平台。在这个平台上,咱们提供十分多的 Hadoop 开源生态引擎,用户简直能够在这外面找到所有可能满足业务场景的引擎。首先 EMR 是构建在云原生的根底资源之上的,它是构建在 ECS 之上的,如果你有 ACK 的容器服务,也能够部署在容器上。而后存储的话,能够存到 OSS 上,而后有一个根底的管控平台,在这个平台上,会给用户提供一些运维部署、资源管理、弹性伸缩等等这样的能力,最终目标就是帮忙用户更简略,更容易的去运维大数据集群。而后 EMR 的引擎局部,一共提供了几十种不同的丰盛的引擎,这外面列举了几个比拟代表性的,用户能够依据不同的业务需要去抉择。值得一提的是,所有的引擎都能够作为数据湖的引擎,能够去生产 OSS 数据,把 OSS 作为它的最终存储。同时它能够对接到 DLF 下面,用户做完了元数据的配置、权限的配置后,就能够很不便的在 EMR 下来切换不同的引擎,这样能够达到元数据的对立和数据的对立。

次要解决两大问题

  • 降低成本
    硬件老本
    革新和应用老本
    运维老本
  • 提高效率
    性能
    资源利用率
    可扩展性

咱们本人构建大数据平台的时候,其实比较关心的外围的两个问题,一个是老本,还有一个就是效率。这个也是 EMR 次要去解决的两个问题。这外面的老本其实包含三个方面,硬件的老本、软件的老本,还有前期运维的老本。置信这些是大家在线上来构建本人的大数据平台当中,肯定会遇到的十分头疼和急需面对的问题。另外与它绝对应的效率,咱们心愿可能最大限度的去进步资源的利用率。同时心愿集群是具备灵活性和可扩展性的。接下来咱们看一下 EMR 是怎么样去解决这两个问题的。

全新容器化部署 EMR on ACK

  • 节省成本
    复用已有 ACK 集群的闲暇资源
    大数据和在线应用程序共享集群资源,削峰填谷
  • 简化运维
    一套运维体系,一套集群治理
  • 晋升效率
    利用 ACK/ECI 的资源疾速交付能力,资源获取工夫更短;
    联合自研 Remote Shuffle Service,Spark 内核及资源调度优化,满足生产级业务需要

首先,EMR 在往年推出了一个新的个性,就是容器化的部署计划。之前传统的 EMR 都是部署在 ECS 上的,当初 EMR 能够部署在 ACK 上。这里的 ACK 其实是一个已有的 ACK 集群。随着大数据生态的倒退,Kubernetes 这个技术也越来越成熟,很多用户会把本人在线的业务,甚至是一些在线的作业去跑在 ACK 集群上。然而在线的业务有一个特点,它应用的工夫通常在白天,这样就造成了早晨这部分计算资源的闲暇。相比较大数据而言,很多是为了反对报表类的业务,所以它应用资源的高峰期大多在早晨。如果可能把大数据作业和在线作业跑在一套零碎外面,对用户来说就达到了削峰填谷、资源重复利用的能力。同时从运维的角度,只须要运维一套 ACK 的集群,这样就能够对立运维体系,升高运维老本。从 EMR 这一侧的引擎来说,从开源上大数据跑在 ACK 上,其实还是一个绝对初期的阶段,可能它有一些个性在企业级的利用上是没方法反对的。基于这一点,EMR 也做了很多引擎上的优化,包含提供了这种 Remote Shuffle 的能力,它次要是为了解决在 ACK 上的挂盘问题,另外在调度下面也做了很多深刻的优化,可能满足用户大数据量的企业级的查问剖析需要。

弹性伸缩

EMR 集群:固定资源 -> 固定资源 + 弹性动静资源

和线下的 IDC 集群相比,云上最显著的一个个性就是动静和可扩展性。为了最大限度的施展这部分的价值,EMR 提供了集群级别的弹性伸缩。简略来说就是比方原先有一个集群,这个集群是固定的,假如有 100 台节点,7×24 小时去跑。但其实在这 100 台节点当中,可能大部分工夫只用了外面 50% 的能力,这个时候会把集群做一个拆分,一部分只保留固定的计算资源,其余的高峰期则用一个弹性的资源去补救,这样就能够从硬件资源的应用下面去压缩老本。另外在 EMR 外面,对于弹性资源的局部是反对老本优化模式的。在 ECS 外面它有一种实力叫挑战式的实力,这种实力它的免费形式会比按量付费更便宜,这样就能够进一步的压缩计算的老本,真正做到按需创立机器资源,用户去谈这部分资源的时候,也能够依照本人的集群的负载或者是时间段去灵便的管制。

引擎优化

Spark

反对 Spark 3.1.2,绝对社区版 Spark 2,性能晋升 3 倍以上
针对简单剖析场景优化,TPC-DS 较社区版提速 59%
在 ACK 场景下,优化了调度性能,较社区版 K8S 有 4 倍晋升

Hive

TPC-DS 特定 SQL 达到数倍性能晋升,整体性能晋升 19%;
针对大表 Join 的性能优化

JindoFS

  • OSS 拜访减速,提供规范的 HDFS 拜访接口,反对 EMR 所有引擎
    冷热数据主动拆散,对计算层通明
  • 对文件的 ls/delete/rename 等操作,较开源计划性能数倍晋升

传统的大数据集群是跑在 Hadoop 生态上面的,它自身的存储是 HDFS,转换到数据湖当前,当你的介质变成了不是本地的 OSS 时,须要引擎下面做很多反对。我列举了几个比拟有代表性的,比方 Spark、Hive,在官网的 TPC-DS 下面能够看到咱们的问题是优于社区数倍的。另外值得一提的就是 JindoFS,这个组件是 EMR 自研的一个组件,能够把它看做承前启后的作用。对上面底层的话,它的数据还是存储在 OSS 下面,对下层的引擎除了在接口下面的反对以外,更多的是对 OSS 的拜访做了一个减速,并且让引擎可能很通明的去应用 OSS。数据落进来当前能够做到主动的冷热拆散,并且咱们和 OSS 团队做了深度的优化,OSS 在做一些文件级别的操作,尤其是小文件的操作下面,性能都要比开源的计划或者甚至有的场景下会比 HDFS 的性能更好。

丰盛的生态

  • 更多开源组件
  • ClickHouse、StarRocks、EMR Studio(Notebook,AirFlow)、Spark 3.0 等
  • 深度云产品集成
    阿里云 DataWorks、阿里云容器服务(ACK)、云监控等
  • 反对更多三方产品
    Databricks、Cloudera、Confluent、神策等

EMR 更多的是一个开源的凋谢的大数据平台,在这个平台下面不仅有开源的产品,这部分的组件会依据市场状况逐渐减少到平台中。除此以外,作为阿里云上的一款产品,EMR 会和像 DataWorks、ACK、甚至还有云监控等产品做一个深度的集成,不便大家能充分利用阿里云上其余云产品的个性。除此之外,EMR 还会反对更多的第三方产品,比方 Databricks、Cloudera、Confluent、神策等来让平台有更好的扩展性和可集成性。

应用 EMR 降本增效

应用弹性伸缩,动静调整集群规模,按需购买 ECS 资源
利用已有 ACK 集群,大数据和在线利用共享计算资源
EMR 计算引擎的优化,进步工作执行效率
OSS 拜访利器 JindoFS,让迁徙更平滑

最初总结一下,其实 EMR 可能达到降本增效次要是从硬件和软件两方面。硬件上让计算更按需进行,不会有过多资源上的节约;软件上通过晋升引擎的性能来做到减速,让单位的计算的老本更低。

四、小结

回到最开始提到的问题,构建数据湖的时候,咱们首先会应用 DLF 来实现数据的入湖和元数据的治理;通过 EMR 上丰盛的引擎来构建计算平台;而后利用 OSS 的存储来施展最大的价值,做数据的冷热分层,从而使整体的数据湖计划可能达到降本增效的目标。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0