关于分布式计算:云原生数据湖分析DLA-2020年年度总结

简介：次要讲述阿里云数据湖剖析 DLA 2020 年的停顿~

2020 年黑天鹅事件一直呈现，疫情给人们的生存也带来了扭转。在后疫情时代，随同着云原生技术的倒退，企业寻求更加麻利、更加灵便的数据分析计划，数据湖刚好满足这外围诉求。有不少同学问笔者，Hadoop 与数据湖有啥区别？笔者认为，其一：数据湖剖析反对的数据格式包含非结构化与半结构化。尽管 HDFS 能够存图片，然而个别还是有视频 & 图片的专门的服务器的，起因存储计算不拆散状况下，大数据硬件存图片不经济；其二：数据湖往往跟云联合更加严密，因为存储计算拆散当前，存储与计算能够独自倒退。计算能够跟业务零碎错峰调度，再联合不同公司计算工作的差别，能够加强弹性能力。其三：数据湖的技术与数据仓库进一步交融，如 Hudi 反对数据实时写入、事务与更新。

阿里云云原生数据湖剖析 DLA，在这样的背景下诞生，历经两年的倒退，充沛联合云、Presto、Spark、Hudi 等劣势，构建出了新一代的大数据计划。目前 DLA 曾经服务了数千客户，不少公司的外围数仓也是基于 DLA；DLA 也集成在友盟、CDN、DBS(数据库备份)、IOT、QuickBI 等产品中，间接服务了数万客户；

咱们也器重开源与商业单干，目前，DLA 是 Apache PrestoDB 基金会的代表；与 Alluxio 达成策略单干，独特构建缓存零碎；团队有数位 Apache 的 Committer，一起参加奉献开源社区。

本文次要概述讲述下阿里云云原生数据湖剖析（简称 DLA）为了应变剖析之大变局，在 2020 年次要实现的一些事件。数据湖剖析 DLA 官网链接：https://www.aliyun.com/product/datalakeanalytics

云原生数据湖剖析的根本架构如下：

DLA 分为 DLA Meta、DLA Lakehouse、DLA Presto、DLA Spark 四大模块。在 20 年咱们重写了元数据模块，减少了元数据与数据源之间的同步模块，针对 OSS 能够发现元数据，简化用户的配置管理；在数据管理 Lakehouse 方向上反对了 RDS MySQL 实时同步到 Hudi，目前正在产品化中；新增了 DLA Serverless Spark 模块，反对依照 Job 计费，重写了接入层，实现了多租户的 UI，并且针对 OSS 做 Rename 等内核性能优化；DLA Presto 改良了扫描版的稳定性，加强内核性能，实现了 CU 版本的产品状态，并且放弃扫描量版本与 CU 版本对立架构。接下来分模块讲述：

比照开源的 Hive 元数据，DLA Meta 是兼容 Hive meta 的，反对云上 15+ 种数据数据源（OSS、HDFS、DB、DW）的对立视图，引入多租户、元数据发现等能力。DLA Meta 谋求边际老本为 0，收费提供应用的。

企业级权限治理：反对多账号的权限与隔离，能够简略的 GRANT&REVOKE 对子账号赋予权限，Meta 会托管 OSS 与 DB 赋予的权限，DLA Presto 与 DLA Spark 通过外部的 API 拿到相应的权限，拜访 OSS 与 DB 数据库；
凋谢拜访：通过 OpenAPI 能够间接拿到 Meta 的信息，客户自建的 Spark 集群也能够应用 DLA Meta；
扩展性强：MetaServer 是无状态的服务，能够扩大多个集群；在元数据存储采取的是多库存储，能够有限扩大；
元数据发现：反对 OSS 数仓模式发现，SLS 投递到 OSS 数据发现，OTS 元数据主动同步。反对客户一键发现元数据，这些元数据也会主动保护。典型的场景是：用户的 APP 能够一直往 OSS 写新的 Partition，元数据发现服务会主动同步 Partition。

数据湖有着微小的低成本、扩展性的劣势。然而在数据组织与保护方面，人造比数仓有着有余。不少客户通过代码保护一套数仓体系：根本流程为筹备数据，再通过 Spark&Hive 荡涤，构建离线的数据仓库。DLA 目前在基于 Apache Hudi 实现 DLA Lakehouse，次要指标是提供高效的湖仓，根本的架构图如下图所示：

此模块曾经有不少客户应用，目前还不足产品化，是以计划提供。在接入层曾经反对 RDS MySQL 通过 DTS 实时写数据到 Lakehouse 中，接入层全量 & 增量模块均是间接调用 DLA Serverless Spark 服务。

实时写入：反对 MySQL 数据延期 10 分钟间接写入到 OSS 的，写入后，能够反对 DLA Serverless Presto 与 DLA Serverless Spark 拜访。
主动合并小文件：反对小文件的主动合并，接入层对接的是 DLA Serverless Spark 服务，目前也正在研发弹性的 Compaction 机制。
反对多库多表：绝对于社区反对单库单表，咱们能够一次性把 RDS MySQL 实例内所有的库与表实时同步到 OSS 上，并一条链路反对超过 5000+ 张表的同步；

目前 Lakehouse 倒退比拟快，内核模块 Hudi 咱们也在跟社区放弃严密的单干，DLA 也在加紧产品化中，提供在产品界面点按钮就能够应用的体验，并且一直优化数据源到链路到格局的性能；

DLA Serverless Presto 是基于 Apache PrestoDB 的研发的，次要是做联邦交互式查问与轻量级 ETL，2020 年 革新后架构如下：

提供独享集群：在扫描量状况下，客户不好评估老本，须要财务固定成本；一些如 Cache、拜访 Hive、UDF 等在扫描量无奈实现；DLA 推出了 Presto 独享集群版本。独享版本的资源是独享的，财务老本根本固定的（独享集群也能够按时弹性），比拟适宜大客户应用。扫描量版本比拟实现查问频率比拟低的客户应用。在独享集群版本中，咱们外围提供了如下能力：
- DataCache：与 Alluxio 单干独特推出了 DLA Presto 的 DataCache，具体机制参考：https://developer.aliyun.com/article/781291，在 IO 密集类型中，查问性能可最高晋升 10 倍；
- 分时弹性：扫描量是依照 Query 计费的，在独享集群下，也是能够弹性的。分时弹性就是用户能够设置时间段来付费；
- 特有的数据源：如反对 Hive 等数据源等、Cassandra 等数据源；
- 更快的性能晋升：目前也在实现如 Query Result Cache、Fragment Result cache、针对性算子下沉；
反对更多的连接器：过来一年咱们新增反对了 Hive、HDFS、KUDU、OTS ParallelScan、Cassandra、ElasticSearch、ADB PG、Oracle、Druid 等；
稳定性改良：接入层买通底层 ACK 弹性调度、DLA 网络管控、SLB 管控等链路，实现被动宕机时从之前 3 分钟到 3 秒内疾速复原，被动业务公布时只中断 1 次连贯、并在 1s 左右迅速实现连贯切换等能力；Multi-Master 实现 Coordinator 和 Worker 的优雅敞开，敞开时会期待所有 SQL 执行完，同时又不承受新 SQL，使得咱们在降级的时候从之前的用户 SQL 全挂，到当初用户的 SQL 能够不被影响，做到客户无感降级；算力租户隔离能够实时控制每个用户的算力，算力适度应用时会实时惩办的机制，解决了大 SQL 会导致整个集群过载的问题；
易用性：SQL 诊断界面，咱们也在不断改进，也是接下来的重点改良方向。

将来，咱们将充沛与社区联合互补，一直晋升性能，反对更多的性能，提供更加不便的诊断工具，做到云上的第一的联邦交互式查问引擎；

Spark 是最风行的大数据计算引擎，DLA 反对 Spark 次要是为在湖上做大规模的 ETL，并反对流计算、机器学习；比传统自建 Spark 有着 300% 的性价比晋升，从 ECS 自建 Spark 或者 Hive 批处理迁徙到 DLA Spark 能够节约 50% 的老本；DLA Spark 架构如下图所示：

齐全反对开源的 Spark 语法，独享的运行环境：DLA Serverless Spark 齐全兼容开源的 Spark 语法，反对 Python 专享的运行环境，反对开源的算法框架；
弹性，每 Job 每计费：传统的 Spark 都须要用户当时购买好集群，DLA 反对无需购买任何的计算资源即可开箱应用 Spark，兼容开源 Spark 所有的语法；
重写 Serverless Spark 接入层，保障 Job 的稳定性：比照 Livy 接入层，Livy 存在较多的稳定性问题，比方：不能相互扩大，有单点问题，无奈在 DLA 多租户环境利用；为此，DLA Spark 组齐全重写了 Spark 的接入层，力求保障长 job 的稳定性，深度联合云原生的环境。
实现多租户的 UI 服务：DLA Serverless Spark 运行实现后，其 UI 数据会寄存在用户 OSS 空间，DLA 提供多租户 SparkUI 服务，开源查问正在运行中及运行实现的 Spark 信息，此 服务完全免费。
多数据源，针对 OSS 数据源优化： 目前 DLA Serverless Spark 反对对接 Kafka、LogHub 等数据源，间接对接 HDFS、HBase、OTS、PolarDB、ADB 等简直所有的数据源的剖析与回写。并针对 OSS 数据源反对 MetaCache 与 Rename 等优化，在小文件较多的状况，比开源版本晋升 50% 的性能。

目前 DLA Serverless Spark 始终谋求更加弹性的服务，跟开源应用体验尽量统一，接入层的服务会更加稳定性，PS：得益于先进的云原生架构，目前 UI 服务与接入层服务是收费的。用户只须要为理论的资源耗费付费。

DLA 致力于帮忙客户构建低成本、简略易用、弹性的 数据平台 ， 比传统 Hadoop 至多节约 50% 的老本。具体到大数据架构，业内大数据架构有 Lambda、Kappa 等，目前在大公司利用根本是混合体，大数据与业务是比拟强相干，随着公司规模大小不一，实用的场景不近雷同，且又随着业务的倒退须要不同的大数据的架构，目前还不存在包打天下的银弹（不过每个组件都想扩大场景，替换其它组件的地盘），如果规模不小的公司只有一个必定会有损耗或者不是最佳的计划架构。个别随着公司规模倒退，有如下趋势（此图筛选业内比拟风行的组件）：

计划四，摊开细节一点如下，在联合阿里云 OLAP 团队的组件：

上图中分为七块，也是目前业内支流的数据处理模式：

数据源：个别是数据产生的零碎，比方事务性的数据会间接存入 MySQL，物联网个别间接写入到 HBase/Lindorm 零碎之中；
实时数据处理：能够间接对接数据源，如 DB CDC 或者 Kafka，通过流 ETL 后，写入到数据仓库或者数据湖之中；
离线数据湖：存离线的数据，比方 CSV\JSON 上传的数据，或者离线数仓的数据；
专题数据仓库：针对高并发的场景减速，个别为业务团队间接持有；
联邦交互式剖析：能够跨数据源查问，包含数据仓库、数据湖、数据库的数据；
数据利用：是数据的利用，如 BI、营销零碎等。
数据开发平台：如计算引擎的调度，数据血统等；

特地注明的是，Lakehouse（Hudi）会把实时数据与离线数据湖联合起来，并且会交融局部数据仓库的能力。在理论的实际中，Lakehouse 也是作为数据湖的一部分，解决数据高效入湖，且反对高效剖析。

DLA 感激广大客户的信赖，目前曾经服务数千客户。在 2021 年，DLA 会聚焦在数据湖场景下，从 DLA Meta、DLA Lakehouse、DLA Serverless Spark、DLA Serverless Presto 方向发力，提供更加实惠，稳定性，弹性，高性能的数据湖服务。DLA Lakehouse 会一直优化反对 Kafka、Loghub、DB CDC 的实时入湖；DLA Presto 主打通用格局的交互式查问，会在多数据源算子下沉，Cache 等方向发力；DLA Spark 会齐全兼容开源 Spark 的语法与体验，并且在弹性层面一直冲破。

版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于分布式计算:云原生数据湖分析DLA-2020年年度总结

一、概述

二、DLA Meta

三、DLA Lakehouse

四、DLA Serverless Presto

五、DLA Serverless Spark

六、数据平台的演进

七、鸣谢与瞻望 2021 年