关于分布式计算:云原生数据湖分析DLA-2020年年度总结

简介：次要讲述阿里云数据湖剖析DLA 2020年的停顿~

一、概述

2020年黑天鹅事件一直呈现，疫情给人们的生存也带来了扭转。在后疫情时代，随同着云原生技术的倒退，企业寻求更加麻利、更加灵便的数据分析计划，数据湖刚好满足这外围诉求。有不少同学问笔者，Hadoop与数据湖有啥区别？笔者认为，其一：数据湖剖析反对的数据格式包含非结构化与半结构化。尽管HDFS能够存图片，然而个别还是有视频&图片的专门的服务器的，起因存储计算不拆散状况下，大数据硬件存图片不经济；其二：数据湖往往跟云联合更加严密，因为存储计算拆散当前，存储与计算能够独自倒退。计算能够跟业务零碎错峰调度，再联合不同公司计算工作的差别，能够加强弹性能力。其三：数据湖的技术与数据仓库进一步交融，如Hudi反对数据实时写入、事务与更新。

阿里云云原生数据湖剖析DLA，在这样的背景下诞生，历经两年的倒退，充沛联合云、Presto、Spark、Hudi等劣势，构建出了新一代的大数据计划。目前DLA曾经服务了数千客户，不少公司的外围数仓也是基于DLA；DLA也集成在友盟、CDN、DBS(数据库备份)、IOT、QuickBI等产品中，间接服务了数万客户；

咱们也器重开源与商业单干，目前，DLA是Apache PrestoDB基金会的代表；与Alluxio达成策略单干，独特构建缓存零碎；团队有数位Apache的Committer，一起参加奉献开源社区。

本文次要概述讲述下阿里云云原生数据湖剖析（简称DLA）为了应变剖析之大变局，在2020年次要实现的一些事件。数据湖剖析DLA官网链接：https://www.aliyun.com/product/datalakeanalytics

云原生数据湖剖析的根本架构如下：

DLA分为DLA Meta、DLA Lakehouse、DLA Presto、DLA Spark 四大模块。在20年咱们重写了元数据模块，减少了元数据与数据源之间的同步模块，针对OSS能够发现元数据，简化用户的配置管理；在数据管理Lakehouse方向上反对了RDS MySQL实时同步到Hudi，目前正在产品化中；新增了DLA Serverless Spark模块，反对依照Job计费，重写了接入层，实现了多租户的UI，并且针对OSS做Rename等内核性能优化；DLA Presto改良了扫描版的稳定性，加强内核性能，实现了CU版本的产品状态，并且放弃扫描量版本与CU版本对立架构。接下来分模块讲述：

二、DLA Meta

比照开源的Hive元数据，DLA Meta是兼容Hive meta的，反对云上15+种数据数据源（OSS、HDFS、DB、DW）的对立视图，引入多租户、元数据发现等能力。DLA Meta谋求边际老本为0，收费提供应用的。

企业级权限治理：反对多账号的权限与隔离，能够简略的GRANT&REVOKE对子账号赋予权限，Meta会托管OSS与DB赋予的权限，DLA Presto与DLA Spark通过外部的API拿到相应的权限，拜访OSS与DB数据库；
凋谢拜访：通过OpenAPI能够间接拿到Meta的信息，客户自建的Spark集群也能够应用DLA Meta；
扩展性强：MetaServer是无状态的服务，能够扩大多个集群；在元数据存储采取的是多库存储，能够有限扩大；
元数据发现：反对OSS 数仓模式发现，SLS投递到OSS数据发现，OTS元数据主动同步。反对客户一键发现元数据，这些元数据也会主动保护。典型的场景是：用户的APP能够一直往OSS写新的Partition，元数据发现服务会主动同步Partition。

三、DLA Lakehouse

数据湖有着微小的低成本、扩展性的劣势。然而在数据组织与保护方面，人造比数仓有着有余。不少客户通过代码保护一套数仓体系：根本流程为筹备数据，再通过Spark&Hive荡涤，构建离线的数据仓库。 DLA目前在基于Apache Hudi实现DLA Lakehouse，次要指标是提供高效的湖仓，根本的架构图如下图所示：

此模块曾经有不少客户应用，目前还不足产品化，是以计划提供。在接入层曾经反对RDS MySQL通过DTS实时写数据到Lakehouse中，接入层全量&增量模块均是间接调用DLA Serverless Spark服务。

实时写入：反对 MySQL数据延期10分钟间接写入到OSS的，写入后，能够反对DLA Serverless Presto与DLA Serverless Spark拜访。
主动合并小文件：反对小文件的主动合并，接入层对接的是DLA Serverless Spark服务，目前也正在研发弹性的Compaction机制。
反对多库多表：绝对于社区反对单库单表，咱们能够一次性把RDS MySQL实例内所有的库与表实时同步到OSS上，并一条链路反对超过5000+张表的同步；

目前Lakehouse倒退比拟快，内核模块Hudi咱们也在跟社区放弃严密的单干，DLA也在加紧产品化中，提供在产品界面点按钮就能够应用的体验，并且一直优化数据源到链路到格局的性能；

四、DLA Serverless Presto

DLA Serverless Presto是基于Apache PrestoDB的研发的，次要是做联邦交互式查问与轻量级ETL，2020年革新后架构如下：

提供独享集群：在扫描量状况下，客户不好评估老本，须要财务固定成本；一些如Cache、拜访Hive、UDF等在扫描量无奈实现；DLA推出了Presto独享集群版本。独享版本的资源是独享的，财务老本根本固定的（独享集群也能够按时弹性），比拟适宜大客户应用。扫描量版本比拟实现查问频率比拟低的客户应用。在独享集群版本中，咱们外围提供了如下能力：
- DataCache：与Alluxio单干独特推出了DLA Presto的DataCache，具体机制参考：https://developer.aliyun.com/article/781291，在IO密集类型中，查问性能可最高晋升10倍；
- 分时弹性：扫描量是依照Query计费的，在独享集群下，也是能够弹性的。分时弹性就是用户能够设置时间段来付费；
- 特有的数据源：如反对Hive等数据源等、Cassandra等数据源；
- 更快的性能晋升：目前也在实现如Query Result Cache、Fragment Result cache、针对性算子下沉；
反对更多的连接器：过来一年咱们新增反对了Hive、HDFS、KUDU、OTS ParallelScan、Cassandra、ElasticSearch、ADB PG、Oracle、Druid等；
稳定性改良：接入层买通底层ACK弹性调度、DLA网络管控、SLB管控等链路，实现被动宕机时从之前3分钟到3秒内疾速复原，被动业务公布时只中断1次连贯、并在1s左右迅速实现连贯切换等能力； Multi-Master实现Coordinator和Worker的优雅敞开，敞开时会期待所有SQL执行完，同时又不承受新SQL，使得咱们在降级的时候从之前的用户SQL全挂，到当初用户的SQL能够不被影响，做到客户无感降级；算力租户隔离能够实时控制每个用户的算力，算力适度应用时会实时惩办的机制，解决了大SQL会导致整个集群过载的问题；
易用性：SQL诊断界面，咱们也在不断改进，也是接下来的重点改良方向。

将来，咱们将充沛与社区联合互补，一直晋升性能，反对更多的性能，提供更加不便的诊断工具，做到云上的第一的联邦交互式查问引擎；

五、DLA Serverless Spark

Spark是最风行的大数据计算引擎，DLA反对Spark次要是为在湖上做大规模的ETL，并反对流计算、机器学习；比传统自建Spark有着300%的性价比晋升，从ECS自建Spark或者Hive批处理迁徙到DLA Spark能够节约50%的老本；DLA Spark架构如下图所示：

齐全反对开源的Spark语法，独享的运行环境：DLA Serverless Spark齐全兼容开源的Spark语法，反对Python专享的运行环境，反对开源的算法框架；
弹性，每Job每计费：传统的Spark都须要用户当时购买好集群，DLA反对无需购买任何的计算资源即可开箱应用Spark，兼容开源Spark所有的语法；
重写Serverless Spark接入层，保障Job的稳定性：比照Livy接入层，Livy存在较多的稳定性问题，比方：不能相互扩大，有单点问题，无奈在DLA多租户环境利用；为此，DLA Spark组齐全重写了Spark的接入层，力求保障长job的稳定性，深度联合云原生的环境。
实现多租户的UI服务：DLA Serverless Spark运行实现后，其UI数据会寄存在用户OSS空间，DLA提供多租户SparkUI服务，开源查问正在运行中及运行实现的Spark信息，此服务完全免费。
多数据源，针对OSS数据源优化： 目前DLA Serverless Spark反对对接Kafka、LogHub等数据源，间接对接HDFS、HBase、OTS、PolarDB、ADB等简直所有的数据源的剖析与回写。并针对OSS数据源反对MetaCache与Rename等优化，在小文件较多的状况，比开源版本晋升50%的性能。

目前DLA Serverless Spark始终谋求更加弹性的服务，跟开源应用体验尽量统一，接入层的服务会更加稳定性，PS：得益于先进的云原生架构，目前UI服务与接入层服务是收费的。用户只须要为理论的资源耗费付费。

六、数据平台的演进

DLA致力于帮忙客户构建低成本、简略易用、弹性的数据平台，比传统Hadoop至多节约50%的老本。具体到大数据架构，业内大数据架构有Lambda、Kappa等，目前在大公司利用根本是混合体，大数据与业务是比拟强相干，随着公司规模大小不一，实用的场景不近雷同，且又随着业务的倒退须要不同的大数据的架构，目前还不存在包打天下的银弹（不过每个组件都想扩大场景，替换其它组件的地盘），如果规模不小的公司只有一个必定会有损耗或者不是最佳的计划架构。个别随着公司规模倒退，有如下趋势（此图筛选业内比拟风行的组件）：

计划四，摊开细节一点如下，在联合阿里云OLAP团队的组件：

上图中分为七块，也是目前业内支流的数据处理模式：

数据源：个别是数据产生的零碎，比方事务性的数据会间接存入MySQL，物联网个别间接写入到HBase/Lindorm零碎之中；
实时数据处理：能够间接对接数据源，如DB CDC或者Kafka，通过流ETL后，写入到数据仓库或者数据湖之中；
离线数据湖：存离线的数据，比方CSV\JSON上传的数据，或者离线数仓的数据；
专题数据仓库：针对高并发的场景减速，个别为业务团队间接持有；
联邦交互式剖析：能够跨数据源查问，包含数据仓库、数据湖、数据库的数据；
数据利用：是数据的利用，如BI、营销零碎等。
数据开发平台：如计算引擎的调度，数据血统等；

特地注明的是，Lakehouse（Hudi）会把实时数据与离线数据湖联合起来，并且会交融局部数据仓库的能力。在理论的实际中，Lakehouse也是作为数据湖的一部分，解决数据高效入湖，且反对高效剖析。

七、鸣谢与瞻望2021年

DLA感激广大客户的信赖，目前曾经服务数千客户。在2021年，DLA会聚焦在数据湖场景下，从DLA Meta、DLA Lakehouse、DLA Serverless Spark、DLA Serverless Presto方向发力，提供更加实惠，稳定性，弹性，高性能的数据湖服务。DLA Lakehouse会一直优化反对Kafka、Loghub、DB CDC的实时入湖；DLA Presto主打通用格局的交互式查问，会在多数据源算子下沉，Cache等方向发力；DLA Spark会齐全兼容开源Spark的语法与体验，并且在弹性层面一直冲破。

版权申明：本文内容由阿里云实名注册用户自发奉献，版权归原作者所有，阿里云开发者社区不领有其著作权，亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容，填写侵权投诉表单进行举报，一经查实，本社区将立即删除涉嫌侵权内容。

关于分布式计算:云原生数据湖分析DLA-2020年年度总结

一、概述

二、DLA Meta

三、DLA Lakehouse

四、DLA Serverless Presto

五、DLA Serverless Spark

六、数据平台的演进

七、鸣谢与瞻望2021年

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于分布式计算:云原生数据湖分析DLA-2020年年度总结

一、概述

二、DLA Meta

三、DLA Lakehouse

四、DLA Serverless Presto

五、DLA Serverless Spark

六、数据平台的演进

七、鸣谢与瞻望2021年

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复