关于架构:PB-级数据秒级分析腾讯云原生湖仓DLC-架构揭秘

导读|过来几年，数据湖能力曾经在腾讯外部包含微信视频号、小程序等多个业务大规模落地，数据规模达到 PB 至 EB 级别。在此基础上，腾讯自研业务也启动了云原生湖仓能力建设。云原生湖仓架构最大的挑战什么？腾讯云原生湖仓 DLC 从哪些方面着手解决问题？接下来由腾讯云大数据专家工程师于富丽带来相干分享。

云原生湖仓的诞生背景、价值、挑战

以后这个阶段，置信大家对于数据湖，数据仓，湖仓一系列的名词曾经不算生疏了，我用最直白、最广义形式去解释“湖仓”的话，就是 数据湖跟数仓存储架构对立。

数据湖最后的需要是，要存储和剖析海量的半结构化、非结构化的数据，以及数据仓备份和温冷数据存储。在私有云找到了对象存储（海量、高价、高 SLA 和高可靠性）这样一个全托管的存储产品后，老本方面对象存储比照客户 HDFS 自建大略为 1：10，十分有吸引力。

这个存储系统看起来这么好，有没有可能把数仓一起解决，结构化数据是不是存在这里？随同着这个需要的降级，古代湖仓架构的根底也随之产生。

云原生湖仓又是什么呢？最广义的了解就是容器计算 + K8s。更加狭义的了解应该长在云上，更多的应用云上已有的全托管产品，比方利用对象存储、自身服务云原生化等。

在云原生湖仓架构下，会面临很大的挑战就是“性能”。为什么有“性能”的挑战？第一：对象存储有很好的老本劣势，然而引入对象存储之后变成了存算拆散的架构，损失了本地计算，整体性能损失 30% 以上；其次弹性计算跟剖析性能是矛盾的变量，ScaleUp 须要工夫，甚至有可能弹不进去，没有文件缓存，弹性会引起数据歪斜；最初是麻利剖析，海量明细数据间接剖析也是很间接的需要。

腾讯云原生湖仓产品 DLC 如何应答挑战

1）DLC 产品定位

DLC 的第一个特点，简略三个字详情便是——“全托管”，不同于 EMR，DLC 是开箱即用的，例如交互界面、元数据、平安、Spark DDL Server、Spark History 服务等都是全托管、免搭建的，甚至有很多是收费提供的。

第二个特点，DLC 是腾讯云数据湖解决方案的粘合剂，不同产品可能用一份湖仓数据，带给用户低成本，低保护老本的价值。

2）DLC 架构理念

接下来讲 DLC 的架构理念。DLC 是腾讯大数据自研能力的上云，然而并不是简略平移部署，产品状态便是最大的差别。DLC 是多租户的全托管产品，咱们秉持两大准则：放弃简略 KISS、云原生。放弃简略上咱们是十分执着的。

对于服务援用十分激进，服务能少则少。取而代之的是 SDK 的接入，例如上图右侧的 Presto 的 Local Cache 就不会引入 Alluxio Cluster，Spark 这儿不引入 RSS 服务而是轻量简略的 Shuffle Manager 等等。

升高应用复杂度，DLC 集成了腾讯自研 SuperSQL，去实现对立函数和语法来去两个引擎无缝切换。上图右侧大部分服务都是托管的，如元数据、调度、权限、DDL 服务、Spark History 等这些服务都是用户免搭建，开箱即用的，大部分是收费的，而且咱们还给到了用户肯定的收费额度，只有配置切当，根本是能满足客户需要的。

云原生准则：广义的说，DLC 都是基于容器的，包含计算引擎和各种服务容器化。狭义的说，云原生更应该“长在云上”，DLC 是间接应用云上的对象存储、云数据库、云 Kafka、TDSQL 等等全托管 SaaS 服务的。

LC 实现 PB 级数据秒级剖析

回到最开始的问题“高性能”，PB 级数据秒级剖析该怎么去做，从三个大维度开展。咱们从三个层面登程讲，第一从多维 Cache 的角度登程，包含文件缓存，两头后果缓存等；第二从弹性模型登程；第三从三维 Filter 的模型：分区、列、文件登程。

1）多维 cache

多维 Cache 分了三个角度：文件缓存、Fragment 后果缓存以及两头后果缓存、元数据的缓存，重点说说前两个。

文件缓存：咱们在 DLC 上线了 Alluxio Local Cache，长处是没有独自的 Alluxio 集群，也不占用计算资源，免运维。当然也会有须要优化的中央，比方文件 /Split 级别、跨租户 Cache 缓存数据平安、缓存一致性、弹性影响、监控、黑名单等，这些优化空间 DLC 都会帮客户实现。在一些状况下，拜访 Cos 的性能有 3—10 倍的晋升。

Fragment 后果缓存：长处是不须要预计算，咱们晓得物化视图也十分风行，然而物化视图的利用率往往不好量化，事实上通常很低，而依据拜访行为缓存下来的是用户行为必定的；另外是用户简直没有什么老本，同时也很大水平上升高底层存储的压力。当然，还会波及到一些问题须要大家留神，例如缓存一致性、跨租户的平安等。性能方面，从来自 Presto 社区的数据看，Raptorx 有靠近 10X 的晋升。

2）虚构集群弹性模型

方才讲两种缓存成果靠近 10 倍的性能晋升，对弹性模型就有了很高的要求，因为缓存的命中是很依赖集群拓扑的稳定性的。另外资源启动要工夫，新拉容器和镜像最快也要 1—2 分钟；最初 Client 预热很重要，包含各种服务都是 Lazy 加载的 Module 等等，这也都是须要 30 秒甚至 1 分钟的工夫，这跟咱们要求的秒级剖析就差太远了。

那 DLC 是如何解决这个问题的呢？咱们采纳了虚构集群架构，以子集群为最小单位去横向弹子集群，这样子集群拓扑稳固，资源跟 Client 都有很好预热。而且因为子集群的 Query 隔离，子集群也是很容易缩容的。

3）多维 Filter 过滤

持续说性能晋升，还是 IO 优化，技术也是比拟成熟的，只是还不怎么遍及。先看第二个，列存 Parquet/ORC，联合引擎 Project 的下推，这样只有关怀的列才会被扫描。第三个分区 / 分桶也比拟惯例了，然而最新业界的新个性比方 Dynamic Partition Puning，能够很好地减速分区须要推断的场景。

上面认真说说 稠密索引。Bloomfilter、Zordering 实质逻辑上是相似的，须要联合引擎的谓词下推缩小 IO 扫描，减速剖析。

在大数据的海量低成本要求下，稠密索引能够做到升高存储老本并且减速剖析性能，通过缩小数据扫描量达到性能晋升。具体分两步：第一步数据要进行 Cluster，相似的数聚在一起，联合引擎谓词下推，性能达到 10X 以上的晋升。同时也能带来存储的降落，这个原理其实很容易了解，相似的数据在一起了，Encodin 压缩能起到更好的成果。这也是大数据引擎，比如说像 CK、Doris 很重要的性能减速模型。

稳定性也是大数据很重要的诉求，后面看到像索引的构建都须要进行大规模的数据 ETL。对于稳定性咱们遇到了很多挑战，包含虚构集群弹性模型自身缩小了弹性引擎的数据歪斜、Iceberg 缩小底层 List、Rename 导致工作失败等等问题。这里咱们次要分享下 DLC 的 Spark Shuffle Manager 架构。

咱们晓得腾讯开源了 RSS 的服务 Filestorm，在全托管云原生的场景下咱们做了简化和革新，原理是：优先应用本地磁盘，有余的时候 Spill 到 Cos，上面是业界几种典型的思路，DLC 的做法秉持着缩小服务引入、放弃简略、升高用户老本、缩小用户 / 服务的运维。成果也很显著，大部分工作 /Task 都会以原有的性能实现，大量数据歪斜的工作 /Task 会损失肯定的性能，然而仍然能稳固实现。

DLC 作为全托管的产品，还是要强调一下低成本和易用的个性。COS 湖存储 VS 自建 HDFS 的老本劣势，其实 80% 以上节俭来至于 EC、HDFS 要预留资源以及 COS 有各种冷热分层策略进一步降低成本等。基于 EKS 或者 TKE 弹性资源，比照固定资源节俭约 50% 以上的老本，如果是交互式剖析场景，周六周日两天老本就是节俭的，早晨也是节俭的，离线是相似的。

最初 DLC 是全托管的免运维的一个产品，对立的 SQL 在两个引擎平滑迁徙，SaaS 的元数据、DDL 服务、权限、调度、SaaS 级别的 Spark History 保障了用户开箱即用，而且这些公共服务大部分收费，有的是有收费额度的，正确应用都齐全够用。

湖仓背景下的建模新思路

接下来一起看下，在云原生湖仓架构下，建模有有哪些新思路：

第一个，扁平湖仓架构，外围是不再保护简单的数仓分层，而是把明细层的数据可能间接高性能剖析；第二个是离线增量；第三个，当初业界比拟时尚的新方向实时增量湖仓。

认真讲一下扁平湖仓的构造，要解释为什么须要扁平湖仓建模，首先要看一下为什么要一层层去做分层建模。首先是 在传统的数仓架构下，明细数据的剖析的性能不够高，被迫去进行的预计算，同时因为多个后果可能会反复利用一部分公共数据，进行了 ETL 抽取。然而在 PB 级数据秒级剖析的能力下，这些简直都是不必要的。

层层建模的问题：第一是模式是固定的，不够麻利。响应需要，从需要对接、历史数据刷新、测试验收，一两个周就过来了；其次是计算利用率往往是低的，尤其 Cube。Cube 尽管命中很快，单 Cube 的利用率往往是个大大的问号，从咱们的教训来看其实非常低；另外分层离线更新是比较慢的，而当初特地火的实时增量更新并不是成熟和稳固，即便落地了对于存储和计算硬件的需要往往也是很高的。

联合后面讲的云原生湖仓做性能晋升的各种伎俩，在明细层间接剖析的扁平湖仓架构的时代天然是大势所趋了。当然最好能联合 BI 工具的时序后果缓存，这样 BI 层都能够省去。

最初介绍下一个游戏客户的案例：实时扁平湖仓秒级剖析——逻辑架构非常简单间接，数据都是在 Kafka，通过 DLC Spark 去做实时数据的接入，间接写入几百张 Iceberg 明细表，并且可能保障幂等。值得注意的是 一个 Kafka 外面有很多张表的数据，保障幂等也有一些比拟有意思的逻辑。入到明细表之后，开启明细表背地的一些优化，用 DLC SuperSQL—Spark，进行荡涤、合并小文件、以及稠密索引构建等，最初达到的成果间接用 DLC SuperSQL-Presto 去做秒级剖析，最初去对接 BI 的工具，达到一个十分好的剖析性能，架构简单明了，无需各种建模。

你可能感兴趣的腾讯工程师作品

| 一文读懂 Go 函数调用

| 内存泄露？腾讯工程师 2 个压箱底的办法工具

| 十亿人都在用的衰弱码，运维体系是怎么设计的

| 将云原生进行到底：腾讯百万级别容器云平台实际揭秘

技术盲盒：前端 | 后端 |AI 与算法| 运维 | 工程师文化

公众号后盾回复“湖仓”，领本文作者举荐的更多材料

关于架构:PB-级数据秒级分析腾讯云原生湖仓DLC-架构揭秘

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）