关于kafka:如何使用Delta-Lake构建批流一体数据仓库

简介：Delta Lake 是一个开源存储层，它为数据湖带来了可靠性。Delta Lake 提供了 ACID 事务、可扩大的元数据处理，并对立了流式解决和批处理数据处理。Delta-Lake 运行在现有数据湖之上，并且与 Apache Spark API 齐全兼容。心愿本篇能让大家更深刻理解 Delta Lake，最终能够实际到工作当中。

作者：

李元健，Deltabricks 软件工程师

冯加亮，阿里云开源大数据平台技术工程师

Delta Lake 是一个开源存储层，它为数据湖带来了可靠性。Delta Lake 提供了 ACID 事务、可扩大的元数据处理，并对立了流式解决和批处理数据处理。Delta-Lake 运行在现有数据湖之上，并且与 Apache Spark API 齐全兼容。心愿本篇能让大家更深刻理解 Delta Lake，最终能够实际到工作当中。

本篇文章将从 3 个局部介绍对于 Delta Lake 的一些个性：

Delta Lake 的我的项目背景以及想要解决的问题
Delta Lake 的实现原理
Live Demo

置信大家在构建数仓解决数据方面都很有教训，而产业界也消耗了大量的资源来构建相干的零碎。

咱们发现有半结构化数据、实时数据、批量数据，用户数据等一系列数据存储在各个中央，别离以不同的解决模式为用户提供服务。

那么咱们冀望的现实的零碎是什么样的？

更一体化或更加聚焦，让更业余的人干更业余的事件
有同时解决流式和批量的能力
能够提供举荐服务
能够提供报警服务
能够帮忙用户剖析一系列的问题

但现实情况却是：

低质量、不牢靠的数据导致一体化前进艰巨。
差强人意的性能不肯定能达到实时的入库以及实时的查问要求。

在这样的背景下，Delta Lake 应运而生。

上面用一个常见的用户场景为例，如果没有 Delta Lake，该如何解决这样的问题。

这可能是一个最常见的 Delta Lake 场景，比方咱们有一系列的流式数据，不停的从 Kafka 零碎流入，咱们冀望具备实时处理的能力。与此同时，咱们能够把数据周期性放在 Delta Lake 中。同时，咱们须要整套零碎的进口具备 AI & Reporting 能力。

1、历史查问

第一条解决流比较简单，比方通过 Apach Spark 间接应用 Streaming Analytics 买通实时流。

与此同时，须要离线流时，历史查问能够应用 Lambda 架构对应的形式。Apach Spark 提供了很好的形象设计，咱们能够通过一种代码或 API 来实现流和实时的 λ 架构设计。

通过历史数据的查问, 咱们能够进一步应用 Spark 进行 SQL 剖析，以及用 Spark SQL 的作业的模式来产生 AI 技术的能力。

2、数据校验

接下来咱们须要面对的第一个问题就是数据的校验。

咱们的流式数据和批量数据，假如以 Lambda 架构的模式存在时，如何确认咱们在某一个工夫点查出来的数据是对的？到底流式的数据和批量的数据差多少? 咱们的批量数据什么时候该与流式数据进行同步?

所以 Lambda 架构还须要引入 Validation，这须要咱们予以确认。尤其是像报表零碎面向用户的这种准确的数据分析系统，Validation 这一步骤不可或缺。

因而，兴许咱们须要一支旁支来解决流式和批量之间的同步问题，以及对应的验证问题。

3、数据修复

假如如上问题解失去了解决，在零碎上了一段时间咱们会发现，如咱们对应的某个 Partitioned 数据出了问题，当天的脏数据在若干天之后须要修改。此时咱们须要怎么办？

通常，咱们须要停掉线上的查问后再修复数据，修复完数据后从新复原线上的工作。如此折腾的过程，理论有形的给零碎架构又减少了一个修复以及过来版本回复的能力。因而，Reprocessing 诞生了。

4、数据更新

假如解决完了 Reprocessing 问题，咱们在 AI 和 Reporting 最终的进口端，能够看到有新的一系列的需要。比方有一天业务部门或者上级部门、单干部门提出是否 Schema Change，因为越来越多的人用数据，想把 UserID 这个维度加进去，此时该怎么解决？导到 Delta Lake 去加 Schema、停留、对应的数据重新处理等一系列折腾。

所以大家能够看到解决了一个问题又会有新的问题。如果 case by case 的去解决会导致系统不停的往上打补丁。一个本来简略或者一体化的需要会变得越来越冗余和简单。

5、现实中的 Delta Lake

所以现实当中的 Delta Lake 应该长什么样？

是入口、进口对应的零碎干对应的事件。惟一的外围就是 Delta Lake 层，即对应的数据处理以及数据入仓的整个过程能够做到：

用间断解决的模式解决数据
增量的数据也能够增量 Streaming 的形式去解决新达到的数据
不须要再从批量和流式中做出抉择。或者说批量和流式相互之间做出让步，在流式的时候须要思考批量，在批量的时候要思考流式的作用，不应该这样 by design。
如果咱们能够一体化整个 Delta Lake 架构，自然而然就能升高保护老本。

上面咱们看一下这一系列的问题是如何在 Deltalake 当中去解决的。

具备同时读写并且有数据一致性保障的能力。在 Deltalake 当中，Reader 和 Writer 是通过快照机制来进行隔离，也就是说 Reader 和 Writer 能够以乐观锁的模式各自写入和读出，互不影响。
具备高吞吐从大表读元数据的能力。咱们能够设想，当一个表变大之后，它自身的元数据、快照、Checkpoint 版本以及变更 Schema 一系列所有的元数据操作自身就会变成一个大数据的问题。Delta Lake 当中设计十分棒的一点就是自身将 Meta Delta 也视为大数据问题，通过 Spark 框架本身解决大表的元数据问题。所以在 Delta 中，不用放心会呈现单点解决 Meta Delta 焊死的状况。
历史数据以及脏数据的回滚。咱们须要有 Time Travel 的能力来回溯到某一个工夫点进行数据荡涤。
具备在线解决历史数据的能力。在历史数据回填中，咱们仍然能够实时处理以后流入的新数据，无需停留，也无需思考哪些是实时，哪些是离线。
能够在不阻断上游作业的前提下解决早退的数据，能够间接入表。

以上 5 点齐全解决之后，咱们就能够用 Delta Lake 来代替 Lambda 架构，或者说咱们一系列批流分制的架构设计能够应用 Delta Lake 架构。

什么是基于 Delat Lake 的架构设计？

Delat Lake 的架构设计中一系列的元数据或者最低的级别就是表。能够将咱们的数据一层一层的分成根底数据表，两头数据表以及最终的高质量数据表。所有的所有只须要关注的就是表的上游和上游，它们之间的依赖关系是不是变得更加的简略和洁净。咱们只须要关注业务层面的数据组织，所以 Delat Lake 是对立批量、流式的继续数据流的模型。

以下通过 Demo 的模式演示如何在 Databricks 数据洞察里搭建批流一体数据仓库的操作，解决生产环境的问题。

Demo 演示视频：https://developer.aliyun.com/…

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于kafka:如何使用Delta-Lake构建批流一体数据仓库

一、Delta Lake 的我的项目背景以及想要解决的问题

1）背景

2）想要解决的问题

二、Delta Lake 的实现原理

1）Delta Lake 具备的能力

2）基于 Delta Lake 的架构设计

三、Demo