关于数据仓库:数仓大数据时代维度建模过时了吗

20世纪80年代末期，数据仓库技术衰亡。自Ralph Kimball 于1996 年首次出版The Data Warehouse Toolkit(Wiley)一书以来，数据仓库和商业智能(Data Warehousing and Business Intelligence, DW/BI)行业渐趋成熟。Kimball提出了数据仓库的建模技术–维度建模(dimensional modelling),该办法是在实际察看的根底上开发的。尽管它不基于任何实践，然而在实践中却十分胜利。维度建模被视为设计数据仓库和数据集市的次要办法，对数据建模和数据库设计学科有着重要的影响。时至今日，维度建模仍然是构建数仓首选的数据建模办法，然而随着技术的倒退，获取超强的存储与计算能力的老本会变得很便宜。这在无形之中对传统的维度建模办法产生了肯定的影响。本文将探讨以下内容：

维度建模的概念
维度建模的优缺点
为什么星型模型仍然有用
数据建模产生了哪些变动

规定是用来被突破的

First learn the rules, then break them

维度建模的概念

事实表

事实表作为数据仓库维度建模的外围，紧紧围绕着业务过程来设计，通过获取形容业务过程的度量来表白业务过程，蕴含了援用的维度和与业务过程无关的度量。

事实表中一条记录所表白的业务细节水平被称为粒度。通常粒度能够通过两种形式来表述：一种是维度属性组合所示意的细节水平；一种是所示意的具体业务含意。

作为度量业务过程的事实，个别为整型或浮点型的十进制数值，有可加性、半可加性和不可加性三种类型。可加性事实是指能够依照与事实表关联的任意维度进行汇总。半可加性事实只能依照特定维度汇总，不能对所有维度汇总，比方库存能够依照地点和商品进行汇总，而按工夫维度把一年中每个月的库存累加起来则毫无意义。还有一种度量齐全不具备可加性，比方比率型事实。对于不可加性事实可分解为可加的组件来实现汇集。

事实表通常只有很少的列和很多行，是一种“瘦高”型的表。事实表定义为以下三种类型之一：

事务事实表:记录无关特定事件的事实（例如，销售事件，保留在原子的粒度，也称为原子事实表）
周期快照事实表记录给定工夫点的事实（例如，月末的帐户详细信息）
累积快照事实表记录了给定工夫点的汇总事实（例如，某产品的当月迄今总销售额）

维表

维度是维度建模的根底和灵魂。在维度建模中，将度量称为事实，将环境形容为维度，维度是用于剖析事实所须要的多样环境。例如，在剖析交易过程时，能够通过买家、卖家、商品和工夫等维度形容交易产生的环境。维度所蕴含的示意维度的列，称为维度属性。维度属性是查问约束条件、分组和报表标签生成的根本起源，是数据易用性的要害。

维度通常是限定事实的描述性信息。例如，产品维度中的每个记录代表一个特定的产品。与事实表相比，维表通常具备绝对较少的记录，然而每个记录可能具备大量的属性来形容事实数据。维度能够定义各种各样的特色，一些常见的维表：

工夫维度表：以最低工夫粒度级别形容工夫
天文维度表：形容了地位数据，例如国家/地区/城市
产品维度表：表形容了产品的详细信息
员工维度表：形容了员工，例如销售人员

星型模型

大多数的数据仓库都采纳星型模型。星型模型是由事实表和多个维表组成。事实表中寄存大量对于企业的事实数据，元祖个数通常很大，而且非规范化水平很高。例如，多个期间的数据可能会呈现在同一个表中。维表中通常寄存描述性数据，维表是围绕事实表建设的，通常来说具备较少的行。如下图所示：

星型模型存取数据速度快，次要是针对各个维做了大量预处理，如依照维度进行事后的统计、分组合排序等。与规范化的关系型数据库设计相比，星型模型是非规范化的，通过数据冗余晋升多维数据的查问速度，减少了存储空间的代价。当业务问题发生变化、原来的维度不能满足需要时，须要减少新的维度。因为事实表的主键由所有维表的主键组成，这种维的变动带来的数据变动将是非常复杂和耗时的。一个星型模型的示例：

雪花模型

雪花模型是对星型模型的扩大，它将星型模型的维表进一步层次化，原来的各个维表可能被扩大为小的事实表，造成一些部分的档次区域。在雪花模型中可能定义多重父类维来形容某些非凡的维表，如在工夫维上减少月维表和年维表，通过查看与工夫无关的父类维，可能定义非凡的工夫统计信息，如月统计和年统计等。

雪花模式通过更多的连贯引入了更多的复杂性。随着存储变得越来越便宜，大多数状况，个别不采纳雪花模型办法。

雪花模型的有点是最大限度地缩小数据存储量，以及把较小的维表联结在一起来改善查问性能。然而它减少了用户必须解决的表的数量，减少了某些查问的复杂性。如下所示：

维度建模的优缺点

长处

每次须要从数据库中获取一些信息时，能够不必编写简短的查问
针对读取进行了优化，能够写更少的JOIN，更快地返回后果

毛病

对数据进行非规范化意味着一次性插入或更新会导致数据异样。在实践中，星型模型是通过批处理实来补救这一问题
剖析灵活性无限。星型模型通常是为特定目标而设计的。在剖析需要方面，它不像规范化数据模型那样灵便

为什么星型模型仍然有用

多种数据源

公司从各种数据源中收集越来越多的数据，因而须要对后果数据集进行整顿以进行剖析，从而缩小异构数据源带来的剖析复杂性。

规范

由Ralph Kimball编写的Data Warehouse Toolkit定义了业界宽泛了解的概念。新员工能够疾速把握数据仓库的构造，而无需相熟具体的业务零碎数据。数据工程师和分析师通常对事实、维度、粒度这些概念比拟理解，从而能够促成合作。

可扩展性

新增加的事实表能够重用现有的维度。通过向事实表增加更多外键，实现向事实表增加新维度。另外，对于集成新的数据集，无需对模型进行重大调整。

数据建模产生了哪些变动

大数据时代，突飞猛进的技术倒退促使存储和计算产生了翻天覆地的变动(存储和计算比以往任何时候都便宜)，因而数据模型也相应地产生了一些变动。

迟缓变动维(SCD)

对于随工夫而变动的维度，比方：用户能够更改其家庭住址，产品能够更改名称。所以须要一种策略保留历史某个工夫点对应的维度信息。

Kimball书中介绍了许多类型的SCD策略，大多数应用UPDATE就地增加或批改信息。在保留历史记录的维度中，当记录中的任何属性产生更改时，都须要复制整行数据,当属性常常更改时，同样会应用更多存储空间。值得注意的是，这些技术很简单，因为它们是在严格的存储束缚下设计的。

其实，能够应用维度快照来解决SCD的问题，尽管须要更多的存储空间，但创立和查问更简略。

维度快照

维度应比事实小得多。电子商务的交易，订单可能数以百万/千万计，然而客户（维度）的数量会少得多。

每天咱们都会在版本快照中从新写入整个维度表

/data_warehouse/dim_users/ds = 2020-01-01
/data_warehouse/dim_users/ds = 2020-01-02 
...

因为每天有一个快照数据，因而不论产生多少变动都没有影响。这种形式非常简单粗犷，但与简单的不同类型的迟缓变动维策略相比，不失为一种可选的计划。

应用此种形式，能够通过JOIN特定日期的维度快照来获取历史某个工夫点的维度信息。另外，这种形式不会对查问速度产生影响，因为通过分区日期能够间接定位抉择的日期，而不是加载所有的数据。

系统地对维度进行快照（为每个ETL打算周期存储维度的残缺正本，通常在不同的表分区中），作为解决迟缓变动的维度（SCD）的通用办法，是一种简略的通用办法，不须要太多的工程工作，并且与经典办法相比，在编写ETL和查问时很容易把握。简单的SCD建模技术并不直观，并且会升高可拜访性。

分区

为了防止上游数据处理谬误导致事实表装载谬误，须要从数据源零碎中提取日期作为分区字段，这样能够实现数据装载的幂等性。此外，倡议按 事件日期 进行分区，因为查问通常会将其用作过滤器（WHERE子句）。

代理键与冗余维度

在维表中保护代理键是非常复杂的，除此之外，还会使事实表的可读性变差。在事实表中应用天然键和维度冗余的形式越来越广泛，这样能够缩小JOIN带来的性能开销。值得注意的是，反对编码和压缩的序列化格局(如Parquet、ORC)解决了非规范化相干的大多数性能损失。

总结

本文次要介绍了维度建模的基本概念，包含维表、事实表、星型模型和雪花模型。其次对星型模型的优缺点进行了论述。最初指出了维度建模正在产生的一些变动。

公众号『大数据技术与数仓』，回复『材料』支付大数据资料包

关于数据仓库:数仓大数据时代维度建模过时了吗

维度建模的概念

事实表

维表

星型模型

雪花模型

维度建模的优缺点

长处

毛病

为什么星型模型仍然有用

多种数据源

规范

可扩展性

数据建模产生了哪些变动

迟缓变动维(SCD)

维度快照

分区

代理键与冗余维度

总结

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于数据仓库:数仓大数据时代维度建模过时了吗

维度建模的概念

事实表

维表

星型模型

雪花模型

维度建模的优缺点

长处

毛病

为什么星型模型仍然有用

多种数据源

规范

可扩展性

数据建模产生了哪些变动

迟缓变动维(SCD)

维度快照

分区

代理键与冗余维度

总结

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复