关于数据库:ClickHouse核心引擎MergeTree解读

ClickHouse 是俄罗斯最大的搜索引擎Yandex在2016年开源的数据库管理系统（DBMS），次要用于联机剖析解决（OLAP）。其采纳了面向列的存储形式，性能远超传统面向行的DBMS，近几年受到宽泛关注。

本文将介绍ClickHouse MergeTree系列表引擎的相干常识，并通过示例剖析MergeTree存储引擎的数据存储构造。

1 MergeTree表引擎简介

MergeTree（合并树）系列表引擎是ClickHouse提供的最具特色的存储引擎。MergeTree引擎反对数据按主键、数据分区、数据正本以及数据采样等个性。官网提供了包含MergeTree、ReplacingMergeTree、SummingMergeTree、AggregatingMergeTree、CollapsingMergeTree、VersionedCollapsingMergeTree、GraphiteMergeTree等7种不同类型的MergeTree引擎的实现，以及与其绝对应的反对数据正本的MergeTree引擎（Replicated*）。

首先来介绍一下MergeTree外围引擎：

ReplacingMergeTree：在后盾数据合并期间，对具备雷同排序键的数据进行去重操作。
SummingMergeTree：当合并数据时，会把具备雷同主键的记录合并为一条记录。依据聚合字段设置，该字段的值为聚合后的汇总值，非聚合字段应用第一条记录的值，聚合字段类型必须为数值类型。
AggregatingMergeTree：在同一数据分区下，能够将具备雷同主键的数据进行聚合。
CollapsingMergeTree：在同一数据分区下，对具备雷同主键的数据进行折叠合并。
VersionedCollapsingMergeTree：
基于CollapsingMergeTree引擎，削减了数据版本信息字段配置选项。在数据根据ORDER BY设置对数据进行排序的根底上，如果数据的版本信息列不在排序字段中，那么版本信息会被隐式的作为ORDER BY的最初一列从而影响数据排序。
GraphiteMergeTree：用来存储时序数据库Graphites的数据。

MergeTree是该系列引擎中最外围的引擎，其余引擎均以MergeTree为根底，并在数据合并过程中实现了不同的个性，从而形成了MergeTree表引擎家族。上面咱们通过MergeTree来具体理解MergeTree表系列引擎。

2 MergeTree引擎

2.1 表创立

创立MergeTree的DDL如下所示：

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster] ( name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],  name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],  ... ) ENGINE = MergeTree() ORDER BY expr  [PARTITION BY expr]  [PRIMARY KEY expr]  [SAMPLE BY expr]  [TTL expr [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx'], ...]  [SETTINGS name=value, ...

这里阐明一下MergeTree引擎的主要参数：

必填选项

ENGINE：引擎名字，MergeTree引擎无参数。
ORDER BY：排序键，能够由一列或多列组成，决定了数据以何种形式进行排序，例如ORDER BY（CounterID, EventDate）。如果没有显示指定PRIMARY KEY，那么将应用ORDER BY作为PRIMARY KEY。通常只指定ORDER BY即可。

选填选项

PARTITION BY：分区键，指明表中的数据以何种规定进行分区。分区是在一个表中通过指定的规定划分而成的逻辑数据集。分区能够按任意规范进行，如按月、按日或按事件类型。为了缩小须要操作的数据，每个分区都是离开存储的。
PRIMARY KEY：主键，设置后会依照主键生成一级索引（primary.idx），数据会根据索引的设置进行排序，从而减速查问性能。默认状况下，PRIMARY KEY与ORDER BY设置雷同，所以通常状况下间接应用ORDER BY设置来代替主键设置。
SAMPLE BY：数据采样设置，如果显示配置了该选项，那么主键配置中也应该包含此配置。例如 ORDER BY CounterID / EventDate / intHash32（UserID）、SAMPLE BY intHash32（UserID）。
TTL：数据存活工夫，能够为某一字段列或者一整张表设置TTL，设置中必须蕴含Date或DateTime字段类型。如果设置在列上，那么会删除字段中过期的数据。如果设置的是表级的TTL，那么会删除表中过期的数据。如果设置了两种类型，那么按先到期的为准。例如，TTL createtime + INTERVAL 1 DAY，即一天后过期。应用场景包含定期删除数据，或者定期将数据进行归档。
index_granularity：索引距离粒度。MergeTree索引为稠密索引，每index_granularity个数据产生一条索引。index_granularity默认设置为8092。
enable_mixed_granularity_parts：是否启动index_granularity_bytes来管制索引粒度大小。
index_granularity_bytes：索引粒度，以字节为单位，默认10Mb。
merge_max_block_size：数据块合并最大记录个数，默认8192。
merge_with_ttl_timeout：合并频率最小工夫距离，默认1天。

2.2 数据存储构造

首先创立一个test表，DDL如下:

CREATE TABLE test.test (  id        UInt64,  type      UInt8,  create_time DateTime ) ENGINE = MergeTree()  PARTITION BY toYYYYMMDD(create_time)  ORDER BY (id)  SETTINGS index_granularity = 4;

test表包含id、type、create等三个字段，其中以create_time日期字段作为分区键，并将日期格局转化为YYYYMMDD。依照id字段进行排序。因为没有显式设置主键，所以引擎默认应用ORDER BY设置的id列作为索引字段，并生成索引文件。index_granularity设置为4，意味着每4条数据产生一条索引数据。

插入一条测试数据：

insert into test.test(id, type, create_time) VALUES (1, 1, toDateTime('2021-03-01 00:00:00'));

应用如下命令查看test表分区相干信息：

 SELECT  database,  table,  partition,  partition_id,  name,  active,  path  FROM system.parts  WHERE table = 'test'

返回后果如下图所示：

从上图中能够看到test表中返回了一条partitionid为20210301的数据分区的记录，从name字段中咱们能够得悉，此分区的目录名为20210301_8_8_0。 20210301_8_8_0这个目录名字到底有什么含意呢？上面来介绍一下分区规定以及分区目录的命名规定。

2.2.1 数据分区ID生成规定

数据分区规定由分区ID决定，分区ID由PARTITION BY分区键决定。依据分区键字段类型，ID生成规定可分为：

未定义分区键
没有定义PARTITION BY，默认生成一个目录名为all的数据分区，所有数据均寄存在all目录下。
整型分区键
分区键为整型，那么间接用该整型值的字符串模式做为分区ID。
日期类分区键
分区键为日期类型，或者能够转化成日期类型。
其余类型分区键
String、Float类型等，通过128位的Hash算法取其Hash值作为分区ID。

下面咱们插入一条日期为2021-03-01 00:00:00的数据，对该字段格式化后生成的数据分区id就是20210301。

2.2.2 数据分区目录命名规定

目录命名规定如下：

PartitionId_MinBlockNum_MaxBlockNum_Level

PartitionID
分区id，例如20210301。
MinBlockNum
最小分区块编号，自增类型，从1开始向上递增。每产生一个新的目录分区就向上递增一个数字。
MaxBlockNum
最大分区块编号，新创建的分区MinBlockNum等于MaxBlockNum的编号。
Level
合并的层级，被合并的次数。合并次数越多，层级值越大。

从上图可知，此分区的分区id为20210301，以后分区的MinBlockNum和MinBlockNum均为8，而level为0，示意此分区没有合并过。

2.3 数据分区文件组织构造

在理解了分区目录名字的生成规定后，上面来看看数据分区目录下的文件组织构造。以2021030188_0分区为例：

从图中能够看到，目录中的文件次要包含bin文件、mrk文件、primary.idx文件以及其余相干文件。

bin文件
数据文件，存储的是某一列的数据。数据表中的每一列都对应一个与其字段名雷同的bin文件，例如id.bin存储的是表test中id列的数据。
mrk文件
标记文件，每一列都对应一个与其字段名雷同的标记文件，标记文件在idx索引文件和bin数据文件之间起到了桥梁作用。以mrk2结尾的文件，示意该表启用了自适应索引距离。
primary.idx文件
主键索引文件，用于放慢查问效率。
count.txt
数据分区中数据总记录数。上述20210301_8_8_0的数据分区中，该文件中的记录总数为1。
columns.txt
表中所有列数的信息，包含字段名和字段类型。
partion.dat
用于保留分区表达式的值。上述20210301_8_8_0的数据分区中该文件中的值为20210301。
minmax_create_time.idx
分区键的最大最小值。
checksums.txt
校验文件，用于校验各个文件的正确性。寄存各个文件的size以及hash值。

2.3.1 数据文件

MergeTree中，每列都对应一个bin文件独自寄存该列数据。例如，id.bin寄存的是id列的数据。所有数据都通过数据压缩、排序，最初以数据块的模式写入bin文件中。 bin中数据以压缩数据块为单位写入文件中。每个数据块由头信息和压缩数据组成。头部信息包含校验和、数据压缩算法、数据压缩前大小和压缩后大小组成。压缩数据由granule组成，granule大小与index_granularity相干。

2.3.2 索引文件

MergeTree索引为稠密索引，它并不索引单条数据，而是索引肯定范畴的数据。也就是从已排序的全量数据中，间隔性的选取一些数据记录主键字段的值来生成primary.idx索引文件，从而放慢表查问效率。距离设置参数为index_granularity。

咱们向表test中插入9条数据，

insert into test.test(id, type, create_time) VALUES (1, 1, toDateTime('2021-03-01 00:00:00')); insert into test.test(id, type, create_time) VALUES (1, 2, toDateTime('2021-03-01 00:00:00')); insert into test.test(id, type, create_time) VALUES (1, 3, toDateTime('2021-03-01 00:00:00')); insert into test.test(id, type, create_time) VALUES (2, 1, toDateTime('2021-03-01 00:00:00')); insert into test.test(id, type, create_time) VALUES (2, 1, toDateTime('2021-03-01 00:00:00')); insert into test.test(id, type, create_time) VALUES (3, 1, toDateTime('2021-03-01 00:00:00')); insert into test.test(id, type, create_time) VALUES (3, 1, toDateTime('2021-03-01 00:00:00')); insert into test.test(id, type, create_time) VALUES (4, 1, toDateTime('2021-03-01 00:00:00')); insert into test.test(id, type, create_time) VALUES (5, 1, toDateTime('2021-03-01 00:00:00'));

因为index_granularity设置为4，所以每4条数据就会生成一条索引记录，即应用插入的第1、5、9条数据id字段的值生成索引文件记录。

2.3.3 标记文件

mrk标记文件在primary.idx索引文件和bin数据文件之间起到了桥梁作用。primary.idx文件中的每条索引在mrk文件中都有对应的一条记录。一条记录的组成包含：

offset-compressed bin file
示意指向的压缩数据块在bin文件中的偏移量。
offset-decompressed data block
示意指向的数据在解压数据块中的偏移量。
row counts
代表数据记录行数，小于等于index_granularity所设置的值。

索引，标记和数据文件下图所示：

作者：TalkingData 张凯
参考文档：
1.https://clickhouse.tech/docs
2.http://www.clickhouse.com.cn/...
3.《ClickHouse原理解析与利用实际》（机械工业出版社出版，作者朱凯）