乐趣区

关于性能优化:性能优化技巧外键序号化

一、问题背景与实用场景

在《性能优化技巧:局部预关联》一文中,咱们介绍了将维表内存化并预关联的技术,但事实表与维表关联时,仍需进行 hash 计算和比对,怎么进步这一步的性能呢?咱们明天再介绍一种优化技巧:外键序号化。

外键序号化的思路是,如果维表的主键是从 1 开始的自然数 (也就是记录所在行号),那么就能够用键值间接按行号定位维表记录,而不再须要计算和比对 HASH 值了,从而放慢与维表关联的速度,进一步晋升性能。而且,间接用序号定位,还不须要建设索引,占用内存也会小很多。

咱们上面来介绍如何在 SPL 中应用外键序号化技巧,并应用上文的测试环境,针对同一个查问问题,以序号化后的数据与之前的数据做对照试验,验证序号化的性能晋升成果。

二、序号化筹备

要应用外键序号化技巧,必须要保障维表的主键值正好是序号 (记录行号),而理论业务中维表的主键值往往不是这样,所以要先将维表的主键转换成序号。转换的办法如下:

1)新建一个键值 - 序号对应表,保留维表的键值和天然序号的对应关系;

2)把维表的键值替换为天然序号,失去一个新的维表文件;

3)把事实表里的外键值批改为序号,批改的根据是键值 - 序号对应表,批改后失去一个新的事实表。

本次试验要用到的三张维表别离是 supplier、part 与 orders,事实表是 lineitem,上面别离对它们实现序号化。

1.  supplier 序号化

实现序号化的 SPL 脚本如下:

A1   从原始数据文件 supplier.tbl 中读出数据,并用 derive 函数新减少一列 xh,用行号作为字段值

A2   将 A1 中的 S_SUPPKEY、xh 两字段输入到集文件 supplier_xh_key.btx 中,生成键值与序号对应关系表,以备序号化事实表时应用

A3   以 xh 字段值代替 S_SUPPKEY 字段,重构 supplier 序表

A4   创立序号化后的组表文件 supplier_xh.ctx

A5   将重构后的 supplier 序表保留到组表文件 supplier_xh.ctx 中

2.  part 序号化

实现序号化的 SPL 脚本如下:

脚本原理与 supplier 表序号化雷同,生成的键值与序号对应关系表为 part_xh_key.btx,序号化后的组表文件叫 part_xh.ctx。

3.  orders 序号化

实现序号化的 SPL 脚本如下:

脚本原理与 supplier 表序号化雷同,生成的键值与序号对应关系表为 orders_xh_key.btx,序号化后的组表文件叫 orders_xh.ctx。

4.  lineitem 序号化

实现序号化的 SPL 脚本如下:

A1   创立读入 lineitem 原始数据的游标

A2/A3/A4   别离读入 orders、part、supplier 键值与序号对应关系表

A5   用 L_ORDERKEY 与 orders 对应关系表关联,用 L_PARTKEY 与 part 对应关系表关联,用 L_SUPPKEY 与 supplier 对应关系表关联

A6   用关联后的序号值替换键值生成新的游标

A7   创立序号化后的组表文件 lineitem_xh.ctx

A8   将序号化后的游标数据写入组表 lineitem_xh.ctx

三、序号化测试

1.   原始数据测试

维表预加载 SPL 脚本如下:

加载维表并建索引。

编写 SPL 测试脚本如下:

先运行维表预加载脚本,再运行测试脚本,失去测试脚本运行工夫为 450 秒。

2.  序号化数据测试

维表预加载 SPL 脚本如下:

加载的是序号化后的维表,不须要建设索引。

编写 SPL 测试脚本如下:

留神:A2 中关联时应用“:#”与维表关联,示意用事实表中的键值与维表的行号进行关联,如果键值是 7,则间接与维表的第 7 行关联。

先运行维表预加载脚本,再运行测试脚本,失去测试脚本运行工夫为 269 秒。

3.  剖析与论断

在下面两组对照试验中,序号化后的数据与序号化前相比,维表的记录数、字段数完全相同,事实表的记录数与字段数也完全相同,仅有相干的键值换成了序号。查问过程相比,过滤条件完全相同,过滤后的参加计算的数据完全相同,也就是说过滤与分组求和所用的工夫完全相同,所不同的仅有关联的形式 (行号关联、键值的 hash 值比对关联),而运行工夫缩小了 450-269=181 秒,可见,外键序号化对性能晋升成果非常显著。

四、进一步阐明

序号化的字段必须是维表的主键,但不限主键字段的数据类型,整数、字符串、日期、工夫等等都能够序号化。对于多主键维表,能够新增一个序号字段,建设多个键值与序号的对应关系表,并依此对事实表进行序号化。

一般来说,外键序号化技巧能够很不便地实用于历史数据的查问,只需对历史数据进行一次序号化就能够应用了,键值与序号对应关系表也无须再保留。

但外键序号化技巧同样实用于有新增数据的查问,只是会多减少些步骤。

1.  维表与事实表均有新增数据

1)先获得维表新减少的记录,追加键值与序号对应关系表;

2)再把新增记录追加到序号化后的维表,追加时根据键值与序号对应关系表;

3)再把事实表新减少的记录追加到序号化后的事实表,追加时根据键值与序号对应关系表;

2.  仅事实表有新增数据

在维表数据放弃不变的状况下,仅需进行上述第 3) 步即可。

解决好新增数据当前,就能够应用外键序号化关联查问技巧了。

退出移动版