咱们晓得，大数据运算性能的瓶颈经常是在外存（也就是硬盘）IO上，因为外存拜访性能要比内存低一两个数量级。因而，做性能优化时，缩小硬盘的访问量有时要比缩小CPU计算量更为重要。同一个工作，如果能应用硬盘访问量更少的算法，即便CPU计算量不变甚至略多一点，也会取得更好的性能。

分组汇总须要对数据集进行遍历。同一个数据集可能会按不同维度进行分组，这样原则上就要遍历屡次，大数据时就会波及多遍硬盘拜访。然而，如果咱们能在一次遍历过程中计算出多个维度的分组后果，那就会缩小很多硬盘访问量。

惋惜，SQL无奈写出这样的运算（在遍历中返回多个分组后果），只能遍历屡次，或者寄希望于数据库引擎是否能优化。而SPL则反对这种遍历复用的语法，能够一次遍历计算出多个分组后果，从而进步性能。

上面咱们做一下测试，以Oracle为例看数据库是否会对屡次遍历的计算进行优化，以及在SPL中采纳遍历复用算法对性能的影响。

一、数据筹备和环境

SPL脚本生成数据文件，数据共两列，第一列id是小于20亿的随机整数，第二列amount是不大于1千万的随机实数。数据记录为80亿行，生成的原始文本文件大小为169G。利用数据库提供的数据导入工具将此文件数据导入到Oracle的数据表topn中，同时也用此文件数据生成SPL组表文件topn.ctx。

在一台Intel服务器上实现测试，2个Intel3014 CPU，主频1.7G，共12核，内存64G。数据库表数据及SPL组表文件均存储在同一块SSD硬盘上。

这里刻意把数据量造得比内存大，以保障操作系统不可能把这些数据都缓存进内存，理论运算时肯定会读取硬盘。

二、 Oracle测试

测试分成三种状况：单分组单倍计算量、单分组双倍计算量、双分组双倍计算量。

1. 单分组单倍计算量

select /+ parallel(12) / mod(id,100) Aid,max(amount) Amax from topn group by mod(id,100)

2. 单分组双倍计算量

select /+ parallel(12) / mod(id,100)+floor(id/20000000) Aid, max(amount) Amax, min(amount) Amin from topn group by mod(id,100)+floor(id/20000000);

计算式多了一倍，相当于计算量大了一倍。

3. 双分组双倍计算量

select /+ parallel(12) / * from (select mod(id,100) Aid,max(amount) Amax from topn group by mod(id,100) ) A
join
( select floor(id/20000000) Bid,min(amount) Bmin from topn group by floor(id/20000000) ) B
on A.Aid=B.Bid;

这里的计算量大体与2雷同，但有两个分组，咱们将察看数据库是否会进行两次遍历。最初的JOIN运算只波及100行数据，工夫能够忽略不计。

三、 SPL测试

咱们把Oracle做的测试用SPL再做一遍。

1. 单分组单倍计算量

编写SPL脚本执行测试：

2. 单分组双倍计算量

编写SPL脚本执行测试：

3. 双分组双倍计算量

编写SPL脚本执行测试：

这里采纳了SPL特有的遍历复用语法，在A3定义了游标，A4/B4和A5/B5中定义了两套针对这个游标的计算，示意会在一次游标遍历过程同时计算这两个后果。

四、剖析与论断

三种状况的测试用时如下表：

测试后果（工夫单位：秒）

从Oracle的测试后果上看，双分组双倍计算量比单分组双倍计算量慢了近200秒，这不是一个能够疏忽的工夫了，因为两者的计算量简直雷同，这多进去的工夫预计就是多做一次遍历的工夫了。这阐明数据库不会主动做遍历复用的优化，在双分组时会将数据表遍历两次，后果多做一次分组简直会多出一倍的工夫。

而SPL采纳了遍历复用的机制，三个测试的计算工夫相差很小，多做一次分组并不会多一次遍历，只是多了一些复用管制的逻辑，不会变慢多少。

阐明一下，筹备数据时把Oracle的amount字段类型设置成decimal了，所以计算速度比较慢；而SPL组表中用的是double类型，所以要快得多。但这个测试不是比照Oracle和SPL的计算性能，这些不同并不影响下面的论断。

一、 数据筹备和环境

二、 Oracle测试

1. 单分组单倍计算量

2. 单分组双倍计算量

3. 双分组双倍计算量

三、 SPL测试

1. 单分组单倍计算量

2. 单分组双倍计算量

3. 双分组双倍计算量

四、 剖析与论断

一、数据筹备和环境

四、剖析与论断