关于数据库:OLAP系统场景中GaussDBfor-MySQL借助PQNDP让性能提升高达百倍

1.背景
OLAP（On-Line Analytical Processing）联机剖析解决，利用在数据仓库，应用对象是决策者。OLAP零碎强调的是数据分析，响应速度要求没那么高。

OLAP数据量大，因为OLAP反对的是动静查问，所以用户兴许要通过将很多数据的统计后能力失去想要晓得的信息，例如工夫序列剖析等等，所以解决的数据量很大。对于海量数据的查问剖析，尽管不要求及时出数据分析后果，能尽量的产后后果也显得比拟重要了。如果一个SQL一天出不了后果，那决策者必定也会不想用。为了进步SQL解决效率，GaussDB(for MySQL)提供了并行查问的形式。

2.并行查问
那什么是并行查问呢，官网介绍如下：

并行查问的根本实现原理是将查问工作进行切分并散发到多个CPU核上进行计算，充分利用CPU的多核计算资源来缩短查问工夫。并行查问的性能晋升倍数实践上与CPU的核数正相干，也就是说并行度越高可能应用的CPU核数就越多，性能晋升的倍数也就越高。

比方一个表count(*)的执行过程，如下图：

3.分布式海量数据进步查问效率
在海量数据场景下，个别会应用到分库分表，读写拆散，业务拆分，数据库分布式部署，各种中间件，各种缓存技术。对于曾经落地的数据而言，如果要剖析数据，如何进步查问效率呢，这又是一种比拟辣手的问题。对于此种问题，GaussDB(for MySQL)提出了一种新的解决形式，就是NDP（Near Data Processing）。

NDP次要针对是数据密集型查问，将提取列、条件过滤、聚合运算等操作向下推送给GaussDB(for MySQL)的分布式存储层的多个节点并行执行。通过计算下推，晋升并行处理能力，缩小网络流量和计算节点的压力，晋升查询处理执行效率。

NDP目前反对如下三类：

3.1、Projection
列裁剪，只有须要用到的相干列才被发送到查问引擎；

3.2、Aggregate
典型的聚合操作包含：count、sum、avg、max、min，只发送聚合后果（而不是所有元组）到查问引擎，count (*)是一个最常见的场景；

3.3、Select - where子句过滤
常见的条件表达式：Compare(>=, <=,<,>,==)、Between、In、And/Or、Like。

将过滤表达式下推送到存储层，只有满足条件的行才会发送到查问引擎。

3.4、反对范畴
以后反对InnoDB表进行计算下推；

以后反对COMPACT或DYNAMIC行格局的表；

以后反对对Primary Key或BTREE Index计算下推，HASH Index或Full-Text Index不反对计算下推；

以后只反对SELECT查问操作进行计算下推，其余DML语句不反对计算下推，INSERT INTO SELECT也不反对计算下推；SELECT 加锁查问(如 SELECT FOR SHARE/UPDATE)不反对计算下推；

汇集操作下推以后反对COUT/SUM/AVG/MAX/MIN函数，带GROUP BY语句的汇集操作暂不反对下推；

表达式下推反对反对数值类型，日志和工夫类型和局部字符串类型(CHAR, VARCHAR)，反对utf8mb4, utf8字符集；

表达式下推谓词反对比拟运算(<,>,=,<=,>=,!=), IN, NOT IN, LIKE, NOT LIKE, BETWEEN AND, AND/OR等操作符。

NDP官网架构图如下：

4.测试环境

4.1、开启并行（PQ）
GaussDB(for MySQL) 开启并行；

全局参数force_parallel_execute来管制是否强制启用并行执行；

应用全局参数parallel_default_dop来管制应用多少线程并行执行；

应用全局参数parallel_cost_threshold来管制当数据规模为多大时开启并行执行。

mysql> explain\-> select /*+ PQ(8) */\-> l_returnflag,\-> l_linestatus,\-> sum(l_quantity) as sum_qty,\-> sum(l_extendedprice) as sum_base_price,\-> sum(l_extendedprice * (1 - l_discount)) as sum_disc_price,\-> sum(l_extendedprice * (1 - l_discount) * (1 + l_tax)) as sum_charge,\-> avg(l_quantity) as avg_qty,\-> avg(l_extendedprice) as avg_price,\-> avg(l_discount) as avg_disc,\-> count(*) as count_order\-> from\-> lineitem t1\-> where\-> l_shipdate <= date ‘1998-12-01’ - interval ‘90’ day\-> group by\-> l_returnflag,\-> l_linestatus\-> order by\-> l_returnflag,\-> l_linestatus \\G*************************** 1. row ***************************id: 1select_type: SIMPLEtable:partitions: NULLtype: ALLpossible_keys: NULLkey: NULLkey_len: NULLref: NULLrows: 555253035filtered: 33.33Extra: Parallel execute (8 workers, tpch.t1)*************************** 2. row ***************************id: 1select_type: SIMPLEtable: t1partitions: NULLtype: ALLpossible_keys: NULLkey: NULLkey_len: NULLref: NULLrows: 555253035filtered: 33.33Extra: Using where; Using temporary; Using filesort2 rows in set, 1 warning (0.00 sec)

或用hint开启并行。

mysql> explain\-> select /*+ PQ(8) */\-> l_returnflag,\-> l_linestatus,\-> sum(l_quantity) as sum_qty,\-> sum(l_extendedprice) as sum_base_price,\-> sum(l_extendedprice * (1 - l_discount)) as sum_disc_price,\-> sum(l_extendedprice * (1 - l_discount) * (1 + l_tax)) as sum_charge,\-> avg(l_quantity) as avg_qty,\-> avg(l_extendedprice) as avg_price,\-> avg(l_discount) as avg_disc,\-> count(*) as count_order\-> from\-> lineitem t1\-> where\-> l_shipdate <= date ‘1998-12-01’ - interval ‘90’ day\-> group by\-> l_returnflag,\-> l_linestatus\-> order by\-> l_returnflag,\-> l_linestatus \\G*************************** 1. row ***************************id: 1select_type: SIMPLEtable:partitions: NULLtype: ALLpossible_keys: NULLkey: NULLkey_len: NULLref: NULLrows: 555253035filtered: 33.33Extra: Parallel execute (8 workers, tpch.t1)*************************** 2. row ***************************id: 1select_type: SIMPLEtable: t1partitions: NULLtype: ALLpossible_keys: NULLkey: NULLkey_len: NULLref: NULLrows: 555253035filtered: 33.33Extra: Using where; Using temporary; Using filesort2 rows in set, 1 warning (0.00 sec)4.2、开启NDPGaussDB(for MySQL)查看NDP是否开启。mysql> show variables like ‘ndp_mode’;±--------------±------+| Variable_name | Value |±--------------±------+| ndp_mode | OFF |±--------------±------+1 row in set (0.00 sec)GaussDB(for MySQL)开启NDP查问。mysql> set ndp_mode=on;Query OK, 0 rows affected (0.00 sec)mysql> explain select\-> l_returnflag,\-> l_linestatus,\-> sum(l_quantity) as sum_qty,\-> sum(l_extendedprice) as sum_base_price,\-> sum(l_extendedprice * (1 - l_discount)) as sum_disc_price,\-> sum(l_extendedprice * (1 - l_discount) * (1 + l_tax)) as sum_charge,\-> avg(l_quantity) as avg_qty,\-> avg(l_extendedprice) as avg_price,\-> avg(l_discount) as avg_disc,\-> count(*) as count_order\-> from\-> lineitem\-> where\-> l_shipdate <= date ‘1998-12-01’ - interval ‘90’ day\-> group by\-> l_returnflag,\-> l_linestatus\-> order by\-> l_returnflag,\-> l_linestatus\\G*************************** 1. row ***************************id: 1select_type: SIMPLEtable: lineitempartitions: NULLtype: ALLpossible_keys: NULLkey: NULLkey_len: NULLref: NULLrows: 555253035filtered: 33.33Extra: Using pushed NDP condition ((`tpch`.`lineitem`.`L_SHIPDATE` <= ((DATE’1998-12-01’ - interval ‘90’ day)))); Using pushed NDP columns; Using temporary; Using filesort1 row in set, 1 warning (0.00 sec)

或者用hint 开启 NO_NDP_PUSHDOWN ，NDP_PUSHDOWN。

如下：

mysql> explain\-> select /*+ NDP_PUSHDOWN(t1) */\-> l_returnflag,\-> l_linestatus,\-> sum(l_quantity) as sum_qty,\-> sum(l_extendedprice) as sum_base_price,\-> sum(l_extendedprice * (1 - l_discount)) as sum_disc_price,\-> sum(l_extendedprice * (1 - l_discount) * (1 + l_tax)) as sum_charge,\-> avg(l_quantity) as avg_qty,\-> avg(l_extendedprice) as avg_price,\-> avg(l_discount) as avg_disc,\-> count(*) as count_order\-> from\-> lineitem t1\-> where\-> l_shipdate <= date ‘1998-12-01’ - interval ‘90’ day\-> group by\-> l_returnflag,\-> l_linestatus\-> order by\-> l_returnflag,\-> l_linestatus \\G*************************** 1. row ***************************id: 1select_type: SIMPLEtable: t1partitions: NULLtype: ALLpossible_keys: NULLkey: NULLkey_len: NULLref: NULLrows: 555253035filtered: 33.33Extra: Using pushed NDP condition ((`tpch`.`t1`.`L_SHIPDATE` <= ((DATE’1998-12-01’ - interval ‘90’ day)))); Using pushed NDP columns; Using temporary; Using filesort1 row in set, 1 warning (0.00 sec)

测试的数据是通过tpch工具导入数据库中，100G数据。

TPC-H 是业界罕用的一套 Benchmark，由 TPC 委员会制订公布，用于评测数据库的剖析型查问能力。TPC-H 查问蕴含 8 张数据表、22 条简单的 SQL 查问，大多数查问蕴含若干表 Join、子查问和 Group-by 聚合等等。Q17、Q20不反对，所以没测。NDP适宜全内存场景，大数据IO场景有成果。

以下为64并行数据，因为NDP不显著，暂意外。
Q13 pq_msg_queue_size=67108864,为64M.
Q18 optimizer_switch =‘subquery_to_derived=ON’.

5.总结
GaussDB(for MySQL)比官网MySQL8.0快，Q9快的达到了100多倍，当然有些SQL差不多，比方第q13、q21、q22。PQ+NDP还有待优化，PQ与PQ+NDP 性能差不多。

开64并行有的SQL比开30并行要快，但并不是所有SQL都会晋升，有的反而变慢，比方Q2、Q11等，可能会有资源争用问题。

总的来说，GaussDB(for MySQL)NDP和PQ的性能有了很大的得升，期待当前反对更多的SQL场景。

墨天轮原文链接：https://www.modb.pro/db/18859...（复制到浏览器或者点击这里立刻查看）

对于作者
黄江平，云和恩墨MySQL DBA, Oracle OCP。现服务于金融证券行业，负责MySQL数据库SQL优化、数据库故障解决、备份复原、迁级降级、性能优化，有10年的数据库运维教训。