关于java:为什么我使用了索引查询还是慢

常常有同学问我，我的一个SQL语句应用了索引，为什么还是会进入到慢查问之中呢？明天咱们就从这个问题开始来聊一聊索引和慢查问。

另外插入一个题外话，集体认为团队要正当的应用ORM，能够参考 ORM的衡量和抉择。正当利用的是ORM在面向对象和写操作方面的劣势，防止联结查问上可能产生的坑(当然如果你的Linq查问能力很强另当别论)，因为ORM屏蔽了太多的DB底层的常识内容，对程序员不是件坏事，对性能有极致谋求，然而ORM了解不透彻的团队更加要审慎。

案例分析　

言归正传，为了试验，我创立了如下表：

CREATE TABLE `T`(
`id` int(11) NOT NULL,
`a` int(11) DEFAUT NULL,
PRIMARY KEY(`id`),
KEY `a`(`a`)
) ENGINE=InnoDB;

该表有三个字段，其中用id是主键索引，a是一般索引。

首先SQL判断一个语句是不是慢查问语句，用的是语句的执行工夫。他把语句执行工夫跟long_query_time这个零碎参数作比拟，如果语句执行工夫比它还大，就会把这个语句记录到慢查问日志外面，这个参数的默认值是10秒。当然在生产上，咱们不会设置这么大，个别会设置1秒，对于一些比拟敏感的业务，可能会设置一个比1秒还小的值。

语句执行过程中有没有用到表的索引，能够通过explain一个语句的输入后果来看KEY的值不是NULL。

咱们看下 explain select * from t;的KEY后果是NULL

　　（图一）

explain select * from t where id=2;的KEY后果是PRIMARY，就是咱们常说的应用了主键索引

　（图二）

explain select a from t;的KEY后果是a，示意应用了a这个索引。

　（图三）

尽管后两个查问的KEY都不是NULL，然而最初一个实际上扫描了整个索引树a。

假如这个表的数据量有100万行，图二的语句还是能够执行很快，然而图三就必定很慢了。如果是更极其的状况，比方，这个数据库上CPU压力十分的高，那么可能第2个语句的执行工夫也会超过long_query_time，会进入到慢查问日志外面。

所以咱们能够得出一个论断：是否应用索引和是否进入慢查问之间并没有必然的分割。应用索引只是示意了一个SQL语句的执行过程，而是否进入到慢查问是由它的执行工夫决定的，而这个执行工夫，可能会受各种内部因素的影响。换句话来说，应用了索引你的语句可能仍然会很慢。

全索引扫描的有余

那如果咱们在更深层次的看这个问题，其实他还潜藏了一个问题须要廓清，就是什么叫做应用了索引。

咱们都晓得，InnoDB是索引组织表，所有的数据都是存储在索引树下面的。比方下面的表t，这个表蕴含了两个索引，一个主键索引和一个一般索引。在InnoDB里，数据是放在主键索引里的。如图所示：

能够看到数据都放在主键索引上，如果从逻辑上说，所有的InnoDB表上的查问，都至多用了一个索引，所以当初我问你一个问题，如果你执行select from t where id>0，你感觉这个语句有用上索引吗？

咱们看下面这个语句的explain的输入结果显示的是PRIMARY。其实从数据上你是晓得的，这个语句肯定是做了全面扫描。然而优化器认为，这个语句的执行过程中，须要依据主键索引，定位到第1个满足ID>0的值，也算用到了索引。

所以即便explain的后果里写的KEY不是NULL，实际上也可能是全表扫描的，因而InnoDB外面只有一种状况叫做没有应用索引，那就是从主键索引的最右边的叶节点开始，向右扫描整个索引树。

也就是说，没有应用索引并不是一个精确的形容。

你能够用全表扫描来示意一个查问遍历了整个主键索引树；

也能够用全索引扫描，来阐明像select a from t;这样的查问，他扫描了整个一般索引树；

而select * from t where id=2这样的语句，才是咱们平时说的应用了索引。他示意的意思是，咱们应用了索引的疾速搜寻性能，并且无效的缩小了扫描行数。

索引的过滤性要足够好

依据以上解剖，咱们晓得全索引扫描会让查问变慢，接下来就要来谈谈索引的过滤性。

假如你当初保护了一个表，这个表记录了中国14亿人的根本信息，当初要查出所有年龄在10~15岁之间的姓名和根本信息，那么你的语句会这么写，select * from t_people where age between 10 and 15。

你一看这个语句肯定要在age字段上开始建设索引了，否则就是个全面扫描，然而你会发现，在你建设索引当前，这个语句还是执行慢，因为满足这个条件的数据可能有超过1亿行。

咱们来看看建设索引当前，这个表的组织结构图：

这个语句的执行流程是这样的:
从索引上用树搜寻，取到第1个age等于10的记录，失去它的主键id的值，依据id的值去主键索引取整行的信息，作为后果集的一部分返回；

在索引age上向右扫描，取下一个id的值，到主键索引上取整行信息，作为后果集的一部分返回；

反复下面的步骤，直到碰到第1个age大于15的记录；

你看这个语句，尽管他用了索引，然而他扫描超过了1亿行。所以你当初晓得了，当咱们在探讨有没有应用索引的时候，其实咱们关怀的是扫描行数。

对于一个大表，不止要有索引，索引的过滤性还要足够好。

像方才这个例子的age，它的过滤性就不够好，在设计表构造的时候，咱们要让所有的过滤性足够好，也就是区分度足够高。

回表的代价

那么过滤性好了，是不是示意查问的扫描行数就肯定少呢？

咱们再来看一个例子：

如果你的执行语句是 select * from t_people where name='张三' and age=8

t_people表上有一个索引是姓名和年龄的联结索引，那这个联结索引的过滤性应该不错，能够在联结索引上疾速找到第1个姓名是张三，并且年龄是8的小朋友，当然这样的小朋友应该不多，因而向右扫描的行数很少，查问效率就很高。

然而查问的过滤性和索引的过滤性可不肯定是一样的，如果当初你的需要是查出所有名字的第1个字是张，并且年龄是8岁的所有小朋友，你的语句会怎么写呢？

你的语句要怎么写？很显然你会这么写：select * from t_people where name like '张%' and age=8;

在MySQL5.5和之前的版本中，这个语句的执行流程是这样的:

首先从联结索引上找到第1个年龄字段是张结尾的记录，取出主键id，而后到主键索引树上，依据id取出整行的值；

判断年龄字段是否等于8，如果是就作为后果集的一行返回，如果不是就抛弃。

在联结索引上向右遍历，并反复做回表和判断的逻辑，直到碰到联结索引树上名字的第1个字不是张的记录为止。

咱们把依据id到主键索引上查找整行数据这个动作，称为回表。你能够看到这个执行过程外面，最消耗工夫的步骤就是回表，假如全国名字第1个字是张的人有8000万，那么这个过程就要回表8000万次，在定位第一行记录的时候，只能应用索引和联结索引的最左前缀，最称为最左前缀准则。

你能够看到这个执行过程，它的回表次数特地多，性能不够好，有没有优化的办法呢？

在MySQL5.6版本，引入了index condition pushdown的优化。咱们来看看这个优化的执行流程：

首先从联结索引树上，找到第1个年龄字段是张结尾的记录，判断这个索引记录外面，年龄的值是不是8，如果是就回表，取出整行数据，作为后果集的一部分返回，如果不是就抛弃；

在联结索引树上，向右遍历，并判断年龄字段后，依据须要做回表，直到碰到联结索引树上名字的第1个字不是张的记录为止；

这个过程跟下面的差异，是在遍历联结索引的过程中，将年龄等于8的条件下推到所有遍历的过程中，缩小了回表的次数，假如全国名字第1个字是张的人外面，有100万个是8岁的小朋友，那么这个查问过程中在联结索引里要遍历8000万次，而回表只须要100万次。

虚构列

能够看到这个优化的成果还是很不错的，然而这个优化还是没有绕开最左前缀准则的限度，因而在联结索引你还是要扫描8000万行，那有没有更进一步的优化办法呢？

咱们能够思考把名字的第一个字和age来做一个联结索引。这里能够应用MySQL5.7引入的虚构列来实现。对应的批改表构造的SQL语句:

alter table t_people add name_first varchar(2) generated (left(name,1)),add index(name_first,age);

咱们来看这个SQL语句的执行成果:

CREATE TABLE `t_people`(
`id` int(11) DEFAULT NULL,
`name` varchar(20) DEFAUT NULL,
`name_first` varchar(2) GENERATED ALWAYS AS (left(`name`,1)) VIRTUAL,KEY `name_first`(`name_first`,'age')
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

首先他在people上创立一个字段叫name_first的虚构列，而后给name_first和age上创立一个联结索引，并且，让这个虚构列的值总是等于name字段的前两个字节，虚构列在插入数据的时候不能指定值，在更新的时候也不能被动批改，它的值会依据定义主动生成，在name字段批改的时候也会主动批改。

有了这个新的联结索引，咱们在找名字的第1个字是张，并且年龄为8的小朋友的时候，这个SQL语句就能够这么写：select * from t_people where name_first=’张’ and age=8。

这样这个语句的执行过程，就只须要扫描联结索引的100万行，并回表100万次，这个优化的实质是咱们创立了一个更紧凑的索引，来减速了查问的过程。

总结

本文给你介绍了索引的根本构造和一些查问优化的基本思路，你当初晓得了，应用索引的语句也有可能是慢查问，咱们的查问优化的过程，往往就是缩小扫描行数的过程。

慢查问归纳起来大略有这么几种状况：

全表扫描
全索引扫描
索引过滤性不好
频繁回表的开销

思考

假如业务要求的就是要统计年龄在10-15岁的14亿人的数量，不能减少过滤因子，那该怎么办？(select * from t_people where age between 10 and 15)

假如该统计必须是OLTP，实时展现统计数据，又该怎么解决？

欢送关注公众号【码农开花】一起学习成长
我会始终分享Java干货，也会分享收费的学习材料课程和面试宝典
回复：【计算机】【设计模式】【面试】有惊喜哦

关于java:为什么我使用了索引查询还是慢

案例分析

全索引扫描的有余

索引的过滤性要足够好

回表的代价

虚构列

总结

思考

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于java:为什么我使用了索引查询还是慢

案例分析

全索引扫描的有余

索引的过滤性要足够好

回表的代价

虚构列

总结

思考

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

案例分析　

发表回复取消回复