深入浅出Mysql索引的那些事儿

jiezi

5 年前

文章来源：公众号：猿人谷

一般的应用系统，读写比例在 10:1 左右，而且插入操作和一般的更新操作很少出现性能问题，遇到最多的，也是最容易出问题的，还是一些复杂的查询操作，所以查询语句的优化显然是重中之重。

在数据量和访问量不大的情况下，mysql 访问是非常快的，是否加索引对访问影响不大。但是当数据量和访问量剧增的时候，就会发现 mysql 变慢，甚至 down 掉，这就必须要考虑优化 sql 了，给数据库建立正确合理的索引，是 mysql 优化的一个重要手段。

索引的目的在于提高查询效率，可以类比字典，如果要查“mysql”这个单词，我们肯定需要定位到 m 字母，然后从上往下找到 y 字母，再找到剩下的 sql。如果没有索引，那么你可能需要把所有单词看一遍才能找到你想要的。除了词典，生活中随处可见索引的例子，如火车站的车次表、图书的目录等。它们的原理都是一样的，通过不断的缩小想要获得数据的范围来筛选出最终想要的结果，同时把随机的事件变成顺序的事件，也就是我们总是通过同一种查找方式来锁定数据。

在创建索引时，需要考虑哪些列会用于 SQL 查询，然后为这些列创建一个或多个索引。事实上，索引也是一种表，保存着主键或索引字段，以及一个能将每个记录指向实际表的指针。数据库用户是看不到索引的，它们只是用来加速查询的。数据库搜索引擎使用索引来快速定位记录。

INSERT 与 UPDATE 语句在拥有索引的表中执行会花费更多的时间，而 SELECT 语句却会执行得更快。这是因为，在进行插入或更新时，数据库也需要插入或更新索引值。

索引的类型：

UNIQUE(唯一索引)：不可以出现相同的值，可以有 NULL 值
INDEX(普通索引)：允许出现相同的索引内容
PROMARY KEY(主键索引)：不允许出现相同的值
fulltext index(全文索引)：可以针对值中的某个单词，但效率确实不敢恭维
组合索引：实质上是将多个字段建到一个索引里，列值的组合必须唯一

温馨提示：根据《阿里巴巴 Java 开发手册》里的 mysql 规约，唯一索引建议命名为uk_字段名，普通索引名则为idx_字段名。（uk_即 unique key; idx_即 index 的简称）。

应用于表创建完毕之后再添加。

ALTER TABLE 表名 ADD 索引类型（unique,primary key,fulltext,index）[索引名]（字段名）

// 普通索引
alter table table_name add index index_name (column_list) ;
// 唯一索引
alter table table_name add unique (column_list) ;
// 主键索引
alter table table_name add primary key (column_list) ;

ALTER TABLE 可用于创建普通索引、UNIQUE 索引和 PRIMARY KEY 索引 3 种索引格式，table_name 是要增加索引的表名，column_list 指出对哪些列进行索引，多列时各列之间用逗号分隔。索引名 index_name可选，缺省时，MySQL 将根据第一个索引列赋一个名称。另外，ALTER TABLE 允许在单个语句中更改多个表，因此可以同时创建多个索引。

CREATE INDEX 可用于对表增加普通索引或 UNIQUE 索引，可用于建表时创建索引。

CREATE INDEX index_name ON table_name(username(length));

如果是 CHAR，VARCHAR 类型，length 可以小于字段实际长度；如果是 BLOB 和 TEXT 类型，必须指定 length。

// 只能添加这两种索引;
CREATE INDEX index_name ON table_name (column_list)
CREATE UNIQUE INDEX index_name ON table_name (column_list)

table_name、index_name 和 column_list 具有与 ALTER TABLE 语句中相同的含义，索引名不可选。另外，不能用 CREATE INDEX 语句创建 PRIMARY KEY 索引。

删除索引可以使用 ALTER TABLE 或 DROP INDEX 语句来实现。DROP INDEX 可以在 ALTER TABLE 内部作为一条语句处理，其格式如下：

drop index index_name on table_name ;

alter table table_name drop index index_name ;

alter table table_name drop primary key ;

其中，在前面的两条语句中，都删除了 table_name 中的索引 index_name。而在最后一条语句中，只在删除 PRIMARY KEY 索引中使用，因为一个表只可能有一个 PRIMARY KEY 索引，因此不需要指定索引名。如果没有创建 PRIMARY KEY 索引，但表具有一个或多个 UNIQUE 索引，则 MySQL 将删除第一个 UNIQUE 索引。

如果从表中删除某列，则索引会受影响。对于多列组合的索引，如果删除其中的某列，则该列也会从索引中删除。如果删除组成索引的所有列，则整个索引将被删除。

在这里要指出，组合索引和前缀索引是对建立索引技巧的一种称呼，并不是索引的类型。为了更好的表述清楚，建立一个 demo 表如下。

create table USER_DEMO
(
   ID                   int not null auto_increment comment '主键',
   LOGIN_NAME           varchar(100) not null comment '登录名',
   PASSWORD             varchar(100) not null comment '密码',
   CITY                 varchar(30) not null comment '城市',
   AGE                  int not null comment '年龄',
   SEX                  int not null comment '性别(0: 女 1：男)',
   primary key (ID)
);

为了进一步榨取 mysql 的效率，就可以考虑建立组合索引，即将 LOGIN_NAME,CITY,AGE 建到一个索引里：

ALTER TABLE USER_DEMO ADD INDEX name_city_age (LOGIN_NAME(16),CITY,AGE);

建表时，LOGIN_NAME 长度为 100，这里用 16，是因为一般情况下名字的长度不会超过 16，这样会加快索引查询速度，还会减少索引文件的大小，提高 INSERT，UPDATE 的更新速度。

如果分别给 LOGIN_NAME,CITY,AGE 建立单列索引，让该表有 3 个单列索引，查询时和组合索引的效率是大不一样的，甚至远远低于我们的组合索引。虽然此时有三个索引，但 mysql 只能用到其中的那个它认为似乎是最有效率的单列索引，另外两个是用不到的，也就是说还是一个全表扫描的过程。

建立这样的组合索引，就相当于分别建立如下三种组合索引：

LOGIN_NAME,CITY,AGE
LOGIN_NAME,CITY
LOGIN_NAME

为什么没有 CITY,AGE 等这样的组合索引呢 ？这是因为 mysql 组合索引“最左前缀 ” 的结果。简单的理解就是只从最左边的开始组合，并不是只要包含这三列的查询都会用到该组合索引。也就是说 name_city_age(LOGIN_NAME(16),CITY,AGE) 从左到右进行索引，如果没有左前索引，mysql 不会执行索引查询。

如果索引列长度过长, 这种列索引时将会产生很大的索引文件, 不便于操作, 可以使用前缀索引方式进行索引，前缀索引应该控制在一个合适的点, 控制在 0.31 黄金值即可(大于这个值就可以创建)。

SELECT COUNT(DISTINCT(LEFT(`title`,10)))/COUNT(*) FROM Arctic; -- 这个值大于 0.31 就可以创建前缀索引,Distinct 去重复

ALTER TABLE `user` ADD INDEX `uname`(title(10)); -- 增加前缀索引 SQL, 将人名的索引建立在 10, 这样可以减少索引文件大小, 加快索引查询速度

EXPLAIN可以帮助开发人员分析 SQL 问题,explain 显示了 mysql 如何使用索引来处理 select 语句以及连接表, 可以帮助选择更好的索引和写出更优化的查询语句。

使用方法, 在 select 语句前加上 Explain 就可以了：

Explain select * from user where id=1;

尽量避免这些不走索引的 sql：

SELECT name,phone FROM `user` WHERE `age`+10=30; -- 不会使用索引, 因为所有索引列参与了计算

SELECT name,phone  FROM `user` WHERE LEFT(`date`,4) <1990; -- 不会使用索引, 因为使用了函数运算, 原理与上面相同

SELECT * FROM `user` WHERE `name` LIKE'后盾 %' -- 走索引

SELECT * FROM `user` WHERE `name` LIKE "% 后盾 %" -- 不走索引

-- 正则表达式不使用索引, 这应该很好理解, 所以为什么在 SQL 中很难看到 regexp 关键字的原因

-- 字符串与数字比较不使用索引;
CREATE TABLE `a` (`a` char(10));
EXPLAIN SELECT * FROM `a` WHERE `a`="1" -- 走索引
EXPLAIN SELECT * FROM `a` WHERE `a`=1 -- 不走索引

select * from dept where dname='xxx' or loc='xx' or deptno=45 -- 如果条件中有 or, 即使其中有条件带索引也不会使用。换言之, 就是要求使用的所有字段, 都必须建立索引, 我们建议大家尽量避免使用 or 关键字

-- 如果 mysql 估计使用全表扫描要比使用索引快, 则不使用索引

索引虽然好处很多，但过多的使用索引可能带来相反的问题，索引也是有缺点的：

虽然索引大大提高了查询速度，同时却会降低更新表的速度，如对表进行 INSERT,UPDATE 和 DELETE。因为更新表时，mysql 不仅要保存数据，还要保存一下索引文件
建立索引会占用磁盘空间的索引文件。一般情况这个问题不太严重，但如果你在要给大表上建了多种组合索引，索引文件会膨胀很宽

索引只是提高效率的一个方式，如果 mysql 有大数据量的表，就要花时间研究建立最优的索引，或优化查询语句。

索引不会包含有 NULL 的列
只要列中包含有 NULL 值，都将不会被包含在索引中，复合索引中只要有一列含有 NULL 值，那么这一列对于此符合索引就是无效的。
使用短索引
对串列进行索引，如果可以就应该指定一个前缀长度。例如，如果有一个 char（255）的列，如果在前 10 个或 20 个字符内，多数值是唯一的，那么就不要对整个列进行索引。短索引不仅可以提高查询速度而且可以节省磁盘空间和 I / O 操作。
索引列排序
mysql 一张表查询只能用到一个索引。因此如果 where 子句中已经使用了索引的话，那么 order by 中的列是不会使用索引的。因此数据库默认排序可以符合要求的情况下不要使用排序操作，尽量不要包含多个列的排序，如果需要最好给这些列建复合索引。这一点是很多程序猿容易忽略的，如 where 子句的字段建了索引，排序的字段建了索引，但是分开建的，以为会走索引，其实这样的话排序的字段不会使用索引的，除非建复合索引，切记。
like 语句操作
一般情况下不鼓励使用 like 操作，如果非使用不可，注意正确的使用方式。like ‘%aaa%’ 不会使用索引，而 like ‘aaa%’ 可以使用索引。
不要在列上进行运算
不使用 NOT IN、<>、！= 操作，但 <,<=，=，>,>=,BETWEEN,IN 是可以用到索引的。
索引要建立在经常进行 select 操作的字段上。
这是因为，如果这些列很少用到，那么有无索引并不能明显改变查询速度。相反，由于增加了索引，反而降低了系统的维护速度和增大了空间需求。
索引要建立在值比较唯一的字段上。
对于那些定义为 text、image 和 bit 数据类型的列不应该增加索引。因为这些列的数据量要么相当大，要么取值很少。
在 where 和 join 中出现的列需要建立索引。
where 的查询条件里有不等号(where column != …),mysql 将无法使用索引。
如果 where 字句的查询条件里使用了函数(如：where DAY(column)=…),mysql 将无法使用索引。
在 join 操作中(需要从多个数据表提取数据时)，mysql 只有在主键和外键的数据类型相同时才能使用索引，否则即使建立了索引也不会使用。这一点很容易忽略，切记，切记，切记！
在进行联表查询时，建立关联的表的字段类型最好一样且长度一致，这样能更好的发挥索引的作用。
组合索引时切记此条约束：组合索引中有多个字段，其中一个字段是有范围判断，则需将此字段在最后面。如
```
 ALTER TABLE USER_DEMO ADD INDEX name_age (NAME,AGE);  
```
```
因为 age 会有范围判断，则建组合索引时将 AGE 字段放在后面。
```
字符集字段比较，UTF8 与 UTF-BIN 联合查询是不能走索引的。

如某张表的 order_no 字段类型为 varchar(50), 另一张表的 order_no 字段类型为 varchar(50) COLLATE utf8_BIN。则此时联合查询时不能走索引的，切记。
即两张表的字段类型如下：
```
  `order_no` varchar(50) COLLATE utf8_bin NOT NULL DEFAULT ''COMMENT' 订单号 ';
  `order_no` varchar(50) NOT NULL DEFAULT ''COMMENT' 订单号 ';
```
以下几种情况不适合建索引：
- 表记录太少
- 经常插入、删除、修改的表
- 数据重复且分布平均的表字段。如一个表有 10 万行记录，其中字段 column1 只有 A 和 B 两种值，且每个值的分布概率大约为 50%，那么对这种表 column1 字段建索引一般不会提高数据库的查询速度。
给表创建主键，对于没有主键的表，在查询和索引定义上有一定的影响。
避免表字段为 null，建议设置默认值（如 int 类型设置默认值为 0），这样在索引查询上，效率会高很多。
关于 order by 的索引问题重点说下:
- 无条件查询如果只有 order by create_time，即便 create_time 上有索引，也不会使用到。
  因为优化器认为走二级索引再去回表成本比全表扫描排序更高，所以选择走权标扫描。
- 无条件查询但是 order by create_time limit m，如果 m 值较小，是可以走索引的。
  因为优化器认为根据索引有序性去回表查数据，然后得到 m 条数据，就可以终止循环，
  那么成本比全表扫描小，则选择走二级索引。
  即便没有二级索引，mysql 针对 order by limit 也做了优化，采用堆排序。
- order by 排序分为 file sort 和 index，index 的效率更高。但以下情况不会使用 index 排序：
  - 检查的行数过多，并且没有使用覆盖索引
  - 使用了多个索引，mysql 一次只会采用一个索引
  - where 和 order by 使用了不同的索引，与上一条类似
  - order by 中加入了非索引列，且非索引列不在 where 中
  - 当使用 left join，使用右边的表字段排序

深入浅出Mysql索引的那些事儿

一. 索引的作用

二. 索引的创建、删除

(1)使用 ALTER TABLE 语句创建索性

(2)使用 CREATE INDEX 语句对表增加索引

(3)删除索引

(4) 组合索引与前缀索引

三. 索引的使用及注意事项

使用索引时，有一些技巧