关于数据库:数据库索引

43次阅读

共计 1770 个字符，预计需要花费 5 分钟才能阅读完成。

索引概述
数据库索引是用于进步数据库表的数据访问速度的。想要了解索引原理必须分明一种数据结构「均衡树」(非二叉)，也就是 b tree 或者 b+ tree，重要的事件说三遍：“均衡树，均衡树，均衡树”。当然，有的数据库也应用哈希桶作用索引的数据结构。然而，支流的 RDBMS 都是把均衡树当做数据表默认的索引数据结构的。

索引特点
防止进行数据库全表的扫描，大多数状况，只须要扫描较少的索引页和数据页，而不是查问所有数据页。而且对于非汇集索引，有时不须要拜访数据页即可失去数据。
汇集索引能够防止数据插入操作，集中于表的最初一个数据页面。
在某些状况下，索引能够防止排序操作。
汇集索引
咱们平时建表的时候都会为表加上主键，在某些关系数据库中，如果建表时不指定主键，数据库会回绝建表的语句执行。事实上，一个加了主键的表，并不能被称之为「表」。一个没加主键的表，它的数据无序的搁置在磁盘存储器上，一行一行的排列的很参差，跟我认知中的「表」很靠近。如果给表上了主键，那么表在磁盘上的存储构造就由参差排列的构造转变成了树状构造，也就是下面说的「均衡树」构造，换句话说，就是整个表就变成了一个索引。没错，再说一遍，整个表变成了一个索引，也就是所谓的「汇集索引」。

这就是为什么一个表只能有一个主键，一个表只能有一个「汇集索引」，因为主键的作用就是把「表」的数据格式转换成「索引（均衡树）」的格局搁置。

上图就是带有主键的表（汇集索引）的结构图。其中树的所有结点（底部除外）的数据都是由主键字段中的数据形成，也就是通常咱们指定主键的 id 字段。最上面局部是真正表中的数据。

如果咱们执行一个 SQL 语句：select * from table where id = 1256;

首先依据索引定位到 1256 这个值所在的叶结点，而后再通过叶结点取到 id 等于 1256 的数据行。这里不解说均衡树的运行细节，然而从图能看出，树一共有三层，从根节点至叶节点只须要通过三次查找就能失去后果。如下图

查找次数是以树的分叉数为底，记录总数的对数，用公式来示意就是：

因而，利用索引会使数据库查问有惊人的性能晋升。

非汇集索引
非汇集索引和汇集索引一样，同样是采纳均衡树作为索引的数据结构。索引树结构中各节点的值来自于表中的索引字段，如果给 user 表的 name 字段加上索引，那么索引就是由 name 字段中的值形成，在数据扭转时，DBMS 须要始终保护索引构造的正确性。如果给表中多个字段加上索引，那么就会呈现多个独立的索引构造，每个索引（非汇集索引）相互之间不存在关联。如下图

每次给字段建一个新索引，字段中的数据就会被复制一份进去，用于生成索引。因而，给表增加索引，会减少表的体积，占用磁盘存储空间。

非汇集索引和汇集索引的区别
非汇集索引和汇集索引的区别在于，通过汇集索引能够查到须要查找的数据，而通过非汇集索引能够查到记录对应的主键值，再应用主键的值通过汇集索引查找到须要的数据，如下图

不论以任何形式查问表，最终都会利用主键通过汇集索引来定位到数据，汇集索引（主键）是通往实在数据所在的惟一门路。

笼罩索引
然而，有一种例外能够不应用汇集索引就能查问出所须要的数据，这种非主流的办法称之为「笼罩索引」查问，也就是平时所说的复合索引或者多字段索引查问。

当为字段建设索引当前，字段中的内容会被同步到索引之中，如果为一个索引指定两个字段，那么这个两个字段的内容都会被同步至索引之中。

例：咱们把 birthday 字段上的索引写成双字段的笼罩索引

create index index_birthday_and_user_name on user_info(birthday, user_name);

这句 SQL 语句的执行过程就会变为：通过非汇集索引 index_birthday_and_user_name 查找 birthday 等于 1991-11- 1 的叶节点的内容，然而，叶节点中除了有 user_info 表主键 ID 的值以外，user_name 字段的值也在外面，因而不须要通过主键 ID 值的查找数据行的实在所在，间接获得叶节点中 user_name 的值返回即可。

通过这种笼罩索引间接查找的形式，能够省略不应用笼罩索引查找的前面两个步骤，大大的进步了查问性能，如下图

数据库索引的大抵工作原理就是像文中所述，然而细节方面可能会略有偏差，这但并不会对概念论述的后果产生影响游戏。

正文完