关于数据库:图解MySQL是如何运行的

一.MySQL的一条查问语句是怎么运行的

一条查问语句的执行过程个别是通过连接器、分析器、优化器、执行器等功能模块，最初达到存储引擎。

如果在MySQL中有一个查问会话申请，那么大略流程如下：

（1）MySQL客户端对MySQL Server的监听端口发动申请。

（2）在连贯者组件层创立连贯、调配线程，并验证用户名、明码和库表权限。

（3）如果关上了query_cache，则查看之，有数据间接返回，没有持续往下执行。

（4）SQL接口组件接管SQL语句，将SQL语句分解成数据结构，并将这个构造传递到后续步骤中（将SQL语句解析成MySQL意识的语法）。

（5）查问优化器组件生成查问门路树，并选举一条最优的查问门路。

（6）调用存储引擎接口，关上表，执行查问，查看存储引擎缓存中是否有对应的缓存记录，如果没有就持续往下执行。

（7）到磁盘物理文件中寻找数据。

（8）当查问到所须要的数据之后，先写入存储引擎缓存中，如果关上了query_cache，也会同时写进去。

（9）返回数据给客户端。

（10）敞开表。

（11）敞开线程。

（12）敞开连贯。

作用：

连贯层

（1）提供连贯协定：TCP/IP 、SOCKET形式等连贯验证。

（2）提供验证：用户、明码验证。

（3）提供专用连接线程：接管用户SQL，返回后果。

Server层

（1）接管下层传送的SQL语句。

（2）语法验证模块：验证语句语法,是否满足SQL_MODE。

（3）语义查看：判断SQL语句的类型：

DDL ：数据定义语言

DCL ：数据管制语言

DML ：数据操作语言

DQL：数据查询语言

...

（4）权限查看：用户对库表有没有权限。

（5）解析器：对语句执行前,进行预处理，生成解析树(执行打算),说白了就是生成多种执行计划。

（6）优化器：依据解析器得出的多种执行打算，进行判断，抉择最优的执行打算。

代价模型：资源（CPU IO MEM）的耗损评估性能好坏。

（7）执行器：依据最优执行打算，执行SQL语句，产生执行后果。

（8）提供查问缓存（默认是没开启的），会应用redis tair代替查问缓存性能。

（9）提供日志记录（日志治理章节）：binlog，默认是没开启的。

二.MySQL的一条更新语句是怎么运行的

0、数据更新时执行器先找buffer pool缓存池中，如果在缓冲池中，同时返回给执行器。

1、如果未命中缓存，须要先从磁盘读入内存，而后再返回给执行器。

2、不论是否命中缓存，都须要将更新前的旧数据写入到undo中。

3、更新内存，此时变成脏数据，后续会调用接口将数据落盘。

4.5、同时将这个更新操作记录到redo log外面，此时redo log处于 prepare 状态。而后告知执行器执行实现了，随时能够提交事务。

6.7、执行器生成这个操作的binlog，并把binlog写入磁盘。

8、执行器调用引擎的提交事务接口，引擎把刚刚写入的redo log改成提交（commit）状态，更新实现。

9.10.11、数据落盘。

三.MySQL的数据是如何保障不丢的

从下面的流程图能够看出，MySQL采纳了wal机制。

只有redo log和binlog保障长久化到磁盘，就能确保MySQL异样重启后，数据能够复原。

1.redo和binlog的落盘策略

redo和binlog的落盘还波及一个操作系统缓存。

innodb_flush_log_at_trx_commit = 0/1/2
1: 示意每次事务提交时都将redo log间接长久化到磁盘。

0：示意每次事务提交时都只是把redo log留在redo log buffer中，而后每秒刷新redo buffer到OS cache，再fsync到磁盘，异样宕机时，会有可能导致失落一秒内事务。

2：示意每次事务提交时都只是把redo log写到OS cache，再每秒fsync（）磁盘。异样宕机时，会有可能失落1秒内的事务。数据库宕机不失落。

sync_binlog= 0/1/n
0：示意每次提交事务都只write，不fsync，每过一秒fsync到磁盘，每一秒刷一次磁盘。

1：示意每次事务提交都刷一次磁盘，也就是每次提交事务都会执行fsync。

n：（100 200 500）示意每次提交事务都write到OS cache，但累积 N 个事务后才 fsync 到磁盘。

innodb_flush_log_at_trx_commit=1
sync_binlog=1
双1配置，数据库的安全性是最高的，不会丢事务。

其中redo和脏数据的落盘策略波及如下参数：

innodb_flush_method
fsync的个性：

buffer pool的数据写磁盘的时候，须要先经验OS cache而后在写磁盘。

redo buffer的数据写磁盘的时候，须要先经验OS cache而后在写磁盘。

O_DSYNC:

buffer pool的数据写磁盘的时候，须要先经验OS cache而后在写磁盘。

redo buffer的数据写磁盘的时候，穿过OS cache间接写到磁盘。

O_DIRECT：

buffer pool的数据写磁盘的时候，跨过OS cache而后在写磁盘。

redo buffer的数据写磁盘的时候，须要先经验OS cache而后在写磁盘。

2.二阶段提交

步骤：

更新操作记录到redo log外面，此时redo log处于prepare状态。

告知执行器执行实现了，随时能够提交事务。执行器生成这个操作的binlog，并把binlog写入磁盘。

执行器调用引擎的提交事务接口，引擎把刚刚写入的redo log改成提交（commit）

redo log和binlog都能够用于示意事务的提交状态，而两阶段提交就是让这两个状态放弃逻辑上的统一。

在两阶段提交的不同时刻，MySQL异样重启会呈现什么景象。

时刻 A ，也就是写入redo log处于prepare阶段之后、写binlog之前，产生了解体（crash），因为此时binlog还没写，redo log也还没提交，所以解体复原的时候，这个事务会回滚。这时候，binlog还没写，所以也不会传到备库。

时刻 B，也就是binlog写完，redo log还没commit前产生crash，解体复原的时候依据reod和binlog有一个独特的数据字段，叫XID。解体复原的时候，会按程序扫描redo log：如果碰到既有prepare、又有commit的redo log，就间接提交；如果碰到只有parepare、而没有commit 的redo log，就拿着XID去binlog 找对应的事务，如果找到有，则提交，没有则回滚。

3.组提交

redo的组提交：

日志写到redo log buffer是很快的，wirte到page cache也差不多，然而长久化到磁盘的速度就慢多了。让更多的事务，同时可能进行fsync就是redo的组提交。

在并发更新场景下，第一个事务写完 redo log buffer 当前，接下来这个fsync越晚调用，组员可能越多，节约IOPS的成果就越好。

binlog的组提交：

在执行图中第 4 步把binlog fsync到磁盘时，如果有多个事务的binlog曾经写完了，也是一起长久化的，这样也能够缩小 IOPS 的耗费。不过通常状况下第 3 步执行得会很快，所以 binlog 的 write 和 fsync 间的间隔时间短，导致能汇合到一起长久化的binlog比拟少，因而binlog的组提交的成果通常不如redo log的成果那么好。

如果你想晋升binlog组提交的成果，能够通过设置如下两个参数来实现：

binlog_group_commit_sync_delay 参数，示意提早多少微秒后才调用 fsync

binlog_group_commit_sync_no_delay_count 参数，示意累积多少次当前才调用 fsync。

这两个条件是或的关系，也就是说只有有一个满足条件就会调用 fsync。所以，当 binlog_group_commit_sync_delay 设置为 0 的时候，binlog_group_commit_sync_no_delay_count 也有效了。

这两个参数目标是缩小binlog的写盘次数。这个办法是基于“额定的成心期待”来实现的，因而可能会减少语句的响应工夫，但没有失落数据的危险。

从日志后行和组提交得出结论，WAL机制次要得益于两个方面：

redo log和binlog都是程序写，磁盘的程序写比随机写速度要快；

组提交机制，能够大幅度降低磁盘的IOPS耗费。

4.脏页落盘的机会

数据在内存被更新后，因为wal机制，redo和binlog会先落盘，而数据脏页也会在后续抉择肯定的机会落盘。

redo写满

redo log大小是固定的，写完后会循环笼罩写入。当有新的内容要写入时，零碎必须进行所有的更新操作，将checkpoint向前推动到新的地位，然而在推动之前必须将笼罩局部的所有脏页都flush到磁盘上。

此时整个零碎不能再更新了，TPS会降为0，所以这种状况要尽量避免。

内存不足须要淘汰数据页

当零碎内存不足，又有新的数据页要更新，就须要淘汰一些数据页，如果淘汰的是脏页，就须要flush到磁盘（如果是洁净页就间接释放出来复用）。

零碎闲暇的时候后盾会定期flush适量的脏页到磁盘

MySQL失常敞开（shut down）时会把所有脏页都flush到磁盘

脏页比例达到设定参数

innodb_max_dirty_pages_pct默认75%，LRU内的脏块如果超过75%，强制性的刷脏。

其中零碎后盾会有如下操作：

在loop主循环中又蕴含两种操作，别离是1S和10S的操作

每1秒：

（1）日志缓冲刷新到磁盘，即便这个事务还没有提交。

（2）刷新脏页到磁盘。

（3）执行合并插入缓冲的操作。

（4）产生checkpoint。

（5）革除无用的table cache。

（6）如果以后没有用户流动，就可能切换到background loop。

每10秒：

（1）日志缓冲刷新到磁盘，即便这个事务还没有提交。

（2）刷新脏页到磁盘。

（3）执行合并插入缓冲的操作。

（4）删除无用的undo页。

（5）产生checkpoint。

5.doublewrite的实现机制

另外从更新流程图外面也能够看出数据不是间接落盘的。

double write分为两局部：一部分是内存中的double write buffer ，大小为2MB（16k一个页，一共128个页），第二局部是磁盘共享表空间的128个数据页，在对脏页进行落盘的时候，并不是间接进行落盘，而是先复制到double write buffer，而后再别离写入到共享表空间，而后再写入表空间。

为什么要有双写机制？

局部写的问题：

页面的刷新会遇到局部写的问题，也就是说对于只写了其中一个页面，只写了一部分的内容，在数据库解体后，传统的数据库会应用redo log进行复原，复原的原理是通过redo对数据也进行从新进行物理操作，然而如果这个数据页自身产生了损坏，那innodb的页面大小是16KB，然而写入过程中只写了4KB（操作系统仅仅保障512字节写入的完整性），这个是时候因为页面不是残缺的，因而不能通过redo来进行复原。redo复原的前提条件是页是残缺的。那么redo对其进行重做也是没有作用的，innodb的二次写，在写入的时候，发明了一个对于页的正本，这样即便在产生写生效后，也能够通过正本页，对还原重做。

墨天轮原文链接：https://www.modb.pro/db/21078...（复制链接至浏览器或点击文末浏览原文查看)

对于作者
陈家睿，云和恩墨MySQL技术顾问,领有MySQL OCP、PGCE、OBCA、SCDP证书，长期服务于电信行业。现负责公司MySQL数据库、分布式数据库运维方面的技术工作；热衷于运维故障解决、备份复原、降级迁徙、性能优化的学习与分享。