关于数据库:图解MySQL是如何运行的

一.MySQL的一条查问语句是怎么运行的

一条查问语句的执行过程个别是通过连接器、分析器、优化器、执行器等功能模块，最初达到存储引擎。

如果在MySQL中有一个查问会话申请，那么大略流程如下：

（1）MySQL客户端对MySQL Server的监听端口发动申请。

（2）在连贯者组件层创立连贯、调配线程，并验证用户名、明码和库表权限。

（3）如果关上了query_cache，则查看之，有数据间接返回，没有持续往下执行。

（4）SQL接口组件接管SQL语句，将SQL语句分解成数据结构，并将这个构造传递到后续步骤中（将SQL语句解析成MySQL意识的语法）。

（5）查问优化器组件生成查问门路树，并选举一条最优的查问门路。

（6）调用存储引擎接口，关上表，执行查问，查看存储引擎缓存中是否有对应的缓存记录，如果没有就持续往下执行。

（7）到磁盘物理文件中寻找数据。

（8）当查问到所须要的数据之后，先写入存储引擎缓存中，如果关上了query_cache，也会同时写进去。

（9）返回数据给客户端。

（10）敞开表。

（11）敞开线程。

（12）敞开连贯。

作用：

连贯层

（1）提供连贯协定：TCP/IP 、SOCKET形式等连贯验证。

（2）提供验证：用户、明码验证。

（3）提供专用连接线程：接管用户SQL，返回后果。

Server层

（1）接管下层传送的SQL语句。

（2）语法验证模块：验证语句语法,是否满足SQL_MODE。

（3）语义查看：判断SQL语句的类型：

DDL ：数据定义语言

DCL ：数据管制语言

DML ：数据操作语言

DQL：数据查询语言

…

（4）权限查看：用户对库表有没有权限。

（5）解析器：对语句执行前,进行预处理，生成解析树(执行打算),说白了就是生成多种执行计划。

（6）优化器：依据解析器得出的多种执行打算，进行判断，抉择最优的执行打算。

代价模型：资源（CPU IO MEM）的耗损评估性能好坏。

（7）执行器：依据最优执行打算，执行SQL语句，产生执行后果。

（8）提供查问缓存（默认是没开启的），会应用redis tair代替查问缓存性能。

（9）提供日志记录（日志治理章节）：binlog，默认是没开启的。

二.MySQL的一条更新语句是怎么运行的

0、数据更新时执行器先找buffer pool缓存池中，如果在缓冲池中，同时返回给执行器。

1、如果未命中缓存，须要先从磁盘读入内存，而后再返回给执行器。

2、不论是否命中缓存，都须要将更新前的旧数据写入到undo中。

3、更新内存，此时变成脏数据，后续会调用接口将数据落盘。

4.5、同时将这个更新操作记录到redo log外面，此时redo log处于 prepare 状态。而后告知执行器执行实现了，随时能够提交事务。

6.7、执行器生成这个操作的binlog，并把binlog写入磁盘。

8、执行器调用引擎的提交事务接口，引擎把刚刚写入的redo log改成提交（commit）状态，更新实现。

9.10.11、数据落盘。

三.MySQL的数据是如何保障不丢的

从下面的流程图能够看出，MySQL采纳了wal机制。

只有redo log和binlog保障长久化到磁盘，就能确保MySQL异样重启后，数据能够复原。

1.redo和binlog的落盘策略

redo和binlog的落盘还波及一个操作系统缓存。

innodb_flush_log_at_trx_commit = 0/1/2
1: 示意每次事务提交时都将redo log间接长久化到磁盘。

0：示意每次事务提交时都只是把redo log留在redo log buffer中，而后每秒刷新redo buffer到OS cache，再fsync到磁盘，异样宕机时，会有可能导致失落一秒内事务。

2：示意每次事务提交时都只是把redo log写到OS cache，再每秒fsync（）磁盘。异样宕机时，会有可能失落1秒内的事务。数据库宕机不失落。

sync_binlog= 0/1/n
0：示意每次提交事务都只write，不fsync，每过一秒fsync到磁盘，每一秒刷一次磁盘。

1：示意每次事务提交都刷一次磁盘，也就是每次提交事务都会执行fsync。

n：（100 200 500）示意每次提交事务都write到OS cache，但累积 N 个事务后才 fsync 到磁盘。

innodb_flush_log_at_trx_commit=1
sync_binlog=1
双1配置，数据库的安全性是最高的，不会丢事务。

其中redo和脏数据的落盘策略波及如下参数：

innodb_flush_method
fsync的个性：

buffer pool的数据写磁盘的时候，须要先经验OS cache而后在写磁盘。

redo buffer的数据写磁盘的时候，须要先经验OS cache而后在写磁盘。

O_DSYNC:

buffer pool的数据写磁盘的时候，须要先经验OS cache而后在写磁盘。

redo buffer的数据写磁盘的时候，穿过OS cache间接写到磁盘。

O_DIRECT：

buffer pool的数据写磁盘的时候，跨过OS cache而后在写磁盘。

redo buffer的数据写磁盘的时候，须要先经验OS cache而后在写磁盘。

2.二阶段提交

步骤：

更新操作记录到redo log外面，此时redo log处于prepare状态。

告知执行器执行实现了，随时能够提交事务。执行器生成这个操作的binlog，并把binlog写入磁盘。

执行器调用引擎的提交事务接口，引擎把刚刚写入的redo log改成提交（commit）

redo log和binlog都能够用于示意事务的提交状态，而两阶段提交就是让这两个状态放弃逻辑上的统一。

在两阶段提交的不同时刻，MySQL异样重启会呈现什么景象。

时刻 A ，也就是写入redo log处于prepare阶段之后、写binlog之前，产生了解体（crash），因为此时binlog还没写，redo log也还没提交，所以解体复原的时候，这个事务会回滚。这时候，binlog还没写，所以也不会传到备库。

时刻 B，也就是binlog写完，redo log还没commit前产生crash，解体复原的时候依据reod和binlog有一个独特的数据字段，叫XID。解体复原的时候，会按程序扫描redo log：如果碰到既有prepare、又有commit的redo log，就间接提交；如果碰到只有parepare、而没有commit 的redo log，就拿着XID去binlog 找对应的事务，如果找到有，则提交，没有则回滚。

3.组提交

redo的组提交：

日志写到redo log buffer是很快的，wirte到page cache也差不多，然而长久化到磁盘的速度就慢多了。让更多的事务，同时可能进行fsync就是redo的组提交。

在并发更新场景下，第一个事务写完 redo log buffer 当前，接下来这个fsync越晚调用，组员可能越多，节约IOPS的成果就越好。

binlog的组提交：

在执行图中第 4 步把binlog fsync到磁盘时，如果有多个事务的binlog曾经写完了，也是一起长久化的，这样也能够缩小 IOPS 的耗费。不过通常状况下第 3 步执行得会很快，所以 binlog 的 write 和 fsync 间的间隔时间短，导致能汇合到一起长久化的binlog比拟少，因而binlog的组提交的成果通常不如redo log的成果那么好。

如果你想晋升binlog组提交的成果，能够通过设置如下两个参数来实现：

binlog_group_commit_sync_delay 参数，示意提早多少微秒后才调用 fsync

binlog_group_commit_sync_no_delay_count 参数，示意累积多少次当前才调用 fsync。

这两个条件是或的关系，也就是说只有有一个满足条件就会调用 fsync。所以，当 binlog_group_commit_sync_delay 设置为 0 的时候，binlog_group_commit_sync_no_delay_count 也有效了。

这两个参数目标是缩小binlog的写盘次数。这个办法是基于“额定的成心期待”来实现的，因而可能会减少语句的响应工夫，但没有失落数据的危险。

从日志后行和组提交得出结论，WAL机制次要得益于两个方面：

redo log和binlog都是程序写，磁盘的程序写比随机写速度要快；

组提交机制，能够大幅度降低磁盘的IOPS耗费。

4.脏页落盘的机会

数据在内存被更新后，因为wal机制，redo和binlog会先落盘，而数据脏页也会在后续抉择肯定的机会落盘。

redo写满

redo log大小是固定的，写完后会循环笼罩写入。当有新的内容要写入时，零碎必须进行所有的更新操作，将checkpoint向前推动到新的地位，然而在推动之前必须将笼罩局部的所有脏页都flush到磁盘上。

此时整个零碎不能再更新了，TPS会降为0，所以这种状况要尽量避免。

内存不足须要淘汰数据页

当零碎内存不足，又有新的数据页要更新，就须要淘汰一些数据页，如果淘汰的是脏页，就须要flush到磁盘（如果是洁净页就间接释放出来复用）。

零碎闲暇的时候后盾会定期flush适量的脏页到磁盘

MySQL失常敞开（shut down）时会把所有脏页都flush到磁盘

脏页比例达到设定参数

innodb_max_dirty_pages_pct默认75%，LRU内的脏块如果超过75%，强制性的刷脏。

其中零碎后盾会有如下操作：

在loop主循环中又蕴含两种操作，别离是1S和10S的操作

每1秒：

（1）日志缓冲刷新到磁盘，即便这个事务还没有提交。

（2）刷新脏页到磁盘。

（3）执行合并插入缓冲的操作。

（4）产生checkpoint。

（5）革除无用的table cache。

（6）如果以后没有用户流动，就可能切换到background loop。

每10秒：

（1）日志缓冲刷新到磁盘，即便这个事务还没有提交。

（2）刷新脏页到磁盘。

（3）执行合并插入缓冲的操作。

（4）删除无用的undo页。

（5）产生checkpoint。

5.doublewrite的实现机制

另外从更新流程图外面也能够看出数据不是间接落盘的。

double write分为两局部：一部分是内存中的double write buffer ，大小为2MB（16k一个页，一共128个页），第二局部是磁盘共享表空间的128个数据页，在对脏页进行落盘的时候，并不是间接进行落盘，而是先复制到double write buffer，而后再别离写入到共享表空间，而后再写入表空间。

为什么要有双写机制？

局部写的问题：

页面的刷新会遇到局部写的问题，也就是说对于只写了其中一个页面，只写了一部分的内容，在数据库解体后，传统的数据库会应用redo log进行复原，复原的原理是通过redo对数据也进行从新进行物理操作，然而如果这个数据页自身产生了损坏，那innodb的页面大小是16KB，然而写入过程中只写了4KB（操作系统仅仅保障512字节写入的完整性），这个是时候因为页面不是残缺的，因而不能通过redo来进行复原。redo复原的前提条件是页是残缺的。那么redo对其进行重做也是没有作用的，innodb的二次写，在写入的时候，发明了一个对于页的正本，这样即便在产生写生效后，也能够通过正本页，对还原重做。

墨天轮原文链接：https://www.modb.pro/db/21078…（复制链接至浏览器或点击文末浏览原文查看)

对于作者
陈家睿，云和恩墨MySQL技术顾问,领有MySQL OCP、PGCE、OBCA、SCDP证书，长期服务于电信行业。现负责公司MySQL数据库、分布式数据库运维方面的技术工作；热衷于运维故障解决、备份复原、降级迁徙、性能优化的学习与分享。

关于数据库:图解MySQL是如何运行的

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据库:图解MySQL是如何运行的

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复