BinLog是MySQL Server层的日志,所有的MySQL存储引擎都反对BinLog。BinLog能够反对主从复制和数据恢复,然而对事务的ACID个性反对比拟差。InnoDB存储引擎引入RedoLog和UndoLog事务日志,用于晋升事务场景下的数据库性能。本文会对RedoLog和UndoLog进行介绍。

RedoLog和UndoLog

ChangeBuffer和WAL

咱们以一条SQL更新语句来介绍RedoLog的作用,首先在数据库中创立user_info表,该表蕴含主键列id和姓名列,并向数据库中插入一列测试数据:

create table user_info(    id int primary key,    name  varchar(255));insert into user_info(id,name) value (1,'ls');

查问语句的执行流程

如果咱们须要查问id=1的用户的信息,咱们能够通过以下SQL语句进行查问:

select  * from user_info where id = 1;

在这一条简略的查问语句之后,MySQL做了哪些工作呢?如下所示,MySQL执行SQL查问语句的流程蕴含以下步骤:

  1. 连接器:客户端和MySQL服务端建设连贯,用户名明码等信息校验;
  2. 查问缓存:如果SQL语句是查问语句,则查看查问语句是否命中缓存;
  3. 分析器:对SQL语句的词法和语法进行剖析,判断SQL语句的类型和对应的表等信息;
  4. 优化器:对SQL语句进行优化,抉择适合的索引;
  5. 执行器:在对应的MySQL引擎上执行SQL查问语句,并返回查问后果;

更新语句的执行流程

如果咱们不须要查问用户信息,而是要更新id=1的记录中的用户名为zs,则能够通过以下SQL语句进行更新:

update user_info set name="zs" where id=1;

和上文中的查问语句相似,MySQL一样会先通过连接器建设数据库连贯,而后通过分析器、优化器和执行器查找到须要更新的数据所在的行,而后更新数据。

和查问流程不一样的是,更新流程还波及ChangeBuffer和两个重要的日志模块:BinLog和RedoLog。其中BinLog和ChangeBuffer的作用曾经在前文中介绍过,BinLog用于主从复制和数据恢复,ChangeBuffer用于缓存对数据库中数据的操作,RedoLog则是本文介绍的配角了。

ChangeBuffer技术

对于上文中的更新语句,如果没有RedoLog,那么InnoDB引擎会依照索引查找到id=1的用户记录,把记录加载到内存中,而后批改内存中的数据事务提交后再写回磁盘。如果数据库数据更新的频率非常低,那么这样更新形式数据库也能够承受,然而在更新十分频繁的状况下,大量的离散IO会成为数据库的瓶颈,影响数据库的性能。

在更新频繁的场景下,如何升高磁盘的IO并保障事务呢?这就波及到咱们前边文章中介绍过的ChangeBuffer技术了,在满足ChangeBuffer缓存操作的条件下,InnoDB并不会立刻把数据的变更操作写入磁盘,而是将这些对数据页的操作缓存到ChangeBuffer中,数据库找适合的机会再将操作Merge到数据库中。

通过ChangeBuffer技术,咱们能够把对数据库的屡次离散拜访合并为一次数据库拜访,并且用户的更新线程中不须要理论拜访磁盘,大大晋升了数据库性能。

WAL技术

不过不晓得大家有没有留神到,ChangeBuffer有一个很大的问题:如果InnoDB实例在运行期间掉电,ChangeBuffer中的缓存会失落,从而造成数据库数据的不统一,影响数据库事务的原子性和一致性。

数据库中保障事务原子性和一致性通用的计划是采纳WAL(Write-ahead logging,预写式日志)技术,在应用WAL的零碎中,所有的批改都先被写入到日志中,而后再被利用到零碎状态中,日志通常蕴含redo和undo两局部信息。

  • RedoLog称为重做日志,每当有操作时,在数据变更之前将操作写入RedoLog,这样当产生掉电之类的状况时零碎能够在重启后持续操作;
  • UndoLog称为撤销日志,当一些变更执行到一半无奈实现时,能够依据撤销日志复原到变更之间的状态;

MySQL的InnoDB引擎中就应用了WAL技术,所以InnoDB存储引擎蕴含了RedoLog和UndoLog两局部日志。

如何确保曾经提交的事务不会失落?解决这个问题比较简单,InnoDB有一个Log-Force-at-Commit机制,在事务提交的时候,和这个事务相干的RedoLog数据,包含Commit记录,都必须从LogBuffer中写入RedoLog文件,此时事务提交胜利的信号能力发送给用户过程。通过这个机制,能够确保哪怕这个曾经提交的事务中的局部ChangeBuffer还没有被写入数据文件,就产生了实例故障,在做实例复原的时候,也能够通过RedoLog的信息,将不统一的数据前滚。

RedoLog和BinLog比拟

RedoLog和BinLog不同。尽管BinLog中也记录了InnoDB表的很多操作,也能实现重做的性能,然而它们之间有很大区别。

  1. BinLog是在存储引擎的下层产生的,不论是什么存储引擎,对数据库进行了批改都会产生二进制日志。而RedoLog是Innodb引擎层产生的,只记录该存储引擎中表的批改;
  2. BinLog记录数据变更的逻辑性的语句,如某一行数据的的变更状况或此次变更的SQL语句。而RedoLog是在物理格局上的日志,它记录的是数据库中每个页的批改;
  3. BinLog只在每次事务提交的时候一次性写入缓存中的日志"文件"(对于非事务表的操作,则是每次执行语句胜利后就间接写入)。而RedoLog在数据筹备批改前写入缓存中的RedoLog中,而后才对缓存中的数据执行批改操作;而且保障在收回事务提交指令时,先向缓存中的RedoLog写入磁盘日志,写入实现后才执行提交动作;
  4. BinLog只在提交的时候一次性写入,所以BinLog记录形式和提交程序无关,且一次提交对应一次记录。而RedoLog中是记录的物理页的批改,RedoLog文件中同一个事务可能屡次记录,最初一个提交的事务记录会笼罩所有未提交的事务记录。例如事务T1,可能在RedoLog中记录了T1-1,T1-2,T1-3,T1共4个操作,其中T1示意最初提交时的日志记录,所以对应的数据页最终状态是T1对应的操作后果。而且RedoLog是并发写入的,不同事务之间的不同版本的记录会交叉写入到RedoLog文件中,例如可能RedoLog的记录形式如下: T1-1,T1-2,T2-1,T2-2,T2,T1-3,T1* 。

事务日志记录的是物理页的状况,它具备幂等性,因而记录日志的形式极其简练。幂等性的意思是屡次操作前后状态是一样的,例如新插入一行后又删除该行,前后状态没有变动。而二进制日志记录的是所有影响数据的操作,记录的内容较多。例如插入一行记录一次,删除该行又记录一次。

RedoLog

RedoLog包含两局部:一是内存中的日志缓冲(RedoLog Buffer),该局部日志是易失性的;二是磁盘上的重做日志文件(RedoLog File),该局部日志是长久的。

在概念上,Innodb通过force-log-at-commit机制实现事务的持久性,即在事务提交的时候,必须先将该事务的所有事务日志写入到磁盘上的RedoLog File和UndoLog File中进行长久化。

为了确保每次日志都能写入到事务日志文件中,在每次将RedoLog Buffer中的日志写入日志文件的过程中都会调用一次操作系统的fsync操作(即fsync()零碎调用)。因为MariaDB/MySQL是工作在用户空间的,MariaDB/MySQL的RedoLog Buffer处于用户空间的内存中。要写入到磁盘上的RedoLog Buffer中,两头还要通过操作系统内核空间的操作系统缓存区,调用fsync()的作用就是将操作系统缓存区中的日志刷到磁盘上的RedoLog文件中。

RedoLog事务日志文件名为ib_logfileN,如:ib_logfile0,ib_logfile1......

RedoLog把日志从缓存写入磁盘的过程如下图所示:

MySQL反对用户自定义在事务提交时如何将日志缓存中的日志刷磁盘文件中。能够管制通过变量innodb_flush_log_at_trx_commit的值来决定。该变量有3种值:0、1、2,默认为1。但留神,这个变量只是管制事务提交时是否刷新日志缓存到磁盘。

  • 当设置为1的时候,事务提交时会将日志缓存中的日志写入操作系统缓存,并调用fsync()长久化到磁盘文件中。这种形式即便零碎解体也不会失落任何数据,然而因为每次提交都写入磁盘,IO的性能较差;
  • 当设置为0的时候,事务提交时不会将日志缓存中的日志写入操作系统缓存,而是每秒写入操作系统缓存并调用fsync()长久化到磁盘文件中。也就是说设置为0时是(大概)每秒刷新写入到磁盘中的,当零碎解体,会失落1秒钟的数据;
  • 当设置为2的时候,事务提交时仅写入到操作系统缓存,而后是每秒调用fsync()将操作系统缓存中的日志长久化到磁盘文件中;

有一个变量innodb_flush_log_at_timeout的值为1秒,该变量示意的是刷日志的频率,很多人误以为是管制 innodb_flush_log_at_trx_commit值为0和2时的1秒频率,实际上并非如此。测试时将频率设置为5和设置为1,当 innodb_flush_log_at_trx_commit 设置为0和2的时候性能根本都是不变的。对于这个频率是管制什么的,在前面的"刷日志到磁盘的规定"中会说。

一致性的保障

在主从复制构造中,要保障事务的持久性和一致性,须要对日志相干变量设置为如下:

  • 如果启用了BinLog,则设置sync_binlog=1,即每提交一次事务同步写到磁盘中。
  • 总是设置innodb_flush_log_at_trx_commit=1,即每提交一次事务都写到磁盘中。

上述两项变量的设置保障了:每次提交事务都写入二进制日志和事务日志,并在提交时将它们刷新到磁盘中。

抉择形式1时,因为每次事务提交都会写磁盘,在大量小事务提交的场景下会影响数据库的性能。

RedoLog日志块

Innodb存储引擎中,RedoLog以块为单位进行存的,每个块占512字节,这称为RedoLog日志块。不论是日志缓存中还是零碎缓存以及磁盘上的RedoLog文件,RedoLog都是这样以512字节的块存储的。

RedoLog记录的是数据页的变动,当一个数据页产生的变动须要应用超过492字节的RedoLog来记录,那么就会应用多个RedoLog日志块来记录该数据页的变动。

对于RedoLog日志块头的第三局部log_block_first_rec_group,因为有时候一个数据页产生的日志量超出了一个日志块,这是须要用多个日志块来记录该页的相干日志。例如,某一数据页产生了552字节的日志量,那么须要占用两个日志块,第一个日志块占用492字节,第二个日志块须要占用60个字节,那么对于第二个日志块来说,它的第一个日志的开始地位就是73字节(60+12)。如果log_block_first_rec_group的值和log_block_hdr_data_len相等,则阐明该日志块中没有新开始的日志块,即示意该日志块用来连续前一个日志块。
日志尾只有一个局部:log_block_trl_no ,该值和块头的log_block_hdr_no相等。

内存中的RedoLog缓存和磁盘中的RedoLog文件由多个日志块组成,示意图如下所示:

RedoLog日志组

RedoLog日志组由多个大小完全相同的RedoLog文件组成。组内RedoLog文件的数量由变量innodb_log_files_group决定,默认值为2,即两个RedoLog文件组成RedoLog日志组。这个组是一个逻辑的概念,并没有真正的文件来示意这是一个组,然而能够通过变量 innodb_log_group_home_dir来定义组的目录,RedoLog文件会放在这个目录下(默认是在datadir下)。

mysql>  show global variables like "innodb_log%";+-----------------------------+----------+| Variable_name               | Value    |+-----------------------------+----------+| innodb_log_buffer_size      | 16777216 || innodb_log_checksums        | ON       || innodb_log_compressed_pages | ON       || innodb_log_file_size        | 50331648 || innodb_log_files_in_group   | 2        || innodb_log_group_home_dir   | ./       || innodb_log_write_ahead_size | 8192     |+-----------------------------+----------+7 rows in set (0.06 sec)
root@b48ce1e480fd:/var/lib/mysql# ls -l ib*-rw-r----- 1 mysql root       407 Oct 21 09:36 ib_buffer_pool-rw-r----- 1 mysql mysql 50331648 Oct 26 09:00 ib_logfile0-rw-r----- 1 mysql mysql 50331648 Oct 20 07:24 ib_logfile1-rw-r----- 1 mysql mysql 79691776 Oct 26 09:00 ibdata1-rw-r----- 1 mysql mysql 12582912 Oct 26 09:00 ibtmp1

能够看到在MySQL默认的数据目录下,有两个ib_logfile结尾的文件,它们就是RedoLog日志组中的RedoLog文件,而且它们的大小完全一致且等于变量innodb_log_file_size定义的值。ibdata1文件是在没有开启innodb_file_per_table时的共享表空间文件,对应于开启 innodb_file_per_table时的.ibd文件。

在Innodb将日志缓存中的RedoLog日志块刷到RedoLog文件中时,会以追加写入的形式循环轮训写入。即先在第一个RedoLog文件(即ib_logfile0)的尾部追加写,直到满了之后向第二个RedoLog文件(即ib_logfile1)写。当第二个RedoLog文件满了会清空一部分第一个RedoLog文件持续写入。

因为是将日志缓存中的日志刷到RedoLog文件,所以在RedoLog文件中记录日志的形式也是RedoLog日志块的形式。RedoLog文件的大小对Innodb的性能影响十分大,设置的太大,复原的时候就会工夫较长,设置的太小,就会导致在写RedoLog的时候循环切换RedoLog文件。

在每个组的第一个RedoLog文件中,前2KB记录4个特定的局部,从2KB之后才开始记录RedoLog日志块。除了第一个RedoLog文件中会记录,RedoLog日志组中的其余RedoLog文件不会记录这2KB,然而却会腾出这2KB的空间。

RedoLog文件格式

Innodb存储引擎存储数据的单元是页,所以RedoLog也是基于页的格局来记录的。默认状况下,Innodb的页大小是16KB(由innodb_page_size变量管制),一个页内能够寄存多个RedoLog日志块(每个512字节),而RedoLog日志块中记录的又是数据页的变动。

其中RedoLog日志块中492字节的局部是RedoLog内容,该RedoLog内容的格局分为4局部:

  • redo_log_type:占用1个字节,示意RedoLog的日志类型;
  • space:示意表空间的ID,采纳压缩的形式后,占用的空间可能小于4字节;
  • page_no:示意页的偏移量,同样是压缩过的;
  • redo_log_body示意每个重做日志的数据局部,复原时会调用相应的函数进行解析。

RedoLog记录格局

RedoLog的实质上是记录事务对数据库做了哪些批改。 InnoDB的设计者们针对事务对数据库的不同批改场景定义了多种类型的RedoLog日志,然而绝大部分类型的redo日志都有下边这种通用的构造:

各个局部的具体释义如下:

  • type:该条redo日志的类型。在MySQL 5.7.21这个版本中,InnoDB中的redo日志蕴含53种不同的类型,稍后会具体介绍不同类型的redo日志。
  • space ID:表空间ID。
  • page number:页号。
  • data:该条redo日志的具体内容。

对于RedoLog更具体的格局本文就不具体做介绍,有趣味的能够本人查找文档理解一下。咱们到此处应该晓得,如果咱们应用Insert语句向数据库中插入一条记录,那么RedoLog会记录要在指定空间的指定数据页的指定地址处设置指定的值。

RedoLog刷盘策略

变量innodb_flush_log_at_trx_commit的值为1时,、事务每次提交的时候都会刷RedoLog事务日志到磁盘中,然而Innodb不仅仅只会在有ICommit动作后才会刷日志到磁盘,这只是innodb存储引擎刷日志的规定之一。触发日志刷盘的场景有以下几种:

  1. 收回Commit动作时,Commit收回后是否刷日志由变量innodb_flush_log_at_trx_commit管制。
  2. 每秒刷一次。这个刷日志的频率由变量innodb_flush_log_at_timeout值决定,默认是1秒。要留神,这个刷日志频率和commit动作无关。
  3. 当log buffer中曾经应用的内存超过一半时。
  4. 当有checkpoint时,checkpoint在肯定水平上代表了刷到磁盘时日志所处的LSN地位。

刷脏和CheckPoint

内存中(BufferPool)未刷到磁盘的数据称为脏数据(DirtyData)。因为数据和日志都以页的模式存在,所以脏页示意脏数据和脏日志。上一节介绍了日志是何时刷到磁盘的,不仅仅是日志须要刷盘,脏数据页也一样须要刷盘。

在Innodb中,数据刷盘的规定只有一个:Checkpoint。然而触发Checkpoint的状况却有几种。不管怎样,Checkpoint触发后,会将缓存中脏数据页和脏日志页都刷到磁盘。

innodb存储引擎中Checkpoint分为两种:

  • Sharp Checkpoint:在重用RedoLog文件(例如切换日志文件)的时候,将所有已记录到RedoLog中对应的脏数据刷到磁盘。
  • Fuzzy Checkpoint:一次只刷一小部分的日志到磁盘,而非将所有脏日志刷盘。有以下几种状况会触发该检查点:

    1. Master Thread Checkpoint:由Master线程管制,每秒或每10秒刷入肯定比例的脏页到磁盘;
    2. flush_lru_list checkpoint:从MySQL5.6开始可通过innodb_page_cleaners变量指定专门负责脏页刷盘的PageCleaner线程的个数,该线程的目标是为了保障lru列表有可用的闲暇页;
    3. Async/Sync Flush Checkpoint:同步刷盘还是异步刷盘。例如还有十分多的脏页没刷到磁盘(十分多是多少,有比例控制),这时候会抉择同步刷到磁盘,但这很少呈现;如果脏页不是很多,能够抉择异步刷到磁盘,如果脏页很少,能够临时不刷脏页到磁盘;
    4. Dirty Page Too Much Checkpoint:脏页太多时强制触发检查点,目标是为了保障缓存有足够的闲暇空间。Too Much的比例由变量innodb_max_dirty_pages_pct管制,MySQL 5.6默认的值为75,即当脏页占缓冲池的百分之75后,就强制刷一部分脏页到磁盘。因为刷脏页须要肯定的工夫来实现,所以记录检查点的地位是在每次刷盘完结之后才在RedoLog中标记的。

MySQL进行时是否将脏数据和脏日志刷入磁盘,由变量innodb_fast_shutdown={ 0|1|2 }管制,默认值为1,即进行时只做一部分purge,疏忽大多数flush操作(但至多会刷日志),在下次启动的时候再flush残余的内容,实现FastShutdown。

LSN学习

LSN称为日志的逻辑序列号(Log Sequence Number),在Innodb存储引擎中,LSN占用8个字节,LSN的值会随着日志的写入而递增。剖析LSN能够失去很多要害信息:

  1. 数据页的版本信息。
  2. 写入的日志总量,通过LSN开始号码和完结号码能够计算出写入的日志量。
  3. CheckPoint的地位。

LSN不仅存在于RedoLog中,还存在于数据页中,在每个数据页的头部,有一个fil_page_lsn记录了当前页最终的LSN值是多少。通过数据页中的LSN值和RedoLog中的LSN值比拟,如果页中的LSN值小于RedoLog中LSN值,则示意数据失落了一部分,这时候能够通过RedoLog的记录来复原到RedoLog中记录的LSN值时的状态。

RedoLog的LSN信息能够通过show engine innodb status来查看。MySQL 5.5版本的show后果中只有3条记录,没有pages flushed up to

mysql> show engine innodb status......---LOG---Log sequence number 12734454Log flushed up to   12734454Pages flushed up to 12734454Last checkpoint at  127344450 pending log flushes, 0 pending chkp writes45 log i/o's done, 0.00 log i/o's/second

其中

  • log sequence number就是以后的RedoLog中的LSN,通常和缓存中的LSN统一,称为缓存日志LSN;
  • log flushed up to是磁盘上RedoLog文件中的LSN,通常会比日志缓存LSN小,称为磁盘日志LSN;
  • pages flushed up to是曾经刷到磁盘数据页上的LSN,称为磁盘数据页LSN;
  • last checkpoint at是上一次检查点所在位置的LSN,称为CheckPoint LSN。

Innodb执行批改数据库语句的流程如下所示:

  1. 向RedoLog缓存中写入RedoLog,并在RedoLog中记录对应的LSN,记为缓存日志LSN;
  2. 如果指标数据页在缓存中,批改缓存中的数据页,并在数据页中记录LSN,记为缓存数据页LSN;
  3. 日志刷回磁盘时,在RedoLog文件中记录对应的LSN,记为磁盘日志LSN;
  4. CheckPoint刷脏时缓存数据页中的LSN,记为CheckPoint LSN;
  5. Checkpoint要刷入的数据页多时,刷入所有的数据页须要肯定的工夫来实现,中途刷入的每个数据页都会记下当前页所在的LSN,暂且称之为磁盘数据页LSN。

如下图展现了一个事务过程中各个LSN的变动状况:

  1. 12:00:00.000时刻,事务开始,初始时假如各个LSN均为001
  2. 12:00:00.200时刻,执行更新语句1,更新缓存日志LSN和缓存数据页LSN,别离加1,变更为001;
  3. 12:00:00.400时刻,执行更新语句2,更新缓存日志LSN和缓存数据页LSN,别离加1,变更为002;
  4. 12:00:00.600时刻,执行更新语句3,更新缓存日志LSN和缓存数据页LSN,别离加1,变更为003;
  5. 12:00:01.000时刻,Checkpoint,将缓存中的日志和数据页刷回磁盘,磁盘数据页和磁盘日志的LSN更新为003,Checkpoint LSN更新为003;
  6. 12:00:01.200时刻,执行更新语句3,更新缓存日志LSN和缓存数据页LSN,别离加1,变更为004;
  7. 12:00:01.400时刻,事务提交,缓存日志写入磁盘,磁盘日志LSN更新为004;
  8. 12:00:02.000时刻,Checkpoint,将缓存中的日志和数据页刷回磁盘,磁盘数据页LSN更新为004,Checkpoint LSN更新为004;

Innodb Crash-Safe

在启动innodb的时候,不论上次是失常敞开还是异样敞开,总是会进行复原操作。因为RedoLog记录的是数据页的物理变化,因而复原的时候速度比逻辑日志(如BinLog)要快很多。而且,Innodb本身也做了肯定水平的优化,让复原速度变得更快。

重启Innodb时,Checkpoint示意曾经残缺刷到磁盘上数据页的LSN,因而复原时仅须要复原从Checkpoint开始的日志局部。例如,当数据库在上一次Checkpoint的LSN为10000时宕机,且事务是曾经提交过的状态。启动数据库时会查看磁盘中数据页的LSN,如果数据页的LSN小于日志中的LSN,则会从Checkpoint开始复原。

还有一种状况,在宕机前正处于Checkpoint的刷盘过程,且数据页的刷盘进度超过了日志页的刷盘进度。这时候一宕机,数据页中记录的LSN就会大于日志页中的LSN,在重启的复原过程中会查看到这一状况,这时超出日志进度的局部将不会重做,因为这自身就示意曾经做过的事件,无需再重做。

另外,事务日志具备幂等性,所以屡次操作失去同一后果的行为在日志中只记录一次。而二进制日志不具备幂等性,屡次操作会全副记录下来,在复原的时候会屡次执行二进制日志中的记录,速度就慢得多。例如,某记录中id初始值为2,通过update将值设置为了3,起初又设置成了2,在事务日志中记录的将是无变动的页,基本无需复原;而二进制会记录下两次update操作,复原时也将执行这两次update操作,速度比事务日志复原更慢。

RedoLog相干变量

  • innodb_flush_log_at_trx_commit={0|1|2}:指定何时将事务日志刷到磁盘,默认为1;

    1. 0示意每秒将"log buffer"同步到"os buffer"且从"os buffer"刷到磁盘日志文件中;
    2. 1示意每事务提交都将"log buffer"同步到"os buffer"且从"os buffer"刷到磁盘日志文件中;
    3. 2示意每事务提交都将"log buffer"同步到"os buffer"但每秒才从"os buffer"刷到磁盘日志文件中;
  • innodb_log_buffer_size:log buffer的大小,默认8M
  • innodb_log_file_size:事务日志的大小,默认5M
  • innodb_log_files_group =2:事务日志组中的事务日志文件个数,默认2个
  • innodb_log_group_home_dir =./:事务日志组门路,当前目录示意数据目录
  • innodb_mirrored_log_groups =1:指定事务日志组的镜像组个数,但镜像性能如同是强制敞开的,所以只有一个RedoLog日志组。在MySQL5.7中该变量曾经移除。

UndoLog

基本概念

UndoLog有两个作用:提供回滚和多个行版本控制(MVCC)。

WAL技术在数据批改的时,不仅记录了RedoLog,还记录了绝对应的UndoLog,如果因为某些起因导致事务失败或回滚了,能够借助该UndoLog进行回滚。

UndoLog和RedoLog记录物理日志不一样,它是逻辑日志。能够认为当Delete一条记录时,UndoLog中会记录一条对应的Insert记录,反之亦然;当update一条记录时,它记录一条对应相同的update记录。

当执行Rollback时,就能够从UndoLog中的逻辑记录读取到相应的内容并进行回滚。有时候利用到行版本控制的时候,也是通过UndoLog来实现的:当读取的某一行被其余事务锁定时,它能够从UndoLog中剖析出该行记录以前的数据是什么,从而提供该行版本信息,让用户实现非锁定一致性读取。

UndoLog是采纳段(segment)的形式来记录的,每个undo操作在记录的时候占用一个UndoLog Segment。

另外,UndoLog也会产生RedoLog,因为UndoLog也要实现持久性爱护。

UndoLog存储形式

Innodb存储引擎对Undo的治理采纳段的形式。Rollback Segment称为回滚段,每个回滚段中有1024个UndoLog Segment。

在以前老版本,只反对1个Rollback Segment,这样就只能记录1024个UndoLog Segment。起初MySQL5.5能够反对128个Rollback Segment,即反对128*1024个Undo操作,还能够通过变量innodb_undo_logs(5.6版本以前该变量是 innodb_rollback_segments)自定义多少个Rollback Segment,默认值为128。UndoLog默认寄存在共享表空间中。

root@b48ce1e480fd:/var/lib/mysql# ls -l ib*-rw-r----- 1 mysql root       407 Oct 21 09:36 ib_buffer_pool-rw-r----- 1 mysql mysql 50331648 Oct 26 09:00 ib_logfile0-rw-r----- 1 mysql mysql 50331648 Oct 20 07:24 ib_logfile1-rw-r----- 1 mysql mysql 79691776 Oct 26 09:00 ibdata1-rw-r----- 1 mysql mysql 12582912 Oct 26 09:00 ibtmp1

如果开启了innodb_file_per_table,UndoLog将存储在每个表的.ibd文件中。在MySQL5.6中,undo的寄存地位还能够通过变量innodb_undo_directory来自定义寄存目录,默认值为"."示意datadir。

默认Rollback Segment全副写在一个文件中,但能够通过设置变量innodb_undo_tablespaces平均分配到多少个文件中。该变量默认值为0,即全副写入一个表空间文件。该变量为动态变量,只能在数据库示例进行状态下批改,如写入配置文件或启动时带上对应参数。

更新语句与UndoLog

当事务提交的时候,Innodb不会立刻删除UndoLog,因为后续还可能会用到UndoLog,如隔离级别为Repeatable-Read时,事务读取的都是开启事务时的最新提交行版本,只有该事务不完结,该行版本就不能删除,即UndoLog不能删除。

然而在事务提交的时候,会将该事务对应的UndoLog放入到删除列表中,将来通过Purge来删除。并且提交事务时,还会判断UndoLog调配的页是否能够重用,如果能够重用,则会调配给前面来的事务,防止为每个独立的事务调配独立的UndoLog页而节约存储空间和性能。

通过UndoLog记录Delete和Update操作的后果发现:(insert操作无需剖析,就是插入行而已)

  • Delete操作实际上不会间接删除,而是将Delete对象打上Delete flag,标记为删除,最终的删除操作是Purge线程实现的。
  • Update分为两种状况:update的列是否是主键列。如果不是主键列,在UndoLog中间接反向记录是如何Update的,即update是间接进行的;如果是主键列,update分两部执行:先删除该行,再插入一行指标行。
UndoLog中蕴含了旧版本数据行的快照信息,存储在表空间。

BinLog和事务日志

如下图所示,事务提交时,波及到写日志的中央有三个步骤:

  • 写入RedoLog,处于Prepare状态
  • 写binlog
  • 批改redo log状态为commit

这里咱们留神到在 redo log 的提交过程中引入了两阶段提交。为什么必须有 “两阶段提交” 呢?这是为了让两份日志之间的逻辑统一。

因为RedoLog和BinLog是两个独立的逻辑,如果不必两阶段提交,要么就是先写完RedoLog再写BinLog,或者采纳反过来的程序,咱们看看这两种形式会有什么问题,用下面的更新示例做假如:

  • 先写RedoLog后写BinLog。假如在RedoLog写完,BinLog还没有写完的时候,MySQL过程异样重启。因为RedoLog曾经写完,零碎即便解体依然可能把数据恢复回来。然而BinLog外面就没有记录这个语句,因而备份日志的时候BinLog外面就没有这条语句;如果须要用这个BinLog来复原长期库的话,因为这个语句的BinLog失落,复原进去的值就与原库值不同。
  • 先写BinLog后写RedoLog。如果在BinLog写完之后宕机,因为RedoLog还没写,解体复原当前这个事务有效,所以这一行的值还是未更新以前的值。然而BinLog外面曾经记录了解体前的更新记录,BinLog来复原的时候就多了一个事务进去与原库的值不同。
能够看到,两阶段提交就是为了避免BinLog和RedoLog不统一产生。同时咱们也留神到为了这个解体复原的一致性问题引入了很多新的货色,也让零碎简单了很多,所以有得有失。二阶段提交RedoLog和BinLog的过程中,两者刷盘之后都会记录2PC事务的XID(RedoLog和BinLog中事务落盘的标识),若中途数据库Crash,通过XID关联两者并在复原时决定commit和rollback与否,具体步骤见下一段“复原步骤”。

复原步骤

RedoLog中的事务如果经验了二阶段提交中的Prepare阶段,则会打上Prepare标识,如果经验Commit阶段,则会打上Commit标识(此时RedoLog和BinLog均已落盘):

  1. 按程序扫描RedoLog,如果RedoLog中的事务既有Prepare标识,又有Commit标识,就间接提交(复制RedoLog Disk中的数据页到磁盘数据页);
  2. 如果RedoLog事务只有Prepare标识,没有Commit标识,则阐明以后事务在Commit阶段Crash了,RedoLog中以后事务是否残缺未可知,此时拿着RedoLog中以后事务的XID(RedoLog和BinLog中事务落盘的标识),去查看binlog中是否存在此XID:

    • 如果BinLog中有以后事务的XID,则提交事务(复制RedoLog disk中的数据页到磁盘数据页);
    • 如果BinLog中没有以后事务的XID,则回滚事务(应用UndoLog来删除redolog中的对应事务);

能够将MySQL中的RedoLog和BinLog二阶段提交和狭义上的二阶段提交进行比照,狭义上的二阶段提交,若某个参与者超时未收到协调者的ack告诉,则会进行回滚,回滚逻辑须要开发者在各个参与者中进行记录。MySql二阶段提交是通过xid进行复原。

组提交

为了进步性能,通常会将有关联性的多个数据批改操作放在一个事务中,这样能够防止对每个批改操作都执行残缺的长久化操作。这种形式,能够看作是人为的组提交(group commit)。除了将多个操作组合在一个事务中,记录binlog的操作也能够按组的思维进行优化:将多个事务波及到的BinLog一次性Flush,而不是每次Flush一个Binlog。

事务在提交的时候不仅会记录事务日志,还会记录二进制日志,然而它们谁先记录呢?BinLog是MySQL的下层日志,先于存储引擎的事务日志被写入。

在MySQL5.6以前,当事务提交(即收回Commit指令)后,MySQL接管到该信号进入Commit Prepare阶段;进入Prepare阶段后,立刻写内存中的BinLog日志,写完内存中的BinLog日志后就相当于确定了Commit操作;而后开始写内存中的事务日志;最初将BinLog日志和事务日志刷盘,它们如何刷盘,别离由变量sync_binloginnodb_flush_log_at_trx_commit管制。

但因为要保障BinLog日志和事务日志的一致性,在提交后的Prepare阶段会启用一个prepare_commit_mutex锁来保障它们的程序性和一致性。但这样会导致开启BinLog日志后Group Commmit生效,特地是在主从复制构造中,简直都会开启BinLog日志。在MySQL5.6中进行了改良。提交事务时,在存储引擎层的上一层构造中会将事务按序放入一个队列,队列中的第一个事务称为Leader,其余事务称为Follower,Leader管制着Follower的行为。尽管程序还是一样先刷BinLog,再刷事务日志,然而机制齐全扭转了:删除了原来的prepare_commit_mutex行为,也能保障即便开启了BinLog,Group Commit也是无效的。

MySQL5.6中分为3个步骤:flush阶段、sync阶段、commit阶段:

  • flush阶段:向内存中写入每个事务的BinLog;
  • sync阶段:将内存中的BinLog日志刷盘。若队列中有多个事务,那么仅一次fsync操作就实现了二进制日志的刷盘操作。这在MySQL5.6中称为BLGC(binary log group commit);
  • commit阶段:Leader依据顺序调用存储引擎层事务的提交,因为Innodb本就反对Group Commit,所以解决了因为锁prepare_commit_mutex而导致的Group Commit生效问题;

在flush阶段写入BinLog到内存中,然而不是写完就进入sync阶段的,而是要期待肯定的工夫,多积攒几个事务的binlog一起进入sync阶段,等待时间由变量binlog_max_flush_queue_time决定,默认值为0示意不期待间接进入sync,设置该变量为一个大于0的值的益处是group中的事务多了,性能会好一些,然而这样会导致事务的响应工夫变慢,所以倡议不要批改该变量的值,除非事务量十分多并且一直的在写入和更新。

进入到sync阶段,会将Binlog从内存中刷入到磁盘,刷入的数量和独自的Binlog日志刷盘一样,由变量sync_binlog管制。

当有一组事务在进行commit阶段时,其余新事务能够进行flush阶段,它们本就不会互相阻塞,所以Group Commit会一直失效。当然,group commit的性能和队列中的事务数量无关,如果每次队列中只有1个事务,那么group commit和独自的commit没什么区别,当队列中事务越来越多时,即提交事务越多越快时,group commit的成果越显著。

我是御狐神,欢送大家关注我的微信公众号:wzm2zsd

参考文档

MySQL实战45讲<br\>
什么是 WAL<br\>
详细分析MySQL事务日志(redo log和undo log)<br\>
说过的话就肯定要办到 —— redo 日志(上)<br\>

本文最先公布至微信公众号,版权所有,禁止转载!