关于安全:京东智联云MySQL数据库如何保障数据的可靠性

MySQL作为以后最风行的关系型数据库，在各个行业的零碎中扮演着最重要的角色。随着大家对数据价值认可的逐渐加深，数据的可靠性是最常被问到的一个问题。MySQL是如何保证数据可靠性的？京东智联云RDS-MySQL又做了哪些优化和新个性来保障用户数据的可靠性和一致性？本篇文章将为大家一一揭秘。

MySQL的Innodb存储引擎反对ACID（原子性Atomicity，一致性Consistency，隔离性Isolation，持久性Durability）个性，正是因为保障了一致性和持久性，所以数据才是牢靠的。很多关系型数据库为保障数据库的可靠性，同时最大限度地晋升性能，采纳了预写日志（Write-Ahead Logging）的办法，MySQL也不例外。它将数据变动先写入日志，而后立即返回给客户端更新胜利，真正的数据再异步更新到磁盘的数据文件。如果两头零碎产生故障，只有日志在数据就不会失落，这就保障了数据的可靠性。

MySQL写入的日志就是binlog和redo log文件，上面咱们来介绍下两种日志的写入流程。

事务执行过程中，MySQL会将所有变更记录到binlog cache中，在事务commit的时候一起写入binlog文件中。

binlog cache是由参数binlog_cache_size管制，默认32KB，如果事务很大，变更内容超过了binlog cache，则会写到磁盘中。通过命令show global status like ‘Binlog_cache_disk_use’;能够查看binlog cache写入磁盘的次数，如果数量过多，倡议调大binlog_cache_size参数值。

每个线程都会调配binlog cache，然而都共用一份binlog文件。流程图如下：

在写入到零碎的日志文件中有两个步骤，write和fsync。wirte是写入操作系统的缓存，fsync是长久化到磁盘文件，这个操作会占用零碎的IOPS，而它们操作的机会是通过参数sync_binlog管制。

sync_binlog=0，事务提交时，只做write操作，由操作系统本人管制fsync操作。这个是最危险的，一旦操作系统宕机，binlog cache中的变更内容全副会失落。

sync_binlog=1，事务提交时，都会做write和fsync操作。安全性最高，然而性能损耗也是最大的。

sync_binlog=N，事务提交时，会做write操作，累积N个事务时做fsync操作。一旦操作系统宕机，会失落binlog cache中局部变更内容。

事务执行过程中，也是先写入内存redo log buffer中，而后再写入到磁盘文件。其中redo log buffer是所有线程共用的。与binlog写到文件一样，写redo log也有write和fsync两个操作，它们操作的理论是通过参数innodb_flush_log_at_trx_commit管制。

nnodb_flush_log_at_trx_commit=0，事务提交时，只将变更内容写到redo log buffer，由后盾Master线程每秒write和fsync到磁盘文件。

innodb_flush_log_at_trx_commit=1，事务提交时，执行write和fsync操作。这是最平安的配置。

innodb_flush_log_at_trx_commit=2，事务提交时，只执行write操作，即只写到操作系统的缓存中，由后盾Master线程每秒fsync到磁盘文件。

对于这个参数与数据可靠性之间的关系如下表所示：

innodb_flush_log_at_trx_commit

数据库过程异样

操作零碎异样

失落最多1s的数据

不丢数据

失落最多1s的数据

参数sync_binlog=1与innodb_flush_log_at_trx_commit=1就是DBA常说的“双1”配置，也是线上环境数据最平安最牢靠的配置。

再比照下binlog和redo log的不同之处：

binlog

redo log

记录者

MySQL server

Innodb引擎

记录工夫

事务commit的时候

多种条件触发，随时记录

记录内容

逻辑日志

row格局或者statement格局

物理日志

数据页的变动，幂等的

binlog和redo log是如何配合起到数据可靠性的作用呢，就不得不提到两阶段提交。它能够保障binlog和redo log的数据一致性。下图是事务提交时两个日志的记录流程：

如果在此过程中呈现零碎异样，每个状态下都是能够保证数据一致性的。

状态

解决

如果innodb曾经commit，那binlog肯定有该事务的event。

事务是一致性的，无需解决。

如果innodb曾经prepare，binlog曾经有记录该事务的event，然而innodb未commit。

前滚，innodb须要持续提交这些事务。

如果innodb曾经preprare，binlog没有记录event，阐明从库也没有复制这些event。

回滚。

如果innodb未实现prepare，binlog也应该没有记录event。

回滚。

innodb_suport_xa参数，这个参数管制是否关上两段式提交。默认开启，如果敞开了，事务则会以不同程序的形式写入binlog。如果宕机复原、xtarbackup复原，都是会有数据不统一的危险。这个参数在MySQL5.7.10后就废除了，必须开启。

MySQL倒退到当初，集群也从主备异步复制、半同步复制、group replication一直倒退和演变。然而它们的外围根底都是binlog，能够说MySQL的数据复制都依赖于它，而集群间的数据一致性更是与binlog无关。次要有两个点须要特地留神。

1. binlog的格局。statement、row和mixed。statement格局间接将SQL语句记录在binlog文件中，因为主从库是两个独立的服务，运行环境齐全不同，所以会呈现不统一的危险，比方执行delete from t limit 100。所以线上环境倡议应用row格局。

2. 数据提早。当从库呈现提早，会造成集群数据不统一。从库提早的起因很多，这里列举以下几个线上经常出现的提早起因：

a）大事务。binlog只有在事务commit时才会记录到文件，而后从库能力读取到数据变更，所以当有大事务的时候，主库提交后从库才开始执行。

_b）大并发。_5.6和5.7版本都反对并行复制，然而并行度无限，当主库并发较高时，从库会呈现提早。

c）表构造。主库表没有主键，binlog是row格局的，主库执大量行数的更新SQL时，从库会执行屡次全表扫描，造成提早。

d）期待锁。从库个别会承当备份性能，应用xtrabackup进行备份会执行FLUSH NO_WRITE_TO_BINLOG TABLES和FLUSH TABLES WITH READ LOCK操作，在非凡状况下，这两个操作会梗塞复制的SQL线程，造成提早。

京东智联云RDS-MySQL集群应用主从复制架构，为了保障用户存储数据可靠性和安全性，咱们对要害流程做了一系列优化和改善工作。以用户数据安全为己任，以用户体验为核心。

1. 物理环境

硬件，采纳高性能的NVME硬盘，最新型号物理机配置。

网络，跨AZ机器的网络提早在1.2ms以内，配置万兆网卡。

2. 软件环境

数据面，参考京东高并发、高牢靠的业务系统优化教训，京东智联云对RDS操作系统配置、MySQL参数配置做了一些列优化，保障数据库集群数据的可靠性。

管制面，针对集群的提早，有多组提早监控、报警；针对不同提早起因，会触发不同的优化逻辑，主动升高提早。

当物理机呈现问题或者做数据迁徙时，都会波及MySQL集群的高可用操作，因为MySQL集群的复制特点，有可能会呈现数据失落的状况。京东智联云RDS-MySQL在切换时是要保障用户数据一致性优先的，在判断集群数据齐全牢靠的状况下，再做切换操作，保障用户的数据不失落，不写花。

MySQL高可用切换流程的复杂性，不在切换的过程，而是触发切换条件的判断，上面介绍下RDS-MySQL主动高可用切换的判断流程。

哨兵服务查看数据库和操作系统状态，发现实例服务异样，则触发多组哨兵服务的数据库服务检查和投票机制，确认服务实在不可用再进行切换流程。

主库实时上报GTID信息，如果产生主动高可用，即主库服务不可用时，首先会比照从库的Retrieved_Gtid_Set值，确保从库的IO thread曾经拉取了主库全副的binlog内容。

而后再比照从库的Retrieved_Gtid_Set和Executed_Gtid_Set范畴值，保障从库拉取的binlog全副利用实现。

高可用流程切换实现后，会对集群数据做一致性校验，并触发建设新从库的流程。

数据库备份是数据安全的最重要屏障，当呈现极其状况下，集群所有节点的数据都不可用，就须要依赖备份保证数据的可靠性和安全性。咱们对RDS-MySQL的备份、复原流程做了一系列优化，保障用户零碎在灾备时复原工夫尽量短，复原数据尽可能最新。

每日全量备份，实时binlog备份；

所有备份上传到对象存储，多备份保留，多区域寄存；

定期做备份数据的有效性验证；

高可用、扩容、删除等重要流程强制做数据库的数据备份；

反对软删除性能，单库表复原性能。

京东智联云RDS-MySQL的用户在应用过程中，呈现过很多数据可靠性相干的案例，上面举一些典型案例来分享：

问题

因为用户并发较大，集群从库呈现提早。

发现

从库对于用户是不可见的，所以从库提早用户是无需感知的。

通过后盾的监控零碎，触发从库提早报警，运维人员才发现这个问题。

解决

后台任务会扫描所有报警信息，当扫描到提早报警后，会联合该实例的其余信息定位故障起因，而后主动调整集群数据库配置，达到升高提早的目标。提早报警解除后，复原集群配置。

意义

RDS-MySQL局部报警曾经实现了“负载异样检测”、“主动诊断”、“线上配置优化”、“优化成果跟踪”的闭环解决。

可帮忙用户疾速、平安、精确地解决集群数据安全隐患。

问题

用户因为人为误操作，导致删除了线上零碎的局部数据。

发现

用户提工单，想疾速复原删除表的数据到指定工夫点。

解决

控制台提供单库、单表按工夫点疾速复原的性能。技术服务人员间接反馈给用户该性能的应用文档。用户通过自助操作，实现对删除数据的复原操作。

意义

RDS-MySQL将备份和复原性能用到极致，两类备份形式对应多种复原流程，不便用户疾速、平安地实现复原数据库需要。

RDS-MySQL复原流程反对：

1. 依据工夫点创立

2. 依据工夫点单库、单表本地复原

3. 依据备份创立和本地笼罩复原

通过上述内容，想必大家曾经对MySQL是如何保证数据可靠性有了初步理解，如果还想进一步体验MySQL服务，请点击【浏览原文】链接体验试用。

关于安全:京东智联云MySQL数据库如何保障数据的可靠性

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于安全:京东智联云MySQL数据库如何保障数据的可靠性

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复