乐趣区

关于mysql:故障分析-MySQL-异地从库复制延迟案例一则

作者:任坤

现居珠海,先后负责专职 Oracle 和 MySQL DBA,当初次要负责 MySQL、mongoDB 和 Redis 保护工作。

本文起源:原创投稿

* 爱可生开源社区出品,原创内容未经受权不得随便应用,转载请分割小编并注明起源。


1、背景

线上某外围 MySQL,版本为 5.6,本地机房 1 主 2 从,同时部署了一个异地从库。

从 2 月 14 号起异地从库开始报警复制提早,一开始认为是网络稳定导致就没有解决,然而 2 天后该报警仍然存在且提早越来越高。

2、诊断

登录该异地从库,首先甄别是不是 IO 复制线程引发的提早。

该步骤很简略,查看 show slave status 的 Master_Log_File 是不是主库以后的 binlog,如果是阐明 IO 复制线程没有提早,那就是 SQL 复制 线程引起的。

获取该 mysqld 的过程 ID,执行 perf record -ag -p 11029 — sleep 10; perf report

重复执行屡次,每次都有 deflate_slow 且占据比例最高

将其开展,和压缩页有关联

pstack 11029 屡次抓取现场,也是和压缩页无关。

该实例的确有个大表,并且只有异地从库开启了页压缩,将其行格局转为 dynamic。

查看 Seconds_Behind_Master,提早指标开始逐渐降落,阐明该计划失效了。

再次抓取 perf 和 pstack 现场。

–perf report

–pstack

能够看到和页压缩相干的 API 曾经隐没,再次确认了本次复制提早和大表开启页压缩有间接关系。

3、小结

借助 perf 和 pstack 工具,能很快定位是压缩表引发的 SQL 线程复制提早,将大表解压缩后最终解决该问题。

退出移动版