关于tidb:技术分享-tidb-21升级到40操作文档

作者：莫善
某互联网公司高级 DBA。
本文起源：原创投稿
*爱可生开源社区出品，原创内容未经受权不得随便应用，转载请分割小编并注明起源。

一、前言

线上tidb集群都是2.1.[5,7,8,17]，因版本太低，面临诸多问题，比方治理难度大，热点问题，执行打算生效，性能瓶颈，其余已知/未知且无奈解决的问题，当初须要降级至4.0.13版本。在调研后发现，如果原地降级将须要屡次降级【2.1--> 3.0 --> 4.0】，放心原地降级遇到不可逆的故障，更放心的是解决不掉而影响业务，所以通过测试和评估，最终采纳数据迁徙的形式进行降级。

因为应用2.1版本的用户自身比拟少，更别提降级了，所以可参考的迁徙降级文档简直没有，在降级中遇到了很多问题，也踩了很多坑，本文整顿了降级操作流程，并标记每个步骤容易遇到什么问题及解决方案，权当经验交流，避坑指南。本文所有内容/操作命令仅供参考。

因5.0基于MySQL 8.0协定，放心和业务不兼容，也因为5.0+的小版本都还比拟小，放心稳定性，所以就不思考了，过后4.0.13是4.0最新的版本，就选了这个版本。
曾经有24套tidb集群实现了从2.1到4.0.13的降级。

二、环境介绍

1、旧集群环境介绍

已有的组件

角色	数量	端口
pd	3	5017
tidb	3	4000
tikv	3	20117
alertmanager	1	9093
prometheus	1	9100
grafana	1	3000
vip	192.168.1.100	4000
dns	old.tdb.com	4000

未列举的组件示意未启用该组件，因历史起因，集群并没有启用pump组件。
端口布局也没什么法则

预计减少的组件

角色	数量	端口
pump	3	23001
drainer	1	24001

2、旧集群访问信息

dns	old.tdb.com
vip	192.168.1.100:4000	rs : 192.168.1.1:4000 192.168.1.2:4000 192.168.1.3:4000

3、新集群环境介绍

角色	数量	端口
pd	3	13002
tidb	3	15002
tikv	3	17002
ticdc	3	33002
alertmanager	1	21002
prometheus	1	19002
grafana	1	20002
vip	192.168.1.100	15002
dns	new.tdb.com	15002

端口采纳2+3的格局，前两位是组件编号，后三位示意集群编号。即后三位一样的示意同一个集群，前两位一样示意同一个组件。

4、新集群访问信息

dns	new.tdb.com
vip	192.168.1.100:15002	rs : 192.168.1.1:15002 192.168.1.2:15002 192.168.1.3:15002

三、流程介绍

1、dba 打印以后连贯tidb的ip列表让主业务方确认是否存在非本业务的ip。确保所有应用该集群的业务都参加进来。
2、dba 跟业务确认是否有重连机制。（开启binlog须要重启tidb组件）。
3、dba 开启binlog，这步须要滚动重启tidb组件，须要跟业务协商一个工夫窗口。
4、dba 部署4.0环境并导入全量数据。
5、dba 同步增量数据。
6、dba 校验新旧集群数据一致性。
7、dba 交付新环境，提供新的域名 + 端口。
8、dba 提供只读账户，业务测试，验证业务场景（仅限读，不能写）。
9、dba 同步权限。
10、切换流量。

四、降级操作

1、打印旧集群拜访列表

ansible # /opt/soft/mysql57/bin/mysql -u root -h old.tdb1 -P 4000 -ppasswordmysql> select distinct host from information_schema.processlist

ansible # /opt/soft/mysql57/bin/mysql -u root -h old.tdb2 -P 4000 -ppasswordmysql> select distinct host from information_schema.processlist

ansible # /opt/soft/mysql57/bin/mysql -u root -h old.tdb3 -P 4000 -ppasswordmysql> select distinct host from information_schema.processlist

登录所有tidb节点，每个节点的输入后果追加到一个文件，而后排序去重进行统计客户端ip

2、确认是否有重连机制

略

3、开启binlog并全量备份

这步操作在ansible治理机执行

（1）编辑配置文件

ansible # vim /path/github/tidb-ansible-2.1.8/inventory.ini

增加pump组件的监控

[monitored_servers]monitor-pump1 ansible_host=xxxx deploy_dir=/path/tidb-data/pump-23001monitor-pump2 ansible_host=xxxx deploy_dir=/path/tidb-data/pump-23001monitor-pump3 ansible_host=xxxx deploy_dir=/path/tidb-data/pump-23001

增加pump组件

[pump_servers]#上面三个是pump组件的机器, 如果启用pump组件还须要关上 enable_binlog = Truepump1 ansible_host=xxxx deploy_dir=/path/tidb-data/pump-23001pump2 ansible_host=xxxx deploy_dir=/path/tidb-data/pump-23001pump3 ansible_host=xxxx deploy_dir=/path/tidb-data/pump-23001

pump端口设置及启用binlog参数

## Global variables[all:vars]pump_port = 23001## binlog triggerenable_binlog = True#enable_binlog = False

如果不设置enable_binlog = True，在部署pump的时候会被疏忽。另外须要留神，在pump能提供服务前，不能从新加载tidb的配置并重启，否则会导致业务写操作失败。

（2）编辑pump的配置

ansible # vim /path/github/tidb-ansible-2.1.8/conf/pump.yml

批改binlog保留周期

global:  # a integer value to control expiry date of the binlog data, indicates for how long (in days) the binlog data would be stored.   # must bigger than 0  gc: 14

改成14天，防止全量数据导入工夫过长导致增量数据失落（binlog被清理）。

（3）登录指标机器创立目录

登录各个pump节点创立目录及更改权限

ansible # ssh pump1pump1   # mkdir -p /path/tidb-data/pump-23001pump1   # chown -R tidb. /path/tidb-data/pump-23001

ansible # ssh pump2pump2   # mkdir -p /path/tidb-data/pump-23001pump2   # chown -R tidb. /path/tidb-data/pump-23001

ansible # ssh pump3pump3   # mkdir -p /path/tidb-data/pump-23001pump3   # chown -R tidb. /path/tidb-data/pump-23001

（4）在ansible治理机部署pump及监控

ansible # ansible-playbook deploy.yml -l monitor-pump1,monitor-pump2,monitor-pump3,pump1,pump2,pump3 -i inventory.ini

（5）在ansible治理机启动pump及监控

ansible # ansible-playbook start.yml -l monitor-pump1,monitor-pump2,monitor-pump3,pump1,pump2,pump3 -i inventory.ini

（6）登录tidb查看pump是否部署实现

ansible # /opt/soft/mysql57/bin/mysql -u root -h old.tdb.com -P 4000 -ppasswordmysql> show pump status;+------------+------------+--------+--------------------+---------------------+| NodeID     | Address    | State  | Max_Commit_Ts      | Update_Time         |+------------+------------+--------+--------------------+---------------------+| xxxx:23001 | xxxx:23001 | online | 427138948355850245 | 2021-08-20 04:42:57 || xxxx:23001 | xxxx:23001 | online | 427138948395171844 | 2021-08-20 04:42:57 || xxxx:23001 | xxxx:23001 | online | 427138948408279045 | 2021-08-20 04:42:57 |+------------+------------+--------+--------------------+---------------------+3 rows in set (0.00 sec)mysql>

须要留神，2.1.6之前的版本不反对这个查问操作，须要通过binlogctl 进行查看pump的状态，如下示例。

ansible #  /path/binlogctl -pd-urls=http://pd_host:pd_port -cmd pumpsINFO[0000] pump: {NodeID: xxxx:23001, Addr: xxxx:23001, State: online, MaxCommitTS: 432180280017551379, UpdateTime: 2021-08-20 04:45:57 +0800 CST} INFO[0000] pump: {NodeID: xxxx:23001, Addr: xxxx:23001, State: online, MaxCommitTS: 432180280004444167, UpdateTime: 2022-03-30 18:45:14 +0800 CST} INFO[0000] pump: {NodeID: xxxx:23001, Addr: xxxx:23001, State: online, MaxCommitTS: 432180280017551372, UpdateTime: 2022-03-30 18:45:14 +0800 CST}

（7）在ansible治理机滚动重启tidb节点

执行这个操作前，肯定要确保pump组件失常运行。

ansible # ansible-playbook rolling_update.yml -t tidb -i inventory.ini

须要留神的是，这个操作可能会呈现ansible启动或者敞开动作失败（始终卡着直到超时），如果碰到这种状况，能够登录到指标机器手动进行启动或者进行。参考命令如下:
启动 cd /path/tidb/scripts && sudo -u tidb bash start_tidb.sh
进行 cd /path/tidb/scripts && sudo -u tidb bash stop_tidb.sh

（8）登录tidb查看binlog是否曾经开启

ansible # /opt/soft/mysql57/bin/mysql -u root -h old.tdb.com -P 4000 -ppasswordmysql> show variables like 'log_bin';+---------------+-------+| Variable_name | Value |+---------------+-------+| log_bin       | 1     |+---------------+-------+1 row in set (0.01 sec)

须要留神，2.1.6之前的版本 log_bin 恒等于 0，就是说即使enable_binlog = True，通过show variables like 'log_bin';查出来的也是0，然而pump会记录binlog。
倡议挨个tidb都查看一遍。

（9）在ansible治理机更新监控

ansible # ansible-playbook rolling_update_monitor.yml -t prometheus -i inventory.ini

（10）创立全量备份

ansible # /path/mydumper -u user -p pass -h old.tdb.com -P 4000 -t 2 -F 32 --skip-tz-utc -o /backup_path/4000 -B db_name

备份须要留神：
工具获取 https://docs.pingcap.com/zh/t...
在业务低峰进行备份，否则可能会呈现网卡打满的状况（尤其是tidb是万兆网卡，tikv是千兆网卡的架构）
可能会因为gc工夫过短导致备份失败（通过调整gc工夫解决）
可能因为tidb调配的内存过小导致备份失败（通过调整tidb内存解决）
备份实现后倡议检查一下建表语句的文件，是否存在非法工夫格局("0000-00-00")，如果存在在导入新集群的时候会报错，须要跟业务沟通一下变更默认值。
mydumper不反对限流备份，能够通过备份到磁盘性能很差的机器或者cfs这种网络存储，在肯定水平上实现了限流备份。

4、部署4.0环境并导入全量数据

乐观事务模型须要关注一下，4.0尽管反对乐观事务模型，而且新建集群默认也是开启状态，然而要想一个操作用到乐观锁，还是有肯定的限定条件的，即非autocommit 的事务。具体请参考这个文章的【6.2.3.2局部】 https://book.tidb.io/session1...

（1）装置tiup

ansible # curl --proto '=https' --tlsv1.2 -sSf https://tiup-mirrors.pingcap.com/install.sh | shansible # . /root/.bash_profileansible # tiup --versionansible # tiup update --self

（2）筹备拓扑文件

ansible # vim topology-oltp-xxx.yaml

global:  user: "tidb"  ssh_port: 22  deploy_dir: "/tidb-deploy"  data_dir: "/tidb-data"  monitored:  node_exporter_port: 11000  blackbox_exporter_port: 12000  pd_servers:  - host: 10.0.1.4  - host: 10.0.1.5  - host: 10.0.1.6tidb_servers:  - host: 10.0.1.1  - host: 10.0.1.2  - host: 10.0.1.3tikv_servers:  - host: 10.0.1.7  - host: 10.0.1.8  - host: 10.0.1.9cdc_servers:  - host: 10.0.1.7  - host: 10.0.1.8  - host: 10.0.1.9monitoring_servers:  - host: 10.0.1.10grafana_servers:  - host: 10.0.1.10alertmanager_servers:  - host: 10.0.1.10

以上是官网提供的配置模板，请依据理论状况批改。
倡议部署ticdc（pump），防止须要回滚的时候可追溯增量数据。
倡议每个组件独自一台机器。

（3）查看tiup 治理机到各个节点的ssh通道是否失常

略

（4）部署集群

ansible # tiup cluster check tidb-oltp-xxx-v4.0.13 v4.0.13 topology-oltp-xxx.yamlansible # tiup cluster deploy tidb-oltp-xxx-v4.0.13 v4.0.13 topology-oltp-xxx.yamlansible # tiup cluster start tidb-oltp-xxx-v4.0.13ansible # tiup cluster display tidb-oltp-xxx-v4.0.13

check可能会报很多异样，能够依据提醒进行修复，很多异样也能够疏忽。请参考 https://docs.pingcap.com/zh/t...

（5）权限保护

ansible # /opt/soft/mysql57/bin/mysql -u root -h new.tdb.com -P 15002 -pmysql> create user if not exists root@"192.168.1.%" IDENTIFIED BY 'password';mysql> GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.1.%' WITH GRANT OPTION;mysql> GRANT ALL PRIVILEGES ON *.* TO 'root'@'pd1' WITH GRANT OPTION;mysql> GRANT ALL PRIVILEGES ON *.* TO 'root'@'pd2' WITH GRANT OPTION;mysql> GRANT ALL PRIVILEGES ON *.* TO 'root'@'pd3' WITH GRANT OPTION;

这里用空明码就能登录。
这里须要加上pd节点的受权，而且要求是root用户(还是给all权限吧，测试发现给select权限不行，没做更粗疏的权限测试)，否则dashboard不能失常应用。

ansible # /opt/soft/mysql57/bin/mysql -u root -h new.tdb.com -P 15002 -ppasswordmysql> drop user if exists root@"%";

倡议删除root@'%'这个空明码用户。

（6）导入全量数据

ansible # /path/loader -d /backup_path/4000 -h new.tdb.com -u user -p password -P 15002 -t 2 -status-addr ":9299"

复原须要留神：
工具获取 https://docs.pingcap.com/zh/t...
倡议在业务低峰进行复原
可能会因为表情符导致loader失败，如果遇到，能够试试Dumpling
多个loader工作的场景，倡议避开默认端口，否则可能会因为端口抵触导致失败

5、同步增量数据

这步操作在ansible治理机执行

（1）在备份机获取备份点位（本例应用ansible治理机进行备份）

从备份目录查看metadata文件

ansible # cd /backup_path/xxxansible # cat metadata Started dump at: 2021-08-29 15:34:30SHOW MASTER STATUS:    Log: tidb-binlog    Pos: 425971435565482001    GTID:Finished dump at: 2021-08-29 15:34:33ansible #

（2）批改配置文件

ansible # vim /path/github/tidb-ansible-2.1.8/inventory.ini

增加drainer组件的监控

[monitored_servers]monitor-drainer1 ansible_host=xxxx deploy_dir=/path/tidb-data/drainer-24001

增加drainer组件

[drainer_servers]drainer1 ansible_host=xxxx deploy_dir=/path/tidb-data/drainer-24001 initial_commit_ts="425971435565482001"

drainer端口设置

## Global variables[all:vars]drainer_port = 24001

（3）筹备drainer的配置文件

ansible # vim /path/github/tidb-ansible-2.1.8/conf/drainer1_drainer.toml

配置文件名命名规定为【别名_drainer.toml】，否则部署时无奈找到自定义配置文件。

# drainer Configuration.# the interval time (in seconds) of detect pumps' statusdetect-interval = 10# syncer Configuration.[syncer]# disable sync these schemaignore-schemas = "INFORMATION_SCHEMA,PERFORMANCE_SCHEMA,mysql"# number of binlog events in a transaction batchtxn-batch = 2000# work count to execute binlogsworker-count = 32disable-dispatch = false# safe mode will split update to delete and insertsafe-mode = false# downstream storage, equal to --dest-db-type# valid values are "mysql", "pb", "tidb", "flash", "kafka"db-type = "tidb"# the downstream MySQL protocol database[syncer.to]host = "new.tdb.com"user = "user"password = "xxxx"port = 15002

txn-batch 和 worker-count的配置在配置文件默认值应该是1，倡议依据理论状况改大点，如果太小可能呈现增量数据始终追不上的状况。

（4）部署drainer及监控

ansible # ansible-playbook deploy_drainer.yml -i inventory.ini -l drainer1ansible # ansible-playbook deploy.yml -i inventory.ini -l monitor-drainer1

（5）登录新集群的tidb，给drainer节点受权

ansible # /opt/soft/mysql57/bin/mysql -u root -h new.tdb.com -P 15002 -ppasswordmysql> create user if not exists user@"drainer_host" IDENTIFIED BY 'xxxx';mysql> GRANT ALL PRIVILEGES ON *.* TO 'user'@'drainer_host';

留神：新集群（4.0）要给drainer所在的主机受权，否则启动drainer将报错，为了演示不便，这里间接给了所有权限

（6）启动drainer及监控

启动drainer前倡议先确定一下指标库是否曾经存在tidb_binlog库，如果存在，且又须要从备份的点位开始增量同步，这种状况须要手动删除一下，要不然drainer会从checkpoint开始同步数据。（个别呈现在导入全量失败后须要从新导入全量，而后遗记清理tidb_binlog库）

ansible # ansible-playbook start_drainer.yml -i inventory.ini -l drainer1ansible # ansible-playbook start.yml -i inventory.ini -l monitor-drainer1

（7）登录tidb查看drainer状态

ansible # /opt/soft/mysql57/bin/mysql -u root -h old.tdb.com -P 4000 -ppasswordmysql> show drainer status;+------------+------------+--------+--------------------+---------------------+| NodeID     | Address    | State  | Max_Commit_Ts      | Update_Time         |+------------+------------+--------+--------------------+---------------------+| xxxx:24001 | xxxx:24001 | online | 431972431138127904 | 2021-08-25 16:42:57 |+------------+------------+--------+--------------------+---------------------+1 rows in set (0.00 sec)mysql>

须要留神，2.1.6之前的版本不反对这个查问操作，须要通过binlogctl 进行查看drainer的状态，如下示例。

ansible #  /path/binlogctl -pd-urls=http://pd_host:pd_port -cmd drainersINFO[0000] drainer: {NodeID: xxxx:24001, Addr: xxxx:24001, State: online, MaxCommitTS: 432180589478543384, UpdateTime: 2021-08-25 16:45:57 +0800 CST}

（8）更新监控

ansible # ansible-playbook rolling_update_monitor.yml -t prometheus -i inventory.ini

（9）登录grafana进行查看同步进度

留神：如果同步落后比拟大，能够在alertmanager将drainer的告警先禁用

6、校验新旧集群数据一致性

（1）下载工具

ansible # git clone https://gitee.com/mo-shan/check_data_for_mysql.gitansible # cd check_data_for_mysql

（2）批改配置

编辑配置文件

ansible # cd /path/check_data_for_mysqlansible # vim conf/check.conf

mysql_user="xxxx"mysql_passwd="xxxx"mysql_port1="6666"mysql_port2="6666"mysql_host1="192.168.1.1"mysql_host2="192.168.1.2"max_count=10000threads=5max_threads_running=30mysql_path="/opt/soft/mysql57/bin/mysql"log_partition="/dev/sda3"log_par_size="10"skip_check_table=""skip_check_db="INFORMATION_SCHEMA,METRICS_SCHEMA,PERFORMANCE_SCHEMA,mysql,sys,tidb_binlog,test,tidb_loader,dm_meta" #不倡议改

请结合实际状况依据正文提醒进行相干配置

批改工作门路

ansible # sed -i 's#^work_dir=.*#work_dir=\"/check_data_for_mysql_path\"#g' start.sh #将这里的check_data_for_mysql_path改成check_data_for_mysql的家目录的绝对路径

（3）测试用例

每次执行校验工作的时候强制要清空log目录，所以请做好校验后果的备份
执行校验工作的时候强烈建议开启screen
有网卡监控需要，执行监控脚本时也强烈建议独自开启screen进行监控

第一步：先开启一个screen监控网络

ansible # screen -S check_net_4000ansible # bash manager.sh -a start[ 2022-01-18 11:55:34 ] [ 1000 Mb/s ] [ RX : 2    MB/S ]  [ TX : 2    MB/S ][ 2022-01-18 11:55:35 ] [ 1000 Mb/s ] [ RX : 2    MB/S ]  [ TX : 4    MB/S ][ 2022-01-18 11:55:36 ] [ 1000 Mb/s ] [ RX : 2    MB/S ]  [ TX : 2    MB/S ][ 2022-01-18 11:55:37 ] [ 1000 Mb/s ] [ RX : 2    MB/S ]  [ TX : 3    MB/S ][ 2022-01-18 11:55:38 ] [ 1000 Mb/s ] [ RX : 1    MB/S ]  [ TX : 2    MB/S ][ 2022-01-18 11:55:39 ] [ 1000 Mb/s ] [ RX : 1    MB/S ]  [ TX : 2    MB/S ][ 2022-01-18 11:55:41 ] [ 1000 Mb/s ] [ RX : 1    MB/S ]  [ TX : 2    MB/S ][ 2022-01-18 11:55:42 ] [ 1000 Mb/s ] [ RX : 2    MB/S ]  [ TX : 8    MB/S ]

第二步：新开启一个screen执行校验工作

ansible # screen -S check_data_4000ansible # bash start.sh -d dba -t dbatest1 -f true [ 2022-01-17 20:32:19 ] [ 胜利 ] [ 192.168.1.1 ] [ start.sh/start.sh ] [ f_prepare:130 ] [ 本次数据一致性查看开始 ][ 2022-01-17 20:32:19 ] [ 正告 ] [ 192.168.1.1 ] [ start.sh/start.sh ] [ f_main:185 ] [ 本次数据一致性查看将查看如下库 : [dba] ][ 2022-01-17 20:32:19 ] [ 胜利 ] [ 192.168.1.1 ] [ start.sh/start.sh ] [ f_main:203 ] [ 正在查看dba库 ][ 2022-01-17 20:32:19 ] [ 胜利 ] [ 192.168.1.1 ] [ func/f_check_diff_for_mysql.sh ] [ f_check_diff_for_mysql:249 ] [ dba.dbatest1 ] [ 表构造统一 ][ 2022-01-17 20:32:19 ] [ 胜利 ] [ 192.168.1.1 ] [ func/f_check_diff_for_mysql.sh ] [ f_check_diff_for_mysql:491 ] [ dba.dbatest1 ] [ 1,1 ] [ 00 d 00 h 00 m 00 s ] [ 9.09%, (0:0)/1 ] [ 数据统一 ][ 2022-01-17 20:32:19 ] [ 胜利 ] [ 192.168.1.1 ] [ func/f_check_diff_for_mysql.sh ] [ f_check_diff_for_mysql:491 ] [ dba.dbatest1 ] [ 2,11 ] [ 00 d 00 h 00 m 00 s ] [ 100.00%, (0:0)/1 ] [ 数据统一 ][ 2022-01-17 20:32:19 ] [ 胜利 ] [ 192.168.1.1 ] [ func/f_check_diff_for_mysql.sh ] [ f_check_diff_for_mysql:504 ] [ dba.dbatest1 ] [ 查看结束 ][ 2022-01-17 20:32:19 ] [ 胜利 ] [ 192.168.1.1 ] [ start.sh/start.sh ] [ f_main:242 ] [ 本次数据一致性查看实现 ] [ 通过 ]ansible #

查看完结后会提醒查看通过，否则就是查看不通过。
工具实现逻辑请参考 https://mp.weixin.qq.com/s/PP...

7、交付新环境

dba提供新的域名和端口给业务，这里给业务提供一个只读账户即可。

ansible # /opt/soft/mysql57/bin/mysql -u root -h new.tdb.com -P 15002 -ppasswordmysql> create user if not exists read_only@"host" IDENTIFIED BY 'xxxx';mysql> GRANT SELECT ON *.* TO 'read_only'@'host';

须要留神的是，交付新环境前先不要同步权限表（mysql.user）。

8、业务验证

请业务充沛验证。

9、同步权限表

tidb2.1和4.0的权限表构造不统一，所以没法通过导出导入的形式同步权限，另外通过测试应用pt工具也是不行的，上面提供一个同步权限的脚本，2.1到4.0版本测试无效，其余版本尚未测试。

#!/bin/bashport=4000mysql_comm="/opt/soft/mysql57/bin/mysql -u root -h old.tdb.com -P ${port} -ppassword"for user in $(${mysql_comm} -NBe "select concat(user,'@','\"',host,'\"',':::',password) from mysql.user;" 2>/dev/null)do    user_tmp="$(awk -F::: '{print $1}' <<< "${user}")"    pass_tmp="$(awk -F::: '{print $2}' <<< "${user}")"    create_user="create user if not exists ${user_tmp} IDENTIFIED BY PASSWORD '${pass_tmp}';"    drop_user="drop user if exists ${user_tmp};"    grep -q "^root@" <<< "${user_tmp}" && {            grant_user="$(${mysql_comm} -NBe "show grants for ${user_tmp}" 2>/dev/null|sed 's/$/ WITH GRANT OPTION;/g')"        } || {            grant_user="$(${mysql_comm} -NBe "show grants for ${user_tmp}" 2>/dev/null|sed 's/$/;/g')"            echo "${drop_user}"        }    echo "${create_user}"    echo "${grant_user}"done

该脚本会将旧集群的权限打进去，确认无误后能够写到新集群。

ansible # bash show_grant.sh | /opt/soft/mysql57/bin/mysql -u root -h new.tdb.com -P 15002 -ppassword

权限同步当前，请业务不要做受权操作，如需受权新主机或新建用户，找dba帮助。
非必要也请业务不要再做ddl操作，如有需要也请dba帮助。

10、切换流量

业务切流量前，倡议将新集群的tidb挨个重启一遍，开释掉auto_increment缓存，重启结束后须要查看drainer工作的状态及提早，等没提早再联系业务进行切换。
如果不重启，切到新集群后自增列主键可能会报大量【Duplicate entry '' for key 'PRIMARY'】。

这个流程其实很简略，间接将新集群的tidb主机替换到vip原来 rs列表即可，或者新申请一个vip，将原来的域名解析到新vip。但因历史问题，原来的域名和tidb端口都不合乎治理标准，所以须要业务通过新的域名/端口拜访tidb。

须要留神：将域名解析到新的vip，这种仅对新进来的连贯起作用。

鉴于环境的特殊性，dba提供了两种计划实现让业务通过新的域名端口拜访tidb。

不论采纳哪种计划，在切流量当前都不倡议马上下掉旧域名。举荐的做法是删除旧域名对应的vip的rs列表，将新集群的tidb节点挂到旧域名对应的vip的rs列表（须要留神新tidb端口跟旧vip端口可能不统一），这样做是防止了业务漏切的状况，察看几天dns日志，确认没业务应用旧域名后再下掉。

（1）横蛮计划

业务间接批改连贯信息，应用 new.tdb.com:15002 来连贯tidb。

因可能存在多个业务应用该库，而且每个服务可能有多台业务机器，做不到所有服务同一时刻都切到新库，所以会呈现上面几种状况：

1）写新库，读旧库会读不到，因为新库跟旧库没有同步链路。

2）写旧库，读新库，可能会读不到，因为旧库跟新库之间存在提早。

防止不了双写，可能会导致上面的问题。

A. 更新同一行数据的两个连贯执行的工夫极短（小于旧库到新库的同步提早）。两个连贯是别离在旧库/新库执行，这时候该行数据的最终状态不是以谁最初执行为准。比如说，先在旧库执行了【update t set name = 1 where id = 2;】，而后在新库执行【update t set name = 2 where id = 2;】，实践上这个数据的记录最终应该是name=2，然而思考到新库到旧库的同步有提早，这个数据就可能会被旧库的数据笼罩变成name=1。如果反过来，先写新库，再写旧库，这种状况对数据没影响。
B. 业务的两个连贯在新库旧库别离插入同一行数据（主键一样或者惟一键一样的数据），如果先写新库，再写旧库，这样在业务端都会提交胜利，然而会导致旧库到新库的同步失败，因为旧库写入的数据同步到新库就会报主键抵触（惟一键抵触），这时候就须要dba人工干预进行修复。如果反过来，先写旧库再写新库（不思考旧库到新库的提早），这时候写新库的会话就会报错，这种状况对数据没影响。

针对上述的状况，须要业务充沛评估。如果不能承受，能够倡议业务应用上面的平滑计划，这样影响面较小。

（2）平滑计划

业务持续应用 old.tdb.com:4000 这个来连贯tidb。

dba须要将新集群的tidb加到旧集群的vip的rs列表，然而为了防止同时往新旧集群写数据，所以应该先将vip的rs先下掉，而后再将新集群的tidb ip加到vip rs列表。

这里波及两个动作：

将旧集群的vip的rs列表清空（下线rs），这里倡议被动开释连贯（重启/敞开旧集群的tidb），要不然可能会呈现下掉rs后（具体须要看vip的实现机制），连贯不会开释。
将新集群的tidb的ip加到旧集群vip 的rs列表。

这两个操作须要跟业务确认好，因为下掉rs再重新加入有个时间差（预计30s之内），这过程集群不可用。

实现上述操作后，旧集群的访问信息会变成如下表：

dns	old.tdb.com
vip	192.168.1.100:4000	rs : 192.168.1.1:15002 192.168.1.2:15002 192.168.1.3:15002

这时候业务须要挨个更新业务代码的配置，将旧域名和端口替换成新域名和端口（须要将 old.tdb.com:4000 替换成 new.tdb.com:15002 ），这时候再批改配置重启业务影响面会比拟小。

五、写在最初

本文档仅做教训分享，避坑指南，因应用场景各异，各自环境也不同，在迁徙过程中还可能碰上其余问题。如有线上环境操作需要，请在测试环境充沛测试。