关于java:为什么MySQL不建议delete删除数据心得分享

前言

我负责的有几个零碎随着业务量的增长，存储在 MySQL 中的数据日益剧增，我过后就想当初的业务方不讲武德，搞偷袭，趁我没反馈过去把很多表，很快，很快啊都打到了亿级别，我粗心了，没有闪，这就导致跟其 Join 的表的 SQL 变得很慢，对的利用接口的 response time 也变长了，影响了用户体验。

预先我找到业务方，我批评了他们跟他们说要讲武德，连忙跟我赔罪，这个事件才就此作罢，走的时候我对他们说下次不要这样了，耗子尾汁，好好反思。

骂归骂，事件还是得解决，时候我剖析起因发现，发现有些表的数据量增长很快，对应 SQL 扫描了很多有效数据，导致 SQL 慢了下来，通过确认之后，这些大表都是一些流水、记录、日志类型数据，只须要保留 1 到 3 个月，此时须要对表做数据清理实现瘦身，个别都会想到用 insert + delete 的形式去清理。

这篇文章我会从 InnoDB 存储空间散布，delete 对性能的影响，以及优化倡议方面解释为什么不倡议 delete 删除数据。

从这张图能够看到，InnoDB 存储构造次要包含两局部：逻辑存储构造和物理存储构造。

逻辑上是由表空间 tablespace —> 段 segment 或者 inode —> 区 Extent ——> 数据页 Page 形成，Innodb 逻辑治理单位是 segment，空间调配的最小单位是 extent，每个 segment 都会从表空间 FREE_PAGE 中调配 32 个 page，当这 32 个 page 不够用时，会依照以下准则进行扩大：如果以后小于 1 个 extent，则扩大到 1 个 extent；当表空间小于 32MB 时，每次扩大一个 extent；表空间大于 32MB，每次扩大 4 个 extent。

物理上次要由零碎用户数据文件，日志文件组成，数据文件次要存储 MySQL 字典数据和用户数据，日志文件记录的是 data page 的变更记录，用于 MySQL Crash 时的复原。

InnoDB 存储包含三类表空间：零碎表空间，用户表空间，Undo 表空间。

零碎表空间： 次要存储 MySQL 外部的数据字典数据，如 information_schema 下的数据。

用户表空间： 当开启 innodb_file_per_table= 1 时，数据表从零碎表空间独立进去存储在以 table_name.ibd 命令的数据文件中，构造信息存储在 table_name.frm 文件中。

Undo 表空间： 存储 Undo 信息，如快照统一读和 flashback 都是利用 undo 信息。

从 MySQL 8.0 开始容许用户自定义表空间，具体语法如下：

CREATE TABLESPACE tablespace_name
    ADD DATAFILE 'file_name'               #数据文件名
    USE LOGFILE GROUP logfile_group        #自定义日志文件组，个别每组 2 个 logfile。[EXTENT_SIZE [=] extent_size]          #区大小
    [INITIAL_SIZE [=] initial_size]        #初始化大小 
    [AUTOEXTEND_SIZE [=] autoextend_size]  #主动扩宽尺寸
    [MAX_SIZE [=] max_size]                #单个文件最大 size，最大是 32G。[NODEGROUP [=] nodegroup_id]           #节点组
    [WAIT]
    [COMMENT [=] comment_text]
    ENGINE [=] engine_name
复制代码

这样的益处是能够做到数据的冷热拆散，别离用 HDD 和 SSD 来存储，既能实现数据的高效拜访，又能节约老本，比方能够增加两块 500G 硬盘，通过创立卷组 vg，划分逻辑卷 lv，创立数据目录并 mount 相应的 lv，假如划分的两个目录别离是 /hot_data 和 /cold_data。

这样就能够将外围的业务表如用户表，订单表存储在高性能 SSD 盘上，一些日志，流水表存储在一般的 HDD 上，次要的操作步骤如下：

# 创立热数据表空间
create tablespace tbs_data_hot add datafile '/hot_data/tbs_data_hot01.dbf' max_size 20G;
#创立外围业务表存储在热数据表空间
create table booking(id bigint not null primary key auto_increment, ……) tablespace tbs_data_hot;
#创立冷数据表空间
create tablespace tbs_data_cold add datafile '/hot_data/tbs_data_cold01.dbf' max_size 20G;
#创立日志，流水，备份类的表存储在冷数据表空间
create table payment_log(id bigint not null primary key auto_increment, ……) tablespace tbs_data_cold;
#能够挪动表到另一个表空间
alter table payment_log tablespace tbs_data_hot;
复制代码

mysql> create table user(id bigint not null primary key auto_increment, 
    -> name varchar(20) not null default ''comment' 姓名 ', 
    -> age tinyint not null default 0 comment 'age', 
    -> gender char(1) not null default 'M'  comment '性别',
    -> phone varchar(16) not null default ''comment' 手机号 ',
    -> create_time datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创立工夫',
    -> update_time datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '批改工夫'
    -> ) engine = InnoDB DEFAULT CHARSET=utf8mb4 COMMENT '用户信息表';
Query OK, 0 rows affected (0.26 sec)
复制代码

# ls -lh user1.ibd 
-rw-r----- 1 mysql mysql 96K Nov  6 12:48 user.ibd
复制代码

设置参数 innodb_file_per_table= 1 时，创立表时会主动创立一个 segment，同时调配一个 extent，蕴含 32 个 data page 的来存储数据，这样创立的空表默认大小就是 96KB，extent 应用完之后会申请 64 个连贯页，这样对于一些小表，或者 undo segment，能够在开始时申请较少的空间，节俭磁盘容量的开销。

# python2 py_innodb_page_info.py -v /data2/mysql/test/user.ibd
page offset 00000000, page type <File Space Header>
page offset 00000001, page type <Insert Buffer Bitmap>
page offset 00000002, page type <File Segment inode>
page offset 00000003, page type <B-tree Node>, page level <0000>
page offset 00000000, page type <Freshly Allocated Page>
page offset 00000000, page type <Freshly Allocated Page>
Total number of page: 6:      #总共调配的页数
Freshly Allocated Page: 2     #可用的数据页
Insert Buffer Bitmap: 1       #插入缓冲页
File Space Header: 1          #文件空间头
B-tree Node: 1                #数据页
File Segment inode: 1         #文件端 inonde，如果是在 ibdata1.ibd 上会有多个 inode。复制代码

mysql> DELIMITER $$
mysql> CREATE PROCEDURE insert_user_data(num INTEGER) 
    -> BEGIN
    ->     DECLARE v_i int unsigned DEFAULT 0;
    -> set autocommit= 0;
    -> WHILE v_i < num DO
    ->    insert into user(`name`, age, gender, phone) values (CONCAT('lyn',v_i), mod(v_i,120), 'M', CONCAT('152',ROUND(RAND(1)*100000000)));
    ->  SET v_i = v_i+1;
    -> END WHILE;
    -> commit;
    -> END $$
Query OK, 0 rows affected (0.01 sec)
mysql> DELIMITER ;

#插入 10w 数据
mysql> call insert_user_data(100000);
Query OK, 0 rows affected (6.69 sec)
复制代码

# ls -lh user.ibd
-rw-r----- 1 mysql mysql 14M Nov 6 10:58 /data2/mysql/test/user.ibd
 # python2 py_innodb_page_info.py -v /data2/mysql/test/user.ibd
page offset 00000000, page type <File Space Header>
page offset 00000001, page type <Insert Buffer Bitmap>
page offset 00000002, page type <File Segment inode>
page offset 00000003, page type <B-tree Node>, page level <0001>   #减少了一个非叶子节点，树的高度从 1 变为 2.
........................................................
page offset 00000000, page type <Freshly Allocated Page>
Total number of page: 896:
Freshly Allocated Page: 493
Insert Buffer Bitmap: 1
File Space Header: 1
B-tree Node: 400
File Segment inode: 1
复制代码

mysql> select min(id),max(id),count(*) from user;
+---------+---------+----------+
| min(id) | max(id) | count(*) |
+---------+---------+----------+
|       1 |  100000 |   100000 |
+---------+---------+----------+
1 row in set (0.05 sec)
#删除 50000 条数据，实践上空间应该从 14MB 变长 7MB 左右。mysql> delete from user limit 50000;
Query OK, 50000 rows affected (0.25 sec)

#数据文件大小仍然是 14MB，没有放大。# ls -lh /data2/mysql/test/user1.ibd 
-rw-r----- 1 mysql mysql 14M Nov  6 13:22 /data2/mysql/test/user.ibd

#数据页没有被回收。# python2 py_innodb_page_info.py -v /data2/mysql/test/user.ibd
page offset 00000000, page type <File Space Header>
page offset 00000001, page type <Insert Buffer Bitmap>
page offset 00000002, page type <File Segment inode>
page offset 00000003, page type <B-tree Node>, page level <0001>
........................................................
page offset 00000000, page type <Freshly Allocated Page>
Total number of page: 896:
Freshly Allocated Page: 493
Insert Buffer Bitmap: 1
File Space Header: 1
B-tree Node: 400
File Segment inode: 1
#在 MySQL 外部是标记删除，复制代码

mysql> use information_schema;

Database changed
mysql> SELECT A.SPACE AS TBL_SPACEID, A.TABLE_ID, A.NAME AS TABLE_NAME, FILE_FORMAT, ROW_FORMAT, SPACE_TYPE,  B.INDEX_ID , B.NAME AS INDEX_NAME, PAGE_NO, B.TYPE AS INDEX_TYPE FROM INNODB_SYS_TABLES A LEFT JOIN INNODB_SYS_INDEXES B ON A.TABLE_ID =B.TABLE_ID WHERE A.NAME = 'test/user1';
+-------------+----------+------------+-------------+------------+------------+----------+------------+---------+------------+
| TBL_SPACEID | TABLE_ID | TABLE_NAME | FILE_FORMAT | ROW_FORMAT | SPACE_TYPE | INDEX_ID | INDEX_NAME | PAGE_NO | INDEX_TYPE |
+-------------+----------+------------+-------------+------------+------------+----------+------------+---------+------------+
|        1283 |     1207 | test/user | Barracuda   | Dynamic    | Single     |     2236 | PRIMARY    |       3 |          3 |
+-------------+----------+------------+-------------+------------+------------+----------+------------+---------+------------+
1 row in set (0.01 sec)

PAGE_NO = 3 标识 B -tree 的 root page 是 3 号页，INDEX_TYPE = 3 是汇集索引。INDEX_TYPE 取值如下：0 = nonunique secondary index; 
1 = automatically generated clustered index (GEN_CLUST_INDEX); 
2 = unique nonclustered index; 
3 = clustered index; 
32 = full-text index;
#膨胀空间再后进行察看
复制代码

MySQL 外部不会真正删除空间，而且做标记删除，行将 delflag:N 批改为 delflag:Y，commit 之后会会被 purge 进入删除链表，如果下一次 insert 更大的记录，delete 之后的空间不会被重用，如果插入的记录小于等于 delete 的记录空会被重用，这块内容能够通过知数堂的 innblock 工具进行剖析。

咱们晓得数据存储在文件系统上的，总是不能 100% 利用调配给它的物理空间，删除数据会在页面上留下一些”空洞”，或者随机写入（汇集索引非线性减少）会导致页决裂，页决裂导致页面的利用空间少于 50%，另外对表进行增删改会引起对应的二级索引值的随机的增删改，也会导致索引构造中的数据页面上留下一些 ” 空洞 ”，尽管这些空洞有可能会被反复利用，但终究会导致局部物理空间未被应用，也就是碎片。

同时，即使是设置了填充因子为 100%，Innodb 也会被动留下 page 页面 1 /16 的空间作为预留应用（An innodb_fill_factor setting of 100 leaves 1/16 of the space in clustered index pages free for future index growth）避免 update 带来的行溢出。

mysql> select table_schema,
    ->        table_name,ENGINE,
    ->        round(DATA_LENGTH/1024/1024+ INDEX_LENGTH/1024/1024) total_mb,TABLE_ROWS,
    ->        round(DATA_LENGTH/1024/1024) data_mb, round(INDEX_LENGTH/1024/1024) index_mb, round(DATA_FREE/1024/1024) free_mb, round(DATA_FREE/DATA_LENGTH*100,2) free_ratio
    -> from information_schema.TABLES where  TABLE_SCHEMA= 'test'
    -> and TABLE_NAME= 'user';
+--------------+------------+--------+----------+------------+---------+----------+---------+------------+
| table_schema | table_name | ENGINE | total_mb | TABLE_ROWS | data_mb | index_mb | free_mb | free_ratio |
+--------------+------------+--------+----------+------------+---------+----------+---------+------------+
| test         | user      | InnoDB |        4 |      50000 |       4 |        0 |       6 |     149.42 |
+--------------+------------+--------+----------+------------+---------+----------+---------+------------+
1 row in set (0.00 sec)

复制代码

其中 data_free 是调配了未应用的字节数，并不能阐明齐全是碎片空间。

对于 InnoDB 的表，能够通过以下命令来回收碎片，开释空间，这个是随机读 IO 操作，会比拟耗时，也会阻塞表上失常的 DML 运行，同时须要占用额定更多的磁盘空间，对于 RDS 来说，可能会导致磁盘空间霎时爆满，实例霎时被锁定，利用无奈做 DML 操作，所以禁止在线上环境去执行。

# 执行 InnoDB 的碎片回收
mysql> alter table user engine=InnoDB;
Query OK, 0 rows affected (9.00 sec)
Records: 0  Duplicates: 0  Warnings: 0
 ## 执行完之后，数据文件大小从 14MB 升高到 10M。# ls -lh /data2/mysql/test/user1.ibd 
-rw-r----- 1 mysql mysql 10M Nov 6 16:18 /data2/mysql/test/user.ibd
复制代码

mysql> select table_schema,        table_name,ENGINE,        round(DATA_LENGTH/1024/1024+ INDEX_LENGTH/1024/1024) total_mb,TABLE_ROWS,        round(DATA_LENGTH/1024/1024) data_mb, round(INDEX_LENGTH/1024/1024) index_mb, round(DATA_FREE/1024/1024) free_mb, round(DATA_FREE/DATA_LENGTH*100,2) free_ratio from information_schema.TABLES where  TABLE_SCHEMA= 'test' and TABLE_NAME= 'user';
+--------------+------------+--------+----------+------------+---------+----------+---------+------------+
| table_schema | table_name | ENGINE | total_mb | TABLE_ROWS | data_mb | index_mb | free_mb | free_ratio |
+--------------+------------+--------+----------+------------+---------+----------+---------+------------+
| test         | user      | InnoDB |        5 |      50000 |       5 |        0 |       2 |      44.29 |
+--------------+------------+--------+----------+------------+---------+----------+---------+------------+
1 row in set (0.00 sec)

复制代码

# 插入 100W 数据
mysql> call insert_user_data(1000000);
Query OK, 0 rows affected (35.99 sec)

#增加相干索引
mysql> alter table user add index idx_name(name), add index idx_phone(phone);
Query OK, 0 rows affected (6.00 sec)
Records: 0  Duplicates: 0  Warnings: 0

#表上索引统计信息
mysql> show index from user;
+-------+------------+-----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| Table | Non_unique | Key_name  | Seq_in_index | Column_name | Collation | Cardinality | Sub_part | Packed | Null | Index_type | Comment | Index_comment |
+-------+------------+-----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
| user  |          0 | PRIMARY   |            1 | id          | A         |      996757 |     NULL | NULL   |      | BTREE      |         |               |
| user  |          1 | idx_name  |            1 | name        | A         |      996757 |     NULL | NULL   |      | BTREE      |         |               |
| user  |          1 | idx_phone |            1 | phone       | A         |           2 |     NULL | NULL   |      | BTREE      |         |               |
+-------+------------+-----------+--------------+-------------+-----------+-------------+----------+--------+------+------------+---------+---------------+
3 rows in set (0.00 sec)

#重置状态变量计数
mysql> flush status;
Query OK, 0 rows affected (0.00 sec)

#执行 SQL 语句
mysql> select id, age ,phone from user where name like 'lyn12%';
+--------+-----+-------------+
| id     | age | phone       |
+--------+-----+-------------+
|    124 |   3 | 15240540354 |
|   1231 |  30 | 15240540354 |
|  12301 |  60 | 15240540354 |
.............................
| 129998 |  37 | 15240540354 |
| 129999 |  38 | 15240540354 |
| 130000 |  39 | 15240540354 |
+--------+-----+-------------+
11111 rows in set (0.03 sec)

mysql> explain select id, age ,phone from user where name like 'lyn12%';
+----+-------------+-------+-------+---------------+----------+---------+------+-------+-----------------------+
| id | select_type | table | type  | possible_keys | key      | key_len | ref  | rows  | Extra                 |
+----+-------------+-------+-------+---------------+----------+---------+------+-------+-----------------------+
|  1 | SIMPLE      | user  | range | idx_name      | idx_name | 82      | NULL | 22226 | Using index condition |
+----+-------------+-------+-------+---------------+----------+---------+------+-------+-----------------------+
1 row in set (0.00 sec)

#查看相干状态呢变量
mysql> select * from information_schema.session_status where variable_name in('Last_query_cost','Handler_read_next','Innodb_pages_read','Innodb_data_reads','Innodb_pages_read');
+-------------------+----------------+
| VARIABLE_NAME     | VARIABLE_VALUE |
+-------------------+----------------+
| HANDLER_READ_NEXT | 11111          |    #申请读的行数
| INNODB_DATA_READS | 7868409        |    #数据物理读的总数
| INNODB_PAGES_READ | 7855239        |    #逻辑读的总数
| LAST_QUERY_COST   | 10.499000      |    #SQL 语句的老本 COST，次要包含 IO_COST 和 CPU_COST。+-------------------+----------------+
4 rows in set (0.00 sec)
复制代码

# 删除 50w 数据
mysql> delete from user limit 500000;
Query OK, 500000 rows affected (3.70 sec)

#剖析表统计信息
mysql> analyze table user;
+-----------+---------+----------+----------+
| Table     | Op      | Msg_type | Msg_text |
+-----------+---------+----------+----------+
| test.user | analyze | status   | OK       |
+-----------+---------+----------+----------+
1 row in set (0.01 sec)

#重置状态变量计数
mysql> flush status;
Query OK, 0 rows affected (0.01 sec)

mysql> select id, age ,phone from user where name like 'lyn12%';
Empty set (0.05 sec)

mysql> explain select id, age ,phone from user where name like 'lyn12%';
+----+-------------+-------+-------+---------------+----------+---------+------+-------+-----------------------+
| id | select_type | table | type  | possible_keys | key      | key_len | ref  | rows  | Extra                 |
+----+-------------+-------+-------+---------------+----------+---------+------+-------+-----------------------+
|  1 | SIMPLE      | user  | range | idx_name      | idx_name | 82      | NULL | 22226 | Using index condition |
+----+-------------+-------+-------+---------------+----------+---------+------+-------+-----------------------+
1 row in set (0.00 sec)

mysql> select * from information_schema.session_status where variable_name in('Last_query_cost','Handler_read_next','Innodb_pages_read','Innodb_data_reads','Innodb_pages_read');
+-------------------+----------------+
| VARIABLE_NAME     | VARIABLE_VALUE |
+-------------------+----------------+
| HANDLER_READ_NEXT | 0              |
| INNODB_DATA_READS | 7868409        |
| INNODB_PAGES_READ | 7855239        |
| LAST_QUERY_COST   | 10.499000      |
+-------------------+----------------+
4 rows in set (0.00 sec)
复制代码

操作

COST

物理读次数

逻辑读次数

扫描行数

返回行数

执行工夫

初始化插入 100W

10.499000

7868409

7855239

22226

11111

30ms

100W 随机删除 50W

10.499000

7868409

7855239

22226

50ms

这也阐明对一般的大表，想要通过 delete 数据来对表进行瘦身是不事实的，所以在任何时候不要用 delete 去删除数据，应该应用优雅的标记删除。

对于一个大的零碎来说，须要依据业务特点去拆分子系统，每个子系统能够看做是一个 service，例如美团 APP，下面有很多服务，外围的服务有用户服务 user-service，搜寻服务 search-service，商品 product-service，位置服务 location-service，价格服务 price-service 等。每个服务对应一个数据库，为该数据库创立独自账号，同时只授予 DML 权限且没有 delete 权限，同时禁止跨库拜访。

# 创立用户数据库并受权
create database mt_user charset utf8mb4;
grant USAGE, SELECT, INSERT, UPDATE ON mt_user.*  to 'w_user'@'%' identified by 't$W*g@gaHTGi123456';
flush privileges;
复制代码

在 MySQL 数据库建模标准中有 4 个公共字段，基本上每个表必须有的，同时在 create_time 列要创立索引，有两方面的益处：

一些查问业务场景都会有一个默认的时间段，比方 7 天或者一个月，都是通过 create_time 去过滤，走索引扫描更快。
一些外围的业务表须要以 T + 1 的形式抽取数据仓库中，比方每天晚上 00:30 抽取前一天的数据，都是通过 create_time 过滤的。

`id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主键 id',
`is_deleted` tinyint(4) NOT NULL DEFAULT '0' COMMENT '是否逻辑删除：0：未删除，1：已删除',
`create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '创立工夫',
`update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '批改工夫'

#有了删除标记，业务接口的 delete 操作就能够转换为 update
update user set is_deleted = 1 where user_id = 1213;

#查问的时候须要带上 is_deleted 过滤
select id, age ,phone from user where is_deleted = 0 and name like 'lyn12%';
复制代码

#1. 创立归档表，个别在原表名前面增加_bak。CREATE TABLE `ota_order_bak` (`id` bigint(11) NOT NULL AUTO_INCREMENT COMMENT '主键',
  `order_id` varchar(255) DEFAULT NULL COMMENT '订单 id',
  `ota_id` varchar(255) DEFAULT NULL COMMENT 'ota',
  `check_in_date` varchar(255) DEFAULT NULL COMMENT '入住日期',
  `check_out_date` varchar(255) DEFAULT NULL COMMENT '离店日期',
  `hotel_id` varchar(255) DEFAULT NULL COMMENT '酒店 ID',
  `guest_name` varchar(255) DEFAULT NULL COMMENT '顾客',
  `purcharse_time` timestamp NULL DEFAULT NULL COMMENT '购买工夫',
  `create_time` datetime DEFAULT NULL,
  `update_time` datetime DEFAULT NULL,
  `create_user` varchar(255) DEFAULT NULL,
  `update_user` varchar(255) DEFAULT NULL,
  `status` int(4) DEFAULT '1' COMMENT '状态：1 失常，0 删除',
  `hotel_name` varchar(255) DEFAULT NULL,
  `price` decimal(10,0) DEFAULT NULL,
  `remark` longtext,
  PRIMARY KEY (`id`),
  KEY `IDX_order_id` (`order_id`) USING BTREE,
  KEY `hotel_name` (`hotel_name`) USING BTREE,
  KEY `ota_id` (`ota_id`) USING BTREE,
  KEY `IDX_purcharse_time` (`purcharse_time`) USING BTREE,
  KEY `IDX_create_time` (`create_time`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=utf8
PARTITION BY RANGE (to_days(create_time)) (PARTITION p201808 VALUES LESS THAN (to_days('2018-09-01')), 
PARTITION p201809 VALUES LESS THAN (to_days('2018-10-01')), 
PARTITION p201810 VALUES LESS THAN (to_days('2018-11-01')), 
PARTITION p201811 VALUES LESS THAN (to_days('2018-12-01')), 
PARTITION p201812 VALUES LESS THAN (to_days('2019-01-01')), 
PARTITION p201901 VALUES LESS THAN (to_days('2019-02-01')), 
PARTITION p201902 VALUES LESS THAN (to_days('2019-03-01')), 
PARTITION p201903 VALUES LESS THAN (to_days('2019-04-01')), 
PARTITION p201904 VALUES LESS THAN (to_days('2019-05-01')), 
PARTITION p201905 VALUES LESS THAN (to_days('2019-06-01')), 
PARTITION p201906 VALUES LESS THAN (to_days('2019-07-01')), 
PARTITION p201907 VALUES LESS THAN (to_days('2019-08-01')), 
PARTITION p201908 VALUES LESS THAN (to_days('2019-09-01')), 
PARTITION p201909 VALUES LESS THAN (to_days('2019-10-01')), 
PARTITION p201910 VALUES LESS THAN (to_days('2019-11-01')), 
PARTITION p201911 VALUES LESS THAN (to_days('2019-12-01')), 
PARTITION p201912 VALUES LESS THAN (to_days('2020-01-01')));

#2. 插入原表中有效的数据（须要跟开发同学确认数据保留范畴）create table tbl_p201808 as select * from ota_order where create_time between '2018-08-01 00:00:00' and '2018-08-31 23:59:59';

#3. 跟归档表分区做分区替换
alter table ota_order_bak exchange partition p201808 with table tbl_p201808; 

#4. 删除原表中曾经标准的数据
delete from ota_order where create_time between '2018-08-01 00:00:00' and '2018-08-31 23:59:59' limit 3000;
复制代码

#1. 创立两头表
CREATE TABLE `ota_order_2020` (........) ENGINE=InnoDB DEFAULT CHARSET=utf8
PARTITION BY RANGE (to_days(create_time)) (PARTITION p201808 VALUES LESS THAN (to_days('2018-09-01')), 
PARTITION p201809 VALUES LESS THAN (to_days('2018-10-01')), 
PARTITION p201810 VALUES LESS THAN (to_days('2018-11-01')), 
PARTITION p201811 VALUES LESS THAN (to_days('2018-12-01')), 
PARTITION p201812 VALUES LESS THAN (to_days('2019-01-01')), 
PARTITION p201901 VALUES LESS THAN (to_days('2019-02-01')), 
PARTITION p201902 VALUES LESS THAN (to_days('2019-03-01')), 
PARTITION p201903 VALUES LESS THAN (to_days('2019-04-01')), 
PARTITION p201904 VALUES LESS THAN (to_days('2019-05-01')), 
PARTITION p201905 VALUES LESS THAN (to_days('2019-06-01')), 
PARTITION p201906 VALUES LESS THAN (to_days('2019-07-01')), 
PARTITION p201907 VALUES LESS THAN (to_days('2019-08-01')), 
PARTITION p201908 VALUES LESS THAN (to_days('2019-09-01')), 
PARTITION p201909 VALUES LESS THAN (to_days('2019-10-01')), 
PARTITION p201910 VALUES LESS THAN (to_days('2019-11-01')), 
PARTITION p201911 VALUES LESS THAN (to_days('2019-12-01')), 
PARTITION p201912 VALUES LESS THAN (to_days('2020-01-01')));

#2. 插入原表中无效的数据，如果数据量在 100W 左右能够在业务低峰期直接插入，如果比拟大，倡议采纳 dataX 来做，能够管制频率和大小，之前我这边用 Go 封装了 dataX 能够实现主动生成 json 文件，自定义大小去执行。insert into ota_order_2020 select * from ota_order where create_time between '2020-08-01 00:00:00' and '2020-08-31 23:59:59';

#3. 表重命名
alter table ota_order rename to ota_order_bak;  
alter table ota_order_2020 rename to ota_order;
#4. 插入差别数据
insert into ota_order select * from ota_order_bak a where not exists (select 1 from ota_order b where a.id = b.id);
#5. ota_order_bak 革新成分区表，如果表比拟大不倡议间接革新，能够先创立好分区表，通过 dataX 把导入进去即可。#6. 后续的归档办法
#创立两头广泛表
create table ota_order_mid like ota_order;
#替换原表有效数据分区到一般表
alter table ota_order exchange partition p201808 with table ota_order_mid; 
## 替换一般表数据到归档表的相应分区
alter table ota_order_bak exchange partition p201808 with table ota_order_mid; 
复制代码

这样原表和归档表都是按月的分区表，只须要创立一个两头一般表，在业务低峰期做两次分区替换，既能够删除有效数据，又能回收空，而且没有空间碎片，不会影响表上的索引及 SQL 的执行打算。

通过从 InnoDB 存储空间散布，delete 对性能的影响能够看到，delete 物理删除既不能开释磁盘空间，而且会产生大量的碎片，导致索引频繁决裂，影响 SQL 执行打算的稳定性；

同时在碎片回收时，会耗用大量的 CPU，磁盘空间，影响表上失常的 DML 操作。

在业务代码层面，应该做逻辑标记删除，防止物理删除；为了实现数据归档需要，能够用采纳 MySQL 分区表个性来实现，都是 DDL 操作，没有碎片产生。

另外一个比拟好的计划采纳 Clickhouse，对有生命周期的数据表能够应用 Clickhouse 存储，利用其 TTL 个性实现有效数据主动清理。

关于java:为什么MySQL不建议delete删除数据心得分享

InnoDB 存储架构

Innodb 表空间

Inndob 存储散布

创立空表查看空间变动

插入数据后的空间变动

delete 数据后的空间变动

Innodb 中的碎片

碎片的产生

碎片的回收

delete 对 SQL 的影响

未删除前的 SQL 执行状况

删除后的 SQL 执行状况

后果统计分析

delete 优化倡议

管制业务账号权限

delete 改为标记删除

数据归档形式

通用数据归档办法

优化后的归档形式

总结