前言:
在 MySQL 中,零碎反对诸多字符集,不同字符集之间也略有区别。目前最罕用的字符集应该是 utf8 和 utf8mb4 了,相比于 utf8,utf8mb4 反对存储 emoji 表情,应用范畴更广。本篇文章将会介绍 utf8 批改成 utf8mb4 字符集的办法。
1. utf8 和 utf8mb4 字符集介绍
字符(Character)是各种文字和符号的总称,包含各国家文字、标点符号、图形符号、数字等。字符集(Character set)是多个字符的汇合。
MySQL 中字符集能够作用于四个级别,别离是:服务器级别、数据库级别、表级别、列级别。服务器级别的比拟规定由 character_set_server 参数管制,如果创立数据库、表、列时没有显式的指定字符集,则会继承上一级的字符集。
MySQL 5.7 及之前版本默认的字符集是 latin1,MySQL 8.0 版本默认的字符集是 utf8mb4。不过应用 latin1 容易导致乱码,所以还是 utf8 和 utf8mb4 用处最宽泛。utf8 其实是 utf8mb3 的别名,只应用 1~3 个字节示意字符。utf8mb4 应用 1~4 个字节示意字符,可能存储更多的 emoji 表情及任何新增的 Unicode 字符。utf8mb4 兼容 utf8,且比 utf8 能示意更多的字符,是 utf8 字符集的超集。所以当初一些新的业务倡议将数据库的字符集设置为 utf8mb4,特地是有表情存储需要时。
2. 批改字符集办法
目前的互联网业务对 emoji 表情存储的需要越来越多,比方昵称、评论内容等都要反对表情符号,这个时候如果数据库字段用的是 utf8 字符集,则会报如下谬误:
java.sql.SQLException: Incorrect string value: ‘\xF0\x9F\x92\x95\xF0\x9F…’ for column…………
为了业务需要,咱们须要将数据库字符集改为 utf8mb4,好在 utf8mb4 是 utf8 的超集,除了将编码改为 utf8mb4 外不须要做其余转换。这里简略讲下批改办法。
零碎参数批改
首先应该批改零碎字符集参数,这样当前创立的库表默认字符集就是 utf8mb4 了。找到配置文件,增加或批改以下参数:
vi /etc/my.cnf
[mysqld]
character-set-server = utf8mb4
collation-server = utf8mb4_general_ci
skip-character-set-client-handshake
#疏忽利用连贯本人设置的字符编码,放弃与全局设置统一
[client]
default-character-set=utf8mb4
[mysql]
default-character-set=utf8mb4
批改数据库字符集
对于曾经创立的数据库,如果原来是 utf8 字符集,则能够这么批改:
# 设置数据库字符集编码
ALTER DATABASE `dbname` CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;
# 示例
mysql> show create database testdb;
+----------+-----------------------------------------------------------------+
| Database | Create Database |
+----------+-----------------------------------------------------------------+
| testdb | CREATE DATABASE `testdb` /*!40100 DEFAULT CHARACTER SET utf8 */ |
+----------+-----------------------------------------------------------------+
1 row in set (0.00 sec)
mysql> alter database `testdb` CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;
Query OK, 1 row affected (0.01 sec)
mysql> show create database testdb;
+----------+--------------------------------------------------------------------+
| Database | Create Database |
+----------+--------------------------------------------------------------------+
| testdb | CREATE DATABASE `testdb` /*!40100 DEFAULT CHARACTER SET utf8mb4 */ |
+----------+--------------------------------------------------------------------+
1 row in set (0.00 sec)
批改表及字段字符集
同样的,对于曾经创立的表,批改全局及数据库的字符集并不会影响原表及字段的字符集。原有的 utf8 表能够采纳如下办法批改:
# 批改表字符集
alter table `tb_name` default character set utf8mb4;
# 批改某字段字符集
alter table `tb_name` modify col_name varchar(20) character set utf8mb4;
# 同时批改表及字段字符集
alter table `tb_name` CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;
# 如果某个库外面表比拟多 能够拼接出要执行的批量批改语句
SELECT
CONCAT('ALTER TABLE', TABLE_NAME, 'CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;')
FROM
information_schema.`TABLES`
WHERE
TABLE_SCHEMA = 'testdb';
3. 一些倡议
看起来批改办法挺简略,不过对于生产环境还是要分外小心。特地是批改字段字符集时,会加锁,阻止写操作,对于大表执行下来也是很慢的,可能对线上业务造成影响。
如果你的数据库比拟小,用以上办法应该问题不大。对于线上环境,若要批改字符集,肯定要做好评估,最好能够在业务低峰期停机批改,批改前肯定要先备份。若无停机工夫,能够思考先在备库批改,而后再主备切换,不过这样做会更麻烦。
有条件的话也能够再筹备一个空实例,先导入表构造,改成 utf8mb4 字符集后再导入数据。这也是一种办法,不过也可能须要停机切换。