一篇搞懂mysql字符集编码配置及修改方法

1、背景介绍

在某次执行sql数据插入过程中出现了如下错误：

vttablet: rpc error: code = Internal desc = grpc: error while marshaling: proto: field \"query.PassThrough.PlainSql\" contains invalid UTF-8

通过查阅资料发现，该问题是由于mysql数据编码问题导致的。这就不得不提到mysql最被人们广为诟病的问题：mysql中的utf-8编码并非真正符合标准的utf-8编码格式。简单来说：由于一些历史原因，mysql中的utf8编码方式是mysql独有的一种编码方式，它最多支持3字节的编码长度。utf8-mb4才是mysql中真正的utf8编码方式，真正的utf8编码最大支持4字节的编码长度。如果你在建表时选择了mysql提供的utf-8编码格式对数据表进行编码，当插入数据中包含emoji等编码长度超过3字节的字符时将报错，或者被截断处理，这可能会引发一系列难以排查的严重问题。如果想在mysql中使用真正的utf-8编码格式对数据库进行编码，需要使用utf8-mb4这种编码格式，这是mysql中的utf-8编码方式。

2、查询当前mysql编码格式

在修改之前我们首先需要先确定数据库当前的编码方式，具体命令如下：

# 查询数据库及服务器的编码配置
show variables like '%character%'

# 查询数据表的编码格式
show create table <表名>

# 查询各个字段编码格式
show full columns from <表名>

我们分别执行上述三条命令将得到如下结果：

(1)、数据库及服务器的编码配置

+--------------------------+------------------------------------------------------+
| Variable_name            | Value                                                |
+--------------------------+------------------------------------------------------+
| character_set_client     | utf8mb4                                              |
| character_set_connection | utf8mb4                                              |
| character_set_database   | utf8mb4                                              |
| character_set_filesystem | binary                                               |
| character_set_results    | utf8mb4                                              |
| character_set_server     | utf8mb4                                              |
| character_set_system     | utf8                                                 |
| character_sets_dir       | /usr/local/Cellar/mysql/8.0.23/share/mysql/charsets/ |
+--------------------------+------------------------------------------------------+

上述参数由上至下的含义依次为：

character_set_client：客户端来源数据使用的字符集，即客户端数据采用的编码格式
character_set_connection：数据库连接编码格式，即当服务端接收到客户端数据后将按照把数据的编码格式由character_set_client参数转为haracter_set_connection参数
character_set_database：当前选中数据库的默认字符集
character_set_filesystem：文件系统的编码格式，把操作系统上的编码个格式转化成此字符集，默认binary是不做任何转换的。
character_set_results：数据库查询结果的编码方式
character_set_server：服务端默认的内部操作字符集
character_set_system：数据库系统使用的编码格式，这个值一直是utf8，不需要设置，它是为存储系统元数据的编码格式
character_sets_dir：这个变量是字符集安装的目录。

强调一点：character_set_server决定了服务器的默认编码，character_set_database决定了新建数据库的默认字符集，而数据库的字符集又决定了新建表的默认字符集，而表的字符集又决定了字段的默认字符集。

(2)数据表的编码格式

CREATE TABLE `test` (
  `id` int unsigned NOT NULL AUTO_INCREMENT COMMENT '自增id',
  `device_code` varchar(128) DEFAULT NULL COMMENT '设备code',
  `feature_text` text COMMENT '特征',
  `feature_varchar` varchar(2048) DEFAULT NULL COMMENT '特征',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='算法特征表'              |

测试表中我们使用的字符编码格式默认为utf8格式。

(3)各个字段编码格式

+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+
| Field           | Type          | Collation       | Null | Key | Default | Extra          | Privileges                      | Comment    |
+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+
| id              | int unsigned  | NULL            | NO   | PRI | NULL    | auto_increment | select,insert,update,references | 自增id     |
| device_code     | varchar(128)  | utf8_general_ci | YES  |     | NULL    |                | select,insert,update,references | 设备code   |
| feature_text    | text          | utf8_general_ci | YES  |     | NULL    |                | select,insert,update,references | 特征       |
| feature_varchar | varchar(2048) | utf8_general_ci | YES  |     | NULL    |                | select,insert,update,references | 特征       |
+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+

这里不得不提一个新的概念：Collation。Collation通常是和数据编码（CHARSET）相关的，一般来说每种CHARSET都有多种它所支持的Collation，并且每种CHARSET都指定一种COLLATE为默认值，它表示了在该种编码格式下的字符集比较规则。可以通过命令show variables like '%collation%'查询：

collation_connection：表示执行字符比较时采用的编码规则。这里的标准有很多，不再一一介绍。我们仅以utf8为例，介绍几种简单规则。
- utf8_general_ci：utf8表示编码格式，ci是 case insensitive, 即 "大小写不敏感"
- utf8_general_cs区分大小写，cs为case sensitive的缩写，即大小写敏感
- utf8_bin将字符串中的每一个字符用二进制数据存储，区分大小写。

3、修改mysql编码格式

通常情况下，我们并不需要修改mysql字符集编码的默认配置，如果真的需要修改可在mysql服务端配置文件中修改，然后重启服务。本节我们主要介绍如何修改已经创建好的数据库表的字符编码格式：

# 修改表的默认配置
ALTER TABLE `table` DEFAULT CHARACTER SET utf8mb4;

# 修改某一字段的编码格式
ALTER TABLE `test` CHANGE `device_code` `device_code` VARCHAR(36) CHARACTER SET utf8 NOT NULL

修改表的全部字段
alter table `recall_sku` convert to character set utf8mb4 COLLATE utf8mb4_unicode_ci

如果我们修改表的默认编码配置，那么修改后重新增加的字段及其编码方式将按新的编码方式创建，并不影响之前创建的表字段。

如果我们想修改某一字段的编码方式，那么久需要指定要修改的列名，但是通常情况下，我们的同一个数据表不会出现不同的编码格式。

如果我们需要修改某一个表的全部字段编码格式，可以使用第三条命令，执行完毕后，数据表汇中的历史数据也会被重新编码。

注意：只有字符类型的字段才可以修改编码格式。数值型字段不涉及编码格式属性。

4、参考

记住：永远不要在MySQL中使用UTF-8

How to support full Unicode in MySQL databases