一篇搞懂mysql字符集编码配置及修改方法

1、背景介绍

在某次执行sql数据插入过程中出现了如下错误:

vttablet: rpc error: code = Internal desc = grpc: error while marshaling: proto: field \"query.PassThrough.PlainSql\" contains invalid UTF-8

通过查阅资料发现,该问题是由于mysql数据编码问题导致的。这就不得不提到mysql最被人们广为诟病的问题:mysql中的utf-8编码并非真正符合标准的utf-8编码格式。简单来说:由于一些历史原因,mysql中的utf8编码方式是mysql独有的一种编码方式,它最多支持3字节的编码长度。utf8-mb4才是mysql中真正的utf8编码方式,真正的utf8编码最大支持4字节的编码长度。如果你在建表时选择了mysql提供的utf-8编码格式对数据表进行编码,当插入数据中包含emoji等编码长度超过3字节的字符时将报错,或者被截断处理,这可能会引发一系列难以排查的严重问题。如果想在mysql中使用真正的utf-8编码格式对数据库进行编码,需要使用utf8-mb4这种编码格式,这是mysql中的utf-8编码方式。

2、查询当前mysql编码格式

在修改之前我们首先需要先确定数据库当前的编码方式,具体命令如下:

# 查询数据库及服务器的编码配置
show variables like '%character%'

# 查询数据表的编码格式
show create table <表名>

# 查询各个字段编码格式
show full columns from <表名>

我们分别执行上述三条命令将得到如下结果:

(1)、数据库及服务器的编码配置

+--------------------------+------------------------------------------------------+
| Variable_name            | Value                                                |
+--------------------------+------------------------------------------------------+
| character_set_client     | utf8mb4                                              |
| character_set_connection | utf8mb4                                              |
| character_set_database   | utf8mb4                                              |
| character_set_filesystem | binary                                               |
| character_set_results    | utf8mb4                                              |
| character_set_server     | utf8mb4                                              |
| character_set_system     | utf8                                                 |
| character_sets_dir       | /usr/local/Cellar/mysql/8.0.23/share/mysql/charsets/ |
+--------------------------+------------------------------------------------------+

上述参数由上至下的含义依次为:

  • character_set_client:客户端来源数据使用的字符集,即客户端数据采用的编码格式

  • character_set_connection:数据库连接编码格式,即当服务端接收到客户端数据后将按照把数据的编码格式由character_set_client参数转为haracter_set_connection参数

  • character_set_database:当前选中数据库的默认字符集

  • character_set_filesystem:文件系统的编码格式,把操作系统上的编码个格式转化成此字符集,默认binary是不做任何转换的。

  • character_set_results:数据库查询结果的编码方式

  • character_set_server:服务端默认的内部操作字符集

  • character_set_system:数据库系统使用的编码格式,这个值一直是utf8,不需要设置,它是为存储系统元数据的编码格式

  • character_sets_dir:这个变量是字符集安装的目录。

强调一点:character_set_server决定了服务器的默认编码,character_set_database决定了新建数据库的默认字符集,而数据库的字符集又决定了新建表的默认字符集,而表的字符集又决定了字段的默认字符集。

(2)数据表的编码格式

CREATE TABLE `test` (
  `id` int unsigned NOT NULL AUTO_INCREMENT COMMENT '自增id',
  `device_code` varchar(128) DEFAULT NULL COMMENT '设备code',
  `feature_text` text COMMENT '特征',
  `feature_varchar` varchar(2048) DEFAULT NULL COMMENT '特征',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='算法特征表'              |

测试表中我们使用的字符编码格式默认为utf8格式。

(3)各个字段编码格式

+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+
| Field           | Type          | Collation       | Null | Key | Default | Extra          | Privileges                      | Comment    |
+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+
| id              | int unsigned  | NULL            | NO   | PRI | NULL    | auto_increment | select,insert,update,references | 自增id     |
| device_code     | varchar(128)  | utf8_general_ci | YES  |     | NULL    |                | select,insert,update,references | 设备code   |
| feature_text    | text          | utf8_general_ci | YES  |     | NULL    |                | select,insert,update,references | 特征       |
| feature_varchar | varchar(2048) | utf8_general_ci | YES  |     | NULL    |                | select,insert,update,references | 特征       |
+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+

这里不得不提一个新的概念:Collation。Collation通常是和数据编码(CHARSET)相关的,一般来说每种CHARSET都有多种它所支持的Collation,并且每种CHARSET都指定一种COLLATE为默认值,它表示了在该种编码格式下的字符集比较规则。可以通过命令show variables like '%collation%'查询:

  • collation_connection:表示执行字符比较时采用的编码规则。这里的标准有很多,不再一一介绍。我们仅以utf8为例,介绍几种简单规则。
    • utf8_general_ci:utf8表示编码格式,ci是 case insensitive, 即 "大小写不敏感"
    • utf8_general_cs区分大小写,cs为case sensitive的缩写,即大小写敏感
    • utf8_bin将字符串中的每一个字符用二进制数据存储,区分大小写。

3、修改mysql编码格式

通常情况下,我们并不需要修改mysql字符集编码的默认配置,如果真的需要修改可在mysql服务端配置文件中修改,然后重启服务。本节我们主要介绍如何修改已经创建好的数据库表的字符编码格式:

# 修改表的默认配置
ALTER TABLE `table` DEFAULT CHARACTER SET utf8mb4;

# 修改某一字段的编码格式
ALTER TABLE `test` CHANGE `device_code` `device_code` VARCHAR(36) CHARACTER SET utf8 NOT NULL

修改表的全部字段
alter table `recall_sku` convert to character set utf8mb4 COLLATE utf8mb4_unicode_ci

如果我们修改表的默认编码配置,那么修改后重新增加的字段及其编码方式将按新的编码方式创建,并不影响之前创建的表字段。

如果我们想修改某一字段的编码方式,那么久需要指定要修改的列名,但是通常情况下,我们的同一个数据表不会出现不同的编码格式。

如果我们需要修改某一个表的全部字段编码格式,可以使用第三条命令,执行完毕后,数据表汇中的历史数据也会被重新编码。

注意:只有字符类型的字段才可以修改编码格式。数值型字段不涉及编码格式属性。

4、参考

记住:永远不要在MySQL中使用UTF-8

How to support full Unicode in MySQL databases

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。