1、背景介绍
在某次执行sql数据插入过程中出现了如下错误:
vttablet: rpc error: code = Internal desc = grpc: error while marshaling: proto: field \"query.PassThrough.PlainSql\" contains invalid UTF-8
通过查阅资料发现,该问题是由于mysql数据编码问题导致的。这就不得不提到mysql最被人们广为诟病的问题:mysql中的utf-8编码并非真正符合标准的utf-8编码格式。简单来说:由于一些历史原因,mysql中的utf8编码方式是mysql独有的一种编码方式,它最多支持3字节的编码长度。utf8-mb4才是mysql中真正的utf8编码方式,真正的utf8编码最大支持4字节的编码长度。如果你在建表时选择了mysql提供的utf-8编码格式对数据表进行编码,当插入数据中包含emoji等编码长度超过3字节的字符时将报错,或者被截断处理,这可能会引发一系列难以排查的严重问题。如果想在mysql中使用真正的utf-8编码格式对数据库进行编码,需要使用utf8-mb4这种编码格式,这是mysql中的utf-8编码方式。
2、查询当前mysql编码格式
在修改之前我们首先需要先确定数据库当前的编码方式,具体命令如下:
# 查询数据库及服务器的编码配置
show variables like '%character%'
# 查询数据表的编码格式
show create table <表名>
# 查询各个字段编码格式
show full columns from <表名>
我们分别执行上述三条命令将得到如下结果:
(1)、数据库及服务器的编码配置
+--------------------------+------------------------------------------------------+
| Variable_name | Value |
+--------------------------+------------------------------------------------------+
| character_set_client | utf8mb4 |
| character_set_connection | utf8mb4 |
| character_set_database | utf8mb4 |
| character_set_filesystem | binary |
| character_set_results | utf8mb4 |
| character_set_server | utf8mb4 |
| character_set_system | utf8 |
| character_sets_dir | /usr/local/Cellar/mysql/8.0.23/share/mysql/charsets/ |
+--------------------------+------------------------------------------------------+
上述参数由上至下的含义依次为:
character_set_client:客户端来源数据使用的字符集,即客户端数据采用的编码格式
character_set_connection:数据库连接编码格式,即当服务端接收到客户端数据后将按照把数据的编码格式由character_set_client参数转为haracter_set_connection参数
character_set_database:当前选中数据库的默认字符集
character_set_filesystem:文件系统的编码格式,把操作系统上的编码个格式转化成此字符集,默认binary是不做任何转换的。
character_set_results:数据库查询结果的编码方式
character_set_server:服务端默认的内部操作字符集
character_set_system:数据库系统使用的编码格式,这个值一直是utf8,不需要设置,它是为存储系统元数据的编码格式
character_sets_dir:这个变量是字符集安装的目录。
强调一点:character_set_server决定了服务器的默认编码,character_set_database决定了新建数据库的默认字符集,而数据库的字符集又决定了新建表的默认字符集,而表的字符集又决定了字段的默认字符集。
(2)数据表的编码格式
CREATE TABLE `test` (
`id` int unsigned NOT NULL AUTO_INCREMENT COMMENT '自增id',
`device_code` varchar(128) DEFAULT NULL COMMENT '设备code',
`feature_text` text COMMENT '特征',
`feature_varchar` varchar(2048) DEFAULT NULL COMMENT '特征',
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='算法特征表' |
测试表中我们使用的字符编码格式默认为utf8格式。
(3)各个字段编码格式
+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+
| Field | Type | Collation | Null | Key | Default | Extra | Privileges | Comment |
+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+
| id | int unsigned | NULL | NO | PRI | NULL | auto_increment | select,insert,update,references | 自增id |
| device_code | varchar(128) | utf8_general_ci | YES | | NULL | | select,insert,update,references | 设备code |
| feature_text | text | utf8_general_ci | YES | | NULL | | select,insert,update,references | 特征 |
| feature_varchar | varchar(2048) | utf8_general_ci | YES | | NULL | | select,insert,update,references | 特征 |
+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+
这里不得不提一个新的概念:Collation。Collation通常是和数据编码(CHARSET)相关的,一般来说每种CHARSET都有多种它所支持的Collation,并且每种CHARSET都指定一种COLLATE为默认值,它表示了在该种编码格式下的字符集比较规则。可以通过命令show variables like '%collation%'
查询:
- collation_connection:表示执行字符比较时采用的编码规则。这里的标准有很多,不再一一介绍。我们仅以utf8为例,介绍几种简单规则。
- utf8_general_ci:utf8表示编码格式,ci是 case insensitive, 即 "大小写不敏感"
- utf8_general_cs区分大小写,cs为case sensitive的缩写,即大小写敏感
- utf8_bin将字符串中的每一个字符用二进制数据存储,区分大小写。
3、修改mysql编码格式
通常情况下,我们并不需要修改mysql字符集编码的默认配置,如果真的需要修改可在mysql服务端配置文件中修改,然后重启服务。本节我们主要介绍如何修改已经创建好的数据库表的字符编码格式:
# 修改表的默认配置
ALTER TABLE `table` DEFAULT CHARACTER SET utf8mb4;
# 修改某一字段的编码格式
ALTER TABLE `test` CHANGE `device_code` `device_code` VARCHAR(36) CHARACTER SET utf8 NOT NULL
修改表的全部字段
alter table `recall_sku` convert to character set utf8mb4 COLLATE utf8mb4_unicode_ci
如果我们修改表的默认编码配置,那么修改后重新增加的字段及其编码方式将按新的编码方式创建,并不影响之前创建的表字段。
如果我们想修改某一字段的编码方式,那么久需要指定要修改的列名,但是通常情况下,我们的同一个数据表不会出现不同的编码格式。
如果我们需要修改某一个表的全部字段编码格式,可以使用第三条命令,执行完毕后,数据表汇中的历史数据也会被重新编码。
注意:只有字符类型的字段才可以修改编码格式。数值型字段不涉及编码格式属性。