一篇搞懂mysql字符集编码配置及修改方法

1、背景介绍

在某次执行sql数据插入过程中出现了如下错误:

vttablet: rpc error: code = Internal desc = grpc: error while marshaling: proto: field \"query.PassThrough.PlainSql\" contains invalid UTF-8

通过查阅资料发现,该问题是由于mysql数据编码问题导致的。这就不得不提到mysql最被人们广为诟病的问题:mysql中的utf-8编码并非真正符合标准的utf-8编码格式。简单来说:由于一些历史原因,mysql中的utf8编码方式是mysql独有的一种编码方式,它最多支持3字节的编码长度。utf8-mb4才是mysql中真正的utf8编码方式,真正的utf8编码最大支持4字节的编码长度。如果你在建表时选择了mysql提供的utf-8编码格式对数据表进行编码,当插入数据中包含emoji等编码长度超过3字节的字符时将报错,或者被截断处理,这可能会引发一系列难以排查的严重问题。如果想在mysql中使用真正的utf-8编码格式对数据库进行编码,需要使用utf8-mb4这种编码格式,这是mysql中的utf-8编码方式。

2、查询当前mysql编码格式

在修改之前我们首先需要先确定数据库当前的编码方式,具体命令如下:

# 查询数据库及服务器的编码配置
show variables like '%character%'

# 查询数据表的编码格式
show create table <表名>

# 查询各个字段编码格式
show full columns from <表名>

我们分别执行上述三条命令将得到如下结果:

(1)、数据库及服务器的编码配置

+--------------------------+------------------------------------------------------+
| Variable_name            | Value                                                |
+--------------------------+------------------------------------------------------+
| character_set_client     | utf8mb4                                              |
| character_set_connection | utf8mb4                                              |
| character_set_database   | utf8mb4                                              |
| character_set_filesystem | binary                                               |
| character_set_results    | utf8mb4                                              |
| character_set_server     | utf8mb4                                              |
| character_set_system     | utf8                                                 |
| character_sets_dir       | /usr/local/Cellar/mysql/8.0.23/share/mysql/charsets/ |
+--------------------------+------------------------------------------------------+

上述参数由上至下的含义依次为:

  • character_set_client:客户端来源数据使用的字符集,即客户端数据采用的编码格式

  • character_set_connection:数据库连接编码格式,即当服务端接收到客户端数据后将按照把数据的编码格式由character_set_client参数转为haracter_set_connection参数

  • character_set_database:当前选中数据库的默认字符集

  • character_set_filesystem:文件系统的编码格式,把操作系统上的编码个格式转化成此字符集,默认binary是不做任何转换的。

  • character_set_results:数据库查询结果的编码方式

  • character_set_server:服务端默认的内部操作字符集

  • character_set_system:数据库系统使用的编码格式,这个值一直是utf8,不需要设置,它是为存储系统元数据的编码格式

  • character_sets_dir:这个变量是字符集安装的目录。

强调一点:character_set_server决定了服务器的默认编码,character_set_database决定了新建数据库的默认字符集,而数据库的字符集又决定了新建表的默认字符集,而表的字符集又决定了字段的默认字符集。

(2)数据表的编码格式

CREATE TABLE `test` (
  `id` int unsigned NOT NULL AUTO_INCREMENT COMMENT '自增id',
  `device_code` varchar(128) DEFAULT NULL COMMENT '设备code',
  `feature_text` text COMMENT '特征',
  `feature_varchar` varchar(2048) DEFAULT NULL COMMENT '特征',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='算法特征表'              |

测试表中我们使用的字符编码格式默认为utf8格式。

(3)各个字段编码格式

+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+
| Field           | Type          | Collation       | Null | Key | Default | Extra          | Privileges                      | Comment    |
+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+
| id              | int unsigned  | NULL            | NO   | PRI | NULL    | auto_increment | select,insert,update,references | 自增id     |
| device_code     | varchar(128)  | utf8_general_ci | YES  |     | NULL    |                | select,insert,update,references | 设备code   |
| feature_text    | text          | utf8_general_ci | YES  |     | NULL    |                | select,insert,update,references | 特征       |
| feature_varchar | varchar(2048) | utf8_general_ci | YES  |     | NULL    |                | select,insert,update,references | 特征       |
+-----------------+---------------+-----------------+------+-----+---------+----------------+---------------------------------+------------+

这里不得不提一个新的概念:Collation。Collation通常是和数据编码(CHARSET)相关的,一般来说每种CHARSET都有多种它所支持的Collation,并且每种CHARSET都指定一种COLLATE为默认值,它表示了在该种编码格式下的字符集比较规则。可以通过命令show variables like '%collation%'查询:

  • collation_connection:表示执行字符比较时采用的编码规则。这里的标准有很多,不再一一介绍。我们仅以utf8为例,介绍几种简单规则。
    • utf8_general_ci:utf8表示编码格式,ci是 case insensitive, 即 "大小写不敏感"
    • utf8_general_cs区分大小写,cs为case sensitive的缩写,即大小写敏感
    • utf8_bin将字符串中的每一个字符用二进制数据存储,区分大小写。

3、修改mysql编码格式

通常情况下,我们并不需要修改mysql字符集编码的默认配置,如果真的需要修改可在mysql服务端配置文件中修改,然后重启服务。本节我们主要介绍如何修改已经创建好的数据库表的字符编码格式:

# 修改表的默认配置
ALTER TABLE `table` DEFAULT CHARACTER SET utf8mb4;

# 修改某一字段的编码格式
ALTER TABLE `test` CHANGE `device_code` `device_code` VARCHAR(36) CHARACTER SET utf8 NOT NULL

修改表的全部字段
alter table `recall_sku` convert to character set utf8mb4 COLLATE utf8mb4_unicode_ci

如果我们修改表的默认编码配置,那么修改后重新增加的字段及其编码方式将按新的编码方式创建,并不影响之前创建的表字段。

如果我们想修改某一字段的编码方式,那么久需要指定要修改的列名,但是通常情况下,我们的同一个数据表不会出现不同的编码格式。

如果我们需要修改某一个表的全部字段编码格式,可以使用第三条命令,执行完毕后,数据表汇中的历史数据也会被重新编码。

注意:只有字符类型的字段才可以修改编码格式。数值型字段不涉及编码格式属性。

4、参考

记住:永远不要在MySQL中使用UTF-8

How to support full Unicode in MySQL databases

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353