一、问题由来
今天应用报错:
### Error updating database. Cause: java.sql.SQLException: Incorrect string value:
'\xF0\xA4\x9E\x8F",...' for column 'message_content' at row 1
二、初次分析
我们可以看到\xF0\xA4\x9E\x8F是4字节很可能就是utf8mb4中某些生僻字的编码。我们将表更改为utf8mb4后还是报错。所以第一步一定要将字段或者表修改为utf8mb4如下语句
alter table test101 convert to character set utf8mb4;
or
alter table test101 change `name` `name` varchar(20) CHARSET utf8mb4 DEFAULT NULL ;
注意:这个语句是copy算法会受到MDL LOCK的影响完全堵塞,不是online ddl如下:
mysql> alter table test204 algorithm=inplace, change `name` `name`
varchar(20) CHARSET utf8 DEFAULT NULL ;
ERROR 1846 (0A000): ALGORITHM=INPLACE is not supported. Reason: Cannot change column type INPLACE. Try ALGORITHM=COPY.
三、详细分析
随后当然报错还在继续,然后我简单描述一下我的分析的过程。具体知识见如下文章:
关于ORACLE和MYSQL中文字符乱码的根源剖析]
http://blog.itpub.net/7728585/viewspace-2086271/
我们当前环境为:
- 客户端入库字符集 utf8mb4
- 转换字符集 utf8
- 存储端字符集utf8mb4
对于这种情况的设置,对已某些生僻字比如:
insert into test204 values('𤽂');
(𤽂)的其utf8mb4编码为:
就需要将四字节的0Xf0a4bd82编码转换为utf8显然是不可能的。因为utf8根本不认识而且还是三个字节所以报错如下:
[SQL]
insert into test204 values('𤽂');
[Err] 1366 - Incorrect string value: '\xF0\xA4\xBD\x82' for column 'name' at row 1
为此实际上我们只需要做一个操作就是不做转换及
set names utf8mb4;
这样环境如下:
- 客户端入库字符集 utf8mb4
- 转换字符集 utf8mb4
- 存储端字符集utf8mb4
insert into test204 values('𤽂');
[SQL]
insert into test204 values('𤽂');
受影响的行: 1
时间: 0.218s
插入成功。我们读取数据文件二进制进行底层验证取到的数据如下:
红色部分为('𤽂')这个字的十六进制编码。没有问题数据入库完成。