有没有觉得我们设置varchar长度的时候,很多时候都设置成255,这是为什么呢?
其实是因为在5.5.3版本之前
InnoDB存储引擎的表索引的前缀长度最长是767字节(bytes),
MyIsam存储引擎的表索引的前缀长度最长是1000字节(bytes)。
所以如果字段要创建索引的话,长度就不能超过对应存储引擎的要求 767 bytes或 1000 bytes,而如果中文按1个字符占用3个字节计算,总字节数刚好为765。
1071 - Specified key was too long; max key length is 767 bytes
要控制字节长度,就要说到字节编码了。
一、位(bit)、字节(byte)、字符
位(bit):计算机内部数据储存的最小单位,10001000是一个八位二进制数。
字节(byte):计算机中数据处理 的基本单位,习惯上用大写 B 来表示。
1 B = 8bit
1 KB = 1024 B
1 MB = 1024 KB (2^10 B)
1 GB = 1024 MB (2^20 B)
1 TB = 1024 GB (2^30 B)
字符:计算机中使用的字母、数字、字和符号,如 a、A、中、+、*、の......
二、编码
UTF-8:是用以解决国际上字符的一种多字节编码。包含全世界所有国家需要用到的字符,是国际编码,通用性强。一个汉字 = 3个字节,英文是一个字节
UTF-8编码的文字可以在各国支持UTF8字符集额的浏览器上显示。如果是UTF8编码,则在外国人的英文IE也能显示中文,他们无需下载IE的中文语言支持包。
GBK:GB2312基础上扩容后的国家标准,兼容GB2312。
GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。
GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBK大。
utf8mb4:在MySQL5.5.3之后增加的,专门用来兼容四字节的unicode的utf-8的超集,比utf-8能表示更多的字符。mb4即为most bytes 4。
latin1:ISO-8859-1的别名,单字节编码,在支持Latin1编码的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之,把其他任何编码的字节流当作Latin1编码看待都没有问题
三、中文与编码
MySql 5.0 以上的版本:
- 一个汉字占多少长度与编码有关:
UTF-8:一个汉字 = 3个字节,英文 = 1个字节
GBK: 一个汉字 = 2个字节,英文 = 1个字节
- varchar(n) 在mysql 5.0.3之前表示n个字节,之后修改为表示n个字符,无论汉字和英文,mySql都能存入n个字符,仅实际字节长度有所区别。
- MySQL检查长度,可用一下SQL语言查询
SELECT LENGTH(fieldname) FROM tablename
- 测试
(1)测试 UTF-8
CREATE TABLE `test_char_length_utf8` (
`v1` varchar(9) ,
`v2` varchar(9)
)ENGINE=InnoDB CHARSET=utf8;
SELECT LENGTH(v1), LENGTH(v2) FROM test_char_length_utf8
(2)测试 GKB
CREATE TABLE `test_char_length_gbk` (
`v1` varchar(9) ,
`v2` varchar(9)
)ENGINE=InnoDB CHARSET=gbk;
SELECT LENGTH(v1), LENGTH(v2) FROM test_char_length_gbk
四、总结
- varchar(255) 是为了索引而设置,能够存储255个汉字。
- varchar(255) 后来成为一些人使用的惯性,其实应根据实际业务场景设置长度。
- varchar(n) 中的n在mysql 5.0.3之前表示n个字节,之后表示n个字符,按照实际使用的数据库字符编码集,占用不同字节数量,比如GBK、UTF8MB4等等。