Mysql varchar(max)

设计数据库时,不禁有这样的疑问,varchar()最大可以设置多大呢?与什么有关呢?

字符集

为什么要有字符集?

简单讲,数据在网络上传输与硬盘中储存,都是以二进制的形式存在的。我们熟知的文字、图片以及视频想要存储与传输,必然需要一套规则,使其成为可以被储存和传输的二进制数据,而字符集则是文字编解码的规则。
详情可参考字符编码的历史演变

在数据的储存上,mysql提供了不同的字符集支持。

查看mysql支持的字符集:

mysql> show character set;
+----------+---------------------------------+---------------------+--------+
| Charset  | Description                     | Default collation   | Maxlen |
+----------+---------------------------------+---------------------+--------+
| armscii8 | ARMSCII-8 Armenian              | armscii8_general_ci |      1 |
| ascii    | US ASCII                        | ascii_general_ci    |      1 |
...
| gb18030  | China National Standard GB18030 | gb18030_chinese_ci  |      4 |
| gb2312   | GB2312 Simplified Chinese       | gb2312_chinese_ci   |      2 |
| gbk      | GBK Simplified Chinese          | gbk_chinese_ci      |      2 |
| utf16    | UTF-16 Unicode                  | utf16_general_ci    |      4 |
| utf16le  | UTF-16LE Unicode                | utf16le_general_ci  |      4 |
| utf32    | UTF-32 Unicode                  | utf32_general_ci    |      4 |
| utf8     | UTF-8 Unicode                   | utf8_general_ci     |      3 |
| utf8mb4  | UTF-8 Unicode                   | utf8mb4_0900_ai_ci  |      4 |
+----------+---------------------------------+---------------------+--------+
41 rows in set (0.01 sec)

Mysql 提供了server、database、table、column级字符集设置。
字符集规则是可以继承的,也就是说:

  • column 没有设置则继承 table 的字符集设置。
  • table 没有设置则继承 database 的字符集设置。
  • database 没有设置则继承 server 的字符集设置。

查看全局字符集设置:

mysql> show global variables like'%character_set%';
+--------------------------+--------------------------------+
| Variable_name            | Value                          |
+--------------------------+--------------------------------+
| character_set_client     | utf8mb4                        |
| character_set_connection | utf8mb4                        |
| character_set_database   | utf8mb4                        |
| character_set_filesystem | binary                         |
| character_set_results    | utf8mb4                        |
| character_set_server     | utf8mb4                        |
| character_set_system     | utf8                           |
| character_sets_dir       | /usr/share/mysql-8.0/charsets/ |
+--------------------------+--------------------------------+
8 rows in set (0.01 sec)

note:字符集设置不当会出现汉字乱码。

char与varchar

char:固定长度类型,char(n)则表示只能储存n字节数据,不足n则在末尾填充空格,最大存储255字符。占用储存空间n × 字符集最大占用字节。
varchar:可变长度类型,varchar(n)则表示可存储char_length(n)长度的字符,储存空间占用(字符集最大占用 × n + 1 or 2长度字节),字节数 > 255 时用2字节表示长度。

length() 与 char_length()

char_length():返回字符长度,与空间占用大小无关

mysql> select char_length('a'),char_length('1'),char_length('hello world'),char_length('你好');
+------------------+------------------+----------------------------+-----------------------+
| char_length('a') | char_length('1') | char_length('hello world') | char_length('你好')   |
+------------------+------------------+----------------------------+-----------------------+
|                1 |                1 |                         11 |                     2 |
+------------------+------------------+----------------------------+-----------------------+
1 row in set (0.00 sec)

length(): 返回占用字节数

mysql> select length('a'),length('1'),length('hello world'),length('我'),length("你好"),length('🤤');
+-------------+-------------+-----------------------+---------------+------------------+-------------+
| length('a') | length('1') | length('hello world') | length('我')  | length("你好")   | length('?') |
+-------------+-------------+-----------------------+---------------+------------------+-------------+
|           1 |           1 |                    11 |             3 |                6 |           4 |
+-------------+-------------+-----------------------+---------------+------------------+-------------+
1 row in set (0.00 sec)

utf8mb4是mysql在5.5之后新增的字符集编码mb4就是most bytes 4的意思,可编码4字节字符。所以utf8不支持emoji在utf8mb4解决了

不同的字符集的空间占用。

  • 创建一个字符集为utf8mb4的表
mysql> create table test_utf8mb4 (cu varchar(10), dcu varchar(10),cn varchar(10),dcn varchar(10),smy varchar(10)) charset=utf8mb4;
Query OK, 0 rows affected (0.02 sec)
// 插入一条数据
mysql> insert into test_utf8mb4 (`cu`,`dcu`,`cn`,`dcn`,`smy`) values ('a','hello','你',"你好",'🤤');
Query OK, 1 row affected (0.00 sec)

mysql> select length(cu),length(dcu),length(cn),length(dcn),length(smy) from test_utf8mb4;
+------------+-------------+------------+-------------+-------------+
| length(cu) | length(dcu) | length(cn) | length(dcn) | length(smy) |
+------------+-------------+------------+-------------+-------------+
|          1 |           5 |          3 |           6 |           4 |
+------------+-------------+------------+-------------+-------------+
1 row in set (0.00 sec)

在utf8mb4字符集中,英文数字占1个字节,中文占用3个字节,emoji占用4字节。

  • 创建一个字符集为gbk的表
mysql> create table test_gbk (cu varchar(10), dcu varchar(10),cn varchar(10),dcn varchar(10),smy varchar(10)) charset=gbk;
Query OK, 0 rows affected (0.02 sec)
// 插入一条数据
mysql> insert into test_gbk (`cu`,`dcu`,`cn`,`dcn`,`smy`) values ('a','hello','你',"你好",'🤤');
ERROR 1366 (HY000): Incorrect string value: '\xF0\x9F\xA4\xA4' for column 'smy' at row 1
// emoji是一个不正确的值,可以看到smy是一个4字节字符。
mysql> insert into test_gbk (`cu`,`dcu`,`cn`,`dcn`) values ('a','hello','你',"你好");
Query OK, 1 row affected (0.00 sec)

mysql> select length(cu),length(dcu),length(cn),length(dcn),length(smy) from test_gbk;
+------------+-------------+------------+-------------+-------------+
| length(cu) | length(dcu) | length(cn) | length(dcn) | length(smy) |
+------------+-------------+------------+-------------+-------------+
|          1 |           5 |          2 |           4 |        NULL |
+------------+-------------+------------+-------------+-------------+
1 row in set (0.00 sec)

gbk的字符集中,英文数字占1字节,中文占2字节,且只能保存2字节及以下字符。

在mysql中,char(n) or varchar(n)中的n代表的是可插入的字符长度,非字节空间
既然n指的是字符长度,char(n)最大255,那么varchar(n)最大可以设置为多少呢?

行大小限制

在mysql中,mysql有65535字节的最大行大小限制。也就是说,所有字段占用的空间都被包含在65535字节中。

  • 新建一个varchar(65535)的表
mysql> create table long_var (v varchar(65535) not null);
ERROR 1074 (42000): Column length too big for column 'v' (max = 16383); use BLOB or TEXT instead
// 报错,提示最大值为16383

16383 * 4 = 65532,还有3字节空间呢?
这样看起来并不直观,utf8mb4占用4字节空间,不如用latin1代替,latin1只占用一字节。

mysql> create table long_var (v varchar(65535)) charset=latin1;
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs
// 失败,提示最大行大小为65535。
// 对了,varchar()还有2个字节的长度标识位。
mysql> create table long_var (v varchar(65533)) charset=latin1;
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not counting BLOBs, is 65535. This includes storage overhead, check the manual. You have to change some columns to TEXT or BLOBs
// 65533 还报错?
mysql> create table long_var (v varchar(65533) not null) charset=latin1;
Query OK, 0 rows affected (0.02 sec)
// 同样65533成功了,接下来就是找不同的时间了。

第二条语句多了一条not null 的语句,在mysql中行大小除了数据列长度,还包括可空标识,即NULL标识。
如果有一个列允许为空,则需要1 bit来标识,每8 bits的标识会组成一个字段,该字段会存放在每行最开始的位置。可空表示是行内共享的。
那么,新建一个可空列的表,字段长读应设置为65535 - 2字节长度 - 1字节null标识 = 65532;

mysql> create table long_var_32 (v varchar(65532)) charset=latin1;
Query OK, 0 rows affected (0.02 sec)

varchar()的最大长度,受字符集限制,且行内共65535字节的大小,也就是说varchar(65532)只能有一个。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • MySQL数据库对象与应用 2.1-MySQL数据类型 库建立好之后基本不动,和我们接触最频繁的是表. 建表就是声...
    极客圈阅读 2,179评论 0 8
  • 一、数据库简介 1.数据库系统 1.1数据库 DataBase【DB】,指的是长期保存到计算机上的数据,按照一定顺...
    郑元吉阅读 615评论 0 6
  • 什么是数据库? 数据库是存储数据的集合的单独的应用程序。每个数据库具有一个或多个不同的API,用于创建,访问,管理...
    chen_000阅读 4,065评论 0 19
  • MySQL技术内幕:SQL编程 姜承尧 第1章 SQL编程 >> B是由MySQL创始人之一Monty分支的一个版...
    沉默剑士阅读 2,507评论 0 3
  • 对于我们这些缺乏难忘经历,没有做出“丰功伟绩”的,不如意事常八九,能与人言无二三的平凡的大多数来说,一辈子所做出的...
    冷悲秋阅读 1,252评论 2 51