MySQL支持大量的数据类型,选择正确的类型对性能十分关键。本篇介绍了MySQL 的数据类型选择原则,可以根据这些基本的原则确定数据表字段的具体数据类型。
小而美
通常来说,尽可能使用占用存储空间小的数据类型来存储数据。这类数据类型通常也会更快,并且占用的磁盘空间、内存乃至缓存都更小,而且占用的 CPU 处理周期也少。
但是,务必准确估计要存储的数据值的范围。因为在数据表结构的多个地方扩充数据范围会是一个痛苦且耗时的过程。如果在犹豫哪种数据类型合适,那就选择你认为不会超出范围的最小空间的类型(在系统早期或者数据表 数据不多的情况下也可以进行调整)。
简单至上
数据类型越简单意味着处理数据的 CPU 周期越少。例如,整型相比字符型而言,处理起来更容易,这是因为字符集和比对使得字符的比较更复杂。举两个例子:应该使用 MySQL 内置的类型来存储时间和日期,而不是字符串。IP 地址也应该使用整型存储。
避免空值
很多数据表都是要可为空的列,虽然在应用中并不需要存储缺省值NULL。通常来说,指定列为 NOT NULL 会比存储 NULL 要更优。
MySQL 对于涉及到可为空的列优化起来更为困难,这是因为空值列使得索引、索引统计和值比较都变得复杂。而且,可为空的列占据的存储空间更大,且需要特殊的处理。如果在可为空的列上指定了索引,这会需要每个索引入口多一个额外的字节,甚至会导致 MyISAM 引擎固定大小的索引转换为可变大小的索引(例如对整数型字段做单列索引)。
不过,将 NULL 列转换为 NOT NULL列的性能改进通常并不大。因此,除非已经发现了 NULL 列对性能有很大的影响,否则不要优先去对已有的数据表结构进行改动。但是,如果需要对列构建索引,那应该尽量避免该列值可以为空,通常好的习惯是直接设置该列为 NOT NULL。
当然,也有例外,例如在 InnoDB 中仅仅使用了一个 bit 来存储 NULL 值,因此对大量数据存储来说可以有效节省空间,但是如果是 MyISAM 引擎就不是这样了。
选择数据类型的步骤
选择数据类型的第一步是决定数据列使用哪种常用的数据类型来表示,是数值型、字符串型还是时间类型。通常直接选择就挺不错的,但是在某些情况下会有特殊(比如金额、时间戳)。
第二步就是选择具体的类型。MySQL对于同一种数据类型会有多种存储方式,基于数据值范围、精度以及存储的物理空间,而还有些数据类型有一些特殊的属性。
例如,DATETIME 和 TIMESTAMP 都可以存储时间和日期,都可以精确到秒。然而,TIMESTAMP 类型只需要一半的存储空间,并且包括了时区信息,还支持自动更新。但另一方面,它存储的时间范围更小,它的这些特殊特性可能变成障碍。
再来看看基本数据类型。MySQL 支持数据类型的别名,例如 INTEGER,BOOL 和 NUMERIC。这些仅仅是别名,虽然看起来会让人困惑,但是实际上对性能没有影响。如果使用了别名数据类型创建数据表,可回忆使用 SHOW CREATE TABLE,可以看到实际上 MySQL 会转换为基础数据类型,而不是别名。
结语:MySQL 的数据表示方式很多,建议了解常用的数据类型的存储范围,占据的字节数,尽可能地根据产品预估数据值范围或长度,选择合适的数据类型,从而在创建表一开始就注重性能。后期再来调整的代价往往超出设计之初付出的细致思考的时间成本。