选择优化的数据类型
尽量使用可以正确存储数据的最小数据类型。要确保没有低估需要存储的值的范围,在schema中的多个地方增加数据类型的范围是非常耗时的操作。
使用内建类型而不是字符串存储日期和时间,用整型存储IP地址。
尽量避免NULL。最好指定列为not null,除非真的需要存储null。可为null的列会使用更多存储空间,可为null的列被索引时,每个索引记录需要一个额外字节。InnoDB使用单独的位存储null,对于稀疏数据有很好的空间效率。计划建索引,尽量避免设计为可为null的列。
datetime和timestamp都可存储相同类型的数据,时间和日期。timestamp只使用datetime一半的存储空间。
整数有可选的unsigned属性,不允许有负值,可以使整数的上限提高一倍。
varchar存储可变长字符串,比定长更节省空间。需要1或2个额外字节记录字符串的长度。但是update时要做额外的操作。
这些情况使用varchar是合适的:字符串列的最大长度比平均长度大很多;列的更新很少;使用了复杂的字符集,每个字符都使用不同的字节数存储。
char适合存储很短的字符串,或者所有值都接近于同一长度。对非常短的列,char比varchar在存储空间上更有效率。
char为了方便比较,会用空格填充字符串。但是在检索时,会将末尾空格截断。填充和截取空格的行为在不同存储引擎都是一样的,因为这是在MySQL服务器层处理的。
Blob和Text,为存储很大的数据设计的字符串数据类型,分别采用二进制和字符方式存储。MySQL把每个Blob和Text值当作一个独立的对象处理。存储引擎在处理时会做特殊处理。当值太大,会用外部存储区存储,用指针指向。
枚举代替字符串类型,把一些不重复的字符串存储成一个预定义的集合。存储枚举非常紧凑,会根据列表值数量压缩到一个或两个字节,将每个值在列表中的位置保存为整数,并保存一个查找表。若经常修改,不建议用枚举。
MySQL把BIT当作字符串类型,而不是数字类型。应该谨慎使用BIT类型,最好避免使用这种类型。
如果要保存很多true/false值,可考虑合并列到一个Set数据类型,在MySQL内以一系列打包的位的集合来表示,主要缺点是代价太高。应用例子,保存权限的访问控制列表(ACL)。
1NF:属性不可分
2NF:非主属性完全依赖于码
3NF:每个非主属性都不传递依赖于候选码
BCNF:任何属性都不传递依赖于主属性
缓存衍生值也是有用的。如需要显示每个用户发了多少消息,可以每次执行一次昂贵的子查询来计算,也可以在user表中新建。
有时提升性能最好的办法是在同一张表中保存衍生的冗余数据。有时也需要创建一张完全独立的汇总表或缓存表。
可以对缓存表使用不同的存储引擎。主表使用InnoDB,MyISAM可作为缓存表。
应用在表中保存计数器,更新计数器可能碰到并发问题。
要获得更高的并发更新性能,可以将计数器保存在多行中,每次随机选取一行更新,要获得统计结果,使用聚合查询。