选择合适的数据类型
数据类型的选择,重点在于合适二字,如何确定选择的数据类型是否合适?
1、使用可以存下你的数据的最小的数据类型
2、使用简单的数据类型。int要比varchar类型在MySQL处理上简单
3、极可能的使用not null定义字段
4、尽量少用text类型,非用不可时最好考虑分表
使用int来存储日期时间,插入和查询时候可以利用unix_timestamp
和from_unixtime()
两个函数来进行转换
timestamp和int占用的空间是一样的,直接使用int来保存日期时间那是因为int的时间戳可以转成任何时间格式输出。timestamp还得先转成unix时间戳,才能转成其它格式
使用bigint存储ip地址,插入和查询时可以使用inet_aton()
和inet_ntoa()
函数来进行转换
表的范式化和反范式化
范式化是指数据库设计的规范,目前说到的范式化一般是指第三设计范式,也就是要求数据表中不存在非关键字段对任意候选关键字段的传递函数依赖则符合第三范式。
反范式化是指为了查询效率的考虑把原本符合第三范式的表适当的增加冗余,以达到优化查询效率的目的,反范式化是一种空间来换取时间的操作。
表的垂直拆分
所谓的垂直拆分,就是把原来一个有很多列的表拆分成多个表,这解决了表的宽度问题。通常垂直拆分可以按依稀原则进行:
1、把不常用的字段单独存放到一个表中
2、把大字段独立存放到一个表中
3、把经常一起使用的字段放到一起
表的水平拆分
表的水平拆分是为了解决单表的数据量过大的问题(单表达到上亿条),水平拆分的表每个表的结构都是一致的。
常用的水平拆分方法为:
1、对customer_id进行hash运算,如果要拆分成5个表则使用mode(customer_id, 5)取出0-4个值
2、针对不同的hashID把数据存到不同的表中
挑战:
1、跨分区表进行数据查询
2、统计以及后台报表操作(前后台分开,后台使用汇总表,会牺牲一定效率)
参考网站: