一、如何从建表来展现自己的能力
在数据库方面,对于java 高级程序员而言,不仅需要会基本的增删改查,而且需要具备一定的“优化”方面的技能。优化是个大话题,可以从索引,建表和SQL 调优(SQL Tuning)方面入手,这个我们来分析下建表时需要注意的优化点。我一般会问候选人,“你有没有设计过数据表?”,大多数回答是设计过,接着我会比较阴险地问下:“你在设计表时是否用到了三泛式”?很多计算机专业的候选人往往会随口回答“是”。这时我就不细问了,同时给候选人写下如下的评语,“该候选人有基本的数据库操作的技能,会增删改查操作,但缺乏专业的数据表设计的能力”。
先来看下三泛式的概念:在第三范式里, 数据不能存在传递关系。比如有张订单流水表,其中包括(订单编号,商品编号,下订单的会员编号,商品名,商品价格,会员姓名,会员手机,会员地址)这些信息。
在这个表里,就存在两个个传递关系。从商品编号能看到商品价格商品名等信息,从下订单的会员编号能看到会员姓名,手机和地址的信息,所以不符合三泛式 。
如果要按经典学院派的三泛式,我们得把这个表拆分成如下3个表。
订单流水表 | 至少包含订单编号、商品编号和下订单的会员编号 | 假设过去1个月有100万条 |
---|---|---|
商品表 | 至少包含商品编号和商品名 | 假设过去一个月有50万条商品信息 |
会员表 | 至少包含会员编号会员手机会员地址 | 假设过去一个月里有10万名会员下过订单 |
先说下这样拆分的好处(也就是三泛式)的好处,那就是没数据冗余,假设之前的订单流水表包括(订单编号,商品编号,下订单的会员编号,商品名,商品价格,会员姓名,会员手机,会员地址),而与此同时,一定也有张商品表和会员表,这样“商品名“就冗余了(出现在订单流水表和商品表里),“会员姓名“等字段也冗余了(同时也出现在会员表里)。
这样做,万一我们得修改会员手机,那么就得到两个表里同时修改,增加了工作量不算,而且还增加了出错的风险(万一哪个表忘记修改了,数据会不一致)。看上去三泛式很美,但是(很多事情就坏在但是之后),万一在一个大型系统里(比如某宝),数据量很大,就如按上表给出的数据量。那么如果我要执行一个非常基本的需求,要列出过去一个月里所有买过Java书籍的会员的邮箱,以便我们发些推荐邮件。
这句SQL语句不复杂,但关键是得“关联”,我们可以用订单流水表 left join商品表 on 订单流水表的商品编号 = 商品表的商品编号,在left join 会员表 on 订单流水表的会员编号 = 会员表的会员编号。关联是要代价的,这里我们就得做三张大表之间做关联,哪怕我再做优化,再利用到数据库系统的优化(比如用尽Oracle里的优化配置),但由于三个表比较大,关联的样本就大了。这时,如果我们来看下“比较丑”的做法,就一开始把所有字段写到一个表里。
订单流水表 =(订单编号,商品编号,下订单的会员编号,商品名,商品价格,会员姓名,会员手机,会员地址)那么由于不需要关联,性能就很显著提升。
从这个案例中,大家一定能看到,如果某候选人告诉我设计表时都得遵循三泛式,那么我给出的“没设计过数据表”也没冤枉他。
以上知识举了个例子,关于数据库的表的问题上,怎么展示自己的能力呢?
第一,如果在设计的时候,已经明确地知道这个系统的数据量不会太大,比如一个中学的图书管理系统,最多有5万条书本的数据,过去一个月里借阅记录不会超过1千条。也就是说,表之间的关联代价不会太高,那么用“三范式”的原则是必需的。毕竟三范式能避免数据冗余带来的更新插入上的“需要同时多表里相同字段”的麻烦。
第二,如果表的数据量很大,如前面举的在线购物网站的例子,我们可能就需要冗余数据。在订单流水表里,同时放入用户邮件地址和商品名的字段。
也就是说,我在询问如何设计数据表时,我不在乎你之前设计过哪些表?关键看你在设计表的时候需要考虑哪些因素。大家不仅需要掌握诸如“连接”和“范式”之类的技术,更应该从业务角度,权衡各种“建表代价”,从而挑选一种最符合本项目的解决方案。
好了,关于建表方面的技能就说到这里,很简单,大家一两分钟就能看完,但如果你不会说,或者没说到“权衡”,那么对不起里,即使你有过建表经验,那么在面试中你没表现出来,我只能认为你不熟悉这块。
简单的分享一下,文章不长,希望可以你们吸收消化进去。