一、count(*)的实现方式:
1、在不同的MySQL引擎中,count(*)有不同的实现方式:
MyISAM引擎把一个表的总行数存在了磁盘上,因此执行count(*)的时候会直接返回这个数,效率很高,但是不支持事务;
对于InnoDB引擎,它执行count(*)的时候,需要把数据一行一行地从引擎里面读出来,然后累加计数。虽然结果准确,但会导致性能问题。
这里需要注意的是,这里讨论的是没有过滤条件的count(*),如果加了where 条件的话,MyISAM表也是不能返回得这么快的。
2、InnoDB不跟MyISAM一样,把数字存起来的原因:
因为即使是在同一个时刻的多个查询,由于多版本并发控制(MVCC)的原因,InnoDB表“应该返回多少行”也是不确定的。每一行记录都要判断自己是否对这个会话可见,因此对于count(*)请求来说,InnoDB只好把数据一行一行地读出依次判断,可见的行才能够用于计算“基于这个查询”的表的总行数。
3、在保证逻辑正确的前提下,尽量减少扫描的数据量,是数据库系统设计的通用法则之一。
4、TABLE_ROWS是通过采样来估算得来的,因此它很不准。官方文档说误差可能达到40%到50%。所以,show table status命令显示的行数不能直接使用。
5、所以,计数的时候一般不使用count(*),而采用自己计数的方式。
二、自己计数的方法:
1、用缓存系统保存计数。
a、计数方式:
用一个Redis服务来保存这个表的总行数。这个表每被插入一行Redis计数就加1,每被删除一行Redis计数就减1。
b、优点:
读和更新操作都很快。
c、缺点:
将计数保存在缓存系统中的方式,不仅仅只是丢失更新的问题。即使Redis正常工作,这个值在逻辑上还是不精确的。
2、用数据库计数。
a、计数方式:
把计数直接放到数据库里单独的一张计数表中。
b、优点:
首先解决了崩溃丢失的问题,因为InnoDB是支持崩溃恢复不丢数据的。其次由于InnoDB支持事务,可以通过事务的隔离级别,解决计数不精确的问题。
c、缺点:
需要额外的空间来存储这张表。