在应用开发中,缓存的使用相当广泛,从硬件上来说有CPU,协议上有DNS,应用也经常使用内存缓存数据库或者上游系统中返回的数据。那我们为什么要在系统实现中引入缓存呢?
其实从CPU与内存之间使用缓存,内存与文件系统之间使用缓存,以及本地进程与远程进程之间使用缓存的使用来看,使用缓存的目的都是为了提高读写的速率,另外一个目的也是为了保护底层系统。
缓存可以说是提高系统并发访问的银弹,下面我们来看看常用的几种缓存模式。
基于过期时间的简单模式
基于过期时间的简单模式就是客户端先查询缓存,若缓存中数据不存在则访问数据库,然后将数据库中数据写入缓存,最后客户端返回。流程如下:
基于过期时间的改进模式
基于过期时间的改进模式相比于基于过期时间的简单模式的区别在于当cache失效时,客户端只有一个线程回去查询数据库,其他线程等待这个线程的返回结果。这种改进主要是在遇到缓存击穿的场景下不至于有大量请求去访问数据库,减轻了数据库的压力。
基于加载的简单模式
前面两种模式要么存在着缓存击穿的问题,要么存在客户端无法需要同步等待数据库数据返回,若从数据库中查询数据需要的时间很长,则这时会导致客户端线程长时间阻塞,影响服务使用,于是就有了基于加载的简单模式。
基于加载的简单模式的流程如下:
流程描述:客户端查询缓存,如果缓存的数据不存在则查询数据库,然后将数据写回缓存;若缓存中数据存在则先判断是否需要重新加载,若需要重新加载则这时请求数据库进行一次查询,然后将数据写回缓存,若不需要加载则直接返回缓存数据给客户端。这里相比过期时间模式的优点在于客户端能够决定是否返回给客户端过期数据。其中加载数据的操作可以分为同步模式和异步模式。
基于加载的改进模式
基于加载的简单模式的缺点在于每个客户端在缓存需要加载时都需要进行一次加载操作,基于加载的改进模式的流程:
相比较于基于加载的简单模式的不同点在于客户端线程客户端判断是否有线程正在从数据库加载数据,若有线程正在加载数据库数据则直接返回缓存中数据,没有线程在加载数据库数据则该线程加载一次数据库数据。该模式在具体的实现上可以在缓存值中添加一个最近一次读或写的时间戳。
基于加载的续期模式
前面讲的4种模式在加载加载数据库数据时有可能出现异常的情况,且在出现异常情况下直接返回错误或者返回缓存中已经过期的数据,而基于加载的续期模式则是在从数据库中加载数据异常的时候,在直接将缓存中过期数据返回给客户端的同时还需要将过期数据重新写回缓存。当然其他几种模式也可以进行同样的续期优化。
更新失效模式
缓存中的数据避免不了修改,这里又有几种更新失效的模式。
- 模式1(Cache Aside)
先更新数据库,数据库更新成功后,然后再将缓存置为失效。很多使用缓存的同学错误地先将缓存置为失效然后再更新数据库了。 - 模式2(Wite Through)
这种模式是在更新数据库之前先查询一下缓存,若缓存未失效则直接更新更新缓存,然后由缓存更新数据库;若缓存失效则直接更新数据库。 - 模式3(Write Back)
这种模式就是任何情况下的数据更新都直接更新缓存,不用更新数据库,然后由缓存更新数据库。
在实际的应用开发中我们使用模式1的情况会比较多。
以上几种模式中,判断缓存中数据是否存在的意思等同于判断缓存中的数据是否已经变脏。
另外缓存组件还需要考虑缓存穿透的问题,数据序列化,数据序列化协议修改,缓存雪崩(基于加载的改进模式和续费模式能够解决此问题),缓存key命中率统计等问题。
缓存穿透
缓存穿透是指从数据库加载的数据也不存在,导致缓存中数据也不存在,导致请求全部落到数据库,缓存穿透在高并发的情况下会造成数据库和服务器极大的压力,常用的解决方法是从数据库中加载的数据不存在的情况下,在缓存中设置默认值。
数据序列化协议修改
有时候我们需要将数据的序列化方式从json修改成其他的序列化方式,比如PB,hession等,由于协议之间不兼容导致在升级的之后导致采用新的协议去反序列化缓存中的数据会失败。常用的解决方案是在缓存的key中增加一个版本号,通过升级版本号,从而换取不到缓存中数据,重新从数据库中加载一次,然后采用新的序列化协议将数据存到缓存中。
缓存key的命中率统计
缓存命中率是缓存使用的核心指标。在使用缓存的时候需要对缓存命中率进行监控,这样才能对缓存进行优化,比如识别数据是否适合进行缓存,调整缓存的过期时间,数据的缓存粒度,雪崩识别。常用的统计方法是基于时间滑动窗口统计命中率,定期将命中率数据写到日志文件中或者kafka,后续可用awk或者其他其他的计算工具计算一段时间内各key的命中率数据。