在分布式系统中,通过使用数据库+缓存已经成为提升系统性能、降低访问延迟的常用方法。但随着业务复杂性的增加,该如何在数据库与缓存之间实现双写一致性,确保数据的准确性和一致性呢?具体方案有以下几种。
先写缓存,在写数据库
如果先写缓存成功,写数据库异常,那么缓存会出现脏数据的情况。
先写数据库,在写缓存
如果写数据库成功,写缓存失败,那么缓存保留旧数据,也会出现脏数据情况。
理论可以进行数据库事务回滚操作,但是在高并发情况不要把他们放到一个事务里面去,容易造成死锁问题。
而且高并发下,由于A线程写缓存有延迟,后面的B线程先写了缓存,最后A线程再写缓存,这时也出现了脏数据。
先删缓存,再写数据库
这个在高并发下,如果A线程删除缓存后,写数据库时有延迟,那么B线程发生读操作会把数据库的内容更新到缓存中,也会导致数据不一致的情况。
针对上面的问题可以使用缓存双删的方案。即写完数据库后,隔一段时间如500ms再删一次缓存
先写数据库,再删缓存(常用方案)
当出现以下场景时也会出现数据不一致问题:
A线程读操作:缓存失效时,从数据库读取数据,在写缓存的过程中,下面的B线程先执行完操作。
B线程写操作:更新数据库后,删除缓存。
但是这场景出现概率比较少,因为需要同时满足:
- 缓存刚好失效
- A线程的写缓存延迟要比B线程写数据库+删除缓存的时间更长(但一般是写数据库的时间会更耗时)
优化:删缓存失败需要要重试机制(可以异步重试3次--考虑分布式定时任务 elastic-job、rabbitmq 等,不要影响性能), 如果还是失败,写入数据库,后续再处理