微信公共号 [架构师之路] 上看到一篇文章 细聊冗余表数据一致性,学习了下,一些笔记。
为什么会有冗余表的需求
互联网很多业务场景的数据量很大,此时数据库架构要进行 水平切分,水平切分会有一个 patition key,通过 patition key 的查询能够直接定位到库,但是非 patition key 上的查询可能就需要扫描多个库了。
例如订单表,业务上对 买家 buyer 和 卖家 seller 都有订单查询需求:
订单表:order(order_id, others_columns)
成交记录表:transaction(buyer_id, seller_id, order_id)
假设 transaction 表很大,需要水平切分来放到多个数据库中:
- 如果用买家 buyer_id 来分库:
- 比如 transaction 表中 buyer_id 在 B0000 到 B1000 的记录放到 DB1 中,B1000 到 B2000 的记录放到 DB2 中,依次类推。。。
- 如果想查找 B0001 这个买家所有的成交记录,可以直接去 DB1 中查询。
- 缺点:seller_id 的查询就需要扫描多库,如果想查找 S0001 这个卖家所有的成交记录,需要去多个数据库中查询。**
- 如果用卖家 seller_id 来分库,同理,也会有上述类似的问题。
为了做到高吞吐量低延时的查询,往往使用 数据冗余 的方式来实现,即创建两份成交记录表 transaction:
以买家为核心的成交记录表:transaction1(buyer_id, seller_id, order_id)
以卖家为核心的成交记录表:transaction2(seller_id, buyer_id, order_id)
其中:
- transaction1 以 *buyer_id *来分库,满足买家的查询需求;
- transaction2 以 *seller_id *来分库,满足卖家的查询需求;
冗余表的实现方案
方法一:服务同步写
由服务层同步写冗余数据:
- 业务方调用服务,新增数据
- 服务先插入 transaction1 数据
- 服务再插入 transaction2 数据
- 服务返回业务方新增数据成功
优点:
- 不复杂,服务层由单次写,变两次写
- 数据一致性相对较高(因为双写成功才返回)
缺点:
- 请求的处理时间增加(要插入两次,时间加倍)
- 数据仍可能不一致,例如第二步写入 transaction1 完成后服务重启,则数据不会写入 transaction2
方法二:服务异步写,应用场景:系统对处理时间比较敏感
数据的双写并不再由服务层来完成,服务层异步发出一个消息,通过消息总线发送给一个专门的数据复制服务来写入冗余数据:
- 业务方调用服务,新增数据
- 服务先插入 transaction1 数据
- 服务向消息总线发送一个异步消息(发出即可,不用等返回,通常很快就能完成)
- 服务返回业务方新增数据成功
- 消息总线将消息投递给数据同步中心
- 数据同步中心插入 transaction2 数据
优点:
- 请求处理时间短(只插入1次)
缺点:
- 系统的复杂性增加了,多引入了一个组件(消息总线)和一个服务(专用的数据复制服务)
- 因为返回业务线数据插入成功时,数据还不一定插入到T2中,因此数据有一个不一致时间窗口(这个窗口很短,最终是一致的)
- 在消息总线丢失消息时,冗余表数据会不一致
究竟先写 正表 transaction1 还是反表 transaction2
对于一个不能保证事务性的操作,一定涉及 哪个任务先做,哪个任务后做 的问题,解决这个问题的方向是:
如果出现不一致,谁先做对业务的影响较小,就谁先执行。
如何保证数据的一致性
不管哪种方案,因为两步操作不能保证原子性,总有出现数据不一致的可能,那如何解决呢?
方法一:线下扫描正反冗余表全部数据
线下启动一个离线的扫描工具,不停的比对正表 transaction1 和反表 transaction2,如果发现数据不一致,就进行补偿修复。
方法二:线下扫描增量数据
每次只扫描增量的日志数据 log,就能够极大提高效率,缩短数据不一致的时间窗口。
方法三:实时线上 消息对 检测
这次不是写日志了,而是向消息总线发送消息 写入正表的消息 msg1 和写入反表的消息 msg2。
假设正常情况下,msg1 和 msg2 的接收时间应该在 3s 以内,如果检测服务在收到 msg1 后没有收到 msg2,就尝试检测数据的一致性,不一致时进行补偿修复
引用:
细聊冗余表数据一致性