OceanBase:转储&合并时如何处理MVCC多版本数据

在 memtable 中,数据更新以TransNode的形式串到对应MvccRow链表上,形成多版本数据,每个 MvccRow 链表以 rowkey(也就是主键)为标识。

当发生转储和合并时多版本数据会被如何处理?

  • 转储的时候会根据参数 undo_retention 来决定保留多久的多版本数据,默认 1800 秒,超出时间的多版本数据会在转储时删除,如果还有事务要读取被删除的版本,会失败。
  • 不止转储时会删,mini minor merge、minor merge 时也会删超出undo_retention时间的多版本数据
  • 在合并时,Major SSTable 只会保留最新版本的数据,并根据 undo_retention 的值来决定是否保留上层 Mini SSTable、Minor SSTable 中的多版本

这会带来一个问题:如果有一个事务需要读取旧版本数据,可能会因为多版本数据被清理了无法读取成功。
V4.1版本做调整,多版本数据上有一个引用计数器,当引用计数器为 0(也就是没有被任何事务读取)才会被删除。不过,数据盘满的场景是例外,此时还是会强制删除旧版本数据。

验证方法

下面设计一个实验进行验证(V3 版本):

  1. 先触发一次合并,并将 undo_retention 设置成一个较小的值
alter system set max_kept_major_version_number=1;
alter system major freeze;
set global undo_retention=120;
  1. session1 开启 serializable 隔离级别事务,查询表 tab_no_queue
set transaction_isolation='serializable';
start transaction;
select * from tab_no_queue where rownum<10;
  1. session2 更新表 tab_no_queue并提交
set transaction_isolation='serializable';
update tab_no_queue set ADDR='0' where mod(id,5) in (4);
commit;
  1. 等待 120 秒,session3 转储 tab_no_queue 表
alter system minor freeze partition_id='0%0@1100611139453789';

查看转储完成,并且只发生 mini merge(也就是将 memtable 写到磁盘的 mini sstable):
  1. session1 再次执行同样的查询

serializable 隔离级别要求同一个事务两次读取结果一样,但是 session2 的事务更新了数据并提交,转储时把超出 undo_retention 时间的旧版本数据清理了,所以 session1 读不到旧版本的数据(这里没有直接报错,而是一直卡着):

可以从 observer.log 中看到一直在重试,但是读取不到指定版本的数据:
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容