MySQL:8.0 从库 MTS并发的定时炸弹

一、问题描述

8.0.28以下的MTS可能在运行一段时间后出现hang死的情况,大概如下:


image.png

这个问题因此有一个2的31次方事务后触发的界限,实际上就是int类型的溢出导致,因此为定时炸弹,BUG如下:

这个BUG由印风提交,可以看出来跑了很久才触发,着实费劲,感谢大佬,否则真的很难知道为什么。

二、关于slave_preserve_commit_order的实现

实际上本参数主要控制的是从库的提交顺序和主库一致,其实现大概分为两个步骤

  • 首先是SQL线程分发事务的时候对顺序进行记录,因为分发是按照主库的binlog的顺序分发的因此可以理解为就是seqnumber的顺序。

  • worker线程选择事务执行是无序的,但是在提交的时候就需要保证顺序,这个时候根据SQL线程分发的顺序进行提交即可。

在8.0中主要通过一个全局的Commit_order_manager结构进行记录,其中有2个部分比较重要:

  1. 一个全部worker线程信息的vecoter容器,有多少个worker线程容器中就有多少个元素,其中每个元素代表一个worker,叫做node,包含一些重点的成员变量如下:
  • m_commit_sequence_nr{NO_SEQUENCE_NR} 提交序列信息

  • value_type m_worker_id worker线程的id

  • MDL_context *m_mdl_context 包含MDL LOCK信息

  • memory::Aligned_atomic<Commit_order_queue::enum_worker_stage> m_stage 状态信息

其中m_commit_sequence_nr和m_mdl_context是为唤醒worker线程准备的,这点和5.7不同,5.7中为全部唤醒然后每个worker循环判断,

while (queue_front() != worker->id)

8.0为精准唤醒,每个节点的m_commit_sequence_nr信息来自全局的m_commit_sequence_generator生成器。而m_stage主要由如下一些不同的状态,标记不同的截断。

FINISHED_APPLYING:事务已经应用,但可能没有提交,如果需要等待提交顺序转为REQUESTED_GRANT状态
REQUESTED_GRANT:事务不能提交,需要等到当前运行worker授予MDL LOCK
REGISTERED :事务已经注册也就是SQL线程分发了。

另外对于唤醒操作用的应该是MDL LOCK现成的实现。

  1. 一个提交队列,这个很显然,当worker线程第一次发现不是自己提交顺序的时候,就是根据这个提交队列来的,其为m_commit_queue,其为一个无锁化队列,暂未对无锁化进行研究,但是对其方法和push,pop,<<,>>等函数的注释可以看出是一个先进先出的队列,比如:
  /**
    Retrieves the value at the virtual index pointed by the head of the
    queue, clears that position, updates the virtual index stored in the
    head and clears the value returned by `get_state()`, setting it to
    `SUCCESS`.

其中Retrieves the value at the virtual index pointed by the head of the
queue, clears that position,说明了其>>操作的作用,也就是从头部取信息,并且清理这个位置。

其包含的重点步骤有:

  • SQL线程分发分配注册事务
Commit_order_manager::register_trx 
   ->cs::apply::Commit_order_queue::push

其中主要完成的步骤为将分配的worker的信息记录到node中,同时根据m_commit_sequence_generator生成器生成一个提交序列(本bug就是和这个生成器有关,重启实际上是重置了这个内存计数器),每个事务都会让这个计数器加1。并且将这个worker的work id 放入m_commit_queue队列中。并且将node的状态置为REGISTERED。

  • worker线程等待者等待自己的队列到来
Commit_order_manager::wait
 ->Commit_order_manager::wait_on_graph

当worker现成准备提交的时候,也就是在进入flush队列之前,需要判断自己是否可以提交,这个时候判定的原则是当前worker 的node信息的worker id是否和m_commit_queue队列的头部worker id相同,

 if (this->m_workers.front() != worker->id)

因为前面我们说了,m_commit_queue队列实际上就是记录的根据分发顺序记录的worker id。如果不能提交则进入等待,状态改为REQUESTED_GRANT,这个时候这个worker是需要别的worker唤醒的。

  • worker线程执行者唤醒等待者
MYSQL_BIN_LOG::change_stage (Commit_stage_manager::BINLOG_FLUSH_STAGE)
 ->Commit_stage_manager::enroll_for
   ->Commit_order_manager::finish_one

注意这里是BINLOG_FLUSH_STAGE,也就是在保证flush队列的顺序,实际上也保证了commit队列的顺序,最终完成唤醒的函数是Commit_order_manager::finish_one,这个唤醒过程主要完成的任务就是唤醒下一个正在等待的worker线程,其重要方式为从m_commit_queue队列的头部拿一个worker id,实际上就是要唤醒的worker,然后通过下面3个条件来判定是否唤醒:

A. 当前有worker线程

B. 通过提交队列头部获取的下一个worker线程,其节点状态为FINISHED_APPLYING或者REQUESTED_GRANT

C. 通过提交队列头部获取的下一个worker线程,其节点的m_commit_sequence_nr信息必须和当前提交事务的worker id的m_commit_sequence_nr+1 相同

A&&B&&C 同时满足才能唤醒下一个应该唤醒worker线程,实际上从现有的分析来看,这个过程不太可能出问题。但是BUG就出现C条件上。

现在我们来画一个图描述这种唤醒方式。假设,当前worker有4个,worker id分别为 0,1,2,3。当前全局计数器来到了2147483640,并且能够并发的GTID的seq number分别为 4147483647,2147483648,2147483649,2147483650,而4147483647为较大的事务,因此在他提交之前其他3个事务不能提交。

然后其中4147483647分配给了worker 2,4147483648分配给了worker 0,4147483649 分配给了 worker 1,4147483650分配给了worker 3。那么当前等待和执行的图如下:

image.png

当GTID 4147483647事务执行完成后,需要唤醒GTID 4147483648事务,那么从m_commit_queue中取下一个workid:0就可以了,但是这里要比如2147483641+1 是否等于2147483642,否则唤醒,也就是C条件,当然这里没有问题。

四、BUG产生

前面我们看到一个2147483641+1 是否等于2147483642是否成立的条件,但是在代码中虽然worker线程的m_commit_sequence_nr和m_commit_sequence_generator都是unsigned long long类型也就是8字节不带符号位的,但是自动推导的变量当worker的m_commit_sequence_nr的取出来后确实保存在一个int类型的变量中,也就是如下:
auto this_seq_nr{0};

然后 this_seq_nr+1,如果这里this_seq_nr是2147483647,加1后者会发生溢出,如下

(gdb) p this_seq_nr
$4 = 2147483647
(gdb) ptype this_seq_nr
type = int
(gdb) p next_seq_nr
$3 = -2147483648
(gdb) ptype next_seq_nr
type = int

其中就是next_seq_nr发生了溢出,来到了负数。这个时候会比对-2147483648是否等于2147483648,如果等于才会唤醒,显然这里就不满足了,因此BUG产生,BUG产生后任何worker都不能唤醒,参考上面的图。
-2147483648实际上就是

1000 0000 0000 0000 0000 0000 0000 0000 

也就是2147483647+1

0111 1111 1111 1111 1111 1111 1111 1111 

加了一个1因为符号位为1了,因此显示了最大的负数,也就是- 2的31次方,实际就是溢出了。
这里可以用auto this_seq_nr{0ull}; 让自动推导为unsigned long long类型,则不会溢出。

五、BUG模拟

因为所有的事务每次提交都会获取一个提交序列m_commit_sequence_nr,其来自全局生成器m_commit_sequence_generator,而m_commit_sequence_generator初始化的时候为1,我们直接修改其初始化值为2147483640,这样很快就会出现溢出的情况,否则模拟2147483647个事务不太现实。同时我们主库设置writeset,同时使用多核CPU,从库设置8个并行线程,意为最大限度的加大并发。

mysql> set global transaction_write_set_extraction=XXHASH64;
Query OK, 0 rows affected (0.00 sec)
mysql> set global  binlog_transaction_dependency_tracking=WRITESET;
Query OK, 0 rows affected (0.00 sec)

经过编译后,从库稳定重现,


5fea7a71c7c482be43aeda016a6a2fa7_1240.png

重现后的DEBUG方式,这里选用条件断点,并且打到Commit_order_manager::finish_one的286行左右,由于断路原则,A&&B条件需要满足才会跑这个条件,也就是需要唤醒比较提交序列的时候,代码的this->m_workers[next_worker].freeze_commit_sequence_nr这行。

break rpl_slave_commit_order_manager.cc:286 if next_seq_nr < 0

观察

(gdb) p *(this->m_workers[next_worker].m_commit_sequence_nr.m_underlying)

$11 = {<std::__atomic_base<unsigned long long>> = {static _S_alignment = 8, _M_i = 2147483648}, <No data fields>}

(gdb) p next_seq_nr

$12 = -2147483648

显然worker自生的m_commit_sequence_nr没有问题为2147483648,但是取出来后就是-2147483648并不相等,因此条件C不满足不做唤醒。

需要注意的是本问题和slave_preserve_commit_order参数有关,如果关闭则不会,因为关闭后整个Commit_order_manager结构将不会初始化,也就没有提交顺序一说了。

六、总结

  • 这个问题是MTS多线程并发下的一个问题且和参数slave_preserve_commit_order有关,并且无法自动解锁,因为已经无法唤醒等待的worker线程。

  • 如果MTS 压力不大,一直是单线程woker在并发,因为没有需要唤醒的worker,那么可能永远也遇不到。

  • 这个问题触发在自从库启动依赖执行了2147483647事务之后,一旦超过并且有需要唤醒的worker则不能唤醒,也就是说不一定是刚好在2147483647个事务上,可能稍微多一点,因为2147483647事务过后可能没有需要唤醒的worker,但是一旦压力上来就要可能不能唤醒。也就是说hang住发生的时间点大于等于从库启动依赖执行了2147483647事务。

  • 重启主从可以重置全局计数器,因此可以恢复运行。

  • 8028修复了这个问题,

修复代码主要如下,

image.png

其中cs::apply::Commit_order_queue::sequence_type为一个unsigned long long类型。


image.png

七、附录

Commit_order_manager ----  m_rollback_trx
                     ----  cs::apply::Commit_order_queue m_workers 
                                                  |
                            -----------------------------------------------------------------------
                            |                                        |                            |
                            
        std::vector<Commit_order_queue::Node> m_workers     queue_type m_commit_queue        m_commit_sequence_generator
                     
每个node - m_commit_sequence_nr{NO_SEQUENCE_NR}
         - value_type m_worker_id
         - MDL_context *m_mdl_context
         - memory::Aligned_atomic<Commit_order_queue::enum_worker_stage> m_stage
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,504评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,434评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,089评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,378评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,472评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,506评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,519评论 3 413
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,292评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,738评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,022评论 2 329
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,194评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,873评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,536评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,162评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,413评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,075评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,080评论 2 352

推荐阅读更多精彩内容