3. 一步一步带你实现raft(2B)

上来先看了2b的要求文档。主要就是要handle log了。
里面强烈推荐了3篇文章,我认真做了阅读。发现了我之前实现的一些问题。
其中一个是来自中文的翻译
比如:如果在超过选取领导人时间之前没有收到来自当前领导人的AppendEntries RPC或者没有收到候选人的投票请求,则自己转换状态为候选人
原文:If election timeout elapses without receiving AppendEntries RPC from current leader or granting vote to candidate: convert to candidate.


image.png

区别就是一个是授予了投票再唤醒,另一个是只要收到rpc就唤醒。

文章链接来自hint:

  • Give yourself time to rewrite your implementation in light of lessons learned about structuring concurrent code. In later labs you'll thank yourself for having Raft code that's as clear and clean as possible. For ideas, you can re-visit our structure,locking and guide, pages.

实现的时候,发现除了是授予了投票,要唤醒。还有当选了LEADER也要唤醒。


image.png

重跑了下测试,没啥问题


image.png

第一步 阅读论文5.3- 6之前

https://www.infoq.cn/article/raft-paper

第二步 FROM HINT

You will need to implement the election restriction (section 5.4.1 in the paper).

Raft 使用投票的方式来阻止没有包含全部日志条目的服务器赢得选举。一个候选人为了赢得选举必须要和集群中的大多数进行通信,这就意味着每一条已经提交的日志条目最少在其中一台服务器上出现。如果候选人的日志至少和大多数服务器上的日志一样新(up-to-date,这个概念会在下边有详细介绍),那么它一定包含有全部的已经提交的日志条目。RequestVote RPC 实现了这个限制:这个 RPC(远程过程调用)包括候选人的日志信息,如果它自己的日志比候选人的日志要新,那么它会拒绝候选人的投票请求。

Raft 通过比较日志中最后一个条目的索引和任期号来决定两个日志哪一个更新。如果两个日志的任期号不同,任期号大的更新;如果任期号相同,更长的日志更新。

这一步 应该上一章已经实现了。


image.png

剩下一些HINT,在上一章基本都COVER住了,不用太多改动
比如

One way to fail the early Lab 2B tests is to hold un-needed elections, that is, an election even though the current leader is alive and can talk to all peers. This can prevent agreement in situations where the tester believes agreement is possible. Bugs in election timer management, or not sending out heartbeats immediately after winning an election, can cause un-needed elections.

image.png

第三步 实现START

根据方法描述,实现如下


image.png
image.png

第四步 实现startAppendLog

搜索到//now only for heartbeat
然后开始把这个方法从只是发送HEART BEAT 到真的开始发日志。

论文重点

当这个条目被安全的复制之后(下面的部分会详细阐述),领导人会将这个条目应用到它的状态机中并且会向客户端返回执行结果。如果追随者崩溃了或者运行缓慢或者是网络丢包了,领导人会无限的重试 AppendEntries RPC(甚至在它向客户端响应之后)直到所有的追随者最终存储了所有的日志条目。

领导人跟踪记录它所知道的被提交条目的最大索引值,并且这个索引值会包含在之后的 AppendEntries RPC 中(包括心跳 heartbeat 中),为的是让其他服务器都知道这条条目已经提交。一旦一个追随者知道了一个日志条目已经被提交,它会将该条目应用至本地的状态机(按照日志顺序)

  • 如果在不同日志中的两个条目有着相同的索引和任期号,则它们所存储的命令是相同的。
  • 如果在不同日志中的两个条目有着相同的索引和任期号,则它们之间的所有条目都是完全一样的。

第一条特性源于领导人在一个任期里在给定的一个日志索引位置最多创建一条日志条目,同时该条目在日志中的位置也从来不会改变。第二条特性源于 AppendEntries 的一个简单的一致性检查。当发送一个 AppendEntries RPC 时,领导人会把新日志条目紧接着之前的条目的索引位置和任期号都包含在里面。如果追随者没有在它的日志中找到相同索引和任期号的日志,它就会拒绝新的日志条目。这个一致性检查就像一个归纳步骤:一开始空的日志的状态一定是满足日志匹配原则的,一致性检查保证了当日志添加时的日志匹配原则。因此,只要 AppendEntries 返回成功的时候,领导人就知道追随者们的日志和它的是一致的了。

下面是最关键的一段话

为了使得追随者的日志同自己的一致,领导人需要找到追随者同它的日志一致的地方,然后删除追随者在该位置之后的条目,然后将自己在该位置之后的条目发送给追随者。这些操作都在 AppendEntries RPC 进行一致性检查时完成。领导人给每一个追随者维护了一个nextIndex,它表示领导人将要发送给该追随者的下一条日志条目的索引。当一个领导人开始掌权时,它会将nextIndex初始化为它的最新的日志条目索引数 +1(图 -7 中的 11)。如果一个追随者的日志和领导者的不一致,AppendEntries 一致性检查会在下一次 AppendEntries RPC 时返回失败。在失败之后,领导人会将nextIndex递减然后重试 AppendEntries RPC。最终nextIndex会达到一个领导人和追随者日志一致的地方。这时,AppendEntries 会返回成功,追随者中冲突的日志条目都被移除了,并且添加所缺少的上了领导人的日志条目。一旦 AppendEntries 返回成功,追随者和领导人的日志就一致了,这样的状态会保持到该任期结束。

需要知道GO 切片知识
https://stackoverflow.com/questions/27055626/concisely-deep-copy-a-slice?rq=1

image.png

因为 //在失败之后,领导人会将nextIndex递减然后重试 AppendEntries RPC
所以要包在一个FOR循环里,失败就重试,成功就RETURN,因为变成了循环 注意DEFER unlock就不能用在循环体里了,不然就死锁了。

image.png

image.png

下图我们发现第一条我们实现了,后面都没有完整实现。第二条的前半段在之前Start()里实现的。后半段把条目应用到状态机后响应客户端还没实现。

image.png

领导人规则的第五条,因为是要看MATCH INDEX,而MATCH INDEX只在发送成功的时候会更新。所以为了减少不必要的CHECK,我们可以放在reply.Success里来做
注意 这里中文是病句
因为原文为

If there exists an N such that N > commitIndex, a majority of matchIndex[i] ≥ N, and log[N].term == currentTerm: set commitIndex = N (§5.3, §5.4).

我们一点一点来,先处理reply.Success

image.png

第五步 实现updateCommitIndex

就是根据上面的英文来实现,超过半数的话,就排序然后找中间偏大的那个,来比即可。

注意在找超过半数的时候,很容易忘记LEADER自己的INDEX没有更新,造成临界点刚好没到半数。


image.png

到此为止,我们基本实现了startAppendLog,第一个//now only for heartbeat变为了真的会APPEND LOG的方法

下面开始写HANDLER

第六步 实现AppendEntries

这里论文也有写怎么做,介于中文翻译的质量确实不理想。这里贴个英文图


image.png

因为这边开始会RETURN了。所以我们要把收到APPEND ENTRIES 这个RPC的CHANNEL 唤醒的操作放到DEFER里去


image.png

在UTIL.GO 里定义MIN INT 方法


image.png

不知道你有没有注意到我们一直在更新commitIndex,但是我们没有更新lastApplied
这里还有一条所有服务器的规则

如果commitIndex > lastApplied,lastApplied自增,将log[lastApplied]应用到状态机(5.3 节)

第七步 思考何时updateLastApplied

为了减少调用次数,我们只要思考何时会更新COMMITINDEX
发现2处


image.png

image.png

第八步 实现updateLastApplied

image.png

调试

BUG 1

按照老师的建议,我们先测2B最简单的,发现出问题了,INDEX越界
排查了下。
这边应该是=,我之前写成+=


image.png

BUG2

数组越界的错没了。下面的错非常棘手。
他报了这个 config.go:465: one(100) failed to reach agreement
在仔细阅读了https://thesquareplanet.com/blog/students-guide-to-raft/
我依然没有任何收获。
决定在关键位置打LOG。大概率是因为APPEND ENTRIES 这个RPC 有逻辑没做对。
所以我在发送RPC前后,加了LOG

image.png

得到信息如下


image.png

感觉没太大问题,不过可以知道REPLY 是SUCCESS的。说明HANDLER里面逻辑是正确的。
因为最终服务器需要在APPLY CHANNEL,读信息
所以我们在CHANNEL出去的时候做一个打印,看下有没有出去。


image.png

随后因为走的分支是REPLY.SUCCESS
在这个里面把对应的参数也打印一下。


image.png

打印结果,发现消息完全没有出去的迹象。


image.png

分析LOG可以得知
matchIndex 一开始是-1,后来变成了0
而我们初始化的时候就对matchIndex 初始化为了0.
再增加了一个元素后,依然是0,而updateCommitIndex的关键就是N > commitIndex, a majority of matchIndex[i] ≥ N。

那么问题就是即使所有NODE 都收到了那个元素,然而matchIndex最大也是到0, 0是不会超过commitIndex 初始化的0
再回过去看commitIndex 和 matchIndex的定义


image.png

按照这个定义的理解,只有被提交的最高索引。那么初始化怎么说也应该是-1呀。

我开始按照我的思路改成-1,APPLYMSG出去了。可是测试需要的INDEX是我返回的INDEX还要+1.我又不好改测试。

一阵无语的时候我发现


image.png

这么重要的信息中文翻译里竟然没有

改动如下0改称1,加上注释


image.png

PASS 2B

image.png

Test Race

image.png

TEST.SH

因为有些并发的问题,可能不是每次重现,所以要尽可能多测来确定有没有问题。
我把这个标准定为1000次, 可是1000次要跑很久。所以我通过SHELL来处理这个问题。
SHELL 脚本如下,每处理完10次TEST打一个进度

#!/bin/bash
export PATH="$PATH:/usr/lib/go-1.9/bin"

rm res -rf
mkdir res


test_list=(
2A
2B)
for i in `seq 1000`
do
 if [ $(($i % 10)) -eq 0 ]
 then
     echo $i
 fi
 for j in ${test_list[@]}
 do
     go test -run $j &> ./res/$j
     if [ $? -ne 0 ]
     then
         echo "run failed."
         exit 1
     fi
 done
done
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,183评论 6 516
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,850评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,766评论 0 361
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,854评论 1 299
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,871评论 6 398
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,457评论 1 311
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,999评论 3 422
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,914评论 0 277
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,465评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,543评论 3 342
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,675评论 1 353
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,354评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,029评论 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,514评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,616评论 1 274
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,091评论 3 378
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,685评论 2 360

推荐阅读更多精彩内容

  • 寻找一种易于理解的一致性算法(扩展版) 摘要 Raft 是一种为了管理复制日志的一致性算法。它提供了和 Paxos...
    枝叶君阅读 2,651评论 0 15
  • 寻找一种易于理解的一致性算法(扩展版) 摘要 Raft 是一种为了管理复制日志的一致性算法。它提供了和 Paxos...
    yflau阅读 1,005评论 0 1
  • Raft是一种为了管理日志复制的一致性算法。它提供了和Paxos算法相同的功能和性能,但是它的算法结构和Paxos...
    WithLin阅读 809评论 0 1
  • 复制状态机 共识算法是从复制状态机的背景下提出的。在这种方法中,一组服务器上的状态机产生相同状态的副本,并且在一些...
    小睿千万别秃头阅读 915评论 0 0
  • 作者:云海峰 如果你决定要走 我会笑着放手 青春时代的遗憾 我已大声说出口 没有什么留恋 更不会有什么忧愁 痴情几...
    敕勒川云海峰阅读 183评论 1 2