在上一节中我们提到对于id为0011的网络节点,其路由表存储的信息应该入上图所示,这个表覆盖了id空间为2的4次方个节点的网络的所有节点信息,但是如果这个网络的id不是4个比特位,而是160bit,那么这个存储空间是惊人,并且对于每个节点来说,存储这样的信息是冗余的,不准确的。并不是每个id的节点都是一直在线的,因此这就导致了很多数据一致性的问题。为了解决这些问题,我们引入了k-buckets的设计,这个设计的原则是,根据距离本节点的远近,将不同id空间的节点分组,并且每组固定最多存储k个节点信息,还是以4bit的id空间地址为例,假如k=3,则节点存储路由信息如下图。
在这个设计中,每个分组最多存储k个节点信息,这样可以减少每个节点需要存储的信息,同时因为对于有效距离较近的节点,它不一定在线或者节点信息还没有创建,往往很多距离较近的,覆盖id空间较少的组,没有节点信息存储,如上图中的第0组,很可能会没有节点信息可以存储。对于第3组中,因为其覆盖了全网二分之一的节点id空间,因此,这个组里面的节点很可能有在线的可用的节点信息。
在我们查找某节点的时候,我们会去合适的组里面挑选a个节点来问询关于目标节点的信息,a是小于等于k的,然后这a个节点帮忙来寻找目标节点。在这个寻找过程中,如果a中的某个节点没有响应,则将这个节点信息从该组中删除,如果有响应,则将节点放到该组的k-buckets队列的最末尾,也就是说最末尾存放的是最近被证明过可用的节点信息。在网络路由的过程中,如果发现某个节点是可用的,并且是属于自己某个k-buckets队列,那么会将该节点信息插入到队列的尾部,但是如果队列已经超过k个节点了,那么就检查一下该队列的最开始位置的节点,看其是否依然可用,如果依然处于连接状态,就将新发现的节点舍去,如果发现不可用,就把这个不可用的节点从队列中删除,然后将最新发现的节点信息放到队尾。
这样做的好处就是,实验证明,一个一直处于在线状态的节点,一个小时之后仍然处于活跃状态的概率很高,下面是测试结果:
x轴表示随着时间的推移,y轴表示一个小时之前在线的节点现在仍然在线的概率。也就是说在线时间越长的节点越倾向于一直在线。所以我们采用舍弃新发现节点,更新老的依然在线的节点的策略。这个策略的另一个好处是,对DOS攻击有很强的防御能力,当DOS攻击发生的时候,新的攻击节点很难取代老的依然在线的节点的江湖地位,他们的链接请求或者他们的路由信息往往会被舍弃。
基于以上知识,我们来系统描述一下kedamlia协议。
Kedamlia协议支持4种指令:PING, STORE, FIND_NODE, FIND_VALUE。
PING是检查某id的节点是否在线,STORE将这样的数据交给节点存储。FIND_NODE是根据某id查询关于该id的网络节点信息,这些信息包含但不限于.在现实的网络环境中,往往查找的ID并不在线或者并未创建,则查找节点的指令最后演变为,查找K个距离被查找ID最近的节点,这k个节点可能是来自同一个k-buckets列表,也可能是某一k-bucktes不满的情况下,从最邻近的k-buckets来查找。如果所有的k-buckets列表的节点信息总数都不够k个,那就有多少返回多少。
FIND_VALUE与FIND_NODE类似,只是在查找的过程中,很有可能在没有找到这K个节点之前,就已经找到了内容,因为有些内容会被缓存,此时存储VALUE的节点直接返回内容,流程结束。
在以上4个指令的处理过程中,所有的消息接受者都有返回一个随机的RPC ID这样可以防止网络地址伪造。
在寻找距离特定节点ID最近的K个节点时,采用了一种迭代的方式来寻找这k个目标节点,首先首先从路由表中,距离自己最近的k-buckets列表中a个节点,然后并发的向他们发起查找请求,这个a是个系统级参数,比如在我们的例子中a的取值就可以是1,2,3因为我们的k-bucket的容量k是3。所以最好是在同一个k-bucket中取出a个来进行询问。当a=1时该查找协议就演化为Chord网络了,通过询问这a个节点信息,查找人就可以根据接受的查询结果,重新发送查找指令给最新发现的距离更近的节点。从这个k个距离目标查找节点最近的节点中,持续找出a个,尚未发送查找信息的节点,给他们发送查找指令,如果这些节点没有正确响应或者已经下线,则这些节点信息会从路由信息表中删除,如果在这个过程中,没有找到比当前k个节点更接近目标节点的节点,则继续向K个节点中剩余的尚未发送过查询指令的节点,继续发送查询指令。当查找节点已经找到他能联系上的距离目标节点最近的K个节点信息之后,查找过程就结束了。
当存储数据时,查找到K个距离key最近的节点,并给他们发送存储指令,并且每间隔24小时,存储的发送者还要广播一次存储指令,以此来确保路由数据的健壮性。
在查找数据过程中,我们会遇到缓存,会在查找到k个距离最近的节点之前先找到关于该key的value,此时我们就可以很快找到数据,但是为了防止数据过热,也就是过多的人来缓存这些数据,根据缓存距离目标节点的距离,定期删除缓存内容,距离目标节点越远的缓存,被删除的越快。
任何被转发的节点的请求和数据,都可以帮助节点来更新本地的路由信息,但是有些冷门的路由信息如果没有人访问,那么这个数据会变得很冷,为了防止路由信息过冷,每间隔1小时,节点都要从一个id空间中随机选择一个ID,对他发起查找请求,这样可以保证节点的热度,这个查找过程可以更新自己和其他相应节点关于被查找ID的信息。
对于新加入网络的节点u,他必须至少知道1个已经在网络中运行的节点w,新节点U首先将w插入自己的k-buckets队列,然后对自己的ID发起查找请求,这个过程中会有其他节点响应,这个过程中,新节点更新了关于整个网络的拓扑结构,同时也使得其他节点更新了关于这个最新节点的路由信息。
下一节我们将详细讲解一个新的节点,加入网络后如何更新本地路由和影响其他节点的路由信息。