首先k-buckets路由信息是以二叉树的形式存储的,二叉树的生成是动态的,根据发现的节点的ID来动态调整二叉树的数据结构。下面以空的二叉树,节点编号为0000为例,讲解这个动态生成过程。
情况1,当最新发现的第一个节点的ID编号的第一个比特位是1开头,那么就生成2个k-buckets,一个存储以第一位为1的节点id的信息。另一个以0为第一位的ID,这个k-bucket覆盖的ID的空间包含了当前的节点0000。
情况2,当最新发现的第一个节点的ID的编号,第一个比特位为0,与当前节点的ID的编号0000的第一个比特位相同,第二个比特位为1,与当前的节点ID比特位的第二个值不同,那么生成2个k-bucket,他们分表表示00开头和01开头的ID信息。
以上以简单的2个例子来说明,这个二叉树在生成的过程中,主要判断新加入的节点与当前节点编号,从第几位开始不同,如果新加入的节点的ID与覆盖当前节点ID的k-bucket在一个范围内,则将当前节点ID所在的区域拆分成2个k-bucket,然后分别按照原来的规矩加入到新的k-bucket的组内。如果新增加的节点的ID与当前节点的ID所处的k-bucket空间不同,那么根据二叉树寻找属于自己的k-bucket,如果队列已经满,则按照之前的逻辑加入或者舍弃。
上图给出了简单的,按照一定顺序,分别加入3个节点时,二叉树的动态生成过程,其中斜线的k-bucket表示本节点ID不在的ID空间,网格的k-bucket表示的是本节点ID所处的ID空间,如果新节点的ID在加入之前与当前ID所处的ID空间重合了,则分裂本节点的ID空间为2个叶节点。
如果在一个网络中,所有的节点的ID都是以001开始的,此时如果加入000这个节点,那么其二叉树的原有结构,如果按照原来的逻辑应该舍弃掉,因为他很可能超过k-bucket中,每个分组节点总数不能超过K个的设计原则,如上图中,对于节点0000来说,红色方框内的节点应该是一个k-bucket统一来表示,并且应该舍弃掉几个节点以满足一个bucket不能超过k个节点的限制,但是这样会导致路由信息的丢失。为了解决这个问题,kademlia在设计中,将原来的,先与新节点生成的二叉树结构直接接入到了新的二叉树中,这样可以保留在新节点加入之前的路由结构。
为了保证key-value这些数据存储的有效性和长期性,节点需要定期的广播key的信息,因为如果不定期更新这些信息,那么当接受key-value的节点存储信息之后,节点下线,或者新的节点上线并且其ID值与数据发布者之间的距离比当前的K个节点还近,但是他没有该数据的信息,以上两种情况可能会导致查找数据失败。
为了解决这个问题,可以采用一种比较愚蠢的方案,就是每间隔1小时,关于该数据的存储的K个节点都执行一下查找指令,以便从其他的k-1个节点中得到最新的在线状态,这是个巨大的消息消耗。以此简单的模型,进行深度的优化,可以使得这个过程消耗变小很多。当一个节点收到查找指令之后,默认的认为其他k-1个节点也收到了同样的指令,这样收到指令的节点更新一下自己的时间,重新开始计时,以便在下一个小时,没有收到查找指令的情况下,自己主动发出查找指令,这样实际上在同一个小时内,关于某一数据对的查找指令,只有一个节点在发出。这样大大缓解了系统的消息数量。
另一个机制是,当k-bucket在分裂的时候,需要重新整理和更新关于某个ID值的最近k个节点的路由信息,这个过程一定程度上缓解了定时查找的指令压力。