概述
一致性哈希在维基百科的定义:一致性哈希是一种特殊的哈希算法,在使用一致性哈希算法后,哈希表槽位数(大小)的改变平均只需要对K/N个关键字进行重新映射,其中K是关键字的数量,N是槽位数量。然而在传统的哈希中,添加或者删除一个槽位要对几乎所有的关键字进行重新映射。
问题场景
假设有1000W个数据项,100个存储节点,如何合理的分配数据到各个节点?
普通哈希
我们对每个数据项进行哈希后,然后对哈希值对存储节点取模,确定放在哪个节点上,这样就几乎能将数据平均分配到每个节点了。
容错问题和扩展问题
虽然普通哈希帮我们把数据平均的分配到了各个节点,但是我们因为一台服务器故障,要减少节点,或者数据项增多,要增加节点的时候,就带来了一个问题。我们需要对所有的数据进行rehash,然后取模分配到不同的节点存储,如果这个时候有请求过来,会大量的不命中!
一致性哈希
所以我们来看看一致性哈希是如何解决这个问题的。一致性哈希存储数据的步骤是这样的:
1.将存储节点哈希后,放到一个0~2^32-1的圆环上;
2.将数据项哈希后,也放到这个圆上;
3.顺时针将数据项存储到它碰到的第一个存储节点;
当我们添加一个节点时,将会如下图这样改变:
可以看到当我们添加一个节点时,影响的数据是相当少的,而不必像之前的一样所有的数据都发生移动。
虚拟节点
看到这里大家可能有疑问,就是万一我们的节点没有这么均匀的分配在圆环上,那我们很多的数据将会放在同一个节点上,发生数据倾斜,这里就引入了一个虚拟节点的概念。
如果节点数过少,这里会额外在每个节点后面加上后缀再hash,这样节点数据就会成倍增长,极大降低了数据倾斜的概率。