一致性hash算法及java实现

一致性hash算法是分布式中一个常用且好用的分片算法、或者数据库分库分表算法。现在的互联网服务架构中,为避免单点故障、提升处理效率、横向扩展等原因,分布式系统已经成为了居家旅行必备的部署模式,所以也产出了几种数据分片的方法:

1.取模,2.划段,3.一致性hash

前两种有很大的一个问题就是需要固定的节点数,即节点数不能变,不能某一个节点挂了或者实时增加一个节点,变了分片规则就需要改变,需要迁移的数据也多。

那么一致性hash是怎么解决这个问题的呢?

一致性hash:对节点和数据,都做一次hash运算,然后比较节点和数据的hash值,数据值和节点最相近的节点作为处理节点。为了分布得更均匀,通过使用虚拟节点的方式,每个节点计算出n个hash值,均匀地放在hash环上这样数据就能比较均匀地分布到每个节点。

1、原理

(1)环形Hash空间

按照常用的hash算法来将对应的key哈希到一个具有2^32次方个桶的空间中,即0~(2^32)-1的数字空间中。

现在我们可以将这些数字头尾相连,想象成一个闭合的环形。如下图


(2)把数据通过一定的hash算法处理后映射到环上

现在我们将object1、object2、object3、object4四个对象通过特定的Hash函数计算出对应的key值,然后散列到Hash环上。如下图:

Hash(object1) = key1;

Hash(object2) = key2;

Hash(object3) = key3;

Hash(object4) = key4;


(3)将机器通过hash算法映射到环上

在采用一致性哈希算法的分布式集群中将新的机器加入,其原理是通过使用与对象存储一样的Hash算法将机器也映射到环中

(一般情况下对机器的hash计算是采用机器的IP或者机器唯一的别名作为输入值),然后以顺时针的方向计算,将所有对象存储到离自己最近的机器中。

假设现在有NODE1,NODE2,NODE3三台机器,通过Hash算法得到对应的KEY值,映射到环中,其示意图如下:

Hash(NODE1) = KEY1;

Hash(NODE2) = KEY2;

Hash(NODE3) = KEY3;


通过上图可以看出对象与机器处于同一哈希空间中,这样按顺时针转动object1存储到了NODE1中,object3存储到了NODE2中,object2、object4存储到了NODE3中。

在这样的部署环境中,hash环是不会变更的,因此,通过算出对象的hash值就能快速的定位到对应的机器中,这样就能找到对象真正的存储位置了。

2、机器的删除与添加

普通hash求余算法最为不妥的地方就是在有机器的添加或者删除之后会造成大量的对象存储位置失效。下面来分析一下一致性哈希算法是如何处理的。

(1)节点(机器)的删除

以上面的分布为例,如果NODE2出现故障被删除了,那么按照顺时针迁移的方法,object3将会被迁移到NODE3中,这样仅仅是object3的映射位置发生了变化,其它的对象没有任何的改动。如下图:


(2)节点(机器)的添加

如果往集群中添加一个新的节点NODE4,通过对应的哈希算法得到KEY4,并映射到环中,如下图:


通过按顺时针迁移的规则,那么object2被迁移到了NODE4中,其它对象还保持着原有的存储位置。

通过对节点的添加和删除的分析,一致性哈希算法在保持了单调性的同时,还是数据的迁移达到了最小,这样的算法对分布式集群来说是非常合适的,避免了大量数据迁移,减小了服务器的的压力。

3、平衡性–虚拟节点

根据上面的图解分析,一致性哈希算法满足了单调性和负载均衡的特性以及一般hash算法的分散性,但这还并不能当做其被广泛应用的原由,

因为还缺少了平衡性。下面将分析一致性哈希算法是如何满足平衡性的。

hash算法是不保证平衡的,如上面只部署了NODE1和NODE3的情况(NODE2被删除的图),object1存储到了NODE1中,而object2、object3、object4都存储到了NODE3中,这样就造成了非常不平衡的状态。在一致性哈希算法中,为了尽可能的满足平衡性,其引入了虚拟节点。

——“虚拟节点”( virtual node )是实际节点(机器)在 hash 空间的复制品( replica ),一个实际节点(机器)对应了若干个“虚拟节点”,这个对应个数也成为“复制个数”,“虚拟节点”在 hash 空间中以hash值排列。

以上面只部署了NODE1和NODE3的情况(NODE2被删除的图)为例,之前的对象在机器上的分布很不均衡,现在我们以2个副本(复制个数)为例,这样整个hash环中就存在了4个虚拟节点,最后对象映射的关系图如下:


根据上图可知对象的映射关系:object1->NODE1-1,object2->NODE1-2,object3->NODE3-2,object4->NODE3-1。通过虚拟节点的引入,对象的分布就比较均衡了。那么在实际操作中,正真的对象查询是如何工作的呢?对象从hash到虚拟节点到实际节点的转换如下图:


“虚拟节点”的hash计算可以采用对应节点的IP地址加数字后缀的方式。例如假设NODE1的IP地址为192.168.1.100。引入“虚拟节点”前,计算 cache A 的 hash 值:

Hash(“192.168.1.100”);

引入“虚拟节点”后,计算“虚拟节”点NODE1-1和NODE1-2的hash值:

Hash(“192.168.1.100#1”); // NODE1-1

Hash(“192.168.1.100#2”); // NODE1-2

二、一致性hash算法的Java实现。

1、不带虚拟节点的

```

package hash;

import java.util.SortedMap;import java.util.TreeMap;

/** * 不带虚拟节点的一致性Hash算法

*/

public class ConsistentHashingWithoutVirtualNode {

    //待添加入Hash环的服务器列表

private static String[] servers = { "192.168.0.0:111", "192.168.0.1:111",

            "192.168.0.2:111", "192.168.0.3:111", "192.168.0.4:111" };

    //key表示服务器的hash值,value表示服务器

private static SortedMap sortedMap =newTreeMap();

    //程序初始化,将所有的服务器放入sortedMap中

static {

        for(inti=0; int hash = getHash(servers[i]);

            System.out.println("[" + servers[i] + "]加入集合中, 其Hash值为" + hash);

            sortedMap.put(hash, servers[i]);

        }

        System.out.println();

    }

    //得到应当路由到的结点

private static String getServer(String key) {

        //得到该key的hash值

int hash = getHash(key);

        //得到大于该Hash值的所有MapSortedMap subMap = sortedMap.tailMap(hash);

        if(subMap.isEmpty()){

            //如果没有比该key的hash值大的,则从第一个node开始

        Integer i = sortedMap.firstKey();

            //返回对应的服务器

        return sortedMap.get(i);

        }else{

            //第一个Key就是顺时针过去离node最近的那个结点Integer i = subMap.firstKey();

            //返回对应的服务器

        return subMap.get(i);

        }

    }

    //使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法,最终效果没区别

private static int getHash(String str) {

        final int       p = 16777619;

        int    hash = (int) 2166136261L;

        for(inti = 0; i < str.length(); i++)

            hash = (hash ^ str.charAt(i)) * p;

        hash += hash << 13;

        hash ^= hash >> 7;

        hash += hash << 3;

        hash ^= hash >> 17;

        hash += hash << 5;

        // 如果算出来的值为负数则取其绝对值if(hash < 0)

            hash = Math.abs(hash);

        return hash;

        }

public static void main(String[] args) {

String[] keys = {"太阳", "月亮", "星星","木星"};

for (int i = 0; i < keys.length; i++) {

System.out.println("[" + keys[i] + "]的hash值为" + getHash(keys[i])

+ ", 被路由到结点[" + getServer(keys[i]) + "]");

}

}

}

```

执行结果:

[192.168.0.0:111]join in collections, its hash code is 575774686

[192.168.0.1:111]join in collections, its hash code is 8518713

[192.168.0.2:111]join in collections, its hash code is 1361847097

[192.168.0.3:111]join in collections, its hash code is 1171828661

[192.168.0.4:111]join in collections, its hash code is 1764547046

[太阳]的hash值为1977106057, 被路由到结点[192.168.0.1:111]

[月亮]的hash值为1132637661, 被路由到结点[192.168.0.3:111]

[星星]的hash值为880019273, 被路由到结点[192.168.0.3:111]

[木星]的hash值为1574472932, 被路由到结点[192.168.0.4:111]

2、带虚拟节点的

```

package hash;


import java.util.LinkedList;

import java.util.List;

import java.util.SortedMap;

import java.util.TreeMap;


import org.apache.commons.lang.StringUtils;


/**

  * 带虚拟节点的一致性Hash算法

  */

 public class ConsistentHashingWithoutVirtualNode {


     //待添加入Hash环的服务器列表

     private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111",

             "192.168.0.3:111", "192.168.0.4:111"};


     //真实结点列表,考虑到服务器上线、下线的场景,即添加、删除的场景会比较频繁,这里使用LinkedList会更好

     private static List realNodes = new LinkedList<String>();


     //虚拟节点,key表示虚拟节点的hash值,value表示虚拟节点的名称

     private static SortedMap virtualNodes = new TreeMap<Integer, String>();


     //虚拟节点的数目,这里写死,为了演示需要,一个真实结点对应5个虚拟节点

     private static final int VIRTUAL_NODES = 5;


     static{

         //先把原始的服务器添加到真实结点列表中

         for(int i=0; i<servers.length; i++)

             realNodes.add(servers[i]);


         //再添加虚拟节点,遍历LinkedList使用foreach循环效率会比较高

         for (String str : realNodes){

             for(int i=0; i<VIRTUAL_NODES; i++){

                 String virtualNodeName = str + "&&VN" + String.valueOf(i);

                 int hash = getHash(virtualNodeName);

                 System.out.println("虚拟节点[" + virtualNodeName + "]被添加, hash值为" + hash);

                 virtualNodes.put(hash, virtualNodeName);

             }

         }

         System.out.println();

     }


     //使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法,最终效果没区别

     private static int getHash(String str){

         final int p = 16777619;

         int hash = (int)2166136261L;

         for (int i = 0; i < str.length(); i++)

             hash = (hash ^ str.charAt(i)) * p;

         hash += hash << 13;

         hash ^= hash >> 7;

         hash += hash << 3;

         hash ^= hash >> 17;

         hash += hash << 5;


         // 如果算出来的值为负数则取其绝对值

         if (hash < 0)

             hash = Math.abs(hash);

         return hash;

     }


     //得到应当路由到的结点

     private static String getServer(String key){

        //得到该key的hash值

         int hash = getHash(key);

         // 得到大于该Hash值的所有Map

         SortedMap<Integer, String> subMap = virtualNodes.tailMap(hash);

         String virtualNode;

         if(subMap.isEmpty()){

            //如果没有比该key的hash值大的,则从第一个node开始

            Integer i = virtualNodes.firstKey();

            //返回对应的服务器

            virtualNode = virtualNodes.get(i);

         }else{

            //第一个Key就是顺时针过去离node最近的那个结点

            Integer i = subMap.firstKey();

            //返回对应的服务器

            virtualNode = subMap.get(i);

         }

         //virtualNode虚拟节点名称要截取一下

         if(StringUtils.isNotBlank(virtualNode)){

             return virtualNode.substring(0, virtualNode.indexOf("&&"));

         }

         return null;

     }

    public static void main(String[] args) {

        String[] keys = {"太阳", "月亮", "星星","木星"};

        for (int i = 0; i < keys.length; i++) {

            System.out.println("[" + keys[i] + "]的hash值为" + getHash(keys[i])

                    + ", 被路由到结点[" + getServer(keys[i]) + "]");

        }

    }

}

```

---------------------

注:一致性hash算法可以用来做服务器路由和分表分库;


---------------------------------------

原文:https://blog.csdn.net/u011305680/article/details/79721030

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容