一致性哈希算法学习及JAVA代码实现分析

1,对于待存储的海量数据,如何将它们分配到各个机器中去?---数据分片与路由

当数据量很大时,通过改善单机硬件资源的纵向扩充方式来存储数据变得越来越不适用,而通过增加机器数目来获得水平横向扩展的方式则越来越流行。因此,就有个问题,如何将这些海量的数据分配到各个机器中?数据分布到各个机器存储之后,又如何进行查找?这里主要记录一致性Hash算法如何将数据分配到各个机器中去。

2,衡量一致性哈希算法好处的四个标准:

①平衡性:平衡性是指哈希的结果能够尽可能分布到所有的缓冲中去,这样可以使得所有的缓冲空间都得到利用。②单调性:单调性是指如果已经有一些数据通过哈希分配到了相应的机器上,又有新的机器加入到系统中。哈希的结果应能够保证原有已分配的内容可以被映射到原有的或者新的机器中去,而不会被映射到旧的机器集合中的其他机器上。

这里再解释一下:就是原有的数据要么还是呆在它所在的机器上不动,要么被迁移到新的机器上,而不会迁移到旧的其他机器上。

③分散性④负载:参考这里:blog.csdn.net/cywosp/article/details/23397179

3,一致性哈希的原理:

由于一般的哈希函数返回一个int(32bit)型的hashCode。因此,可以将该哈希函数能够返回的hashCode表示成一个范围为0---(2^32)-1 环。

将机器的标识(如:IP地址)作为哈希函数的Key映射到环上。如:

hash(Node1) =Key1 hash(Node2) = Key2,借用一张图如下:

image

同样,数据也通过相同的哈希函数映射到环上。这样,按照顺时针方向,数据存放在它所在的顺时针方向上的那个机器上。这就是一致性哈希算法分配数据的方式!

4,JAVA实现一致性哈希算法的代码分析:

❶设计哈希函数

这里采用了MD5算法,主要是用来保证平衡性,即能够将机器均衡地映射到环上。貌似用Jdk中String类的hashCode并不能很好的保证平衡性。

import java.security.MessageDigest;
import java.security.NoSuchAlgorithmException;
/** 实现一致性哈希算法中使用的哈希函数,使用MD5算法来保证一致性哈希的平衡性*/
public class HashFunction {
   private MessageDigest md5 = null;
   public long hash(String key) {
       if (md5 == null) {
           try {
               md5 = MessageDigest.getInstance("MD5");
           } catch (NoSuchAlgorithmException e) { 
              throw new IllegalStateException("no md5 algrithm found");
           } 
      }
       md5.reset();
       md5.update(key.getBytes());
       byte[] bKey = md5.digest();
       //具体的哈希函数实现细节--每个字节 & 0xFF 再移位
       long result = ((long) (bKey[3] & 0xFF) << 24) 
              | ((long) (bKey[2] & 0xFF) << 16                      
         | ((long) (bKey[1] & 0xFF) << 8) | (long) (bKey[0] & 0xFF)); 
      return result & 0xffffffffL;  
 }}

❷实现一致性哈希算法:

为什么要引入虚拟机器节点?它的作用是什么?

引入虚拟机器节点,其目的就是为了解决数据分配不均衡的问题。因为,在将实际的物理机器映射到环上时,有可能大部分机器都映射到环上的某一个部分(比如左半圆上),而通过引入虚拟机器节点,在进行机器hash映射时,不是映射具体机器,而是映射虚拟机器,并保证虚拟机器对应的物理机器是均衡的---每台实际的机器对应着相等数目的Virtual nodes。如下图:

如何解决集群中添加或者删除机器上需要迁移大量数据的问题?

假设采用传统的哈希取模法,设有K台物理机,H(key)=hash(key) mod K 即可实现数据分片。但当K变化时(如新增一台机器),所有已经映射好的数据都需要重新再映射。H(key)=hash(key) mod (K+1)。

一致性哈希采用的做法如下:引入一个环的概念,如上面的第一个图。先将机器映射到这个环上,再将数据也通过相同的哈希函数映射到这个环上,数据存储在它顺时针走向的那台机器上。以环为中介,实现了数据与机器数目之间的解藕。这样,当机器的数目变化时,只会影响到增加或删除的那台机器所在的环的邻接机器的数据存储,而其他机器上的数据不受影响。

在具体JAVA实现代码中,定义了一个TreeMap<k, V>用来保存虚拟机器节点到实际的物理机器的映射。机器以字符串形式来标识,故hash函数的参数为String

for (int i = 0; i < numberOfReplicas; i++)   
// 对于一个实际机器节点 node, 对应 numberOfReplicas 个虚拟节点  
    /*
    * 不同的虚拟节点(i不同)有不同的hash值,但都对应同一个实际机器node
    * 虚拟node一般是均衡分布在环上的,数据存储在顺时针方向的虚拟node上
    */
   circle.put(hashFunction.hash(node.toString() + i), node);

而对于 数据的存储而言,逻辑上是按顺时针方向存储在虚拟机器节点中,虚拟机器节点通过TreeMap知道它实际需要将数据存储在哪台物理机器上。此外,TreeMap中的Key是有序的,而环也是顺时针有序的,这样才能当数据被映射到两台虚拟机器之间的弧上时,通过TreeMap的 tailMap()来寻找顺时针方向上的下一台虚拟机。

if (!circle.containsKey(hash)) {
//数据映射在两台虚拟机器所在环之间,就需要按顺时针方向寻找机器
   SortedMap<Long, T> tailMap = circle.tailMap(hash);
   hash = tailMap.isEmpty() ? circle.firstKey() : tailMap.firstKey();}

完整代码:

import java.util.Collection;
import java.util.HashSet;
import java.util.Iterator;
import java.util.Set;
import java.util.SortedMap;
import java.util.SortedSet;
import java.util.TreeMap;
import java.util.TreeSet;
public class ConsistentHash<T> {
   private final HashFunction hashFunction;
   private final int numberOfReplicas;
   // 节点的复制因子,实际节点个数 * numberOfReplicas =虚拟节点个数
   private final SortedMap<Long, T> circle = new TreeMap<Long, T>(); 
  // 存储虚拟节点的hash值到真实节点的映射
   public ConsistentHash(HashFunction hashFunction, int numberOfReplicas,
           Collection<T> nodes) {
       this.hashFunction = hashFunction;
       this.numberOfReplicas = numberOfReplicas; 
       for (T node : nodes)
           add(node); 
  }
   public void add(T node) {
       for (int i = 0; i < numberOfReplicas; i++)
           // 对于一个实际机器节点 node, 对应 numberOfReplicas 个虚拟节点
           /*            * 不同的虚拟节点(i不同)有不同的hash值,但都对应同一个实际机器node
            * 虚拟node一般是均衡分布在环上的,数据存储在顺时针方向的虚拟node上
            */
           circle.put(hashFunction.hash(node.toString() + i), node);
   }
   public void remove(T node) {
       for (int i = 0; i < numberOfReplicas; i++)
           circle.remove(hashFunction.hash(node.toString() + i));
   }
   /*
    * 获得一个最近的顺时针节点,根据给定的key 取Hash
    * 然后再取得顺时针方向上最近的一个虚拟节点对应的实际节点
    * 再从实际节点中取得 数据
    */
   public T get(Object key) {
       if (circle.isEmpty())
           return null;
       long hash = hashFunction.hash((String) key);
       // node 用String来表示,获得node在哈希环中的hashCode
       if (!circle.containsKey(hash)) {
       //数据映射在两台虚拟机器所在环之间,就需要按顺时针方向寻找机器
           SortedMap<Long, T> tailMap = circle.tailMap(hash); 
          hash = tailMap.isEmpty() ? circle.firstKey() : tailMap.firstKey();
       }       return circle.get(hash);
   }   public long getSize() { 
      return circle.size();
   } 
    /*
    * 查看MD5算法生成的hashCode值---表示整个哈希环中各个虚拟节点位置 
   */
   public void testBalance(){
       Set<Long> sets  = circle.keySet();
       //获得TreeMap中所有的Key
       SortedSet<Long> sortedSets= new TreeSet<Long>(sets); 
      //将获得的Key集合排序
       for(Long hashCode : sortedSets){ 
          System.out.println(hashCode);
       } 
             System.out.println("----each location 's distance are follows: ----");
       /*
        * 查看用MD5算法生成的long hashCode 相邻两个hashCode的差值
        */
      Iterator<Long> it = sortedSets.iterator(); 
      Iterator<Long> it2 = sortedSets.iterator();
      if(it2.hasNext()) 
          it2.next(); 
      long keyPre, keyAfter;
      while(it.hasNext() && it2.hasNext()){
           keyPre = it.next();
           keyAfter = it2.next();
           System.out.println(keyAfter - keyPre);
       }
   }      
public static void main(String[] args) {
       Set<String> nodes = new HashSet<String>();
       nodes.add("A");
       nodes.add("B");
       nodes.add("C"); 
             ConsistentHash<String> consistentHash = new ConsistentHash<String>(new HashFunction(), 2, nodes);       
consistentHash.add("D"); 
             System.out.println("hash circle size: " + consistentHash.getSize()); 
      System.out.println("location of each node are follows: "); 
      consistentHash.testBalance();
   }
   }

参考:
https://mp.weixin.qq.com/s/k-2Lb8OKWHOcyNyX23zU1Q

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352