分布式缓存算法和Infinispan

分布式缓存概念已经出现很久了,目前也有很多经典的应用,比如Memcached, Redis和笔者工作中用到的Infinispan。其背后的实现原理是怎么样的?例如:对象是如何分配到多个节点的?如果增加或删除一个节点,已有的缓存数据要重新排列吗?笔者带着这些问题查找资料后形成此文。

此文包括以下3个部分:
1. 为什么要用分布式缓存
2. 分布式缓存依赖的算法
3. Infinispan对分布式缓存实现

一,为什么要用分布式缓存
要回答为什么用分布式缓存之前,要回答为什么要缓存?缓存的目的是通过数据放入内存加快数据访问速度,并且降低对瓶颈资源的访问压力。为什么要用分布式缓存呢?当缓存不够用时,需要增大缓存,其中一个方向是增加内存条,但是受制于主板和CPU等硬件的限制,增加内存条必然是有限的。另一个方向就是分布式缓存,即把缓存分布到多台机器上,缓存容量和节点数量呈线性关系增长。

二,分布式缓存依赖的算法
既然数据存到多台机器上,那么怎么合理均匀地讲数据分布到多台机器呢?一个直观的思路是类似Hashtable的算法,每个节点作为一个hash槽,按照对象的Hash code对节点取余数,然后存入或获取相应的节点。简短描述如下:
            Hash(o) mod n
            - o 是数据对象
            - n 是节点数量
举个例子,假设Hash code为1-12这12个数字,存放到4个节点。如果按照上述算法,余数分别是0,1,2,3. 存储结构如下图所示:


4节点Mod Hash


存取和数据分布都很完美,但是当一台机器坏了的话,问题就来了。4个节点变成3个节点。按理应该对3取余数,存储结构变成下图所示:


3节点Mod Hash


旧节点上的数据几乎全部都失效,意味着需要重新转移数据,当存放数据的数据量很大,转移数据会用很好时间,在此期间,应用无法使用缓存,对应用的影响就很大。如果有一种算法能够达到下图所示,那么就完美了,即正常节点上的数据不动,后续把坏节点的数据均匀地缓存到正常节点上。还有个前提,存在一种算法,保证缓存的对象能正确地获取:


合理的Hash

可惜,事实证明,按照旧的取余数思路无法达到上述效果。
于是为解决分布式问题的另一种算法出现了:Consistent hashing,中文名一致性哈希。

看看Consistent hashing描述:
        当hashtable变化时,只有K / n 个数据需要重排。 K是数据的总数,n是Hash 槽的数量。

对照上面的例子,恰好12/4=3个节点需要重排。

顺便说一下,它是MIT的Karger教授在1997年发明的。那么它在技术上是如何实现的呢?

1,将真实的机器节点名虚拟成多个虚拟节点。例如节点A,虚拟为A1,A2,A3,A4等。
2,对数据和虚拟节点都按照某Hash方法取得Hash code。
3,将Hash槽安排成一个0 到 2的32次方-1的环。
4,按照第2步中的数据和虚拟节点。按照Hash code值安排到第3步的Hash槽上。

举例:有A,B,C三个物理节点,分别虚拟为4个虚拟节点。缓存对象用点表示,节点用小圆圈表示。

Consistent Hash技术

5,如何获取数据所在的机器节点呢?找到数据的hashcode,顺时针查找下一个虚拟节点,这样就找到了所在的物理节点。
6,如果某个物理节点损坏了,怎么办?顺时针找已损坏节点的下一个节点,把损坏节点上的数据存入它。

举例:当C损坏,B1-C1上的所有数据,后续将存入A2;A2-C2的所有数据,后续将存入B2;A3-C3的所有数据都存入B3;B4-C4的所有数据将存入A1。相当于C节点的所有数据被A和B分担了。

ConsistentHash对拓扑变化的处理

7,如果向集群加一个物理节点,恰好和6是反向操作。也就是说新节点将从已有的若干个节点上,各分担一部分数据。

总结Consistent hashing:当节点变化后,它实现了只动K/n个数据的关键是什么呢?第一,虚拟化物理节点;第二,可靠的Hash算法,即能将虚拟节点和数据均匀分布在Hash环上。

三,Infinispan对分布式缓存实现

Infinispan是什么?下面是官方介绍:

What's Infinispan

Infinispan 用JGroups作为集群管理设施,可以发现集群节点,向各节点传输数据。
Infinishpan是如何实现上述consistent hash的算法呢?

Consistent hash将1到2的32次方-1的空间划分为若干Segment(numSegments由设置缓存的人定义),每个Segment分配Owner,即分配物理节点。分配好之后,这个Segment上的数据都存储在这个Owner里。


当拓扑结构变化后,如何重新计算各个Segment的Owner呢?
分析下面代码(在SyncConsistentHashFactory类里):

PopulateOwner

输入参数numberSegments就是Segment的数量。
共两层循环,外层循环:只要存在Segment没有Owner,就执行内循环。内循环是逐个遍历物理节点,用物理节点名结合VirtualNode计算出一个segment,然后将当前的物理节点设置为Segment的Owner。如何计算Segment呢?

ComputeSegment

用到一个HashFunction,实际用的就是MurMurHash,他是Austin Appleby在2008年发明的。具备更好的hash分布和更好的性能。

再来看看addPrimaryOwner是如何实现的?

AddPrimaryOwner

有两个If判断,1. 当前segment没有owner才往下走;2. 当前节点允许分配的segment小于它承担的Segment数量才把当前节点分配给Segment。

如何知道Node该承担多少Segment呢?再看看这里的computeExpectedSegmentsForNode函数

computeExpectedSegmentsForNode

这里做了一些什么事呢?就是要计算当前节点能承担多少个Segment。为什么做这件事呢?因为现实中,物理机器之间是有差别的,有些物理机器内存多,有些内存少,所以,内存多的节点理所当然要分担多一点内存。这也就有了第一行取节点的CapacityFactor。像下面这一行,实际就是算权重。
nodeSegments = nodeCapacityFactor / remainingCapacity * remainingCopies;

上面有addPrimaryOwner函数,那么是不是有其他Owner呢?确实是的。考虑到数据的节点的可靠性,给每个Segment分配了多个Owner,除了PrimaryOwner,可以有多个BackupOwner。doCopyOwners实现了如何分配backupOwner:逐个Segment扫描他们的Owner,如果和当前的Owner不一样,就可以分配为backupOwner。

doCopyOwners

将Infinispan的源代码用图形方式再描述一遍。当某个节点损坏后,数据将如何转移?

remove 1 node

原先Address2节点是第一块和第三块Segment的owner。当Address2移除后,意味着第一块和第三块Segment上缺少Owner,所以要重新分配owner。AddPrimaryOwner函数中,假设当虚拟节点循环到100的时候,当前正好是Address3,所以,将Address3作为第三块的PrimaryOwner。与此类似,当virtual节点循环到1000的时候,将address1分配为第一块Segment的Owner。可以想象,还有其他原先属于Address2的Segment会被分配到其他节点上。


当一个新节点加入到集群后,如何分配segment的Owner呢?


Add 1 node

当新节点Address4加入后,重新计算Owner当Address1,Address2,Address3都被作为Owner后,轮流到给Address4找Segment,假设第三块的Segment恰好被找到,那么就可以更新它的PrimaryOwner值为Address4,原先的Address2-1就被冲掉了。可以想象,原先属于其他节点的其他Segment也可能会选Address4作为PrimaryOwner。

对比Consistent Hash的技术描述,Infinispan的segment实际就是hash环上虚拟节点之间的地址段。Segment数量就是所有虚拟节点的数量。不同点是Infinispan的寻址方式不是靠顺时针扫描,而是通过Owner映射表。
另外Infinispan考虑到数据可靠性,处理了backup数据的问题。考虑到各个机器的容量,分配更加合理的Segment数量。

全文总结:通过对ConsistentHash和Infinispan对此的实现分析,基本弄懂了分布式缓存背后的原理。通过Consistent Hash达到了两个目标:1. 数据在节点上均匀分布;2. 当拓扑结构变化后,K/n个数据被重新分布。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容