redis 字符串与字典实现

简单动态字符串 (SDS)

内部实现

struct sdshdr {
  len int; // 所保存的字符串长度
  free int; // 未使用的字节长度
  char buf[]; // 字节数组,用于保存字符串
}

c 字符串通常是以空字符 '\0' 结尾,所以一个 SDS 的长度为: len + free + 1

与 c 字符串的区别

类型 c 字符串 SDS
获取字符串长度 O(N) O(1)
是非 API 安全 存在缓冲区溢出风险 API 安全,无缓冲区溢出
是否二进制安全 非二进制安全 二进制安全
修改字符串导致内存分配 每次重新分配 N 次修改最多 N 次分配
是否兼容 <string.h> 标准库 完全兼容 部分兼容

获取字符串长度

  • c 字符串获取长度是逐个读取字符计算长度,时间复杂度为: O(N)
  • SDS 是通过 len 来获取字符串长度,时间复杂度为: O(1)

API 安全

  • c 字符串不会检查内存空间是否足够,当拼接字符串时,有可能会出现缓冲区溢出问题
  • SDS 则会根据 free 来判断空间是否足够,如果内存空间不足,则会申请内存空间,因此不会有缓冲区溢出问题

二进制安全

  • c 字符串是根据空字符 \0 来判断字符串是否结束,因此字符串中间不能有空字符, 只能用来保存文本内容,无法保存二进制数据
  • SDS 是通过 len 来判断字符串是否结束,因此既可以保存文本内容,又可以保存二进制数据

内存分配

  • c 字符串每次修改内容时都需要进行重新的内存分配
  • SDS 则是根据 free 判断空间是否足够,如果不足,重新内配, 并且当修改后的 len < 1M 时, 额外多分配 len 的长度, 此时 free = len ; 当缩短 SDS 字符串内容时, 并不会立即释放空间, 而是通过将 free 变大,记录剩余空间,以减少之后的再分配。(通过惰性释放避免内存浪费问题)

字典

内部实现

typedef struct dictEntry {
    void *key;
    union {
        void *val;
        uint64_t u64;
        int64_t s64;
        double d;
    } v;
    struct dictEntry *next;
} dictEntry;

typedef struct dictType {
    unsigned int (*hashFunction)(const void *key);
    void *(*keyDup)(void *privdata, const void *key);
    void *(*valDup)(void *privdata, const void *obj);
    int (*keyCompare)(void *privdata, const void *key1, const void *key2);
    void (*keyDestructor)(void *privdata, void *key);
    void (*valDestructor)(void *privdata, void *obj);
} dictType;

/* This is our hash table structure. Every dictionary has two of this as we
 * implement incremental rehashing, for the old to the new table. */
typedef struct dictht {
    dictEntry **table;
    unsigned long size;
    unsigned long sizemask;
    unsigned long used;
} dictht;

typedef struct dict {
    dictType *type;
    void *privdata;
    dictht ht[2];
    long rehashidx; /* rehashing not in progress if rehashidx == -1 */
    int iterators; /* number of iterators currently running */
} dict;

结构示意图:

redis-dict

原理讲解

字段

ht 字段

ht 是一个两个项的数组,其中 ht[0] 用于存放哈希表,ht[1] 在哈希重排时使用

rehashidx 字段

rehashidx == -1 时,表示当前不是在 rehash, 用于表示在进行 rehash 操作时,进行到了哪一步。

如何操作数据

假设现在需要添加一个数据 <k, v>, 先需要计算哈希值:

hash = dict->type->hashFunction(k);

然后根据 sizemask 求出索引值:

 index = hash & dict->ht[x]->sizemask;   
 // x 表示实际存放哈希表的索引, 一般为 0 ,当在进行 rehash 时为 1

这样就可以将 <k, v> 存储在 dict->ht[x]->table[index] 中, 如果 table[index] 中已经有数据, 则新添加的数据放在链表表头. (这是因为 table[index] 中的链表时一个单链表,没有指向链表尾部的指针,添加到表头更快)

rehash 过程

当哈希表保存的数据太多或太少时,需要对哈希表进行相应的扩容或者收缩。
如果进行扩容操作,那么 ht[1] 的大小为第一个不小于 ht[0].used * 2 的 2^n (n 为正整数), 如: used = 5, ht[0].used * 2 = 10 < 2^4 = 16, 所以 ht[1] 的大小为:16 ·
然后就可以将 ht[0] 的数据哈希到 ht[1] 中, 当 ht[0] 中的数据全部哈希到 ht[1] 后, 释放 ht[0], 将 ht[1]ht[0]

扩展的触发条件

  1. 在没有执行 BGSAVEBGREWRITEAOF时,哈希表的负载因子 >= 1
  2. 在执行 BGSAVEBGREWRITEAOF时,哈希表的负载因子 >= 5

负载因子的计算:

load_factor = ht[0].used / ht[0].size

在进行 BGSAVEBGREWRITEAOF时,提高负载因子是为了避免扩容,避免不必要的内存写入

收缩的触发条件

负载因子 < 0.1

渐进式哈希

在扩容或者收缩时,需要将 ht[0] 全部哈希到 ht[1], 如果一次性哈希, 当数据足够多时,会存在效率问题。因此 redis 通过逐步哈希的方式,其具体过程如下:

  1. ht[1] 分配空间
  2. 设置 rehashidx = 0
  3. 新添加的数据不再加入到 ht[0], 而是加入到 ht[1]中,保证 ht[0]不会增加数据
  4. ht[0]->table[rehashidx] 的数据全部哈希到 ht[1]
  5. rehashidx++
  6. 随着不断的执行,ht[0] 的数据哈希到了 ht[1], 这是可以 设置 rehashidx = 1, 表明 rehash 结束,释放 ht[0], ht[1] 设置为 ht[0]

rehash 的过程中, 删除,查找,更新会同时在 ht[0], ht[1] 中进行, 但是添加只会在 ht[1] 中。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容

  • 引入 Redis对外提供了5种类型:字符串、列表、集合、有序集合以及哈希表,但底层实现并不是固定的,以上五种数据结...
    宇宙最强架构师阅读 652评论 0 3
  • 数据结构与对象 Redis的底层数据结构,了解Redis的底层数据结构有助于我们更好的运用Redis。 SDS R...
    falm阅读 596评论 0 4
  • Redis使用的是自己构建的简单动态字符串(simple dynamic string,SDS)的抽象类型, 并将...
    但莫阅读 506评论 0 0
  • 最近早起情况 好久没来打卡了,其实这段时间都有早起,但是并没有来这里写文章打卡做总结。说实话也忘记了打卡这个事情。...
    Marco_Deng阅读 236评论 0 0
  • 我想很多人听说过垃圾人,呼吁着大家远离垃圾人。但大家都不知道垃圾桶君吧,垃圾桶君,甘当别人的垃圾桶,身旁的...
    杨小唐阅读 278评论 0 1