redis数据结构

思考

  1. redis有哪些数据类型,底层数据结构又有哪些?
  2. 哪些情况会导致redis变慢?
  3. 为什么有些数据结构查找速度慢,却还使用
  4. string的弊端,如何优化

1.redis数据类型和底层数据结构

redis基础数据类型有五种:

  • 字符串string : 常用于缓存、限流、计数器、分布式锁、分布式session、签到等
  • 列表List:有序,常用于存储时间轴上的事件,如生成历史报告
  • 哈希Hash:常用于存储对象,如用户相关信息和商品信息
  • 集合Set:常用于存储无序的多个元素,比如说说、朋友圈的赞、好友、文章标签、好友分组
  • 有序集合Sorted Set:常用于排行榜,比如热搜、热销商品

底层数据结构:

  • 简单动态字符串
  • 压缩列表
  • 双向链表
  • 哈希表
  • 跳表
  • 整数数组
    image.png

    我们看到除了string类型底层实现只有一种,其他都有两种底层实现结构,我们把这四种类型称为集合类型(一个键对应一个集合的数据)

1.1键和值在redis中如何保存

image.png

redis使用哈希表保存所有键值对(一个数组,数组中的每个元素都是哈希桶),哈希桶中的元素保存的不是值本身,而是指向具体值的指针(即不管是string还是集合类型,哈希桶里保存的都是值指针)

image.png

当然,既然是哈希表,就不可避免哈希冲突问题,对于哈希冲突,常见的使用办法就是拉出一个链表保存哈希值冲突的值,此时对于元素的查找速度不再是O(1),而是链表的逐个查找O(n)。
image.png

底层代码如下,一个键值对对应至少一个dict

#dict字典的数据结构
typedef struct dict{
    dictType *type; //直线dictType结构,dictType结构中包含自定义的函数,这些函数使得key和value能够存储任何类型的数据
    void *privdata; //私有数据,保存着dictType结构中函数的 参数
    dictht ht[2]; //两张哈希表
    long rehashidx; //rehash的标记,rehashidx=-1表示没有进行rehash,rehash时每迁移一个桶就对rehashidx加一
    int itreators;  //正在迭代的迭代器数量
}

#dict结构中ht[0]、ht[1]哈希表的数据结构
typedef struct dictht{
    dictEntry[] table;        //存放一个数组的地址,数组中存放哈希节点dictEntry的地址
    unsingned long size;      //哈希表table的大小,出始大小为4
    unsingned long  sizemask; //用于将hash值映射到table位置的索引,大小为(size-1)
    unsingned long  used;     //记录哈希表已有节点(键值对)的数量
}

#哈希表节点结构定义
typedef struct dictEntity{
    void *key;//键
    //值
    union{
        void *val;//自定义类型
        uint64_t u64;//无符号整形
        int64_t s64;//符合整形
        double d;//浮点型
    } v;
    struct dictEntity *next;//发生哈希冲突时使用。指向下一个哈希表节点,形成链表
}

随着数据量的增加,哈希冲突也越多,链表也被拉的很长,此时redis查找效率就会变低

1.2 rehash机制

为了防止上面的情况让redis变慢,redis会执行rehash操作,即增加现有的哈希桶,让增加的元素在更多哈希桶之间分散保存,减少单个桶元素数量(链表长度)

源码引入装载因子来判断是否需要扩容(rehash)

redis默认使用两个哈希表,一开始数据被插入在哈希表1中(此时哈希表2没有分配内存),随数据量增加redis开始执行rehash操作:
1 . 给表2分配更大空间

  1. 将表1数据重新映射并拷贝到哈希表2
  2. 释放哈希表1

其中第二步中,为防止大量数据拷贝而阻塞redis线程,让redis无法提供服务,redis采用渐进式rehash:数据拷贝时,服务端仍接收请求,在处理请求时,从哈希表1的第一个位置开始,到该请求需要的索引位置为止,将中间所有拷贝到哈希表2,同理处理下一个请求。说白了就是把大量拷贝分摊到多次处理请求的过程中

2.其他数据结构

2.1压缩列表

上文介绍了底层数据结构哈希表和rehash机制,接下来介绍压缩列表(其余几个在算法题目中都很常见,我都了解就不记录了)
实际上压缩列表类似一个数组,每个元素保存一个数据,但是表头有三个字段:

  • zlbytes 列表长度
  • zltail 列表尾的偏移量
  • entry 列表中元素的个数

列表尾部有一个zlend字段表示结束

image.png

从结构上看,列表头部和尾部的查找都是O(1)的时间复杂度,其余都是O(n)(和整数数组一样),那既然在查找时间复杂度上没有优势,为啥redis还会把它当作底层数据结构?数组的特点是所有元素存储是紧挨着的,意味着分配的是一块连续的内存(避免内存碎片),当数据量小的时候就很有用,redis是内存缓存,节省空间对于redis也是很重要的

2.2简单字符串

我们知道string类型能保存数字、字符串和二进制流(但是get返回的只能是字符串)
image.png

那么string类型具体底层是如何保持数据的?

  • 当保存64位有符号整数时,会保存为一个8字节的long类型整数(int编码方式)

  • 当保存数据中包含字符串时,会用简单动态字符串保存(sds,simple dynamic string)


    image.png
  • len 4个字节表示buf已用长度

  • alloc 4个字节表示buf的实际分配长度,一般大于len

  • buf 字节数组,保存实际数据,会自动在数组末尾加"\0"(c 语言保存字符串特点),额外占用一个字节开销

也就是说用sds保存会额外至少多9个字节的开销(实际结构体内存分布不紧凑),实际上还有一个reidsObject的开销,该结构体用来记录元数据(如最后一个访问时间,被引用次数等),同时指向实际数据
image.png
  • 注意当保存Long类型整数时,ptr直接赋值为整数数据,不再是指向整数的指针
  • 当字符串小于44字节时,redisobject中的元数据、指针和SDS是一块连续的内存区域(embstr编码方式,避免内存碎片)
  • 当大于44字节时,redisobject和sds不再一起内存布局,而是sds分配独立空间,再指向sds(raw编码)

用go语言可以理解为redisobject是一种接口类型,存储不同类型大小的数据有不同的实现
image.png

假设现在redis要用string存储8位的数字,用经由int编码的redisobject保存,元数据占8字节,ptr部分(被long整形占用)占8字节,一共16字节,但是key也要保存(也是用redisobject保存),占用16字节,key和value一共32字节

image.png

dict结构体三个指针占用24字节,是不是总共24+32 = 56字节?实际是64字节!!因为redis内存分配库jemalloc在分配内存时,会根据申请的字节数N,找一个比N大,但是最接近N的2的幂次方作为分配空间(分配多点,减少频繁分配次数),如申请6字节(B)实际分配8字节(2的3次方),申请24字节,分配32字节(2的5次方),同理申请56字节,实际分配64(2的6次方)
明明有效信息只有一个16个字节(两个redisobject的ptr),却需要64字节内存空间,那么要保存1亿个该数据,就需要6.4GB内存空间,4.8GB内存都用来保存元数据,很明显,用string保存大量数据不是一个好选择,string的元数据占据了主要开销!!!

2.3 优化方案

我们上面提到压缩列表ziplist内存是连续的,不需要额外的ptr指针连接,能节约内存开销,那能不能使用该数据结构保存


image.png

ziplist用一系列连续的entry保存数据:

  • pre_len 表示前一个entry长度,当前一个entry长度小于254字节,占1字节,否则5字节
  • len 自身长度 4字节
  • content实际保存数据为止
  • encoding 编码方式1字节

我们再来模拟一下如何用ziplist存储8字节数字,1(prev_len)+ 4(len)+1(encoding)+8(content) = 14B
根据jemalloc分配内存规则,实际分配16B(2^4),那么对比SDS实际需要的64B是不是少了很多?
问题来了,key怎么办?这时集合类型,一个键对应一个集合数据,即我们如何用集合类型保存单值的键值对
一种办法是采用Hash类型的二级编码方法,即将一个单值数据拆分成两部分,前一部分作为hash的key,后一部分作为value保存
hash底层会使用ziplist,我们使用hset命令
以数字键11001060,值222222为例,键拆成 11001 和 060

127.0.0.1:6379[1]> hset 11001 060 222222
(integer) 1

至于hset类型底层什么时候使用压缩列表或哈希取决于两个阈值:

  • hash-max-ziplist-entries 表示用压缩列表保存时哈希集合的元素最大个数超过时转为哈希
  • hash-max-ziplist-value表示写入单个元素大小超过该值转为哈希

同理有序集合sorted set
当元素量少于zset-max-ziplist-entries,并且每个元素小于zset-max-ziplist-value时,默认也采用ziplist结构存储

文章参考

1.一文搞定rehash

  1. string应用场景
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容