简介redis之SDS

前言

在官方对redis的介绍中我们可以看到醒目的一句话:
Redis is not a plain key-value store,it is actually a data structures server
redis访问速度之所以那么快其一要归功于他是内存型数据库。其二就要归功于它对数据存储的数据结构的设计,即上面这句所强调的他更加是数据结构服务器。
关于redis数据结构从使用者角度出发有:
1.string
2.list
3.hash
4.set
5.sorted set
这也是redis服务器提供的外部接口
从底层实现角度出发有:
1.sds
2.dict
3.skiptlist
4.quicklist
5.ziplist
其中 string类型只由单一的sds实现

SDS(Simple Dynamic String)

源码位子:src/sds.c,src/sds.h
在sds.h中 提供了sdshdr5/8/16/32/64这几种的sds的实现

/* 以SDS8为例*/
struct __attribute__ ((__packed__)) sdshdr8 {
    uint8_t len; /* 已使用空间大小 */
    uint8_t alloc; /* 总共可用的字符空间大小,应该是实际buf的大小减1(因为c字符串末尾必须是\0,不计算在内) */
    unsigned char flags; /* 标志位,主要是识别这是sdshdr几,目前只用了3位,还有5位空余 */
    char buf[];   /* 真正存储字符串的地方 */
};

其余大致相同通过flag来判断是sds几

为什么称其为简单动态字符串?

1.与C字符串的区别
C语言采用N+1的字符数组来表示字符串,且末尾置'\0'
相较于c原生的字符串,sds多了len、alloc、flag三个字段来存储一些额外的信息,redis考虑到了字符串拼接时带来的巨大损耗,所以每次新建sds的时候会预分配一些空间来应对未来的增长
因此C获取字符串长度的时间复杂度为O(n),须全部遍历,SDS只需读取计算len字段即可,且因为预分配了额外的空间杜绝了缓存溢出和减少了修改字符串时的内存分配次数,且sds是以len判断字符串结尾中间是否出现'\0'与其无关,是二进制安全的

为啥要设计多种sds
阅读sds.c中的sdsnewlen方法(sds初始化从sdsnew进入到sdsnewlen)

// sds在初始化时需要传入长度initlen
sds sdsnewlen(const void *init, size_t initlen) {
    void *sh;
    sds s;
    //根据初始化长度确定使用哪种sds
    char type = sdsReqType(initlen);
    //空字符串处理默认类型sds8
    if (type == SDS_TYPE_5 && initlen == 0) type = SDS_TYPE_8;
    int hdrlen = sdsHdrSize(type);
    unsigned char *fp; /* sds->flag*/
    // redis 自己hock内存分配
    sh = s_malloc(hdrlen+initlen+1);
    if (init==SDS_NOINIT)
        init = NULL;
    else if (!init)
        memset(sh, 0, hdrlen+initlen+1);
//注意这里返回的sh并不是直接指向sds的指针,而是指向sds中字符串的指针
// sds指针需要根据sh和hdrlen计算
    if (sh == NULL) return NULL;
    s = (char*)sh+hdrlen;
    fp = ((unsigned char*)s)-1;
//根据type类型分配内存
    switch(type) {
        case SDS_TYPE_5: {
            *fp = type | (initlen << SDS_TYPE_BITS);
            break;
        }
        case SDS_TYPE_8: {
            SDS_HDR_VAR(8,s);
            sh->len = initlen;
            sh->alloc = initlen;
            *fp = type;
            break;
        }
        case SDS_TYPE_16: {
            SDS_HDR_VAR(16,s);
            sh->len = initlen;
            sh->alloc = initlen;
            *fp = type;
            break;
        }
        case SDS_TYPE_32: {
            SDS_HDR_VAR(32,s);
            sh->len = initlen;
            sh->alloc = initlen;
            *fp = type;
            break;
        }
        case SDS_TYPE_64: {
            SDS_HDR_VAR(64,s);
            sh->len = initlen;
            sh->alloc = initlen;
            *fp = type;
            break;
        }
    }
    if (initlen && init)
        memcpy(s, init, initlen);
//为方便使用C内置字符串函数,末尾置'\0'
    s[initlen] = '\0';
    return s;
}

阅读switch分支我们可以看到根据初始化长度,小于3的使用sds5(这个基本不用),小于2^8的长度使用sds8,以此类推,这样子sds8的len和alloc只占用两个字节,比较短字符串可能非常多,所以节省下来的内存还是非常可观的(基本上是扣额外分配的内存)
SDS空间不足要扩容怎么办
常见如字符串拼接,sds可能空间不足。redis采用指数级扩容方法

// 扩大sds的实际可用空间,以便后续能拼接更多字符串。 
// 注意:这里实际不会改变sds的长度,只是增加了更多可用的空间(buf) 
sds sdsMakeRoomFor(sds s, size_t addlen) {
    void *sh, *newsh;
    size_t avail = sdsavail(s);
    size_t len, newlen;
    char type, oldtype = s[-1] & SDS_TYPE_MASK; // SDS_TYPE_MASK = 7 
    int hdrlen;

    /* 如果有足够的剩余空间,直接返回 */
    if (avail >= addlen) return s;

    len = sdslen(s);
    sh = (char*)s-sdsHdrSize(oldtype);
    newlen = (len+addlen);
    // 在未超出SDS_MAX_PREALLOC前,扩容都是按2倍的方式扩容,超出后只能递增 
    if (newlen < SDS_MAX_PREALLOC)  // SDS_MAX_PREALLOC = 1024*1024
        newlen *= 2;
    else
        newlen += SDS_MAX_PREALLOC;

    type = sdsReqType(newlen);

    /*  在真正使用过程中不会用到type5,如果遇到type5直接使用type8*/
    if (type == SDS_TYPE_5) type = SDS_TYPE_8;

    hdrlen = sdsHdrSize(type);
    if (oldtype==type) {
        newsh = s_realloc(sh, hdrlen+newlen+1);
        if (newsh == NULL) return NULL;
        s = (char*)newsh+hdrlen;
    } else {
        // 扩容其实就是申请新的空间,然后把旧数据挪过去  
        newsh = s_malloc(hdrlen+newlen+1);
        if (newsh == NULL) return NULL;
        memcpy((char*)newsh+hdrlen, s, len+1);
        s_free(sh);
        s = (char*)newsh+hdrlen;
        s[-1] = type;
        sdssetlen(s, len);
    }
    sdssetalloc(s, newlen);
    return s;
}

对于SDS_MAX_PREALLOC的宏定义为

#define SDS_MAX_PREALLOC (1024*1024)

在SDS_MAX_PREALLOC范围内以指数2倍对buf扩容,超出则每次加SDS_MAX_PREALLOC

总结

sds(简单动态字符串)特点,预先分配内存,记录字符串长度,在原字符串数组里新增加一串字符串。

新长度newlen为原len+addlen,若newlen小于1M,则为SDS分配新的内存大小为2*newlen;若newlen大于等于1M,则SDS分配新的内存大小为newlen + 1M

SDS是以len字段来判断是否到达字符串末尾,而不是以'\0'判断结尾。所以sds存储的字符串中间可以出现'\0',即sds字符串是二进制安全的。

当要清空一个SDS时,并不真正释放其内存,而是设置len字段为0即可,这样当之后再次使用到该SDS时,可避免重新分配内存,从而提高效率。

SDS的好处就是通过预分配内存和维护字符串长度,实现动态字符串。

试试回答以下问题

1.为啥redis要自己封装一个string类型
2.什么是动态简单
3.如何兼容C字符串

参考

1.redis源码刨析之SDS
2.如何阅读redis源码
3.升入理解redis之简单动态字符串

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容

  • 1. 五种数据结构及应用场景 详见链接1详见链接2 总结: 字符串:字符串键的使用场景:如分布式锁、计数器、分布式...
    将军红阅读 298评论 0 1
  • 引言 本系列文章开始讲解 Redis 相关源码,文章不定时更新,并且周期可能会很长,请大家谅解。作为系列文章的开篇...
    Tubetrue01阅读 235评论 0 0
  • Redis是用C语言实现的,但是并没有使用 C 语言传统的字符串表示(以空字符结尾的字符数组,以下简称 C 字符串...
    QaoKi阅读 314评论 0 0
  • 我们知道redis是用C语言开发的,源代码开源(小伙伴们可以去网上下载下来进行阅读)今天我们主要看的是SDS(Si...
    十年磨一剑1111阅读 1,348评论 0 1
  • 字符串是Redis中一个重要的组成部分,Redis没有直接使用C语言自带的字符串,而是自身构建了一个简单动态字符串...
    喵帕斯0_0阅读 429评论 0 1