SDS(simple dynamic string):简单动态字符串,Redis没有使用C语言中字符串(空字符'\0'结尾字符数组),而是构建了sds作为默认的字符串表示。
redis中使用C语言字符串作为不可修改的字面量,例如打印日志;sds不仅作为字面量还可以作为修改的字符串值,缓冲区等。
结构定义:
struct sdshdr {
// len=记录buf数组中已使用字节的数量=sds保存字符串的长度
int len;
// 记录buf数组中未使用字节的数量
int free;
// 字节数组,用于保存字符串
char buf[];
};
图解:
free=0:表示不存在未使用字节;
len=5:表示存储了5个字符;
buf:表示char类型数组,分别保存'R'、'e'、d、'i'、's',最后一个字节保留了'\0',sds遵循C语言中已'\0'结尾,1字节不会保存在sds中len属性,会额外分配内存,添加'\0'可以让sds重用部分C语言中的函数。
sds与C字符串区别:
1. O(1)复杂度获得字符串长度
C字符串本身没有记录字符串长度,需要整体遍历(时间复杂度O(n))字符串才能获得字符串长度。
sds中len保存已存字符的长度,访问len对应值获得字符串长度,时间复杂度为O(1)。
2. 去除字符串溢出的危险
C字符串容易造成缓冲区溢出,如果修改字符串时,没有考虑到字符串长度,执行函数时会溢出,造成原先字符串内容丢失。例如用原字符串S1保存"Redis",S2保存"MongoDB",在不考虑字符串溢出情况下,使用"Redis Cluster"替换字符串"Redis"会造成字符串溢出导致S2字符串被修改。
3. 减少修改字符导致内存重分配的次数
上面说到扩容会增加len的大小,增加多少呢?有扩容就会有对应空间回收,怎样回收呢?
sds通过free(未使用的)解除len(字符串长度)和底层数据的关系。在C字符串中,每次修改字符串要保证字符串和底层数组对应,不然会造成字符串溢出,简单解释上面的两个问题。redis是高性能键值缓存数据库,修改经常频繁发生,如果采用C字符串会带来效率底下问题,sds通过未使用空间,采用空间预分配和惰性空间释放解决上面的问题。
空间预分配:在扩容分配时,不仅会分配需要的空间还会分配额外未使用的空间。具体的分配方式如下:
当len<=1M,分配后的free(未使用空间)=len(sds保存字符串的长度);
当len>1M,free(未使用空间)=1M。
通过预分配空间,由原连续增长N次需要分配N次空间,现在改变到至多增加N次空间,减少内存重分配次数。
惰性删除:当sds字符串缩短时,并不立即回收空间,而是把len减少的空间加到free中,等待以后使用。通过惰性删除减少了因字符串缩短带来的空间重分配。在合适的时候,redis会释放sds未使用的空间,不会造成内存浪费。
4. 二进制安全
C字符串因为是'\0'作为结束符,因此在字符传中不能包含空字符串,这限制了C字符串不能保存二进制流。
sds使用len值而不是空字符串判断字符串作为结束符,因此可安全保存二进制。
5. 重用C函数
sds使用API在字符串最后添加空字符('\0'),让sds可以重用部分C函数,避免代码重复。
小结:
- C字符串只在字面量中使用,大多数使用SDS作为字符串表示
- SDS相较于C字符串有以下优点
① len保存存储字符串长度,因此O(1)时间复杂度获得字符串长度;
② API自动扩展内存,去除字符串溢出的危险;
③ 采用空间预分配和惰性删除减少空间重新分配;
④ sds字符串使用len计算结尾,二进制安全;
⑤ sds以'\0'结尾,可以使用部分C函数;