Redis
构建了一种名为简单动态字符串(simple dynamic string, SDS)
的抽象类型,并将SDS
用作redis
的默认字符串表示。
Redis
中的C
字符串只会作为字符串字面量用在一些无需对字符串值进行修改的地方
除了用来保存数据库中的字符串之外,SDS
还被用作缓冲区(buffer)
2.1 SDS
的定义
sds.h/sdshdr
结构表示一个SDS
值:
struct sdshdr{
//记录buf数组中已使用字节的数量
//等于SDS所保存字符串成的长度
int len;
//记录buf数组中未使用字节的数量
int free;
//字节数组,用于保存字符串
char buf[];
};
SDS
遵循C
字符串以空字符结尾的惯例,但是该操作是由SDS
函数自动完成的。
2.2 SDS
与C
字符串的区别
C
语言使用长度为N+1
的字符数组来表示长度为N的字符串,并且字符数组的最后一个元素总是空字符串'\0'
C
语言使用的字符串不能满足Redis
对字符串的安全性、效率以及功能方面的要求。
2.2.1 常数复杂度获取字符串长度
C
字符串并不记录自身的长度信息,获取一个C
字符串的长度,程序必须遍历整个字符串,这个操作的时间复杂度为O(N)
。
SDS
在len
属性中记录了SDS
的本身的长度,所以获取一个SDS
长度的复杂度仅为O(1)
。
设置和更新SDS
长度的工作是由SDS
的API
在执行时自动完成的,使用SDS
无需进行任何手动修改长度的工作。
2.2.2 杜绝缓冲区溢出
C
字符串不记录自身长度带来的另一个问题是容易造成缓冲区溢出(buffer overflow)
。
与C
字符串不同,SDS
的空间分配策略完全杜绝了发生缓冲区溢出的可能性:当SDS
API
需要对SDS
进行修改时,API
会先检查SDS
空间是否满足修改所需的要求,如果不满足的话,API
会自动将SDS
的空间扩展至执行修改所需的大小,然后才执行实际的修改操作,所以使用SDS
既不需要手动修改SDS
的空间大小,也不会出现前面所说的缓冲区溢出问题。
2.2.3 减少修改字符串时带来的内存重分配次数
SDS
通过未使用空间解除了字符串长度和底层数据长度之间的关联:在SDS
中,buf
数组的长度不一定就是字符数量加一,数组里面可以包含未使用的字节,这些字节的数量就由SDS
的free
属性记录。
通过未使用空间,SDS
实现了空间预分配和惰性空间释放两种优化策略。
1. 空间预分配
空间预分配用于优化SDS
的字符串增长操作:当SDS
的API
对一个SDS
进行修改,并且需要对SDS
进行空间扩展的时候,程序不仅会SDS
分配修改所必须要的空间,还会为SDS
分配额外的未使用空间。
通过空间预分配策略,Redis
可以减少连续执行字符串增长操作所需的内存重分配次数。
在扩展SDS
空间之前,SDS API
会先检查未使用空间是否足够,如果足够的话,API
就会直接使用未使用空间,而无需执行内存重分配。
2. 惰性空间释放
惰性空间释放用于优化SDS
的字符串缩短操作:当SDS
的API
需要缩短SDS
保存的字符串,程序不立即使用内存重分配来回收缩短后多出来的字节,而是使用free
属性将这些字节的数量记录起来,并等待将来的使用。
通过惰性空间释放策略,SDS
避免了缩短字符串时所需要的内存重分配操作,并为将来可能有的增长操作提供了优化。
SDS
也提供了相应的API
,在有需要的时候,真正释放SDS
的未使用空间。
2.2.4 二进制安全
SDS
的API
都是二进制安全的,所有SDS
API
都会以处理二进制的方式来处理SDS
存放在buf
数组里的数据。
Redis
中buf
不是用来保存字符,而是用来保存一系列的二进制数据。这也就是我们将SDS
的buf
属性称为字节数组的原因。