首先我们知道redis所有的数据结构都是以一个唯一的key来作为名称,然后通过这个唯一的key去获取相应的value数据,不同的数据结构的差别就在于value的数据结构不一样。
今天我们就先从最简单的string来做一些深入的了解。字符串的使用非常的广泛,比如我们经常用来缓存用户的信息,将用户的信息通过JSON序列化成一个字符串,然后通过用户的id或者code来将序列化以后的json字符串缓存到redis中,当要使用的时候将json字符串从redis中获取到,再经过一次反序列化以后就可以获取到用户的信息了。
一:string相关的常用命令
set用来设置一个值,get用来获取一个值,exists用来判断一个key是否存在,del用来删除key
我们知道网络是很珍贵的资源的,有时候我们为了节省网络开销,我们能想到的最直接办法就是批量操作,redis也为我们提供了相应的批量操作命令mset和mget,进行批量的设置设置和批量获取
我们还可以对key设置过期时间,以及对set命令做一些扩展,例如setex命令在设置值的时候,顺便设置一个过期时间,或者是setnx命令,只有当一个key不存在时才能设置成功,否者失败,对于setnx命令我们最常见的一个应用场景就是分布式锁了。这个我们后面文章再专门讨论这个。
计数,对于value是数字类型的,我们还可以使用incrby命令,对当前的值进行自增操作,当然这个自增操作是有范围的,它的最大值是signed long的最大值,如果超过这个值,redis就会报错。对于计数我们最常见的一种用法就是用来生成分布式主建,所有服务都使用同一个可以然后进行自增,这样就能获得一个全局唯一而且不重复的id了。
二:上面我们对redis的string数据结构的使用和常见命令有了一些了解之后,我们接下来就可以对string的底层数据结果做一些深入了解了。
Redis的字符串名为SDS,全称为simple dynamic String,结构是一个带长度信息的字节数组。
struct SDS<T> {
T capacity; // 数组分配的容量 T len; // 实际数据的长度 byte flags; byte[] content; // 真的的数据是存在这个字节数组里面的。
}
capacity表示的是当前分配的字节数组的长度,而len表示的是当前字符串的真实长度,当初始化的时候,capacity和len是一样大的,但是在后期进行分配的时候,就会出现下图的情况capacity大于len,具体原因是当字符串的长度小于1M的时候,容量增加都是加倍现有的空间,当实际长度超过1M以后,实际扩容的时候,只会增加1M的空间,为什么这么操作呢?是因为如果数组没有多余的冗余空间,那么当在追加内容的时候,就必须要分配新的数组,并且将旧数组的内容拷贝过去,再追加内容,这样就分配内存和复制的开销就会比较大,所以采取了一种空间换时间的做法。但是需要我们注意的是,字符串的容量最大不能超过512M。
上面我们说到的是redis的string的数据结构,其实只是它的具体数据的存储结构,对于redis来说,每种数据结构都有一个相同的结构头,结构头的具体内容如下:
struct RedisObject {
int4 type; // 4bits,用来表示不同的对象,比如字符串,链表,集合,哈希,有序集合等 int4 encoding; // 4bits ,用来表示不同的存储结构,比如同样的都是字符串,
但是如果字符串的大小不等,那么结构也会有些差别 int24 lru; // 24bits 用来记录当前对象的lru信息 int32 refcount; // 4bytes 对象的引用计数,
当对象的引用计数为0的时候,对象就会被销毁,内存被回收 void *ptr; // 8bytes,64-bit system} robj; //指向实际存储数据的指针,
比如指向我们上面提到的那个sds
那么为什么要设计一个对象头呢?其实是因为,我们对于同样的数据结构,
如果它存储的内容的大小不一样,我们需要有不同的存储方式,存储方式需要有个地方
来保存,那么我们自然就想到设计一个公共头,来保存这些信息,可能这么说,
大家不是很理解,没关系我给大家举个实际例子,一下就明白了。
我们看到上面,我们都是string数据结构,但是当我们的vlaue的大小不一样的时候,conten的内容不一样,表示存储的结构不一样。
remstr和raw是string的两种存储格式,它们具体有什么区别呢?还是直接上图。
从上图我们可以看到,embstr这种存储结构,是将对象头和数据部分直接分配在一个连续内存空间里面的,而raw这种数据结构,是分配了两个内存空间,它们在内存上是不连续的。那么问题来了?什么时候使用embstr存储格式,什么时候使用raw存储格式呢?答案下面揭晓。
首先我们先计算一下即使不存储任何内容的embstr字符串需要多少内存呢?RedisObject+SDS,首先RedisObject需要(4+4+24+32+64)/8=16个字节,而SDS即使不存储任何内容也需要3个字节的内容,最少也需要16+3=19个字节.其次我们知道操作系统使用jmalloc和tmalloc进行内存的分配,而内存分配的单位都是2的N次方,所以是2,4,8,16,32,64等字节,为了能够容纳一个embstr,所以操作系统最少也要分配32个字节的空间,但是这样的话,能够存储的内容也太少了,根本满足不了日常使用,所以默认直接分配64个字节,在redis中,如果一个整体占用超过了64个字节空间的字符串,redis就认为是一个大字符串,使用raw格式了,那么在64个字节的情况下,除去其他部分占用的19个字节,还剩下45个字节能够使用,但是redis方便glibc函数的使用,以及方便调试和打印,在字符串内容的末尾加上了一个\0的占位符,所以实际能够使用的只有44个字节。所以我们得出结论,embstr能够最多存储4个字符串的内容。当然这些都是基于redis4.0版本得到的,其他版本因为结构不一样,可能得到的结论不一样,但是上面的内容大家不用刻意去记忆,了解一下就好。