问题描述:
平台升级后,用户登陆平台成功后没多久就自动退出,HTTP Request返回401 session expired。
问题定位:
token expired的原因:
由于memcached在环境中是3副本做了HA,所以首先通过tcpdump抓包排除了由于endpoint发生变化导致读写的memcached pod不一致的情况。
后通对memcached的pod抓包分析用户登陆成功到session expired期间数据包发现用户登陆后session set成功,但是当get session时刚开始成功,后面就无法get到session数据。
经过比对session数据大小并cachedump slab item信息发现session数据成功写入slab 26,slab 26 每页容量为38,而slab26 只有1页所以slab 26总容量为38。session数据写入后,由于一直有keystone的token数据(数据大小和session数据大小接近,所以也存放与slab 26)写入,所以根据LRU策略,session数据被剔除,导致session expired。
slab 26只有1页,没申请新的page原因:
stats slabs查看slab信息发现slab 24, 25分别占用了277M和710M内存,而memcached总内存为1G,加上其他slab内存使用已经没有足够的内存给slab 26来申请新的page。
其中slab 24, 25中虽然有不少过期数据,但是由于page划分给slab后不会被回收,导致内存无法释放,所以没有足够的内存给slab 26扩充新page限制了slab 26的容量。
memcached内存分配方式
memcached里抽象了slab的概念,一个slab是1个或多个page的集合,每一个page又根据chunk_size划分出多个chunk用于存储数据。
其中一个page默认大小是1M,最小chunk_size默认为88 bytes,40 bytes用于存放value,48 bytes用于存放key。当往memcache里面set数据时
- 根据数据找到合适大小的slab,并选择slab中的page将数据写入page中的chunk中。(eg:slab的chunk_size为110 bytes,48 bytes用于存放key,后面62 bytes用于存放value,当数据key大小1byte value大小为60 bytes时就会放入这个slab的page中,其中就有49 bytes内存浪费了,所以就是为什么给了memcache 1G内存,但是实际还没存1G的数据就会发生evicated)。
- 如果这个slab里面没有剩余的chunk,那会新申请一个page给这个slab(page申请后就属于这个slab不会被释放,即使page中没有任何数据),后将数据写入这个page。
- 如果当前没有合适大小的slab,则根据chunk_size依次乘以chunk size的增长系数,直到chunk size大小合适后,新建一个slab,并申请一个page到这个slab,将数据写入。
- 如果修改key对应的value,当value大小发生变化时,会重新找到合适大小的slab来存储数据。
memcached数据过期机制:
数据过期后,memcache不会立即将数据删除,而是当访问数据时发现如果数据过期后才将数据删除(因此当数据过期后cachedump后可以看见数据的item,但是get不到任何数据)。
参考文档:
memcache 内存分配
memcache 过期机制