7月,redis迷情

你站在桥上看风景,看风景的人在楼上看你。

明月装饰了你的窗子,你装饰了别人的梦。

这个7月注定不平凡,通过7月连续的redis故障,细心如你,一定会对技术,公司,同事,职业有了更深刻的认识和反思。先回忆下吧


我司redis部署特点

1. 集中部署,N台机器专职负责某个产品线。

2. 传统twemproxy方式,额外会有自已定制几套twemproxy。

可以看出来,非常传统的方式。开始只有一个default集群,php所有功能获取redis句柄都是这个,流量增长后开始按功能划分。5月中旬我来到公司,开始推进 redis cluster,争取替换掉twemproxy,制定了如下方案:

redis cluster -> smart proxy -> php 

集群模式能够做到自动扩容,可以把机器当成资源池使用。在php前面部署基于cluster的smart proxy,这是非常必要的,后文会说到。最后方案被PK掉了,改成了 php redis扩展直连 redis cluster。方案如下:

redis cluster -> php redis 扩展

由于我司有自定义redis和twemproxy版本,所以为了做到无缝迁移,必须使用实时同步工具。好在有@goroutine redis-port,非常感谢原codis作者刘奇大大。基于redis-port,修改代码可以把redis玩出各种花样,如同七巧板一样,只有你想不到的没有他做不到的:实时同步两套集群,跨机房同步,同步部分指定key,删除指定key,统计redis内存分布。可以不夸张的说是redis界的瑞士军刀,后续会写篇关于redis-port使用的实践。迁移方案如下:

1. redis master -> redis-port -> smart proxy -> redis cluster

2. 修改php config, gitlab 发布上线,使用新集群配置

3. 停掉老twemproxy集群,完成迁移

方案看似简单,实际使用要慎重。大家都知道redis rdb bgsave会使线上卡顿,低峰期做,并且轮流 redis master同步,千万不能同时用redis port 做sync。

故障总是不期而遇-网卡

想起《东京爱情故事》主题曲,突如其来的爱情,不知该从何说起。

zabbix监控图

故障的图找不到了,截图一张正常网卡流量图,千兆网卡在某个周五23:00业务高峰期被打满,导致线上请求失败。如坐针毡的波峰图。如前文所说,我司集中部署redis,此业务是线上cache个人详情页登陆相关的,一共4台机器,每台20实例,无法做到立刻扩容,紧急之下RD同学降级,抛掉前端30%的请求,恢复后高峰期已过。

Leader要求周六所有人加班去迁移,2点多大家睡了,恩,就这样睡了。故障暂时解决,故事依然继续。周六上午10点,市场运营推送消息,导致人为打造了小高峰,如坐针毡的波峰,服务立马报警,紧急之下立马再次抛掉30%请求。然后紧急搭建两套不同功能的redis cluster集群,采用冷启动的方式,一点点将cache流量打到新集群中,mysql 几台从库 qps 一度冲度8K。

针对网卡最后引出两个解决方案:

1. 所有redis 机器做双网卡bonding,变成2000Mbps。

2. 所有redis产品线散开,混合部署打散。

3. 增加网卡流量监控,到达60%报警。

反思:

为什么要睡觉?而不是连夜迁移?做为运维人员,危险意识不够足

还有一起网卡故障,是应用层bug,频繁请求大 json key 打满网卡。当时QPS稳定保持在20W左右,千兆网卡被打满。临时解决方案直接干掉这个key,过后再由RD排查。

思考:

监控报警不到位,对于创业公司比较常见,发生一起解决一起。针对这类问题,有两个想法:qps报警,比如阀值定在2W。还有一个在proxy上做文章,对key的访问做限速或增加key的屏蔽功能。QPS报警后运维人员排查,可能已经产生影响了,在proxy层做对性能会有影响。

你这该死的连接数

某天8点40左右,还在地铁的我接到电话,redis连接报错,貌似几个实例的连接数被打满。这个故障持续时间较长,php redis 扩展直连redis cluster,连接持续增长,直到打满完全连不上。后来经过排查,确认是扩展 bug,导致老连接不释放。同时原因也很多:

1. 我司使用redhat7,所有的应用都是由systemd管理,启动没有指定LimitNOFILE,导致redis maxclients限制死在4000左右。

2. php redis 扩展 bug,连接不释放,线下稳定复现。

这几次连续故障很严重,leader直接决定全部回退到老的twemproxy版本,最后回退了两个最重要的产品线。

反思:

1. 架构改动没有经过充分测试,线下稳定复现的bug没有仔细测试直接上线。

2. 运维意识不足,对systemd了解不够深入,没有对所有配置做严格检查。

3. 做为世界上最好的语言,偶尔还是有些问题,最好在redis和php间隔层proxy,将后端redis保护在安全的位置。


Cluster脑裂是什么鬼?

脑裂在所谓的分布式系统中很常见,大家也不陌生,做为DBA最怕的就是mysql keepalived脑裂,造成主库双写。难道 redis cluster中也会有脑裂么?

凌晨5点接到电话,应用看到数据不一致, 偶尔是无数据,偶尔有数据,很像读到了脏数据。mysql 在多个从库上做读负载均衡很常见,redis cluster也会么?登上redis , cluster nodes,  cluster config,确实发现不同redis实例配置了不同的cluster nodes。想起了昨天有对该集群迁移,下掉了几个实例,但是在php配置端没有推送配置,导致php可能读到了旧实例数据,马上重新推送一遍配置,问题解决。

反思:

1. 有任务配置的变更,一定考虑好所有环境的连动。这也是当前配置无自动发现的弊端。

2. 屏蔽细节,在redis cluster上层做proxy的重要性再一次验证。

3. 运维意识不足,严重的人为故障。


Bgsave传统的典型问题

问题很典型了,非常严重的故障导致redis OOM。

解决方案:

单台机器不同端口轮流bgsave,内存不足时先释放cache,释放失败拒绝再bgsave并报警


主库重启flush掉从库

考虑不周,备份时,只在slave上bgsave。主库由于某些原因重启,立马被systemd拉起,时间远短于cluster选举时间。后面就是普通redis master/slave之间的故事了,master加载空dump.rdb,replicate到slave,刷掉slave数据。

解决方案:

1. 备份的同时,将dump.rdb rsync到主库datadir目录下面一份。

2. 根据redis用途,做存储使用的redis systemd去掉auto restart 配置。

其它典型故障/问题

1. 应用设计问题,部分hset 过大,一度超过48W条记录,redis频繁卡顿感。

2. 使用redis做计数器,占用过大内存空间。这个redis官网有解决方案,利用hash/list的线性存储,很有效。但是由于mget无法改造,我们没采用。

3. 混布,导致部份产品线消耗资源过高,影响其它所有实例。

4. 机房IDC故障,单个机柜不通,里面所有混布的产品线无法提供请求,数据请求失败。

5. 应用端分不清cache/storage,经常可以做成cache的key,不加ttl导致无效内存占用。



写在最后?

虽然写在最后,但远没有结束,征程才刚刚开始。

每次故障都是一次反思,但我们拒绝活在过去,生活还要继续。

我司重度依赖redis,除了图片其它所有数据都在redis中。在稳定为主的前提下,还在向redis cluster迁移,其中有几个问题还待解决:

1. redis 实例级别高可用,机柜机别高可用。

2. 混布的资源隔离,看了hunantv CMGS 的分享,docker是一个方案。

3. 隔离上层语言与redis,提供稳定的smart proxy接口。

4. redis 集群build和交付,缺少配置集中管理。

5. 很多集群qps并不高,内存浪费严重,急需持久化redis协议存储,基于ardb/ledisdb的sharding是个方案,自已开发需要同事的信任,这点很重要。

6. 最终我司线上存在两个版本,twemproxy开启auto_reject_host做cache集群,redis cluster + smart proxy做存储。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容