记一次评论系统缓存优化实践

这两日忽然想整理些自己日常工作中比较印象深刻的点,做个记录。
脑子里蹦出的第一个项目是自己刚毕业不久时,参与的前东家的某富媒体社交平台,本文对该项目中对评论系统的缓存优化做下记录,不然就要忘记了。

关键词:缓存、couchbase、redis、memcached、评论系统

背景

该项目是当时公司最重点落地战略性的项目之一,离开项目组时DAU达到了6000W以上,主要做富媒体feed流。评论指的是对单条feed的评论,要求评论近实时展示。本文主要分析缓存模型。

公司当时的缓存中间件主要是couchbase,所以主要是使用了couchbase缓存。倒也不影响对缓存架构的理解。

优化过程

第一版评论系统

主要的需求是,第一可展示评论,第二可翻页(一页20条以内)
由于项目初期用户量不大,评论量自然有限,同时feed的热点数据也比较少,所以缓存设计上相对简单。
仅缓存最新的300条评论,一个 kv缓存,缓存300条评论的所有内容,包括id,uid,楼号,评论详情等,json序列化。
有新的写入,会更新300条缓存。
起初运行良好,热点数据缓存命中率比较高,请求也基本都分布在前几页,穿透数据库情况极少。

第一次瓶颈 - 读写压力暴增

原因

后来加入了新功能,其中有流量大咖参与的活动类feed,带来了大量的用户,具有很强的热点效应。每条活动类feed的评论可能达到几万条甚至更多,同时参与活动人数可能高达数十万。

  • 现在遇到了什么问题
  1. 同时缓存300条评论,1个value大者可能就有几十上百K,突发流量,频繁的缓存读取,让内网带宽称为瓶颈,经常物理机带宽报警。
  2. 频繁的序列化,反序列化也增大了cpu的压力。
  3. 频繁的有新评论加入,每次都会重刷缓存数据,造成大量的缓存写入。

解决思路

我们来思考下用户请求的场景,对于评论数据,往往是一次只取10-20条数据,通常都分布在前十页。甚至于通常是随着feed列表或者feed首页展示第一页。那每次从缓存取300条全量数据就显得有些重了。

好,如何优化?

首先我们把300数据只存索引,也即评论id,这些value数据量大幅下降,从缓存中多读取的无用数据也变少了。我们称作id列表缓存。

那具体的评论内容怎么办?评论内容按照每条内容一个kv缓存来处理,从索引缓存中取出id,然后再去缓存中批量取,这样每次只需要取出一页的数据即可,也大量的缩减了网络延迟、带宽和cpu的消耗。我们成为评论的实体缓存。

是否还能进一步优化?当然可以。评论内容基本没变化,我们可以利用二级缓存机制,增加本地缓存,热点内容的缓存命中率很高,可以减少90%以上的集中式缓存读取

至此一段时间内,网络带宽、cpu均保持正常,维持了一段时间的安稳。

第二次瓶颈 - 深翻页导致的性能下降(缓存命中率低)

原因

评论增加了盖楼功能,运营会做一些活动,根据盖的楼层送礼品,重点是通常在大V用户的feed下做活动!!
于是产生了大量用户向下深层翻页的情况,甚至翻阅上千页以上。
这下麻烦了,之前仅缓存了前300条评论id,如果用户深翻页那必然无法命中缓存,穿透数据库,导致了大量的评论请求超时,引起了不少客诉。
运营场景又倒逼我们做技术优化。

解决思路

  1. 首先明确,我们要解决的问题是缓存命中率问题。
  2. 是什么的缓存命中率?id列表缓存,还是评论实体缓存?
    上文提到,我们设计了2种缓存,300条最新评论id的列表缓存,和评论的实体缓存。
    对于实体缓存来说,只要被访问过,便会种一段时间缓存,热点数据缓存命中率比较高。
    而id列表缓存由于只缓存了300条,所以,深翻页一定会穿透,这就是我们要解决的主要矛盾。
  3. 能否通过增加缓存的评论id条数解决问题?
    不能。单纯的增加缓存的id条数,增加的少了仅是多支持了几页的翻页,增加的多了,有会产生和第一次性能瓶颈一样的问题,导致带宽和cpu瓶颈。
  4. 那能不能分段缓存,比如前300个缓存一条记录,然后后边每300个缓存一条记录?
    bingo,思路很好。提高了扩展性,增加了缓存命中率。但是我们需要思考下细节。这么做有什么问题?
    如果分页来查找,我们怎么做?这个简单,根据每一页计算出这一页落在哪个index上,取对应index的缓存即可。比如每页20条,第二页是最新的21-40,落在0-300的区间内。
    考虑下新增评论,我们存了同一条feed的两组index缓存,分别是最新的1-300条,301-600条,如果新增一条要怎么办?如果要保证实时展示的话,我们就要刷新列表缓存,由于第一条index缓存已经满员了,要把多余的部分转到下一个index区间,循环下去……天,那要刷新这条feed的所有列表缓存……缓存写入量必然大增。如果不刷新,很难保证列表缓存实时性。
    如果不刷新,把新数据单独做个列表缓存呢?这个度不好把握,也不好判断什么时候该取下一组index数据。总之比较复杂。
  5. 有没有更好的解决办法?
    肯定有,要不然这次优化不叫成功。
    这个需求有一个很巧的地方,就是评论带楼层。
    巧在哪里?
    我们之前对评论的排序都是根据id(或者创建时间)倒序排列,因为id是所有评论的唯一标识,所以仅根据id无法确认该评论在列表中的具体位置。但是楼层不然,是第几楼,就意味着是该feed下的第几个评论。
    确认了位置有啥用?
    第4条我们提到,主要的问题是实时更新的性能问题。看到楼层这个变量,灵机一动,我们肯定是能拿到feed当前的最高楼层的,那第几页取哪几层的数据也是一目了然。比如最高楼层1001,一页20条,第2页数据就是第981-962层的评论(小学数据题)。
    那如果这样设计列表缓存呢?将列表缓存按照固定的楼层分段,比如第1-300层一段,第301-600层一段,依次类推。如果当前最高楼层是1001,则落在901-1200的分段内。
    key value
    index_300_1 第1-300层的id列表[{楼层,id},{楼层,id}]
    也就是我们通过楼层就能知道去取那个分段的列表数据,而且每个分段存储的楼层是固定的。注意是固定的,固定的有什么好处?那就是如果我新来了一条评论,知道他的楼层,那就知道要往那个分段里更新数据,已经满了的分段数据是不会变化的。嗯...好像解决了更新数据量过大的问题!

如何用

其实刚刚的思路已经把具体的方案描述差不多了

  1. 根据楼层来对列表缓存分段
    key value
    index_300_1 第1-300层的id列表[{楼层,id},{楼层,id}]
    index_600_301 第301-600层的id列表[{楼层,id},{楼层,id}]
  2. 取最高楼层是930的首页数据,也即第930-911层
    均落在index_1200_901的区间范围内,则取该段的缓存即可
  3. 取最高楼层是930的第二页数据,也即第910-891层
    落在index_1200_901和index_900_601,两个分段内,则从两个分段缓存中取出对应id
  4. 当前最高楼层是930,新增一条记录,则为931层
    落在index_1200_901的区间范围内,只需更新该段缓存即可。

第三次瓶颈 - 资源消耗过大

随着业务发展,内容越来越广,用户也越来越多,诚然缓存会过期,但耐不住数据量的庞大,couchbase占用的内存一路猛升。从一开始几十G的物理机一直增长到了上T。
物理机资源太贵了,所以要思考怎么减少内存占用。这里简化过程,直接说结果。之前用的序列化方式是JSON格式,这种格式可读性强,但是占用的内存大、序列化性能也不理想。调研了protobuf协议,将序列化方式改为protobuf后,内存使用率降到了之前的10%-20%,内存利用率提高了5-10倍!极大减小了成本。同时因为更高的序列化反序列化性能,cpu使用率也得到了相应改善。

其他优化

经过上面的几次优化,不论是性能还是资源成本的角度看,在当时都达到了不错的效果。但是依然有很多的优化空间。

  1. 缓存预取
    上面提到对列表缓存使用楼层的进行的分段优化,对于热点数据深分页的问题效果不错。后来针对这一过程又做了进一步的优化,缓存预取。通常情况下用户只访问第一段的数据就够了,缓存命中率也很高。某些热点feed,用户会进行深分页,我们从用户开始访问到第三段起(通常超过了300条数据),就认为该feed可能是此类热点feed,如果缓存中不存在,那我们会同时异步预加载后边2段数据,这样用户一直向下翻的时候,基本都命中缓存,进一步提高了性能。

  2. 分页模式改造
    通常,我们的分页都是传递两个参数,pageSize,page,表示每页多少条,取第几页,这种形式存在一定问题
    从持久化存储系统的角度来看,是有性能瓶颈的。拿mysql举例,如果要做深分页,会扫描该页之前的所有数据,可能是比较消耗资源的磁盘扫描(自行查阅资料喽)。
    从用户体验角度来看,如果用户翻页过程中,有新增feed,那有可能会有翻页重复数据。比如第20条变成了第21条。
    所以,对分页方式做了个优化。每次传递上一页的最后一个元素(这里是楼层,lastFloor),和一页取多少个数据,我们以游标的形式取数据避免了重复数据的出现,当然如果出现在查询mysql的场景中,也避免了过多的磁盘扫描

总结与思考

  1. 我们为什么用缓存以及如何用。
    用缓存的原因就不必多说了,就是性能。因为内存和磁盘的性能差异,有如天壤之别,比cpu高速缓存和内存差异还要大。
    如何使用,其实我们要理解一下缓存的局部性原理就会有一种拨云见日的感觉
    缓存局部性原理包括缓存的空间局部性原理和时间局部性原理。这块知识在讲硬件时可能用的比较多,尤其是cpu的寄存器、高速缓存设计。
    在CPU访问寄存器时,无论是存取数据或存取指令,都趋于聚集在一片连续的区域中,这就被称为局部性原理。
    时间局部性(temporal locality)
    时间局部性指的是:被引用过一次的存储器位置在未来会被多次引用(通常在循环中)。
    空间局部性(spatial locality)
    如果一个存储器的位置被引用,那么将来他附近的位置也会被引用。

    其实不只是cpu缓存,扩展到我们的软件系统设计也是一个道理。回想下,上文怎么用的局部性原理?
    访问过的数据种缓存,供后续访问使用,就是应用的时间局部性原理
    访问一个分段的数据,将后边分段的数据预先加载到缓存,提高缓存命中率,就是用的空间局部性原理

  2. 其他缓存中间件可以吗?
    何止是可以,甚至可以做的更好。当然万变不离其宗,原理是一样的。比如我们如果用redis的list结构,每次从缓存中取分段数据,都没必要取出整段,只取需要的一部分即可。

  3. 这里只说了缓存设计,其中还有很多值得讨论的其他技术架构点,比如如何持久化评论,持久化和更新缓存的流程是怎样的,如何保证数据一致性等,都值的我们探讨。

好累,总结一次不容易。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容