2021年9月16日凌晨开始,就发现简书APP打不开了。当时是半夜,以为平台半夜偷偷进行系统运维或者停机更新,就没当回事,默默的关了页面。
16号上午想日更,发现依然是访问不到,想找客服问问,发现没有客户渠道。
那去微博上面去看看吧,看了下,热搜里面没有简书故障(不知道是简书撤了热搜,还是影响力还没破圈)。倒是搜到了简书官微,以为能找到故障置顶公告,结果发现最近一条动态是7月2号关于“奔赴天真·关爱自闭症儿童公益画展”的联名活动。不过下面跟的评论都是关于本次故障的反馈。然而整个过程中并没有看到官方有出面回复。
基于在信息化建设方面的经验,对本次事件做简单复盘。
1. 如果是服务器计划内的停机升级更新,平台方应该提前发公告和系统消息告知用户,便于用户提前规划使用时间。
2.如果是意外导致的宕机,在运维发现系统停机的情况下,应该第一时间在域名首页挂故障维修页面,让一脸懵的用户进来后知道系统是发生了什么,便于用户知道是平台发生故障了,还是用户端这边出现了问题。
引用一位简友的心路历程:
3.系统恢复正常后也没有给用户发送告知消息,就这样悄咪咪的停机了,就这样悄咪咪的恢复正常了。别问我为什么,我在假装什么也没发生。
4.补偿机制。很多简友参加了日更计划,有些人是已经更新了几个月、甚至一年多的,然后忽然由于系统不能使用导致了停更,平台最后居然没有任何补偿机制。
从IT运维的角度来讲,这样大规模的平台停止服务情况是属于严重级别最高的那一类生产事故。可是它轻飘飘的来了,又轻飘飘的走了,没有带走一丝断更简友的哀嚎。