从一个事故说起
上周某个工作日的晚上,我们突然发现平台的后台监控系统报警连连,故障点指向我们的某家CDN供应商。在与其紧急沟通后,确认对方无法即可定位问题,我们将流量切走,报警平息。
事后在和该供应商运维部复盘,发现原因是当晚有其它客户在未提前告知的情况下,突然将大量流量切入,导致了资源挤兑,我们的平台也便躺枪。我们当时提出,既然是别的客户行为,就不该我们买单,供应商应做好资源的限制。供应商运维部认同,除了督促售前人员和其它客户做好沟通外,已很快完成配置,今后若再有客户流量突发,会将其阻挡在外,绝不影响到我们平台。
这次处理,从平台的角度看,保障了平台不再受他们其它客户的行为影响;从供应商角度看,也修复了和我们的合作关系。此时,双方都觉得云淡风轻,岁月静好。
但其实,我们都忽略了2个问题:
对平台而言,若有一天也遭遇到需要迁入大量流量的突发需求,毕竟市场的变化并非一个提前计划就能抑制的,那怎么办?当年给别人挖的坑反倒成了自己的雷。对供应商而言,拒绝了突发的流量,也就拒绝了利润或说生意,这在公司的角度看,并非最优解。
怎么会这样呢?因为我们都不约而同地、习惯性地采用了线性思维。
线性思维
什么是线性思维?通俗点讲,就是“头痛医头,脚痛医脚”,这是人类认知发展过程中最朴素的思维方式,比如小孩被门撞伤了,会去打门。有趣的是,很多人成年后的认知也就停留在这个阶段。
线性思维认为事件都有明确的因果关系,既然有这么一个结果,那一定有一个原因,找到并解决了这个原因就解决了问题。比如肚子饿了,就去吃饭,问题解决;出现坏人,把坏人抓起来,问题解决。直来直往抓“坏人”的线性思维,只适合解决一些简单问题和局部问题。
线性思维强调抓住“坏人”,在上述事故中,如果其他客户算“坏人”,那我们自己也有一天可能成为“坏人”,显然我们不是,所以其实这里没有“坏人”。就好比国足,我们换过教练,换过足协领导,换过前锋,甚至换过裁判,我们把这些人都看成“坏人”,但发现换了以后,问题依旧。因为这些都不是简单问题,它们是一个复杂问题,也就是系统问题。线性思维解决不了系统问题,这需要它的反义词——“系统思维”来解决。
系统思维
首先来看看系统的特征:
第一、系统由各个元素组成。比如学校里,有老师,有学生,有教室,有操场。它们是系统的重要组成部分,也规定了系统的边界,但这些元素又常常可以被替换。替换之后,学校还是学校,系统还是这个系统。
第二、系统中各个元素之间,有着各种关系。同样是学校的例子,这些关系可以是教师之间的上下级关系,也可以是师生关系和同学关系。要真正理解一个系统的运行机制,就要了解它内部的关系结构。
第三、系统会有一个目标或一个功能。系统的边界决定了系统的目标,系统的目标决定了系统的行为。学校的目标是教育好学生,那么就要更多考虑好的教学理念、好的教育方法和好的教育环境。中国足球的目标是进入世界杯还是打造中超联赛或者其它,其实很多人都回答不了,这也许才是导致中国足球这个系统混乱的原因吧。
再一次回到上述事故,会发现当时的事后处理,双方对问题的边界定义都只局限于当下的平台和供应商运维部(可能还捎带售前人员)这样一个临时系统,目标是当前客户不再出问题,用线性思维来解决没问题。但这本质上是两家公司间的行为,所以一旦系统的边界进一步拓展到公司,目标随之变化,就会发现问题。特别是供应商,客户信赖你,可能还是更大的客户,才把流量切过来(这种突发的事件,在实际市场上是避免不了的),结果因为新建立的某个设定,拒人千里之外,显然不符合公司盈利的目标。有人会说,可以让售前人员事后解释,等资源补充好后,让客户再次切进来,但在这个争分夺秒的市场,第二次的机会真这么容易给到吗?至少这是一个转化率的问题。
那怎么办?我们后来和供应商又做了一次策略上的沟通,建议能否低成本地常备一些资源,甚至是其它供应商的资源,在突发来临时,就能临时调度。可能当时会让利一部分给其它供应商,但客户现场的感受会很好,新增的业务就平稳接下来了,事后在慢慢调整资源替换掉,那才是真的岁月静好。
一定会有人说,其它供应商也可能是你的竞品,怎么可以?首先让利有限,其次公司若能把系统再拓展一下,从竞争逻辑走向共生逻辑,关注成如何拓展自身的成长空间,这就不是问题了。当然,这是另一个话题。
最后,再举一个最近发生的滴滴顺风车的例子。事故前,滴滴顺风车的系统边界是滴滴平台、乘客、顺风车司机(客服的无能为力先不算进去),所以目标自然是规模和增长;事故后高层的道歉信里,提到会“以安全作为核心的考核指标,组织和资源全力向安全和客服体系倾斜”,系统的边界增加了客服、公安部门以及其它社会元素,那目标就转变成了安全。
但愿新的系统,能在这斑驳而魔性的人间,稳定运转下去。