如果你是个数据分析师或者数据产品,大概率在面试过程中,会遇到过这样令你崩溃的问题:
“如果开一家沙县小吃,估算下月收入流水大概多少?”
“估算深圳有多少个产品经理?”
“估算此时此刻的世界上,有多少人正在挖鼻孔?”
......
这种看似无厘头的问题,其实在数据面试中经常会遇到,如果面试者没有一定的数学思维,第一反应一定是...
如果你这么回答,或者胡乱瞎蒙一个数字,那么恭喜你,可以准备下一场面试了
但其实这个在考验你的数据思维能力,如何在信息量有限条件下完成复杂问题的拆解,利用一些假设和经验估算出较精准的答案。
这个也就是我今天要介绍的一种数据分析思维---费米估算
它堪称装逼界的“爱马仕”,熟练掌握,可以装逼于无形,升职加薪,指日可待,是职场打拼、吹牛画饼的必备工具。
一、关于费米问题(Fermi problem)
其实恩利克·费米是美籍意大利著名物理学家、学者,美国芝加哥大学物理学教授,1938年诺贝尔物理学奖得主,有着“原子能之父”的称呼。费米建立了人类第一台可控核反应堆,让人类从此进入原子能时代,在这方面有着突出贡献。
但是费米也是一位善于启发人的教育家,相比物理上的成就更著名的是他在芝加哥大学课堂上,提出的一个问题,这个问题造就了著名的“费米估算”。
“芝加哥有多少个钢琴调音师?”
初次听到这个问题的学生们应该跟大家反应是一样的懵逼,要解决这样庞大复杂的问题,需要先了解解决费米问题的第一个思想核心:逻辑拆解
其实费米估算的方法就是把一个复杂的问题进行拆解,拆解到尽可能小的、可假设和计算的部分,最后再把这些小问题的答案反推出费米问题的结果,只要在这个拆解和反推的过程中,保证了一定的逻辑关系,那么最终的估算答案也会非常接近实际情况。
那我们现在来看下费米是怎么计算调音师数量的
首先,费米先把"有多少个钢琴调音师"拆解成两个问题:
为什么要拆解成这两个问题呢?按照费米估算的原则,在拆解的过程中需要保证一定的逻辑关系,且这个逻辑关系必须要保证能完全覆盖估算费米问题的所有范围。当然,这个拆解的方式也不是唯一的,遵循以上的原则即可。
接下来对于问题①:“每年芝加哥全部调音师的工作时长”我们还是没有办法直接给出答案,所以我们还需要继续拆解:
同样道理,我们对问题②:“每一位调音师每年的工作时间”再进行一次拆解:
到这里后,我们拆解出了问题③~⑦,很显然已经不太适合继续拆解了,像这类没有必要再继续拆解的问题我们称为“费米问题的基本问题”,而要想继续完成接下来的工作,就需要用到费米问题的另一个核心思想:问题估算
二、费米估算方法
对于基本问题的估算方法,费米给出了这样的一个估算方法:
对于小问题的估算,不要估算其本身,而是先估算其上下界,然后在10倍的范围内估算出数值,这种方法竟然能保证极高的准确率。
问题③:芝加哥有多少架钢琴?
费米先估算了芝加哥总居民数是300万(这个不用估算也基本能知道),平均每个家庭有4个人(美国四人家庭居多),那么芝加哥估计会有75万个家庭。这些家庭中有多少有钢琴呢?在当时的美国,钢琴属于半稀缺物品,拥有钢琴的家庭应该不会超过1/2,也不会低于1/10,因此费米估算为1/3,那么全市大概会有25万架钢琴。
问题④:每架钢琴每年调几次音?
调音师不是常见的岗位,调音次数应该不会超过1年3次,也不会低于10年1次,因此费米估算为3年1次,也就是每架钢琴每年平均需要调音0.33次。
问题⑤:每位调音师每次调多久?
根据不同钢琴调音工作的实际情况来看,每次调音不会超过10小时,也不会低于1小时,因此费米估算为3小时。
那么第一个问题,每年芝加哥全部调音师的工作时长就算出来了:
接下来我们估算下每位调音师每年的工作时间:
假设调音师一年工作250天,每天的工作时长算上往返路程估算是24h*0.6,那么他一年的工作时间:
这样所有的问题都已经估算出了结果,最终调音师数量=249000/3600=69位
那么实际上有多少人呢?经过费米和学生们事后进行电话号码验证,大概芝加哥市有80位调音师,除去一些号码重复的,其结果竟然跟费米估算的相差无几!
三、暗中帮忙的:平均律
以上的估算过程肯定有人会产生质疑,如果将费米估算任意一个估算条件进行改变,最终得到的结果不就会改变了么?确实我们没有办法保证每一次假设和估算都是完全准确的,那么这里就涉及到费米估算中用到的一个数据概念:平均律
他的原理是在任何一组计算中,估算带来的错误都可以相互抵消,所做的假设越多,被抵消的概率就会越大。
换成数据分析的语言就是,你在假设或者猜测某一个小事件的时候,你的推测假设有可能有的过高,有可能有的过低,如果这些“点”的数量足够,最终误差就会被相互抵消,整体结果最终会呈现为一个平均值,这就是平均律理论。
其实就类似于上图,我们确定一个估算上边界,以及一个估算下边界(还记得前面我们做估算的时候在合理的1倍到10倍之间做的估算吧),落在这个范围里面的点都会趋向于平均值,落在平均值上的点和平均值下的点就会相互抵消消除,其结果也就趋于一个准确值了。
四、另一种思路:Top-down&bottom-up法则
除了上面介绍的将复杂问题按逻辑关系拆解成基本问题然后进行估算和反推,解决费米问题还有另一种思路,那就是Top-down&bottom-up法则
这个法则的中心思想:
这个听起来比较抽象,我们举个栗子:
假如需估算深圳市丰田汽车的数量?
先top-down分析:
假设已知深圳市全市共有机动车300万辆
在深圳市几个车流密集区域采样,记录每100辆车中丰田车的占比,取平均占比。假如为25%
300万×25%=75万辆
再bottom-up分析:
假设已知深圳全市有8万辆特斯拉
在某地多点采样得出,在每100辆汽车车中,特斯拉的占比为2%,丰田车的占比为20%
从丰田数量是特斯拉数量的10倍关系,我们可以估算出深圳市有丰田车8*10=80万辆
前者从宏观往下,取得平均占比后,乘以总数,得到丰田车的数量。
后者从微观往上,以另一款汽车「特斯拉」作为切入,反推丰田车的数量。
得到75万,80万的这两个数字,差距在一定的范围内,则认为这个数据是可以取信的。
最后,我们还可以进行一些误差分析:
1、在对丰田汽车采样的时候,若只取了口岸附近的车流密集区,则占比有可能偏高(香港牌的保姆车绝大多数是丰田埃尔法,也算是深圳特色之一吧)
2、在对特斯拉进行采样时,若取样地点是「特斯拉充电桩」附近,同样也会造成数据偏高的情况。
3、当然还有更多的维度可以进行误差分析,比如特斯拉降价促销、采样时间是否工作日等等...
五、我是总结:费米估算与数据分析
费米估算其实是一种对结果的数量级准确性估算的方法,其估算思想的本质是结构化思维+计算模型。
首先模型的准确性是基础,无论是物理定律还是生活经验上都需要经受得起检验;其次是对各组变量的假设和估计准确,基于前面的平均律理论,我们可以会发现对一个变量组,如果变量越丰富、取得的估算值也在合理的最大、最小值区间之间,那么在概率意义上会得到相对准确、稳定的结果。
所以说,费米处理问题的方式是将复杂、困难的问题分解成小的、可以解决的部分,从而以最直接的方法迅速解决问题。
六、留个作业:常见Market size面试问题
如果你是个产品经理、分析师或者商业方向的岗位,在面试中,会经常遇到让你做市场容量估算类的问题,这里就考察你费米估算的理解和应用能力了。
市场容量估算(Market Size),又称市场规模估算,通常是研究「目标行业或者目标产品的整体市场规模」的问题。
对于互联网行业而言,在挖掘相应的需求后,决策是否选择和开创一个目标行业/产品,判断是否需要投入资源产生解决方案的时候。估算市场容量是一个非常重要提供信息的方式,也是行业分析和市场调研中经常遇到的问题。
请你估算一下一家商场在促销时一天的营业额?
胡同口的煎饼摊一年卖多少个煎饼?
预测国内资讯类APP的DAU天花板?
试估算中国K12课外英语辅导的市场?
北京有多少个加油站?
北京有多少辆出租车?
美国飞机的乘客数有多少?
估算杭州每年奶茶店的规模大小?
“i的i次方”回复“费米答案”,可查看解题思路~