【导读】 悖论是表面上同一命题或推理中隐含着两个对立的结论,而这两个结论都能自圆其说。纬度分析是统计分析中的常用方法,在纬度拆解分析过程中可能会出现整体趋势与分纬度趋势看似相矛盾的地方:辛普森悖论。辛普森悖论在分析问题时需要加以警惕,但在某些场景却也可以加以利用。
首先看看纬度分析什么情况下会出现辛普森悖论。在数据驱动增长的分析中,我们会需要从宏观上了解大盘的数字和趋势,也会需要对数据进行不同维度分解,以获取更加精细的数据洞察,思考维度对于大盘的影响。如做增长留存分析时,会拆分渠道进行分析,如下图:
假设场景:通过数据和趋势某天发现大盘的留存率下跌,为了分析下跌是由于哪个渠道导致的,于是通过维度分解分析方法对维度进行拆解,发现每个渠道的留存率都是增长的,数据如下表所示:
于是三连问:每个渠道留存率都在增长,为什么整体大盘反而下跌呢?数据是不是有问题?还是我眼睛有问题?不,都没有问题,是思路有问题,当直观现象与经验出现矛盾的时候,那一定是数据分析中忽视了某个变量。
当数据分析忽略了某个重要变量时可能会导致出现辛普森悖论:数据集分组呈现的趋势与数据集聚合呈现的趋势相反的现象。
其实,仔细想想便能发现是由于渠道1拖了整条街的大腿。上述数据中直观上可能忽视的变量就是权重。不同渠道的权重不一样,值小量大,虽然留存率也在涨,但是量占比也在涨。虽然一个臭皮匠努力不拖后腿了,但是多了两个臭皮匠,那也能拖垮诸葛亮。为了打破这种悖论需要引入新的规则,如渠道权重。在做留存时往往会增加对优质渠道的投放以提高整体留存,但优质渠道价格也会相对越贵,也需要权衡利弊。
辛普森悖论的例子很多,在出现这种现象时我们需要分析其出现的原因,避免做成错误的分析结论或被其现象困扰。辛普森悖论出现时容易给人带来分析上的困扰是因为从总体上和分维度看效果不一,但也正因为存在整体和分组趋势相反,可以强调其中的一方面忽视另一方面,引导对方接受对自己有利的观点,在某文章看到这么一个栗子,在福特总统的1974~1978年的任期中,他对每个收入人群都进行了减税,但此期间全国性的税收额有明显上涨(表2)。如果是支持的政党可以宣称对每个收入人群都实施了很大程度的减税,但是反对的政党可以坚持说整体增收了多少税收,只要能调动群众的情绪就达到了他们的目的。但我们需要有批判性思维,辨析其中的原因,如果你的工资涨了使你成为高一级的税收梯队,这应该也是件高兴的事,但如果物价上涨你多出的收入可能对你也没有什么帮助,或许你并没有过的更好,所以你的持方是什么?