本文作者:hihipm 微信公众号:策略产品经理讲堂(ID:hihipm)原文地址:猛戳这里
数据是个很好的东西,可以帮助我们做出相对客观的产品决策。但是数据中也存在着很多的陷阱,如果我们没有很好的逻辑分析能力,很可能会被数据玩弄而做出愚蠢的决策。今天,咱们就结合工作可能遇到的一些陷阱来聊聊这些数据陷阱以及怎么避免掉入陷阱。
开始之前,我们先看看几个大家在工作中可能会遇到过的案例吧!
购买A类商品的用户当中有80%的都是甲类用户,因此当发现用户是甲类用户时,应该给用户比一般情况下推荐更多A类商品
当乙值增加时,B功能的转化率降低,因此应该限制乙值在一定水平
用户调研发现90%用户喜欢C功能,因此我们需要增加C功能
根据现有数据发现,D值相对较高的商品有更高的点击,因此应该把D值高的商品的排序提前
使用了E功能的用户比没使用E功能的用户转化率低,因此应该将E功能下线
大家应该猜到了,这几个例子肯定是掉进数据陷阱的描述,所以不妨先想一想这几个描述问题出在哪里,如果你想不明白,这篇文章建议你看三遍。
******
#1.购买A类商品的用户当中有80%的都是甲类用户,因此当发现用户是甲类用户时,应该给用户比一般情况下推荐更多A类商品
逆命题陷阱
第一个案例的陷阱迷惑性很大,在实际工作中,我也经常碰到拿着这种描述来要求在某些场景下对某种类型商品给予更多流量的需求。从数据中,确实可以说明购买A类商品中甲类用户偏多,但是这能够说明甲类用户比整体用户更偏爱A商品么?显然不是,案例如下表:
假设A类商品和非A类商品的需求都是50,平均情况下A类商品和非A类商品的流量分配应该是50%:50%。虽然在购买A类商品中的用户甲类用户占比为80%,但甲类用户需要A类商品的只有45%,还没有到正常平均情况下的50%,原因就是因为购买了非A类商品的用户甲类用户的比例高于80%。
这个陷阱叫做逆命题陷阱,逆命题应该是高中数学中的概念,如果你忘了我们举个简单的例子,如果有个判断语句“如果于谦是郭麒麟的父亲,那么郭麒麟是于谦的儿子”,“如果郭麒麟是于谦的儿子,那么于谦是郭麒麟的父亲”是它的逆命题。逆命题有个特点,那就是当原命题是真的时候,逆命题不一定为真。再有一个例子,“如果小明是人,那他一定是哺乳动物”的逆命题“如果小明是哺乳动物,那么小明是人”就是不正确的,因为小明有可能是猴子。但是如果一个命题是真的,他的逆否命题一定为真,比如“如果小明不是哺乳动物,那他一定不是人”。本例中,“购买A类商品的用户更可能是甲类用户”为真,但它逆命题“甲类用户购买的更可能是A类商品”就是错误的。
这些简单的逻辑学概念和定理,我相信大部分人是了解的,但是在实际工作往往忘记了这些基本的原理而做出一些愚蠢的决策。对于那些不怎么了解的人,只需要记住一条:小心逆命题,别随便把推断的话反过来说。
******
#2.当乙值增加时,B功能的转化率降低,因此应该限制乙值在一定水平
相关和因果陷阱
数据分析是帮助我们找到产品问题/机会的重要手段,相关性分析是数据分析中最常见的方法,我们常容易犯把相关关系当因果关系的错误。关于相关关系和因果关系的描述,最著名的例子是冰激凌和溺水死亡率的例子:通过数据统计发现,冰激凌销量增加时,溺水死亡率也显著增加。那是不是可以限制冰激凌的销量来控制溺水死亡率呢?对于风马牛不相及的推断,正常人都会嗤之以鼻。冰激凌的销量和溺水死亡率只是存在相关关系,这种相关关系的产生是因为在深处有一个相同的原因:气温的升高。但冰激凌的销量明显不是溺水死亡率高的原因,因此不能靠限制冰激凌的销量解决溺水死亡率高的问题。但不幸的是,我们大多数人还是会犯同类型的错误,比如#2。
这个例子中,乙值的增加和B的转化率降低应该都只是某个深层原因的结果,但在描述中我们把B转化率的下降归咎于乙值的增加,这就是我们错把相关关系当因果的原因。对于如何避免这类错误,我们需要做的是尽量看到数据所体现的深层原因,将每个数据变化都对应到产品相关的实际因素中去,比如需求的变化、供应的变化、功能的改变、环境的变化、竞对的动作等等,而不是让数据分析只停留在数据层面。
******
#3.用户调研发现90%用户喜欢C功能,因此我们需要增加C功能
#4.根据现有数据发现,D值相对较高的商品有更高的点击,因此应该把D值高的商品的排序提前
既定规则陷阱
在需求挖掘的方式中,个人非常愿意将用户调研的吐槽部分作为发现问题的渠道,但绝对不会将用户调研的建议部分作为产品机会的直接来源。原因很简单,用户的不满是真真切切存在,他们也懂得如何表达不满,但用户的建议受既定规则的影响往往是不靠谱的,就像那个福特汽车的例子:在汽车出现以前,所有的用户只想要一匹更快的马。如果人人都能提出靠谱的建议,还会有乔布斯张小龙这种被你们奉为神的存在么。
我一直对用户调研持谨慎态度最深层次的原因,是因为所有的用户几乎都受到了既定规则的影响,这种既定规则的影响,也给了我们设下不少的数据陷阱。比如#3,我曾见过通过“用户竞对app使用场景调研”的结论得出“我们应该增加C功能(和竞对一样)”的决策的例子,我想说的是:之所以许多用户觉得C功能不错(或者在使用C功能),是不是仅仅因为竞对提供了这个功能并且放在了明显的位置呢?当然,如果你说用户已经习惯了这种操作方式,这个结论也对,做这个功能也不会犯大错。但如果始终采取这种方式做需求,那么恭喜你,你又在不知所以然的道路前进了一步。另外分享个最近的思考题:现在手机屏幕越做越大,是不是因为用户说了想要更大屏的手机呢?但是用户真的需要大屏手机么?大屏手机到底有什么好?
在用数据说话的策略产品中,也可能存在这样的陷阱,比如#4中通过对现有的数据分析发现D值高的商品点击量更多,得出应该将D值高排在前面的结论。在排序中,被排在前面的item必然比排在后面的item有更高的点击,如果在之前的排序策略已经有了和D强相关的D1的特征生效,那么必然D值高(因为D1高)的item就会有很高的点击。因此“D值相对较高的商品有更高的点击”很可能只是因为本来D值高的排在了前面。如果你把D值加入到了排序当中,很可能会做无用功,也因此在策略相关产品增加特征时,需要考虑新增特征是否和老特征正交。
对于既定规则陷阱的规避相对困难,这也是创新之所以难的原因。那一句非常虚的“挖掘用户深层次的需求”是避免错误的不二法门,谨记要think out of the box。
******
#5.使用了E功能的用户比没使用E功能的用户转化率低,因此应该将E功能下线
数据统计陷阱
这是最近同事在处理需求遇到的一个问题,本来大家都信心满满的一个需求,上线之后发现使用了E功能的用户的转化率还不如没有使用E功能的用户的转化率高。如果停留在表面的数据分析,大多数人可能会做出需求下线的决策。但是真的对么?产品对比试验是我们经常使用的决策方式,这类试验有一个基本前提那就是单一变量,要求进行对比的两组用户除实验变量之外的统计特征是相同的。回到案例,使用了E功能和没使用E功能的用户特征相同么?假设使用了E功能的用户转化率为5%,没使用的转化率为10%,或许,有没有可能在没有E功能之前,使用了E功能的这批用户的转化率只有1%?
在这个陷阱中,让我们中招的是对数据取样的错误处理。除了数据取样,我们还可能遇到各种统计陷阱。对于这类陷阱,我们要时刻注意的是对比试验中的两组是不是单一变量:是不是同一群用户?是不是同一种场景?其他功能有没有对结果有干扰?等等等。
通过对上面几个陷阱的分析,不难知道如果能够将上面说的陷阱具体内容描述抛开,抽象成具体的逻辑问题,结论的正确以否还是很容易判断的。总之产品经理心里要保有批判性的看数据的意识:做决策之前多想想数据和决策之间有木有正确的逻辑关系,做个讲逻辑的产品经理吧。