数据分析应避免的几种错误思想:
1. 样本选择偏差:指的是抽样的方法并不严格随机,存在片面的情况,不能包含所有分类;比如我们想调研用户对产品的喜爱程度,只在老用户里进行调研,显然是无法代表大多数用户的;因此在大规模的用户基础上,也经常采取分层抽样的方法,即按照主要属性区分抽样,比如新用户/老用户、男/女、活跃用户/沉默用户,等等。
2. 幸存者偏差:指的是只在结果中找关键因素而无视筛选过程中的关键因素。比如,在二战中,为了加固飞机的坚固性及存活率,飞行员查看幸存下来飞机受损的部位,发现飞机翅膀挨得枪子最多,就在飞机翅膀上进行了加固,飞机存活率并没提升,因为没考虑被击落的飞机,打到机身,飞机可能就直接被击落了。
3. 回归谬差:指的是没有考虑随机起落的正常波动现象,造成不准确的因果推论。生活中最常见的就是许多药物的药效,大多治标不治本,而我们吃药后病情好转会认为是药效好,其实大都是自愈(比如感冒)。在做用户数据分析时,也经常可能遇到以下情况:我们做了一些事情A,结果用户似乎有了变化,做出了反应B,于是我们推导出A一定会导致B。其实未必,还是要洞察是否存在随机现象,是否存在外界影响等。
4. 社会期望偏差:是在做用户调研时经常遇到的,相较于真实的答案,被调查者更有可能选择符合社会期望的答案。最典型的例子是在一个社会文化过于传统的环境中,同性恋极少会公开自己的性取向。有的公开调查里,喜欢性玩具的大都是男性,是因为女性在并不太开放的文化氛围中一般难以启齿。我们在做日常的调研时,很可能会遇到用户认为某些真实答案会显得自己“自私”“不合群”“过分夸张”等,于是就选择一个更符合社会普遍预期的答案。所以,一定要谨慎选择调研方法,打消被调查者的疑虑,尽可能地发现这些偏误。
5.受试者期望效应:是指用户会有自己的目的性和预期,所以不选择更真实的答案,社会期望偏误是其中的一种。还有的情况,可能涉及利益关系,比如我们做了一个商品,询问用户在涨价20%的情况下是否还会购买,虽然用户内心清楚涨价20%还是会买,但考虑到不希望涨价,就会表示不会购买,这样得到的结论就是错误的。