目前abtest的实验方法主要是根据尾号来切,但是商业这边跟产品不同,产品是面对所有的用户的一视同仁名,但是商业会只针对部分用户, 且一般的评估会涉及到的维度除了流量,购买人数之外还会涉及到最后购买金额,来进行综合的考虑。并且最重要的是,是什么呢,是商业的数量级一般会比较小。
之前完成评估的时候,顺便跑了之前的数据和分别跑了各个尾号的情况,发现这个尾号与尾号之间在小量级的数据上容易存在一定的差异,尾号本身就会有些差异性。
许多人建议使用did(Difference in Differences)方法解决这个问题。后来我搜相关资料的时候发现这是一个要求比较苛刻的方法,有四个前提比如要求两个数据集需要是平行趋势。所以存在一定的困惑在实施上,这个是要严格要求还是这个一定的范围区间都是可以接受的或者忽视掉这个问题。
本次就商业这边的abtest评估与csl的王璐博士沟通了一下,总体我觉得很有道理,分享一下。
首先她建议我们在没有弄清楚同质化样本的定义以及对用户没有足够了解的情况下,对某些前提也不了解的情况,最好不要用did(difference in differences),更不要用psm-did(我提议的处理不平行数据的方法),用简单的统计去计算即可。我的理解是在不了解的情况话,不要用太复杂的方法,画蛇添足增加太多的其他变量,比如did的本质想法就是通过同质化的对照组来减去实验组因为时间带来的影响,但是我们目前首先很多的数据并不是同质化或者至少从数据曲线来说并不是平行的,那么直接使用只是增加变量,而且考虑到互联网短平快的风格,太复杂的方法也不适合平日大量需求评估,最好化繁为简单处理即可。
不过她说道,对于金额的异常值或者最原始的数据,我们是需要处理一下的,(我的理解比如金额这部分,你把马云跟我们放在一起,大家都是富人),但是对于转化率这一个指标我们可以处理,一个人数的增加不会影响太多。还提到观察这批高付费用户的出现是存在规律性还是一个异常值,我问为什么,她说,这决定你怎么处理这个异常值(高付费用户)。
不过考虑大家公司业务有自己的一套评估方法,因此各位想要进行改动还是需要大家达成共识的。
最后打一下我的公众号(ง •̀_•́)ง。
希望我能够更了解你,你也更了解我
公众号搜索: Machinator_chenchen,阿Bing有话说