项目概述
在本项目中,你所要考虑的是由优达学城运行过的一个真实试验。具体数字已做更改,但是模式并没有改变。你要将试验的想法变成一个完整定义的设计、分析其结果,并提供一个高层次的后续实验。
试验设计
指标选择
不变指标:
① Cookie的数量:由于试验的是网站首页子页面,不影响首页Cookie数量,因此Cookie数量不变。
期望结果:不变
② 点击次数:点击次数发生在‘开始免费试学’按钮触发之前,cookie不变,点击次数不变。
期望结果:不变
③ 点进概率:点击次数和cookie都不变,因此点击概率不变。
期望结果:不变
评估指标:
① 总转化率:试验中的一周5小时或更多的学习时间影响用户的选择,从而影响完成登录并报名参加免费试用的用户id数量,也是我们此次A/B test测试要研究的问题之一,因此是个评估指标。
期望结果:减少
② 留存率:试验中每周5小时甚至更多的学习时间的要求,会影响付费用户数量和完成免费试用的用户比例。
期望结果:增大
③ 净转化率:试验中每周5小时甚至更多的学习时间的要求,会影响付费用户的数量。
期望结果:不变
说明:为何user id既没有被选择为不变度量,也没有被选择为评估度量,因为它发生在试验之后,由于实验组和对照组的cookie数量是不一定相同的,也就是说两组中的uese id数量受到试验的影响,也可能受到cookie的影响,因此若使用了uesr id则不能很好评估试验效果。
测量标准偏差
① 总转化率
N = px = 0.085000 = 400
P = 0.20625(已知)
SE= Sqrt(p(1-p)/ 400)≈ 0.0202
总转化率是以点击“开始免费试用”按钮的唯一 cookie 的数量为分母,也即分析单位,此分析估计与经验变异相似。
② 留存率
N = px = 0.20625400 = 82.5
P = 0.53(已知)
SE= Sqrt(p(1-p)/ 400)≈ 0.0549
留存率是以登录的用户id数量为分母,与转移单位cookie不相似,即分析单位与转移单位不相似,也即分析估计与经验变异不同。
③ 净转化率
N = px = 0.085000 = 400
P = 0.109313(已知)
SE= Sqrt(p(1-p)/ 400)≈ 0.0156
净转化率是以点击“开始免费试用”按钮的唯一 cookie 的数量为分母,也即分析单位,此分析估计与经验变异相似。
规模
样本数量和功效
不使用Bonferroni****校正,本试验中总转化率和净转化率都不是独立的,而是相关联的。
页面浏览量通过在线计算器(http://www.evanmiller.org/ab-testing/sample-size.html )****计算样本量(alpha = 0.05,beta = 0.2),再转化为实验组的页面浏览量,再乘以2得出
所需的页面浏览量为:685325
① 总转化率
baseline conversion rate:20.625%(已知)
Minimum detectable effect:1%(已知)
样本数量:25835
实验组页面浏览量:25835/0.08 =322938
总页面浏览量:322938 * 2 = 645875
② 留存率
baseline conversion rate:53%(已知)
Minimum detectable effect:1%(已知)
样本数量:39115
实验组页面浏览量:39115/0.20625/0.08 =237060
总页面浏览量:2370606 * 2 = 4741212
③ 净转化率
baseline conversion rate:10.93%(已知)
Minimum detectable effect:0.75%(已知)
样本数量:27413
实验组页面浏览量:27413/0.08 =342663
总页面浏览量:342663 * 2 = 685325
取其中较大值,但是留存率算出来需要的页面浏览量474万,相对于每天4万的页面浏览量,这个结果太大了,所以舍弃留存率这个指标。
在总转化率和净转化率算出的取较大值,最后使用净转化率需要的页面浏览量685325;
持续时间和暴光比例
曝光比例是80%
曝光比例需要考虑实验的风险性和实验周期,具体来说:
风险性上:
① 试验询问的是用户每周能投入的时间,不会对用户的身心产生不良影响,不涉及道德伦理问题;
② 收集的数据是用户投入学习的时间的数据,不具有个人性的信息,不是敏感数据;
③ 对网站来说,不涉及数据库的架构、网站后台等其他关键点,对数据库安全无影响;
因此综合评估来说,风险性较低,可以考虑给出50%~100%的流量。
从实验周期来说,每天页面总流量是4万,需要的总流量约68万,50%流量持续时间是35天,100%流量需要18天,综合考虑选择曝光80%,持续时间22天的方案。
试验分析
合理性检查
① Cookie****的数量
控制组页面总量:345543
实验组页面总量:344660
页面总量:69020
Cookie分布概率:0.5
SE = sqrt(0.5*(1-0.5)/( 345543+344660) ) = 0.000601
m = SE * 1.96 = 0.0011796
置信区间=[ 0.5-m, 0.5+m] = [0.4988, 0.5012]
观察值 = 344660 / 690203 = 0.5006
通过合理性检查
② 点击次数
控制组总量:28378
实验组总量:28325
总量:56703
Cookie分布概率:0.5
SE = sqrt(0.5*(1-0.5)/( 28378 +28325 )) = 0.0021
m = SE * 1.96 = 0.0041
置信区间=[ 0.5-m, 0.5+m] = [0.4959, 0.5041]
观察值 = 28378 / 56703 = 0.5005
通过合理性检查
③ 点进概率
控制组概率:0.0821258
SE = sqrt( 0.0821258 * (1-0.0821258) / 344660 ) = 0.000468
m = SE * 1.96 = 0.00092
置信区间=[ 0.0821258-m, 0.0821258+m] = [0.0812, 0.0830]
观察值 = 0.0821824
通过合理性检查
结果分析
效应大小检验
总转化率:
Control控制组 Experiment实验组
Clicks点击 17293 17260
Enrolment登录 3785 3423
Gross conversion(总转化率) 0.2189 0.1983
Pooled Probability=(3785+3423)/ (17293+17260) = 0.2086
SE = sqrt(0.2086 * (1-0.2086) / (1/17293 + 1/17260 ) = 0.004372
m = SE * 1.96 = 0.008568
d = 3423/17260 - 3785/17293 = -0.02055
置信区间=[ -0.02055-m, -0.02055+m] = [ -0.0291, -0.0120
置信区间不包括0,具有统计显著性;
置信区间不包含d_min,具有实际显著性
净转化率:
Clicks点击 17293 17260
Payment付费 2033 1945
Gross conversion(总转化率) 0.1176 0.1127
Pooled Probability=(2033+1945)/ (17293+17260) = 0.1151
SE = sqrt ( 0.1151 * (1 - 0.1151) / (1/17293 + 1/17260) = 0.003434
m = SE * 1.96 = 0.006731
d = 1945/17260 - 2033/17293 = -0.004874
置信区间=[ -0.004874-m, -0.004874+m] = [ -0.01160, 0.001857 ]
置信区间包括0,不具有统计显著性;
置信区间包含d_min(+/- 0.0075),不具有实际显著性;
符合检查
① 总转化率
成功数量:4
试验次数:23
概率:0.5
双尾P值:0.0026
双尾P值0.0026 小于 alpha 水平0.025,具有统计显著性;
② 净转化率
成功数量:10
试验次数:23
概率:0.5
双尾P值:0.6776
双尾P值0.6776 大于 alpha 水平0.025,不具有统计显著性;
汇总
没有使用Bonferroni校正,因为本试验中的总转化率和净转化率不是独立的,是高度关联的,使用会使得实验结果过于保守;
建议
不建议启动试验;
因为总转化率具有统计和实际显著性,且值为负,这说明该试验会减少因没有5小时以上学习时间而离开免费试学的学生数量,这个符合试验预期。
但,净转化率的置信区间包含负数,置信区间的含义是”我们有95%的信心试验结果会落在这个区间“,根据此处的计算结果(-0.0116, 0.0019),说明有很大的概率净转化率会减少,并且有一定的概率净转化率的减少会超过实际显著性0.0075。因此我们无法说明”降低的程度不大“。
所以不建议启动。
后续试验
我自己本身在知道优达到报名还蛮久的,具体时间不记得了。当时看过官网的课程介绍,虽然被吸引,但因为没有任何基础,也会有一些纠结,直到我朋友报名学习告诉我说还可以,我才报名的。其实很建议官网放一个频道:学员心声,放往期优秀学员的通关心得和建议之类,会很有帮助。同时,很多时候学员会很担心学习过程遇到困难怎么办,能不能像其他学习社群那样,及时的有助教或者班主任在群里解答,这种即时一对一导师形式就比较好。
假设试验:
在试学的纳米课程的每个页面中,设置【一对一导师】,并且是即时的(设置每个人的专属导师,配置每个导师的上班时间),类似客服对话框(可显示在线和不在线),实现有问题随时联系导师。
假设和预期:
该功能的提供,可提高学员的付费率
度量选择
不变度量:
用户id的数量:该试验发生在用户点击试学且登录后,不影响登录用户数,因此选择作为不变度量;
评估度量:
留存率:试验会影响最终付费的用户数,因此选择留存率为评估指标;
转移单位:
① 用户id:此测试用户id会被跟踪,是合适的转移单位