【分析方法】A/B test

面对两套无法判断效果的方案,可考虑A/B test,简单的说就是通过控制变量进行数据对比来判断哪种策略更有效果。

步骤

设定问题——设计实验——统计实验数据——分析数据

统计知识:

两样本比例假设检验:查看实验组和对照组的指标(点击率、转化率、留存率)哪个更好。

原假设:H0: A、B无差异(如变换按钮文案,点击率不变)      

               H1: A、B有显著差异(如变换按钮文案,点击率不一样)

中心极限定理

若样本数量足够大,则其产生的均值应该是符合正态分布的。那么利用正态分布的性质,就可以推断出样本均值出现在某区间范围的概率。理论上就可以计算样本均值有多大概率(置信度)可能出现的区间范围,从而推算出总体均值有大概率落在范围内。


第一步:设定问题

想要解决什么问题?

示例:想通过优化 提交按钮 的文案来提高“提交”按钮的点击率

第二步:设计实验

1)确定实验组和对照组.

一般可考虑设置组内对比,组间对比

示例:A的提交按钮文案是“免费”,B的提交按钮文案是“0元”,其他不变。

2)确定观测的指标

示例:按钮的点击率=页面PV/点击按钮的PV

3)  确定样本量

第一类错误:(1,0)实际没区别,但分析的结果是有区别。这个概率用\alpha 来表示,称为显著性。1-\alpha 称为置信水平,即有1-\alpha 的概率正确接受了H0,即分析结果和真实情况都是没区别。

一般第一类错误的概率\alpha 不超过5%。意味着新策略对业务其实没有提升,却被错误的认为有提升。依据这样的分析结果调整策略,不仅浪费了公司资源,可能还会对产品进行不良引导,所以希望该数值越小越好,上限设为5%。

第二类错误:(0,1)实际有区别,但分析的结果是没区别。这个概率用\beta 来表示。

将1-\beta 称为统计功效,即正确拒绝H0的概率,即分析结果和真实情况都是有区别。

一般第二类错误的概率不超过20%。意味着新策略对业务其实有提升,却被错误的认为没有用。依据这样的分析调整策略,可能不会让业务更快的提升,但至少也是维持着现状不变。所以虽然同样希望越小越好,但上限设为20%,高于第一类错误的上限。

*样本量的计算公式样式参考如下:

p1为基础值,是对照组当前的指标率;p2为目标值,是实验组期望的指标率。;α和β分别称为第一类错误概率和第二类错误概率,一般分别取0.05和0.2;Z为正态分布的分位数函数 。

A/B测试样本量在线计算器  计算如下:

比如:https://abtestguide.com/abtestsize/

现有基准转化率(conversion rate)为2%;想要在此基础上提高20%(minimum detectable effect),即提高到2.4%;显著性\alpha 为5%,统计功效选 1-\beta 为 80%,则计算出结果为21108,即对照组和测试组需要的样本量各需要21108,最少需要测试一周。

可用python中已有的包和函数计算python 函数

第三步:统计数据

依据观测指标,相应增加埋点,注意增加区分实验组和对照组的标识。

关于埋点设计,我有过总结,可点击 埋点设计 查看。

关于统计,没有第三方工具的情况下,一般需要SQL/python取数。

第四步: 分析数据

1)排查可能影响结果的因素

先肉眼观测数据,猜想实验是否有效、结果是否有效:实验数据是否相差较大?样本是否用代表性?实验周期多久?

1) 为了避免数据结果偏差,理论上样本量越多越好。但考虑到大流量试错会使成本增大,还是要尽量控制数量,得到结论后,及时调整策略。

2)实验组和对照组的样本要避免用户差异,如果是特定标签(性别、年龄、城市)的用户群体,那么投放时2组也要做到用户标签一致。

3)埋点是否正确、全面?(友情提示:如果ABtest方案、埋点、取数都不是同一个岗位的话,一定要沟通对齐,否则很可能得出错误的数据和结论) 

2)显著性差异分析

在1)的基础上借助数学模型,对数据的差异性进行度量。

根据大数定律和中心极限定理:当样本量较大(大于30)时,可以通过Z检验来检验测试组和对照组两个样本均值差异的显著性。样本量小于30时,可进行t检验。

EXCEL 函数 实现t检验:T.TEST

单尾双尾:一般都是双尾

双尾:不知道方向性。比如:计算AB的点击率各是多少,看看谁比谁大,再看大多少

单尾:是你已经知道方向性了。比如你知道A的点击率比B大,只是不知道具体大多少。

查表时,在显著性水平一定的情况下(例如α =0.05),

双尾表:单侧检验时改用2α进行统计推断,双侧检验则用α 进行统计推断。

单尾表:单侧检验时仍使用α进行统计推断,双侧检验则用α /2进行统计推断;

一般情况下,概率分布函数曲线两侧尾端的小概率事件都要考虑(即双侧检验)。如果事先有把握确定其中的一侧不可能取值,则仅需对另一侧的小概率事件进行检验即可(单侧检验)。

计算出t值后,将 t 值转换成p值,

Excel的函数公式:p = TDIST(t,n,tails)

t→t值  n→自由度  tails→单尾=1;双尾=2

根据t值和自由度n =N1 + N2 - 2 ,比如N1和N2是去2组实验重后用户数UV

通常:

 P>0.05         表示 差异性不显著,实验无效

0.01<P<0.05 表示 差异性显著

P<0.01          表示 差异性极显著,差异过大,可能投放的用户群体不一致,有较多不同层次的标签。


3)输出结论,调整策略

·实验是否有效。

·结论是

 A、B无差异(如变换按钮文案,点击率不变)或 A、B有显著差异(如变换按钮文案,点击率不一样)

·原因可能是XXXX



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352