AB Test 评估准则

本文记录 AB Test 评估准则,用于指导 AB Test设计

度量选择

标准 符合要求
是否为试验选择了适当的不变量和评估指标? 已为试验选好一组适当的度量,未遗漏任何必要或重要度量。
是否为度量选择提供了合理理由? 每个度量都有清楚合理的理由,解释为何将其选作不变度量及评估度量。
我们希望通过开展此试验得到什么结果? 报告中清楚地说明了我们希望通过开展此试验取得的结果,且所述结果与试验目的一致。

变异性

标准 符合要求
是否正确计算了所有评估度量的标准偏差? 已正确计算所有评估度量的标准偏差。
是否通过推理说明每个分析标准偏差是正确的? 每个评估度量都有清楚正确的解释,说明分析变异性是否可能匹配经验变异性。

规模

标准 符合要求
页面浏览量是否正确考虑了计划的分析? 考虑到学生是否使用 Bonferroni 校正情况下所给的页面浏览量是正确的。
是否基于风险选择了适当的试验暴露水平? 将对试验的风险等级提供理由充分的论点,并将相应选择转移流量的部分。
试验的持续时间是否正确考虑了暴露? 试验的持续时间在考虑到所选转移流量部分后进行了正确计算。

完整性检验

标准 符合要求
是否正确执行了完整性检查? 正确计算了所选的所有不变度量的完整性检查。
是否分析了完整性检查的结果? 评估了完整性检查:通过或未通过。 若未通过完整性检查,通过分析探索了失败原因并中止试验。

效应量检验

标准 符合要求
是否对所有评估度量的差异计算了置信区间? 正确计算了置信区间并报告了所有评估度量的差异。
是否正确评估了统计显著性与实际显著性? 正确报告了所有评估度量的统计显著性与实际显著性。

符号检验

标准 符合要求
是否对每个评估度量报告了符号检验 P 值,并表明符号检验是否具有统计显著性? 对所有评估度量正确报告了 P 值和统计显著性。

结果汇总

标准 符合要求
是否提供了正当理由,说明是否选择使用 Bonferroni 校正? 报告为是否选择使用 Bonferroni 校正提供了合理理由。
是否分析了效应量检验和符号检验之间的所有差异? 为效应量检验和符号检验之间的每项差异提供了充分合理的解释。

建议

标准 符合要求
是否基于试验结果提供了合理建议? 提供了合理并用数据支持的建议。

根进实验

标准 符合要求
是否为所给目的进行了合理的试验,并提出了明确的假设? 开展了值得检验的合理试验,并明确说明了试验结果假设。
是否为提议的试验选择了适当的评估度量,并提供了支持推理? 报告中选择的度量足以用于评估试验的假设,可在大多数基础设施下进行测量,且报告中提供了充足的支持推理。
是否为试验选择了合理的转移单位? 报告中说明了合理的转移单位,并提供了充分的支持理由。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • AB测试介绍 什么是AB测试? A/B Test 是一个用于在线测试的常规方法,用于测试新产品或新功能。 如何操作...
    Lilyabao阅读 20,434评论 7 35
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 12,897评论 0 3
  • 从会用笔开始直到大学毕业,对着讲台上老师传授的内容总是一通猛记猛抄,生怕错过一丝一毫的信息,从此走不上人生巅峰,然...
    皓妈童书分享会阅读 9,295评论 9 189
  • 是谁剥夺了我们生产的乐趣? 你还会生产吗?除了工作,你下过厨房吗?除了旅游,你体验过耕种吗?过去我们有自己土地、田...
    元子丰丰阅读 1,706评论 0 0
  • 2005年的一个炎热的夏季,天气热的像个大蒸笼,尽管是深夜天气还是热的让人喘不过气,我拿着摇椅在二楼的走道上乘凉。...
    九月女王阅读 3,003评论 0 0

友情链接更多精彩内容