【假设检验分6步】——《统计学(第6版)贾俊平》
- 一、原假设h0和备择假设h1
1、原假设h0和备择假设h1
2、确定显著水平α【I类错误(弃真错误)】
消费类:0.05
质量控制:0.01
民意调查:0.1
3、验证前提条件(收集的数据服从什么分布) - 二、确定适当的检验统计量(z检验和t检验),并计算(如果z的绝对值大于拒绝域的临界点的绝对值,则拒绝h0);或者通过p值判断拒绝与否。
选择哪个统计量作为检验统计量需要考虑一些因素,如检验的样本量多还是少?总体标准差已知还是未知?;计算统计量类似于分数转化的过程,如同把一般得分转化为标准得分。
5、根据检验统计量计算出拒绝域
【置信水平(α)和研究的检验力(β)】
【 统计功效=1-β;统计功效和α正相关】假设检验中,统计功效指当备择假设为真时正确地拒绝原假设的概率。即当备择假设为真时,将其接受的概率。当统计功效增加时,发生II类错误(取伪错误)的概率相应降低,即 统计功效=1-β
名人名言
如果你不能衡量,你就不能改进。
【david Ogilvy】Never stop testing, and your advertising will never stop improving.永不停止测试。
【sean ellis(肖恩 埃利斯)】如果你不运行试验,你大概就不会增长
书评《增长黑客营销》:
1、怎样才能找到产品的消费者:AB测试、完善登录页、考虑病毒式增长因素、提高邮件到达率和善用开放图谱open graph。
2、颠覆传统营销,将营销做成一个动态流程(可测试、可追踪、可度量)。
3、增长黑客=数据专家+设计大牛+营销天才+程序员(明白技术边界在哪,能够将创意以产品形式实现;技术是用来解决问题的,现阶段的解决方案够用就好)
4、增长黑客的职责:并非仅仅提供创意,而是必须对创意能够落地负责,并为实际执行效果买单。
5、由技术驱动的增长,源自对问题的结构化和对数据的流通化。
6、PMF(product market fit)产品-市场契合度。《精益创业(the lean startup)》的作者埃里克-莱斯认为,产品与市场契合度的最佳途径:从可行性最低的产品着手,根据市场反馈,不断对其进行完善。与传统营销“使出浑身解数,力推我们所认为的最终产品”做法完全相反。
7、最小可行性产品(minimum viable product,即MVP)、虚荣指标(vanity metrics)。
8、增长黑客式营销的5个阶段:打造PMF模式、找到你的核心用户、病毒式增长因素、产品优化和顾客忠诚度、再次开始吧。
书评《用户体验度量 量化用户体验的统计学方法》:
【区分样本量不够,和样本没有代表性(代表性 > 样本量)!!;代表性好过随机性】
1、【双侧检验】
比较两个均值,用双侧检验。
均值与基准比较时,使用单侧检验。
2、用户研究中,强调样本的代表性,即要让合适的用户(目标用户)在合适的界面上完成恰当的任务。(从正确的用户群体中抽取小样本,比从错误用户群体中抽取大样本,能提供更好的证据。)
在用户研究中,特别是涉及使用双侧概率和(近似)相等样本量的情况时,双样本t检验是一个可以统计比较求得精确结果的好工具。
3、比较2个平均值(等级量表和反应时)
- 相同的用户参与不同的测试(被试内设计 / 组内设计 / 配对设计):配对t检验(公式显示,其运算针对差异分数进行,故和单样本t检验是一回事)
【统计显著性(p值)和效应值(置信区间)】差异的置信区间效应值:effect size;
- 不同的用户参与不同的测试(被试间设计):双样本 / 独立均值 t检验
4、【重点关注】采用哪种统计检验方法:
5、总结性测试样本量的公式
书评《AB测试 创新始于试验》:
1、AB测试本质上是分离式组间试验,属于预测性结论,与‘后验’的归纳性结论差别巨大。AB测试的目的在于通过科学的试验设计、采样样本代表性、流量分割与小流量测试等方式来获得具有代表性的试验结论,并确信该结论可推广至全部流量。
2、AB测试的目的在于优化产品决策,而不是为了单纯提高某个优化指标。
3、互联网思维(快速试错;在业务中关注整个用户生命周期、而非仅仅获取客户)与传统思维相比,一个重要的新理念就在于快速试错。
近年来,互联网行业对传统行业的冲击,本质上是在用户端的冲击,传统企业依赖逻辑和分析想象用户的需求,而互联网企业直接面对真实的用户。
4、AB测试的科学性:
- 采样方法是科学采样(用户分流/实验流量分割不科学,可能产生辛普森悖论),而非普通的随机采样。——必须合理地进行正确的流量分割,保证试验组和对照组的用户特征一致且均有代表性(代表总体用户特征)。
- 评价结果的计算过程具有科学性。使用统计学里的假设检验原理,能够给出结果的置信度和置信区间、试验的P值、试验的统计功效等。对于无效的试验也可以给出进一步的试验建议。
5、【辛普森悖论】一种AB测试分流不科学导致的悖论:由于不同版本流量在某些维度上的分布不均匀,导致出现整体数据和分维度数据不一致的问题。
【规避辛普森悖论的有力工具】正交实验、互斥实验、定向实验(针对细分人群)、细分分析(对实验结果进行多维的细分分析)。
6、【样本统计量估计总体参数】
参数:用来描述总体特征的概括性数字度量,如总体平均数μ;
统计量:用来描述样本特征的概括性数字度量,如样本平均数x。
7、假设检验(显著性检验;其中的参数检验)是先对总体的参数提出某种假设,然后利用样本数据判断假设是否成立的过程。逻辑上运用反证法,统计上依据小概率事件。
8、【假设检验的两类错误】
I类错误(弃真错误):原假设为真时,拒绝原假设。其概率记为α(相对β更严重,故α的取值尽可能小)。
II类错误(取伪错误):原假设为假时,接受原假设。其概率记为β。
9、p值和显著性水平α(I类错误的小概率标准α)
10、【显著】一项检验在统计上是显著的,指这样的样本数据不是偶然得到的,即不是抽样的随机波动造成的,而是内在的影响因素造成。
【统计显著】正向统计显著、负向统计显著、非统计显著。
- 对置信区间来说,当置信区间的上下限同正/同负时,称为统计显著。只有统计显著才能得到确定的结论,判定哪个版本好/坏。
- 通常情况下,实验刚开始时的置信区间都是统计不显著(一正一负的置信区间)的,而随着实验的持续运行,样本不断增加,置信区间会逐渐收敛。
书评《数据驱动设计 AB测试提升用户体验》:
1、AB测试无法回答所有的问题,但针对其他一些方法或实践无法回答的问题,它却能给出答案。
AB测试非常善于鉴别统计显著性结果,识别真实存在而非偶然发生的线象。
2、【实验建立因果关系】相关不等于因果,而实验帮助我们确立因果关系。
【统计显著性、P值】AB测试基于统计显著性(统计显著性【仅简单的建议,而非必须要这么做】能够量化数据所反映的现象是一种真实存在而非随机现象。根据所收集的数据类型,可选不同的统计显著性度量标准,如P值,用于度量某既定事件在既定情况下发生的概率)进行度量。
【功效power】不同于显著性计算,功效计算在测试开展前进行。两者差异在于,功效预测能否在实验中观察到差异,而统计显著性指出是否在实验样本中发现了差异。
【效应值effect size】指对照组和实验组之间的差异大小。统计显著性(p值)指明是否存在差异,而效应值(置信区间)量化差异的大小。而差异是统计性显著的,但还需确定是否有现实意义。【统计学意义 VS 现实意义】
效应值:是量化现象强度的一个数量值。现象强度指试验版本在目标指标上相对对照版本提升了多少,这个提升比例就是效应值。
【最小检测效应MDE】测试的统计功效取决于MDE。
【假设】对实验结果的一种可验证(可被推翻 /可通过实验方法论反驳推翻)的预测;正式来讲,你永远无法证实一个假设,只能反驳假设。
3、全面了解用户【用户研究员】:行为+观点/态度/期望
- 行为(定量:调研+日志研究;)缺点是:相比于一个人说了什么,更应当相信他的行为。
- 观点/态度/期望(定性:访谈;【AB测试是一种开放性的定性???研究方法】实验是一种与用户对话的方法,能了解用户的想法!!!)缺点是 正确回答(回答我们想要的,因此会不客观)VS真实想法。
可通过数据来观察和分析浅层次的用户行为,但用户内心深处的真实需求和心理是很复杂的,也是最需要理解的!
4、用户队列:拥有共同经历的用户群体(同一时间注册);
用户细分:基于人口统计学等更加稳定的因素(性别、年龄);行为特征(新用户)。
5、创造性的AB测试(AB测试一样具有创造性,而非疯狂无意义的优化。。。):数据三角测量(混合研究的优势,指运用多重方法全面了解用户及数据信息) + 设计活动全景(横坐标是全局还是局部【对于许多问题而言,局部最大值优化足以达到预期目的,如注册按钮的颜色改变达到了最高的注册率】,纵坐标是探索【无须考虑具体的解决方案、开阔思维】还是评估【寻找特定的答案;收敛思维】)
ab-testing-a-checklist/
标准差SD实际上反映的是数据点的波动情况,而均值的标准误差【(the standard error of the mean),缩写是SEM,或者,如果不存在混淆,直接用SE代表:是研究重复多次后,期望得到的差异程度。SE自身不传递很多有用的信息,主要功能是计算95%和99%的CI。 】SE则是均值的波动情况。
【转载】标准差和标准误差以及什么时候使用
前面我提到过大部分研究的目的是估计某个总体(population)的参数,比如均值和SD(标准方差)。一旦有了估计值,另外一个问题随之而来:这个估计的精确程度如何?这问题看上去无解。我们实际上不知道确切的总体参数值,所以怎么能评价估计值的接近程度呢?挺符合逻辑的推理。但是以前的统计学家们没有被吓倒,我们也不会。我们可以求助于概率:(问题转化成)真实总体均值处于某个范围内的概率有多大?(格言:统计意味着你不需要把话给说绝了。)
字节跳动
今日头条【中国第一内容创作平台】运营策略:
- 精准营销(借助信息技术,对顾客采取有针对性的信息传递。而今日头条就是基于数据挖掘技术,对用户的兴趣爱好进行分析,最终将那些与消费者兴趣相匹配的信息推荐给相应的用户)
- 内容运营(头条号【最主要的内容输出方式,其运营方式就是写文章,尽量写原创文章】、西瓜视频【无广告、精心挑选】、微头条【为了社交而设计的分支产品,类似微博】、小视频)。
1、竞品对比:网易云音乐(乐库+社区)和QQ音乐(正版数字音乐)整体比对分析。
内容方面:网易云音乐(音乐社交,帮助人们更快的发现喜欢的音乐并分享,提升音乐审美,增强用户之间互动,形成独一无二的以用户为中心的音乐生态圈)更依靠 UGC 吸引用户,QQ 音乐有丰富的版权。
粘性:靠独特活跃的乐评、歌单等 UGC 内容;日均评论数
会员体系:
网易云音乐:产品迭代强调发现、分享音乐,获取新用户;提升体验,留住用户;增加玩法,促进用户活跃。
(1)扶持独立音乐人,为音乐社区再添优质土壤,打通产业链上游,试图颠覆传统音乐平台;
(2)弱化音乐版权对其的禁锢,强化音乐社区的打造,歌单、短视频、直播、Mlog,听音乐不只是用户来到网易云音乐的唯一选择。
2、统计学题目, 调查今日头条的用户男女比例,简单抽样,有置信区间和误差范围,问需要多大样本。
【中心极限定理】在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。如我们要计算全中国人的平均身高。如果每次取10000个身高作为样本,对应有一个样本均值。如果再从总体中重复抽取n多次10000个样本,就对应有n个样本均值。随着n增大,把所有样本均值画出来,得到的就是一个接近正太分布的曲线。
【大数定理】取样数趋近无穷时,样品平均值按概率收敛于期望值。抛硬币的次数越多,越接近正反各一半。
【标准差】描述观察值(个体值)之间的变异程度(例如一个人打十次靶子的成绩,这时有一个平均数8,有一个反映他成绩稳定与否的标准差);
【标准误】描述样本均数的抽样误差(例如十次抽样,每次他成绩平均数(7,8,6,9,5,6,7,7,8,9)的标准差,也就是抽样分布的标准差);
3、(sql查询)交易表deal_info,表结构:user_id(用户id),order_id(订单),pay_time(付款时间),order_amount(金额)
1)查询过去一个月付款用户量(提示:用户量需要去重)最高的3天分别是哪几天
select pay_time from (
select pay_time,user_id,count(order_id) from deal_info
group by pay_time,user_id
order by count(order_id) desc
where pay_time<date_sub(pay_time,30 day interval)
) t
limit 3
2)查询昨天每个用户最后付款的订单ID及金额
select order_id,order_amount,row number(partition by user_id order by pay_time desc) as rank
from (
select * from deal_info
where pay_time = date_sub(pay_time,1 day interval ))t
where row number(partition by user_id order by pay_time desc) =1
二、AB测试
【灰度流量】灰度发布是应用发布通常采用的方式,是指在黑与白之间,能够平滑过渡的一种发布方式。这种发布方式让一部分用户继续用产品特性A,一部分用户开始用产品特性B,如果用户对B没有什么反对意见,那么逐步扩大范围,把所有用户都迁移到B上面来。灰度发布可以保证整体系统的稳定,在初始灰度的时候就可以发现、调整问题,以保证其影响度。
我们的A/B测试会将一个测试字段发到用户,用户后续的操作行为记录时都会带上这个测试字段。灰度流量就是带有这个字段的用户,可以去测试他们的行为,以及产品关键性指标。
【正交实验/分层试验】多层实验中,样本均匀分布??可以使多层实验的每一层都使用同样多的流量去做实验,并且使各层实验之间的结果不会互相干扰。注意,“各层实验之间的结果不会互相干扰”这个结论是有很强的前提的,前提就是,各层实验的参数之间,对实验指标没有互相增强或者抵消的效果。也就是,假设Pa提高了10%效果,Qa提高了10%效果,Pa+Pb叠加,提高的效果是20%,而不是25%(增强)或者15%(抵消)。多数多层的实验,都是以这个假设为基础的。
比较简单的在多层实验之间实现正交关系的方法是,是在分配流量的哈希函数中把实验所在层名称作为一个参数。mod=hash(layerName,userId)%20
【互斥实验】P实验使用的流量,Q实验不能使用,而Q实验使用的流量,P实验也不能使用。
优点:不用担心正交实验里“各层实验之间的结果不会互相干扰”的前提不成立。
数据的使用方式
- 先验:AB测试
- 后验:大数据分析平台和用户行为分析平台
【应用场景】AB测试的典型应用:新功能上线、功能迭代。
【先计算检验统计量Z值,再计算P值】
【p值】p值是在假设H0零假设成立前提下,得到样本平均值的概率是多少
专门计算所需样本量1:转化率
专门计算所需样本量2:使用时长
专门计算所需样本量3:AB测试样本数量计算器
症(外在表现)VS 病(内在)
对抗安慰剂效应出现的偏差,出现双盲(医生不知道、病人也不知道吃的哪个版本)测试。
在你建构的产品宇宙中,开辟出平行世界。
分流——同时性(平行世界)、同质性(设备特征、基础标签、行为特征?)、唯一性(平行世界无交集)、均匀性(若按天为数据,则每小时的流量要均匀)。
通常网站会利用分域、分层(将流量复用,即一个用户可以处在多个不同的层上,不同的层的流量完全打散,互不影响)、分桶(流量是有限的,实验数量可以无限的)的机制保证流量高可用以及分流的灵活性和科学性。
- 横向分层Layer:流量在每一层都会被重新打散。
- 纵向分桶Bucket:纵向上,流量可以进入独占实验区域或并行实验区域。
①单样本检验:检验单个样本的平均值是否等于目标值。例如:某大学的学生平均身高是否大于全国平均身高167cm
②相关配对检验:检验相关或配对观测之差的平均值是否等于目标值。例如:为了检测减肥药是否起作用,随机抽样出20名测试对象,记录每个人服药前和服药后的体重。(同一组样本。问题:有残留效应)
③两独立双样本检验:检验两个独立样本的平均值之差是否等于目标值。检验闯关游戏教学方法是否有效,分别在两组学生上进行效果测试。
转化率检验(卡方检验) eg:展现点击转化率、留存率、渗透率等漏斗类指标【漏斗类指标用卡方检验】
均值检验(T检验) eg:人均使用时长【均值类指标用T检验】
通过t检验公式计算出检验统计量Z的值
【T检验】主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
【卡方检验(卡方检验对于每组样本的总体不做假设,因此是一个任意分布的非参数检验;用于大样本量可计算出较为精准的结果,但用于小样本量的情况并不推荐。)】卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;如果卡方值越大(若两个值完全相等时,卡方值就为0,表明理论值完全符合),则实际观测值与理论推断值二者偏差越小。
【时间】实验周期一般是1-2周(考虑到周末和工作日的行为不同)。
对于新功能上线的验证,为了排除用户新奇效应、首因效应等干扰因素,一般建议实验周期1-2个月。
AB测试效果分析
关于AB实验效果的分析通常分为两个步骤:实验有效性的判断、实验结果的比较。
- 实验有效性的判断
①判断实验的分流是否已经到达所需要的最小样本量,从而能够以较大的概率拒绝两类统计错误的发生。最小样本量的判断可以采用假设实验目标指标符合正态分布下,两类错误发生概率的分位数的方式进行估算;
②判断样本有效性。采用AA测试,如果AA实验的结果不存在显著差异,那么可以认为实验结果是有效的,进而可以对新老版本的实验结果进行进一步的判断;
③判断测试时间是否满足了样本需求,并考虑了适应期和行为周期;
④判断是否收到并行实验的影响。 - 实验结果的比较
在确认实验有效后就可以对实验的结果进行判断了,通常通过比较新实验版本和老版本是否存在显著差异(前述的P值判断),以及计算实验结果指标的置信区间(通常选用指标的95%置信区间),从而判断新版本是否相对老版本存在显著提升或下降。
一文入门A/B测试(含流程、原理及示例)
鹅厂数据分析师是如何设计一个 A/B test
问题一:AB测试的样本选择多少合适?越多越好?
问题二:业务每天都在做成千上百个实验,如何保证每个AB测试之间不会相互影响?【实验正交 / 流量分层】
问题三:数据本身就会有波动,如何保证实验中实验组A比实验组B结果好不是因为数据本来的波动呢?【假设检验与显著性水平】
问题四:如果实验A结果一开始是比对照组B的好,但是观察一段时间后,试验A的数据持续下降(还是比对照组B好,但是差距在逐渐减少),这是什么原因呢?还能说明实验A效果好么?【排除数据提取有误 /新奇效应 / 考虑用户的生命周期】
【落地页】也称着陆页,简单的说是指访问者通过站内(Banner)、站外(信息流广告、EDM等)渠道点击进入的第一个页面。
如何提升落地页转化率?
统计学知识汇总
- 卡方检验:对于每组样本的总体不做假设,因此是一个任意分布的非参数检验;用于大样本量可计算出较为精准的结果,但用于小样本量的情况并不推荐。
- z检验的使用场景:正态分布,大样本(样本容量>30)或总体标准差已知。
- t检验的使用场景:小样本n<30/总体标准差未知。
- F检验(方差齐性检验:方差分析(或译变异数分析,Analysis of Variance)):透过检视变量的方差而进行的。它主要用于:均数差别的显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方差齐性(Equality of Variances)检验等情况。