项目背景
公司为了提高生产效率、降低人力成本,决定研发一台机器用于自动化生产,其中这台机器生产的产品有一个关键的尺寸pin弹高不能大于1.32mm(下面数据单位都为mm)。
现在从这台机器生产的产品中随机选取20个作为样品,其中每一个产品的pin弹高如下:
1.293,1.282,1.284,1.284,1.235,1.295,1.142,1.291,1.296,1.271, 1.280,1.296,1.277,1.286,1.321,1.276,1.291,1.299,1.296,1.286
现在怎么知道公司研发的这台机器是否合格呢?
为了验证公司研发的机器是否合格,下面采用统计概率中的假设检验进行验证。
假设检验的步骤:
1、问题是什么?
(1)零假设,备选假设
(2)检验类型
(3)抽样分布类型
(4)检验方向
2、证据是什么?
零假设成立时,得到样本平均值的概率:p值
3、判断标准是什么?
显著水平α(0.1%,%1,5%)
4、做出结论
P<=α时,拒绝零假设也就是备选假设成立
P>α时,接受零假设
一、描述统计分析
在开展调查研究并计算统计结果前,先要进行描述统计分析,这是整个研究的核心,也是整个数据分析的前提条件。
先求出样本平均值和标准差:这里要区别:数据集的标准差,和样本标准差
数据集的标准差公式除以的是n,样本标准差公式除以的是n-1。
样本标准差,用途是用样本标准差估计出总体标准差
pandas计算的标准差,默认除以的是n-1,也就是计算出的是样本标准差
pandas标准差官网地址:<u>https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.std.html</u>
二、推论统计分析¶
推论统计分析报告中包括:假设检验,置信区间,效应量
1、问题是什么?
零假设和备选假设
要研究的问题是:这些样本数据是否满足公差要求?
根据这个问题我提出来下面两个互为相反的假设。
零假设H0:公司研发的机器不合格,也就是平均值 u > 1.32。
零假设总是表述为研究没有改变,没有效果,不起作用等,这里就是不合格。
备选假设H1:公司研发的机器合格,也就是平均值u <= 1.32。
检验类型
检验类型主要分为三种:因为这里只有1个样本,所以选择单样本检验。
抽样分布类型
我们还要判断抽样分布是哪种?因为抽样分布的类型,决定了后面计算p值的不同。
一般抽样分布类型划分如下:在我们这个研发机器的案例中,样本大小是20(小于30),属于小样本。那小样本的抽样分布是否满足t分布呢?因为t分布还要求数据集近似正态分布,可以通过画出样本的直方图和拟合曲线来决定是否符合t分布。
直方图能够粗略估计数据密度,如果想给数据一个更精确的拟合曲线(专业术语叫:核密度估计kernel density estimate (KDE)),Seaborn 可以很方便的画出直方图和拟合曲线。
查看数据集分布官网教程地址:https://seaborn.pydata.org/tutorial/distributions.html
下面是根据样本数据画出的样本直方图和拟合曲线:通过观察上面数据集分布图,数据集近似正态分布,满足t分布使用条件,所以抽样分布为t分布,自由度df=n-1=20-1=19。
检验方向
单尾检验(左尾,右尾),还是双尾检验?因为备选假设是公司研发的机器合格,也就是平均值u <= 1.32
所以我们使用单尾检验中的左尾
总结
综合以上分析,本次假设检验是单样本t检验,单尾检验中的左尾。
2、证据是什么?
在零假设成立的前提下,得到样本平均值的概率p是多少?
计算p值步骤:1)计算出标准误差
标准误差=样本标准差除以样本大小n的开方。这里的样本标准差是用来估计总体标准差的
2)计算t值
t =(样本平均值 - 总体平均值)/ 标准误差
3)根据t值,查找t表格,得到概率p值
下面有两种方法计算标准误差se和t值对应的概率p
方法一:手动计算3、判断标准是什么?
4、做出结论
左尾判断条件:t < 0 and p < 判断标准(显著水平)alpha
右尾判断条件:t > 0 and p < 判断标准(显著水平)alpha
使用if条件做出结论判断:假设检验报告
对很多科学来说,我们使用APA格式来报告假设检验的结果。APA表示的美国心理学会,APA格式是美国心理学会给出了如何撰写研究论文的完整指南,其中一部分告诉我们如何写出推论统计学结果。
下面图中给出了写出t检验结果的一般规则:t(df)=x.xx,p=.xx,检验方向我们按图中标出的序号,看下在报告假设检验时,需要告诉读者以下几点信息:
1)检验类型 包括检验类型,抽样分布,检验方向 首先执行的是哪种类型的检验?在此示例中是单样本t检验,接着在括号中写出自由度,写上等号,然后给出t值,保留两位小数。写上逗号,然后给出p值,同样保留两位小数,然后输出逗号,并指明检验方向。是单尾检验还是双尾检验。
2)精确的p值 然后给出p值,同样保留两位小数,然后输出逗号,
3)给出检验方向,例如是单尾检验还是双尾检验。
4)显著性水平 始终让读者知道你在做出决策时使用的显著性水平。
在本案例中假设检验报告如下:
单样本检验t(19)=-5.08,p=3.34e-05(α=5%),左尾检验
统计上存在显著差异,拒绝零假设,即公司研发的机器合格
5、置信区间
下面图片里是APA格式的置信区间:平均值的置信区间,95% CI=(a,b)在写置信区间报告时,提供了这样几个信息:
1)开头会说是哪种类型的置信区间 例如在单样本检验中是单个平均值的置信区间,但是在我们后面要讲到的相关样本检验是两个平均值之间差异的置信区间。 在这个案例里,我们是单个平均值的置信区间
2)置信水平和区间的上下限。 置信水平(简写为CI),括号里写上下限。
在本案例中求置信区间如下:6、效应量
还需要在报告中给出效应量(effect size)。什么是效应量呢?
效应量是指处理效应的大小,例如药物A比药物B效果显著。度量效应量有很多种,但大多数都属于两大主要类别。
效应量的指标及计算方法:1)第一种叫做差异度量
例如在对比平均值时,衡量效应大小的常见标准之一是Cohen's d
Cohen's d = (样本平均值1-样本平均值2) / 标准差
Cohen's d 除以的是标准差,也就是以标准差为单位,样本平均值和总体平均值之间相差多少。
2)第二种叫做相关度度量
例如R平方,表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式,这里的t值从t检验中获得的值,df是自由度。
r2=t2 / (t2+df),其中r2是指r的平方,t2是t的平方
如果r平方等于20%,表示我们可以说通过知道另一个变量能够接受相关变量20%的变化情况
为什么要给出效应量?
在判断某个调查研究的结果,是否有意义或者重要时,要考虑的另一项指标是效应量。效应量太小,意味着处理即使达到了显著水平,也缺乏实用价值。
所以,在假设检验中,我们给出了是否具有统计显著性,也要给出效应量,一起来判断研究结果是否有意义。
效应量报告格式:d=x.xx ,R2=.xx
在本案例中是单样本检验,效应量的差异指标计算如下:!三、数据分析报告
数据分析报告流程如下:1.描述统计分析
样本平均值为1.28mm,样本标准差为0.04mm
2.推论统计分析
1)假设检验
独立样本t(19)=-5.08,p=3.34e-05(α=5%),单尾检验(左尾)
统计上存在显著差异,拒绝零假设,即公司研发的机器合格
2)置信区间
单个平均值的置信区间,95%置信水平 CI=[1.26,1.29]
3)效应量
d = -1.14,R2= 0.58