148、假设检验——单样本检验质量管理实例

项目背景

公司为了提高生产效率、降低人力成本，决定研发一台机器用于自动化生产，其中这台机器生产的产品有一个关键的尺寸pin弹高不能大于1.32mm（下面数据单位都为mm）。

现在从这台机器生产的产品中随机选取20个作为样品，其中每一个产品的pin弹高如下：

1.293,1.282,1.284,1.284,1.235,1.295,1.142,1.291,1.296,1.271, 1.280,1.296,1.277,1.286,1.321,1.276,1.291,1.299,1.296,1.286

现在怎么知道公司研发的这台机器是否合格呢？

为了验证公司研发的机器是否合格，下面采用统计概率中的假设检验进行验证。

假设检验的步骤：

1、问题是什么？

（1）零假设，备选假设

（2）检验类型

（3）抽样分布类型

（4）检验方向

2、证据是什么？

零假设成立时，得到样本平均值的概率：p值

3、判断标准是什么？

显著水平α（0.1%，%1，5%）

4、做出结论

P<=α时，拒绝零假设也就是备选假设成立

P>α时，接受零假设

一、描述统计分析

在开展调查研究并计算统计结果前，先要进行描述统计分析，这是整个研究的核心，也是整个数据分析的前提条件。

先求出样本平均值和标准差：

1.样本平均值和标准差.png

这里要区别：数据集的标准差，和样本标准差

数据集的标准差公式除以的是n，样本标准差公式除以的是n-1。

样本标准差，用途是用样本标准差估计出总体标准差

pandas计算的标准差，默认除以的是n-1，也就是计算出的是样本标准差

pandas标准差官网地址：<u>https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.std.html</u>

二、推论统计分析¶

推论统计分析报告中包括：假设检验，置信区间，效应量

1、问题是什么？

零假设和备选假设

要研究的问题是：这些样本数据是否满足公差要求？

根据这个问题我提出来下面两个互为相反的假设。

零假设H0：公司研发的机器不合格，也就是平均值 u > 1.32。

零假设总是表述为研究没有改变，没有效果，不起作用等，这里就是不合格。

备选假设H1：公司研发的机器合格，也就是平均值u <= 1.32。

检验类型

检验类型主要分为三种：

2.假设检验类型.jpg

因为这里只有1个样本，所以选择单样本检验。

检验类型参考资料：http://support.minitab.com/zh-cn/minitab/17/topic-library/basic-statistics-and-graphs/hypothesis-tests/tests-of-means/types-of-t-tests/

抽样分布类型

我们还要判断抽样分布是哪种？因为抽样分布的类型，决定了后面计算p值的不同。

一般抽样分布类型划分如下：

3.抽样分布类型.jpg

在我们这个研发机器的案例中，样本大小是20（小于30），属于小样本。那小样本的抽样分布是否满足t分布呢？因为t分布还要求数据集近似正态分布，可以通过画出样本的直方图和拟合曲线来决定是否符合t分布。

直方图能够粗略估计数据密度，如果想给数据一个更精确的拟合曲线（专业术语叫：核密度估计kernel density estimate (KDE)），Seaborn 可以很方便的画出直方图和拟合曲线。

查看数据集分布官网教程地址：https://seaborn.pydata.org/tutorial/distributions.html

下面是根据样本数据画出的样本直方图和拟合曲线：

4.样本直方图和拟合曲线.png

通过观察上面数据集分布图，数据集近似正态分布，满足t分布使用条件，所以抽样分布为t分布，自由度df=n-1=20-1=19。

检验方向

单尾检验（左尾，右尾），还是双尾检验？

5-1.单尾检验.jpg

5-2.双尾检验.jpg

因为备选假设是公司研发的机器合格，也就是平均值u <= 1.32

所以我们使用单尾检验中的左尾

总结

综合以上分析，本次假设检验是单样本t检验，单尾检验中的左尾。

2、证据是什么？

在零假设成立的前提下，得到样本平均值的概率p是多少？

计算p值步骤：

6.计算p值步骤.jpg

1）计算出标准误差

标准误差=样本标准差除以样本大小n的开方。这里的样本标准差是用来估计总体标准差的

2）计算t值

t =（样本平均值 - 总体平均值）/ 标准误差

3）根据t值，查找t表格，得到概率p值

下面有两种方法计算标准误差se和t值对应的概率p

方法一：手动计算

7.手动计算.png

方法二：python统计包scipy自动计算

8.python统计包scipy自动计算.png

3、判断标准是什么？

9.判断标准.png

4、做出结论

左尾判断条件：t < 0 and p < 判断标准（显著水平）alpha

右尾判断条件：t > 0 and p < 判断标准（显著水平）alpha

使用if条件做出结论判断：

10.做出结论.png

假设检验报告

对很多科学来说，我们使用APA格式来报告假设检验的结果。APA表示的美国心理学会，APA格式是美国心理学会给出了如何撰写研究论文的完整指南，其中一部分告诉我们如何写出推论统计学结果。

下面图中给出了写出t检验结果的一般规则:t(df)=x.xx,p=.xx,检验方向

11.假设检验APA格式.jpg

我们按图中标出的序号，看下在报告假设检验时，需要告诉读者以下几点信息：

1）检验类型包括检验类型，抽样分布，检验方向首先执行的是哪种类型的检验？在此示例中是单样本t检验，接着在括号中写出自由度，写上等号，然后给出t值，保留两位小数。写上逗号，然后给出p值，同样保留两位小数，然后输出逗号，并指明检验方向。是单尾检验还是双尾检验。

2）精确的p值然后给出p值，同样保留两位小数，然后输出逗号，

3）给出检验方向，例如是单尾检验还是双尾检验。

4）显著性水平始终让读者知道你在做出决策时使用的显著性水平。

在本案例中假设检验报告如下：

单样本检验t(19)=-5.08，p=3.34e-05(α=5%)，左尾检验

统计上存在显著差异，拒绝零假设，即公司研发的机器合格

5、置信区间

下面图片里是APA格式的置信区间：平均值的置信区间，95% CI=(a,b)

12.置信区间APA格式.jpg

在写置信区间报告时，提供了这样几个信息：

1）开头会说是哪种类型的置信区间例如在单样本检验中是单个平均值的置信区间，但是在我们后面要讲到的相关样本检验是两个平均值之间差异的置信区间。在这个案例里，我们是单个平均值的置信区间

2）置信水平和区间的上下限。置信水平（简写为CI），括号里写上下限。

在本案例中求置信区间如下：

13.求置信区间.png

6、效应量

还需要在报告中给出效应量（effect size）。什么是效应量呢？

效应量是指处理效应的大小，例如药物A比药物B效果显著。度量效应量有很多种，但大多数都属于两大主要类别。

效应量的指标及计算方法：

14.效应量的指标及计算方法.jpg

1）第一种叫做差异度量

例如在对比平均值时，衡量效应大小的常见标准之一是Cohen's d

Cohen's d = （样本平均值1-样本平均值2) / 标准差

Cohen's d 除以的是标准差，也就是以标准差为单位，样本平均值和总体平均值之间相差多少。

2）第二种叫做相关度度量

例如R平方，表示某个变量的变化比例与另一变量的关系。可以用t检验的信息推出R平方的公式，这里的t值从t检验中获得的值，df是自由度。

r2=t2 / (t2+df),其中r2是指r的平方，t2是t的平方

如果r平方等于20%，表示我们可以说通过知道另一个变量能够接受相关变量20%的变化情况

为什么要给出效应量？

在判断某个调查研究的结果，是否有意义或者重要时，要考虑的另一项指标是效应量。效应量太小，意味着处理即使达到了显著水平，也缺乏实用价值。

所以，在假设检验中，我们给出了是否具有统计显著性，也要给出效应量，一起来判断研究结果是否有意义。

效应量报告格式：d=x.xx ，R2=.xx

在本案例中是单样本检验，效应量的差异指标计算如下：!

15.单样本检验的效应量差异指标计算.jpg

Python代码实现如下：

16.效应量.png

三、数据分析报告

数据分析报告流程如下：

17.数据分析报告.jpg

1.描述统计分析

样本平均值为1.28mm，样本标准差为0.04mm

2.推论统计分析

1）假设检验

独立样本t(19)=-5.08,p=3.34e-05(α=5%),单尾检验（左尾）

统计上存在显著差异，拒绝零假设，即公司研发的机器合格

2）置信区间

单个平均值的置信区间，95%置信水平 CI=[1.26,1.29]

3）效应量

d = -1.14，R2= 0.58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,869评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,716评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,223评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,047评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,089评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,839评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,516评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,410评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,920评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,052评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,179评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,868评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,522评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,070评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,186评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,487评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,162评论 2赞 356

148、假设检验——单样本检验 质量管理实例

推荐阅读更多精彩内容

148、假设检验——单样本检验质量管理实例