基础知识(四)统计&数据分析知识——假设检验

思维导图

Q1:在假设检验中,原假设和备择假设常用的划分方法是什么?

1.原假设和备择假设

  • 原假设记为H0,备择假设记为H1

  • 备择假设实际上是我们真正需要关心和证明的

  • H0和H1的选择是基于实际的需要,不是随机选择的

2.检验统计量

  • 检验统计量是用于假设检验计算的统计量,基于样本检验统计量的值来接受或者拒绝原假设

  • 常用的检验统计量:t统计量、z统计量

  • 在原假设成立的情况下,检验统计量服从一个特定的分布

  • 在备择假设成立的情况下,则不服从该分布


Q2:简述假设检验的基本思想

1.比较通俗的阐述

通过证明在原假设成立的前提下,检验统计量出现当前值或者更为极端的值属于“小概率”事件,以此推翻原假设,接受备择假设。

"检验统计量出现当前值或者更为极端的值"的概率就是p-value
“小概率”:将p-value与预先定义的显著性水平α对比,如果p-value小于α,就可以推翻原假设

2.更为严谨的阐述

通过证明该样本对应的p-value小于α,以此推翻原假设,接受备择假设


Q3:解释假设检验中的两类错误。

  • 第一类错误:在原假设成立的情况下,错误地拒绝了原假设

  • 第二类错误:没有成功地拒绝不成立的原假设


Q4:在假设检验中,如何平衡两类错误?

1.显著性水平

  • 预先设定犯第一类错误的上限(定义显著性水平α)

  • 1-α被称为置信度

  • α通常设定为5%(部分比较严格的检验中,设定为1%)

  • 当样本对应的p-value小于α时,原假设会被拒绝

2.检验效能

  • 在显著性水平固定的情况下,需要减少第二类错误β发生的概率

  • 1-β为规避第二类错误的概率,用power表示,又称为检验效能

  • power的大小可以通过增加样本量来提高

  • 通常需要power达到80%或者更高的水平

通过预先设定的显著性水平和检验效能,可以计算出完成试验所需要的最小样本量


Q5:简述假设检验中的p-value、显著性水平、置信度、检验效能。

  • p-value:在原假设成立的前提下,检验统计量出现当前值或更为极端的值的概率

  • 显著性水平:在假设检验中,犯第一类错误的上限,用α表示

  • 置信度:用1-α表示检验的置信度

  • 检验效能:规避第二类错误的概率,用power表示


Q6:z检验和t检验之间有什么区别?

常用的基于正态分布的检验方法:z检验和t检验

1.z检验

假设x1,x2,x3,...是一组正态分布的样本,已知方差为σ,要判断该正态分布的均值μ是否等于μ0,

  • 原假设

  • 备择假设

  • 在H0成立的前提下,构造检验统计量,要求的显著性水平为α,则

  • 若检验统计量的值落在[α/2,1-α/2]分位数之外,则表明p-value小于α,可以拒绝原假设;反之,则无法拒绝原假设

2.t检验

假设x1,x2,x3,...是一组正态分布的样本,方差未知,要判断该正态分布的均值μ是否等于μ0

  • 用样本的方差s代替z检验中已知的方差构造检验统计量X'

其中,

  • 同理,若检验统计量的值落在[α/2,1-α/2]分位数之外,则可以拒绝原假设


参考文献

1.《拿下Offer 数据分析师求职面试指南》徐麟 著

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容