抽样分布与概率分布比较
- 相同点:都是概率分布
- 不同点:
- 分类角度不同,常见的概率分布是从分布形态角度出发进行分类的,而抽样分布则是从参数角度进行分类
- 抽样分布一般表现为分布族,随着决定参数的不同,抽样分布的形态也会随之变化
Z分布
- 背景:样本均值推断总体均值是最重要的推断统计学内容。样本均值的抽样分布是样本均值推断总体均值的桥梁。样本均值的抽样分布有一个重要的特性,我们称之为中心极限定理,即任意分布的总体,当样本容量n>=30时,均值的抽样分布同样服从正态分布
- 普通正态分布可以转化为标准正态分布,我们将转化成标准正态分布的均值抽样分布成为Z分布(一般以字母命名的分布就是抽样分布)
- 两种满足Z分布的适用条件:一是由正态分布总体的样本组成的均值抽样分布,样本容量没有要求;第二种情况是由来自任意分布总体的大样本组成的均值抽样分布,要求样本容量大于或等于30
T分布
- 背景:Z分布只能覆盖部分均值抽样分布的情况,它特别适合总体标准差一直的正态分布总体或样本容量大于或等于30的任意分布总体的抽样情况。对于总体标准差未知的情况,我们引入另一个重要的均值抽样分布类型-T分布
- T分布曲线呈倒置的钟形,并且关于y=0的纵轴对称,分布曲线从负无穷到正无穷大无限延伸。当自由度等于或大于30时,T分布曲线几乎与标准正态分布曲线重合。
- 问题:据均值抽样分布使用条件表2,总体服从正态分布,且总体标准差未知,样本容量大于或等于30时,为什么样本均值的抽样分布不仅服从T分布,而且还可以用Z分布来近似表达?
卡方分布
- 卡方统计量时一个随机变量,它能够表明样本方差和总体方差的比值关系。卡方统计量决定的抽样分布就是卡方分布
- 卡方分布和T分布一样,是一个概率分布族,对每一个自由度都有一个具体的卡方分布于其对应。卡方分布是不对称的,长尾拖在右边。随着自由度的增加,卡方分布逐渐变成单峰,且越来越堆成,但不是关于0对称,而是关于自由度对称。
F分布
- F统计量时由两个独立的卡方统计量被各自的自由度相除后的比,所以F分布的分布曲线与卡方分布曲线相似。随着自由度的增加,F分布的分布曲线也越来越对称,且对称的中点为1.
- F分布的应用:F分布能够用来推断两个总体方差之间的比值关系,是后面的方差分析的理论基础。
练手题目
- 按照港口分类,求年龄、性别等变量的统计量,如均值、标准差等
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
# matplotlib.style.use("ggplot")
%matplotlib inline
df=pd.read_csv('file_path')
df=df.dropna(axis=0, how='any')
#按照港口对数据进行分布
grouped=df.groupby('Embarked')
#显示分组效果
grouped.groups
grouped.get_group('S').head(5)
#分组统计变量的统计量
grouped['Fare'].describe()
- 画出价格的分布图像,验证价格属于何种分布(卡方,正态还是T分布)
- 这里的问题是,更像是验证价格属于哪种概率分布
- 但是卡方分布和T分布似乎又专指抽样分布,暂时没摸清意图
- 按照港口分类,验证S和Q的价格差是否符合某种分布
- 同上一题的问题,待进一步确认抽样分布和常见概率分布的区别