独立同分布的中心极限定理
专业版:
百度百科
白话版:
无论总体是什么分布,只要抽样的样本量(依经验大于30)足够大,那么抽样的均值近似服从正态分布。
也就是抽样的均值分布满足下面的情况:
image.png
意义:
这一结果对于统计学非常重要,这是因为定理的条件很宽松,并不限定分布形式。结论则很明确,即样本均值近似正态分布。这使得后续的区间估计或者假设检验等都能够对样本均值再正态分布的基础上进行分析。
Python实验
导入必要的库
import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
from numpy import matlib
import math
import statistics
import seaborn as sns #加载可视化工具
随机生成总体,并展示总体分布
np.random.seed(123)
data=np.random.rand(1000)*1000
data[1:5]
plt.figure(figsize=(10,5),dpi=80)
plt.hist(data, 50, density=1, facecolor="lightsalmon", edgecolor="orangered", alpha=0.7)
plt.show()
总体分布如下
image.png
样本均值分布如下
mean_sa=pd.DataFrame(columns=['Sample Mean'])
for j in range(20000): #抽样20000次
np.random.seed(j)
sample = np.random.choice(data, size=2, replace=True) #每次放回抽样,样本量为2
samplemean = statistics.mean(sample)
mean_sa.loc[j]=[samplemean]
plt.figure(figsize=(10,5),dpi=80)
sns.distplot(mean_sa['Sample Mean'],bins=50,kde=True)
plt.show()
样本量为2,抽样20000次情形如下:
image.png
样本量为200,抽样20000次情形如下:(将上述代码 size=2改为 size=200)
image.png
动手做做,用实验体会中心极限定理的奥妙!