用python求置信区间-参数估计

image.png
image.png

抽取样本, 样本量为200

np.random.seed(42)

coffee_full = pd.read_csv('coffee_dataset.csv')
coffee_red = coffee_full.sample(200) #this is the only data you might actually get in the real world.
coffee_red.head()
image.png

计算样本中喝咖啡的均值

(coffee_red[coffee_red['drinks_coffee'] == True]['height'].mean()
>68.11962990858618

重复抽取样本,计算其他样本中喝咖啡的均值,得到抽样分布

boot_means = []
for _ in range(10000):
    bootsample = coffee_full.sample(200, replace=True)
    mean = bootsample[bootsample['drinks_coffee'] == False]['height'].mean()
    boot_means.append(mean)

绘制抽样分布


image.png

计算抽样分布的置信区间以估计总体均值, 置信度95%

np.percentile(boot_means, 2.5), np.percentile(boot_means, 97.5)

(65.7156685999191, 67.17367777514218)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 统计学有两大主要分支,分别是描述性统计学和推断统计学。描述性统计学用于描述和概括数据的特征以及绘制各类统计图表。总...
    鱼心DrFish阅读 6,617评论 3 16
  • 十二、为什么均值重要 原文:Why the Mean Matters 译者:飞龙 协议:CC BY-NC-SA 4...
    布客飞龙阅读 2,004评论 0 2
  • 引入 尝试根据统计量来推断总体参数, 例如钓鱼如果撒一张网调到鱼的可能性更大, 那么这个网需要多大呢 那么网越大,...
    IntoTheVoid阅读 3,432评论 0 11
  • 十一、估计 原文:Estimation 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 在前...
    布客飞龙阅读 1,026评论 0 2
  • 我三十二岁了,07年先后住了三次院,第三次整整一个月,三十二岁之前,我身康体健,从未生过病,打针吃药都没有,唯一两...
    波妮灿阅读 162评论 0 0