置信区间的构建
一、课堂内容
1.置信区间的概念
(1)如果将找到总体参数比做抓鱼的话,估计样本参数值的具体数值就是钓鱼,用一个固定值去抓住对应的样本参数,这种方法比较难。另一种相对容易的办法则是用网捞鱼,置信区间就像一个大网,保证总体的参数落在这个大网的范围内,比固定的提前预知一个值去对应参数要容易很多。
(2)置信区间一般按照百分比衡量,比如95%,表示95%的总体平均数落在这个区间内。
2.构建置信区间的代码
np.percentile(变量名, 2.5), np.percentile(变量名, 97.5)
其中2.5来自置信区间的取值范围。
如果希望置信区间为95%,则,两边共排除5%,每边排除2.5%。所以,左边取值为2.5,右边为95+2.5=97.5。
二、项目练习
0.前提条件
import pandas as pd
import numpy as np
np.random.seed(42)
coffee_full = pd.read_csv('coffee_dataset.csv')
coffee_red = coffee_full.sample(200) #this is the only data you might actually get in the real world.
1. 样本中喝咖啡的人的比例是多少?不喝咖啡的人的比例是多少?
表格中取某一列计算均值,用[]取列名,[]里的名字应当是str格式。默认值为True。
#喝咖啡的比例#
coffee_red['drinks_coffee'].mean()
#不喝咖啡的比例#
1 - coffee_red['drinks_coffee'].mean()
2. 在喝咖啡的人中,他们的平均身高是多少?在不喝咖啡的人中,他们的平均身高是多少?
每次调用列名前均需加载表名。
#喝咖啡人的平均身高#
coffee_red[coffee_red['drinks_coffee']]['height'].mean()
#不喝咖啡人的平均身高#
coffee_red[coffee_red['drinks_coffee'] == False]['height'].mean()
3. 模拟来自200个原始样本的200个“新”个体。在该有放回抽样样本(bootstrap sample)中,喝咖啡的人的比例是多少?不喝咖啡的人的比例是多少?
表格模拟用sample。
#从样本中模拟#
#喝咖啡的人#
coffee_red.sample(200, replace = True)['drinks_coffee'].mean()
#不喝咖啡的人#
1 - coffee_red.sample(200, replace = True)['drinks_coffee'].mean()
4. 现在模拟10,000次有放回抽样,并取每个样本中不喝咖啡的人的平均身高。每个有放回抽样样本应该是从200个数据点中取出的第一个样本。绘制分布图,并拉出95%置信区间所需的值。
#模拟一万次#
coffee_fun = []
for _ in range(10000):
coffee_1 = coffee_red.sample(200, replace = True)
coffee_fun.append(coffee_1[coffee_1['drinks_coffee'] == False]['height'].mean())
#选出置信区间95%#
np.percentile(coffee_fun, 2.5), np.percentile(coffee_fun, 97.5)
这是Udacity数据分析(入门)课程的统计学lesson11的学习笔记一
转载请注明出处