均数差
一、课堂内容
如何利用代码计算均差数,并通过均差数的置信区间来得出相关的推断结论。
置信区间表达的意思是,在区间内,满足区间条件。
二、项目练习
1. 对于10,000次迭代,自展法(bootstrap)会对你的样本数据进行抽样,计算喝咖啡和不喝咖啡的人的平均身高的差异。使用你的抽样分布建立一个99%的置信区间。
diff_coffee = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample[coffee_sample['drinks_coffee'] == True]['height'].mean()
nd_coffee = coffee_sample[coffee_sample['drinks_coffee'] == False]['height'].mean()
diff_coffee.append(d_coffee - nd_coffee)
plt.hist(diff_coffee)
np.percentile(diff_coffee, 0.5), np.percentile(diff_coffee, 99.5)
2. 对于10,000次迭代,自展法会对样本数据进行抽样,计算21岁以上和21岁以下的平均身高的差异。使用你的抽样分布构建一个99%的置信区间。
diff_coffee = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample[coffee_sample['age'] == '<21']['height'].mean()
nd_coffee = coffee_sample[coffee_sample['age'] != '<21']['height'].mean()
diff_coffee.append(d_coffee - nd_coffee)
plt.hist(diff_coffee)
np.percentile(diff_coffee, 0.5), np.percentile(diff_coffee, 99.5)
3. 对于10,000次迭代,自展法会对你的样本数据进行抽样,计算出21岁以下个体的喝咖啡的人的平均身高和不喝咖啡的人的平均身高之间的差异。使用你的抽样分布,建立一个95%的置信区间。
diff_21 = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample.query("age == '<21' and drinks_coffee == True")['height'].mean()
nd_coffee = coffee_sample.query("age == '<21' and drinks_coffee == False")['height'].mean()
diff_21.append(d_coffee - nd_coffee)
plt.hist(diff_21)
np.percentile(diff_21, 2.5), np.percentile(diff_21, 97.5)
4. 对于10,000次迭代,自展法会对你的样本数据进行抽样,计算出21岁以上个体的喝咖啡的人的平均身高和不喝咖啡的人的平均身高之间的差异。使用你的抽样分布,建立一个95%的置信区间。
diff_21 = []
for _ in range(10000):
coffee_sample = sample_data.sample(200, replace = True)
d_coffee = coffee_sample.query("age != '<21' and drinks_coffee == True")['height'].mean()
nd_coffee = coffee_sample.query("age != '<21' and drinks_coffee == False")['height'].mean()
diff_21.append(d_coffee - nd_coffee)
plt.hist(diff_21)
np.percentile(diff_21, 2.5), np.percentile(diff_21, 97.5)
三、总结
1.query
(1)再次巩固了用法,可以用来表内链接各列。在后两个问题中需要链接3个列,其中一个列用[]表示链接,其余列可以通过query先链接。
(2)使用过程中注意query后面用(),并且内部必须是字符串格式。
(3)false和ture作为表格中默认的内容,不能作为字符串格式出现在query中。
(4)判断列中数字取值范围时,不能用>=这样的表达方式,但是可以用<。用>会数据溢出。可以用!='<21'这样的方式表达。
2.数列迭代
变量名.append()
这是Udacity数据分析(入门)课程的统计学lesson11的学习笔记二
转载请注明出处