统计显著性与实际显著性
一、课堂内容
1.统计显著性与实际显著性的概念
- 统计上显著性是指:估计总体参数落在某一区间内,可能犯错误的概率(statistics significance)
- 实际显著性是指:由于各总体存在内在变异性,当两个总体之间的差异绝对超过总体内部这类变异性(practical significance)
2.代码操作
用自助法对比计算了均数差的传统方法。
下面的代码是老师从stack overflow中的一个帖子里复制粘贴的代码,然后做了修改。
import statamodels.stats.api as sms
x1 = coffee_red[coffee_red['drinks_coffee'] == True]['height']
x2 = coffee_red[coffee_red['drinks_coffee'] == False]['height']
cm = sms.CompareMeans(sms.DescrStatsW(x1), sms.DescrStataW(x2))
cm.tconfint_diff(usevar = 'unequal')
3.置信区间的相关术语
(1)误差范围(Margin of Error(EOR)):是置信区间宽度的一半,通过对样本估计值的加减,达到置信区间的最终结果。
(2)置信区间宽度(Confidence Interval Width):置信区间上限与下限的差异
(3)增加样本容量,会降低置信区间的宽度;增加置信度(95%增加到99%)会增加置信区间的宽度
4.置信区间得出的结论类型
- 置信区间是基于对数据的整体模拟给出总体的参数;不能给出个别数据的特征。
- 机器学习采用个别方法得出结论,因为通过每个单独数据点预测结果。
二、总结
(1)用自助法模拟传统检验的代码没看懂,很多表达方法没明白为什么要这么写,视频里也没提到,估计不属于现阶段需要掌握的内容,但是后续中还要重新研究。
(2)置信区间表达的的共性的问题,不能用来评价单个个体的情况,也不能说明所有个体,可能适合描述具有某类特征的集合体;机器学习更期待获得个性特征。
这是Udacity数据分析(入门)课程的统计学lesson11的学习笔记三
Lesson11的课程学习结束
转载请注明出处