统计学L11 置信区间(三)

统计显著性与实际显著性

一、课堂内容

1.统计显著性与实际显著性的概念
  • 统计上显著性是指:估计总体参数落在某一区间内,可能犯错误的概率(statistics significance)
  • 实际显著性是指:由于各总体存在内在变异性,当两个总体之间的差异绝对超过总体内部这类变异性(practical significance)
2.代码操作

用自助法对比计算了均数差的传统方法。
下面的代码是老师从stack overflow中的一个帖子里复制粘贴的代码,然后做了修改。

import statamodels.stats.api as sms

x1 = coffee_red[coffee_red['drinks_coffee'] == True]['height']
x2 = coffee_red[coffee_red['drinks_coffee'] == False]['height']

cm = sms.CompareMeans(sms.DescrStatsW(x1), sms.DescrStataW(x2))
cm.tconfint_diff(usevar = 'unequal')
3.置信区间的相关术语

(1)误差范围(Margin of Error(EOR)):是置信区间宽度的一半,通过对样本估计值的加减,达到置信区间的最终结果。

(2)置信区间宽度(Confidence Interval Width):置信区间上限与下限的差异

(3)增加样本容量,会降低置信区间的宽度;增加置信度(95%增加到99%)会增加置信区间的宽度

4.置信区间得出的结论类型
  • 置信区间是基于对数据的整体模拟给出总体的参数;不能给出个别数据的特征。
  • 机器学习采用个别方法得出结论,因为通过每个单独数据点预测结果。

二、总结

(1)用自助法模拟传统检验的代码没看懂,很多表达方法没明白为什么要这么写,视频里也没提到,估计不属于现阶段需要掌握的内容,但是后续中还要重新研究。

(2)置信区间表达的的共性的问题,不能用来评价单个个体的情况,也不能说明所有个体,可能适合描述具有某类特征的集合体;机器学习更期待获得个性特征。

这是Udacity数据分析(入门)课程的统计学lesson11的学习笔记三
Lesson11的课程学习结束
转载请注明出处

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容