习题1:投掷N枚硬币,正面出现57次,尝试通过计算回答,假设N=100枚要舍弃还是要接受?
答:假设N=100,正面出现的枚数近似于平均值为50,S.D为5的正态分布
因此,95%预测命中区间为
-1.96<= (x - 50)/5 <= 1.96
40.2<= x <= 59.8
得出结论:正面出现57次在假设范围内,所以N=100的假设可采用
习题2:随机抽样30个GRE成绩,平均分数为1082分,标准差为108分,决定下列参数的95%和99%置信区间
(1)总体均值
(2)总体标准差
解析
此处需要明确一个知识点,关于正态母群体中去样本均值的特质(源自《极简统计学》p130)
具体特质如下:
正态母群体的总体均值为μ,总体标准差为σ,从中观测的n个数据x的样本均值的分布也是正态分布。
其分布的平均值仍为μ,标准差为 σ/√n ,缩小为母群体的 √n 分之一。
从上面的性质可以得出以下结论:
对于均值为μ、标准差为σ的一个正态母群体数据的n个样本均值来说,95%置信区间为由以下不等式解出来的范围,a为样本均值
-1.96 <= (a-μ)/(σ/√n)) <= +1.96
由以上解析过程可得出习题2的答案:
n=30,μ=1082,σ=108,带入公式可得如下不等式:
95%的置信区间 -1.96 <= (a-1082)/(108/√30)) <= 1.96
99%的置信区间 -2.58 <= (a-1082)/(108/√30)) <= 2.58
得出结论:
95%的置信区间 样本均值的范围为 1043.35 ~ 1120.65
99%的置信区间 样本均值的范围为 1031.13 ~ 1132.87
区间估计解惑
我们来看一个案例:进行投掷N枚硬币的实验,已知出现10枚正面的结果。思考投掷枚数N,是从几枚到几枚?
解析
关于总体参数N,将投掷N枚硬币出现正面枚数的数据作为母群体,为正态分布,其平均值为μ = N/2,S.D.为 σ = √n/2
此时根据 z = (10-μ)/σ计算得到z,如果使不等式 -1.96 <= z <= 1.96 成立则不舍弃(采用)N,不成立则舍弃N
观察上图可以明白,N在12枚以下不等式不成立,或N在31枚以上不等式也不成立,所以这些N对母群体来说不妥当要舍弃。
因此,留下的N为“13<= N <= 30”,这叫做“N的95%置信区间”,是关于N的区间估计的结果。
置信区间的95%的含义
95%是这样的一个百分数,它不是对“作为真正的N一共有95%在区间13<= N <=30中”的估计,而是对“如果持续进行区间估计,可求得对应观测值的各种各样的区间,但在100次中有95次真正的N落在求出的区间内”的估计。
ps:
- 另附 《极简统计学》的知识点快速get 文章,有需要的戳进链接 极简统计学-帮你快速入门统计学
最近正在被简书插入数学公式的问题困扰,搜索一番后发现并没有直截了当的办法,都是迂回战术。因为最近想翻译《机器学习》的讲义顺带整理笔记,发现简书在这方面还真是无法满足需求。最近先试着写一篇吧,如果不行只能转战其他地方。
在查询的过程中,找到了markdownpad 添加 mathjax 插入数学公式的方式,虽然简书无法实现,但聊胜于无。总的来说用着还是很便捷的,链接附上,有需要的自行戳进 Markdown中实时显示数学公式的方法
以上。