在开始的时候,我们要先明白一个问题。
什么叫做数学期望?
在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。
方差是这样定义的:
在概率论和统计中,方差是衡量随机变量或一组数据离散程度的度量。
意思其实就是:
若D(X)较小意味着X的取值比较集中在E(X)的附近,反之,则 X 的取值较分散。
方差和标准差之间的关系
标准差是 离均差 平方和 平均后 的方根,用σ表示。标准差是方差的算术平方根。
现在有个问题:
既然有了方差来描述变量与均值的偏离程度,
标准差的意义何在?
举个例子:一个班级里有60个学生,平均成绩是70分,标准差是9,方差是81,成绩服从正态分布,那么我们通过方差不能直观的确定班级学生与均值到底偏离了多少分,通过标准差我们就很直观的得到学生成绩分布在[61,79]范围的概率为0.6826,即约等于下图中的34.2%*2
标准差和标准误差
标准误全称:样本均值的标准误(Standard Error for the Sample Mean), 顾名思义,标准误是用于衡量样本均值和总体均值的差距。
(1)用于衡量样本均值和总体均值的差距有多大?
(2)标准误越小----样本均值和总体均值差距越小
(3)标准误越大----样本均值和总体均值差距越大
标准误用于预测样本数据准确性 ,标准误越小,样本均值和总体均值差距越小,样本数据越能代表总体数据。
对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误。
标准差是单次抽样得到的,用单次抽样得到的标准差可以估计多次抽样才能得到的标准误差
标准误计算例子:
但是为了得到标准误,我们不可能做很多次科学实验。实际上我们可以做一次样本实验,然后采用估算公式:
我们用第一组样本估算真实标准误,此样本标准差除以根号n,结果为7.16, 然后把7.16约等为真实的标准误6.33。
一个小问题,我现在也没懂!
为什么计算标准差的时候,要除以 n-1。
如果是算总体的标准偏差,分母就用n,这就是真实的标准偏差,属于描述统计。
如果是算样本的标准偏差,无偏估计是n-1,有偏估计是n。毕竟样本只是用来估量总体的情况,属于推论统计,所以利用样本计算总体个体差异性时候通常会保守估计,除以n-1得出来的标准偏差会比除以n的标准偏差来得大。
当然,当样本数量逐步逼近总体数量时,标准偏差的有偏估计和无偏估计的差别就会越来越小,这也符合统计学的本义。