正态分布被称为“统计学的圣杯”。它存在1.0、2.0、3.0三个版本,含义由表及里。李连江老师见他比喻为1.0是酒杯杯座显而易见、2.0是酒杯杯身进一步提升、3.0是杯中的酒含有无穷韵味。
单个杂乱无章的数据处理后结果分为三个层级理解:
(1)个体的某个属性(1.0版):属性的分布,非常具体直观,每个数据点为属性(注意点的意义);
属性分布时曲线最高点是平均值μ发生的次数;曲线下降或上升的坡度是标准差σ决定的;标准分数z代表个体属性距离平均值的距离与标准差σ的倍数(查表得发生概率);
(2)抽样误差(2.0版):样本统计值与总体参数之间的差距,每个数据点为以此样本统计值(注意点的意义);
前边讨论过个体属性在整体中所处的位置和某一个属性可能发生的概率。仅仅从一维的角度出发,并且忽略了一个很重要的问题“样本与总体”。实际处理问题时,我们很难将整个数据总体完全测量,通常近似随机的抽取样本,尽量减小误差。如何衡量样本统计值(可以是平均值、回归系数、净回归系数等)与总体参数的误差,可以经过多次的抽样,利用得到的数据二次构建分布图形观察。
抽样误差的平均值一定是0;这里抽样误差的标准差叫做标准误(standard error);抽样误差的标准值代表抽样误差出现的概率,也就是这个样本出现的概率。
(3)概率的指标值(3.0版):概率指标值(标准值、t值)代表每个点(注意点的意义)。
标准值代表着发生的概率(查表得到):1.0版本中的个体属性标准值;2.0版本中的标准误(样本误差标准值);还没接触到的t值
总结:1.0—3.0版的正态分布分为三步:第一步,理解概率指标值的个体或个别;第二步,理解概率指标值的特殊;第三步,理解概率指标值的共相。即通过个体(单一)到特殊(类别),又从特殊(类别)到一般(总体)做出了正态分布图。研究的对象不断在变化,不变的是我们所要探究的是“事物发生的概率”。