*by *KAREN GRACE-MARTIN
学习高水平统计学时,最难理解的概念是协方差矩阵和协方差结构。理解它们是学习一些统计分析尤其是混合模型和结构方程模型的基础。一旦了解它们,你会发现其实没那么可怕。
什么是协方差矩阵?
让我们从矩阵开始。矩阵是线性代数里的一个概念,强烈建议学习这门课程。你可以用矩阵处理很多非常复杂的、数学上的事情。但作为一个研究人员和数据分析人员,不需要用矩阵解决全部的复杂处理。你只需要知道矩阵是什么,理解概念,了解一些简单的矩阵处理,比如一个矩阵乘以一个常数。如果这还不行,你得知道矩阵就是一个表格。
和许多统计中利用的矩阵类似,协方差矩阵是对称的。举一个最简单的例子,相关矩阵。
如果这个写成矩阵的形式,你只能看到数字,而没有行列名。协方差矩阵与之相像,但也有不同。
协方差只是未标准化的相关——为了计算相关,我们用两个变量的标准差除协方差,消除测量单位。所以协方差只是用原始变量的单位测定的相关。协方差又不像相关,不被限制于-1~1之间,协方差=0和相关=0的意思是一样的——没有线性关系。由于协方差是带单位的,值越大,相应的变量分布就越广。对角元素是每个变量的方差。什么是协方差结构?
协方差结构是协方差矩阵的模式。有以下几类:
复合对称(Compound Symmetry),方差组分(Variance Components),非结构化(Unstructured)。它们只是模式的说明。比如复合对称结构仅仅是指所有方差相等,所有协方差也相等,对应于单变量方法。但是对于不同尺度的变量是无意义的。方差组分是指每个方差都不相同,并且全部协方差=0。如果变量完全独立,并且彼此测量尺度不同,才是有意义的模式。非结构化是指根本没有模式,每个方差和协方差完全不同,彼此间没有关系,对应于多变量方法。协方差结构有很多种,只有在特定的统计条件下才有意义。