从这一章开始,我们就要介绍多层次数据结构
用一个简单的说法就是嵌套
类内相关
那么这个相关性怎么计算呢?
其中τ^2 代表类间的方差;σ^2 代表类内的方差
从表达式来看,其实就是看类内方差在类内方差和类间方差的比例
那么对于一组数据,我们要计算类内相关性,首先就要计算 σ^2
我们假设有160所学校,10903位三年级学生,我们任意将其中5所学校划归到一个类别内,下面我们看下类内的相关性
这里的C指的是学校数量,N表示这5个学校三年级学生总数,n代表每个学校的三年级学生人数
解释下这个数据,我们一共收集了5个学校的数据:
第一列是学校代号
第二列是每个学校对应的三年级学生数量
第三列是姑且认为是阅读的得分
第四列是阅读得分的方差
那么5所学校三年级学生均值的计算方法也有讲究
按照下图的方式进行计算:
那么我们要求τ值,首先得算SB:
接着就可以计算τ^2值:
***SB - σ^2 / n
最后就可以计算ρ:
这个结果表示类内的相关性并不高,由于我们这5所学校是任意选的,我们按照下面式子估算抽样误差:
Multilevel Linear Models
1.Random Intercept
回顾一元线性回归
y是响应变量(非自由),x是决策变量(自由);β1为斜率系数,β0为截距
ε 为随机误差
这就是典型的单层次线性模型,对于所有data,共用一个截距
但是往往在一些情况下,我们需要的是多截距的情况,比方说对不同的类进行线性回归,可能会得到不同的截距,我们称之为group-specific intercepts
i 表示第i个决策变量
j 表示第j类,这样就可以整合成一个表达式了(可用矩阵表示)
当然我们对group-specific intercepts之间也可以用它们的均值加上“差异”来表示
γ00 表示各个类截距的均值; U0j 表示group-specific effect,即每个类截距和它们的截距均值之间的差异:
2. Random Slopes
我们把概念扩展一下,加上斜率,首先我们确定斜率的均值γ00和斜率γ10,那么对于一元线性回归:
我们可以将这个式子表示为两个层次:
即将它们的系数一一对应
同样的道理,我们每一个类的数据做线性回归,它们的斜率也不相同,所以我们也仿照截距弄一个:
其中γ10是各个类斜率的均值, U1j代表每个类中斜率与它们的均值的“差异”
即把模型拆成(γ00 + γ10xij)均值项和 (U0j + U1jxij+ εij) 差异项。
其中(γ10 + U1j)xij表示随机效应对固定效应斜率的影响,而(γ00 + U0j)表示随机效应对固定效应截距的影响
回顾τ^2,我们可以将U0j 视为τ0^2,U1j 视为τ1^2
我们先来看一张table:
还是那5个学校的例子,先解释下数据,还是阅读分数,只不过该线性回归表述的是阅读分数和词汇分数的线性关系;我们将160个学校分成5类,每一类的线性回归系数如上,最后一行为均值
由表中可以看到 τ0^2 = 0.439,τ1^2 = 0.016我们可以看到前者更大,那么说明截距带来的方差比斜率的更大
中心化
这一块内容在我前面的推送中已经强调了,这里简单说一下,中心化即为将数据平移到原点附近,而不改变数据的相对位置和性状
MLM的参数估计
1. 极大似然估计
寻找使似然函数达到最大的那个参数
2. 限制性极大似然估计
这个方法与上一个最大的区别是样本方差和均值的计算时可能是有偏估计,所以要除以观测值减1作为矫正,可参考:
https://www.jianshu.com/p/d277666c60b0
MLM的基本假设
我们假设双层次的模型,每一个类的截距和斜率是相互独立的
双层次模型的截距和系数与单层次的残差相互独立
残差序列满足高斯白噪声
拓展Two-Level MLMs
回顾下双层次一元线性回归
上面是自动决策变量是xij,Level1描述的是每个类的阅读成绩与词汇成绩的线性关系
Level2表述的是每个类的词汇成绩均值与Level1的线性系数之间的线性关系
接下来我们把上述式子拆成两个部分:
Level1是用于解释阅读分数和词汇分数之间的关系;Level2是用于表述线性回归系数的
对于Level2,我们可以看到每个类的词汇成绩均值与该类的Level1中的β呈线性相关
其中 γh1(h = 0,1;根据β角标来选) 代表每个类中词汇成绩均值的slope系数(与Level1的线性关系,随机效应)
那么我们整合模型可以看到(把Level2带入Level1中):
对于β0来说, γ00代表每一个类的截距均值,γ01代表每个类的斜率均值;U0j代表每个类的截距与γ00的“差异”,”
对于β1来说,γ11代表中的每个类的斜率均值,γ10代表中的每个类的截距均值;U1j代表每个类的截距与γ10的“差异
我个人感觉,上式的γ1001其实就是γ11
Overview of Three-Level MLMs
接下来我们讨论下三层次的模型
同理:
Level3往Level2里面带,Level2往Level1里面带;j和k根据系数的角标来做出变换
总结下,多层线性模型即每一类中,每一level的线性回归系数可用于线性再表示(即系数被下一level线性表示),一层一层嵌套
Summary
总结一下,
比如这个模型,β0j代表截距,属于随机效应,那么β0j即为随机截距,因为每一个类的截距都不一样;β1j代表斜率,也属于随机效应,不过是β1j = γ10(每个类斜率的均值),所以β1j是固定的
其中Var(εij) = σ^2组内方差;Var(U0j) = τ^2 组间方差
此例子的固定效应是主要研究阅读分数x与词汇分数y的线性关系;而随机效应则是对Level1的线性回归系数的影响