案例1:研究究高血压患者血压与性别、年龄、身高、体重等变量的关系,随机测量了32名40岁以上的血压y、年龄X1、体重指数X2、性别X3,试建立多重线性回归方程。数据文件见mreg.sav。
多因素线性回归应用条件
线性(linear)、独立性(independent)、正态性(normal)、方差齐性(equal variance)----LINE
线性—自变量与应变量的关系是线性的。用散点图判断
独立性—任意两个(残差)观察值互相独立。常利用专业知识判断
正态性—要求残差服从正态分布。常用残差图分析
差齐性—要求残差的方差齐性。用散点图或残差图判断
多因素线性回归分析步骤
1.线性关系描述(包括散点图)
2.用各变量的数据建立线性回归方程
3.对总的方程进行假设检验
案例分析
1.根据知识判断三个自变量,在理论上是否可能会影响血压的改变
2.与简单线性回归相类似,先绘制散点图,以便在进行回归分析之前了解各变量之间是否存在线性关系。
3.本例有2个连续性定量自变量与一个反应变量,绘制散点图矩阵,如下。二分类或无序多分类,无需散点图。
第一步:散点图
SPSS路径:Graphs→ Legacy Dialogs → Scatter/Dot→ matrix scatter
第二步:多因素线性回归分析
SPSS路径:Analyze→ regression → linear
第三步:结果解读
结果1:
模型拟合优度情况,调整R^2=0.775,说明对真实世界模拟度好
Durbin-Watson值=1.969,在1-3之间,独立性符合
结果2:
本例F=36.542,P<0.001,说明至少有一个自变量解释了一部分的因变量的变异,模型成功建立,模型具有统计学意义。
结果3:
①回归系数b值,统计学上称为偏回归系数
②回归系数的抽样误差,即标准误
③Beta值,它是标准化b值,标准化回归系数。可以用来比较各个自变量x对y的影响程度。它回答以下问题:年龄、性别和体重指数,到底谁对y的影响更大。在本例中,年龄对血压的改变影响最大(它解释了血压最大程度的变异)。
④t值,是各个回归系数进行假设检验的检验统计量,线性回归检验统计量为t值。
⑤显著性:即P值。P<0.05说明自变量与因变量回归关系成立,有关系,有影响。
本研究结果显示,年龄对血压的影响的存在着统计学差异(b=0.99,t=3.22,P<0.001);这意味着年龄每增加一个单位(在本研究中一单位等于一岁),血压将上升0.99个单位
本研究结果显示,BMI对血压的影响的存在着统计学差异(b=1.08,t=2.14,P=0.041);这意味着BMI每增加一个单位,血压将上升1.08个单位
本研究结果显示,(b=-9.327, t=-3.72,P=0.002)男性=1,女性=2,女性相对男性,血压低9.33个单位;男性是高血压危险因素(对照组为低值组)
多因素回归分析结果表达
纳入年龄、体重指数和性别构建多因素线性回归方程。结果发现,不同年龄(岁)对血压的影响有统计学差异(b=0.99,95%CI 0.36-1.62,t=3.22,P<0.001),不同的性别(男性较女性)对血压的影响有统计学差异(b=-9.33,95%CI -14.47- -4.19,t=3.22,P=0.003),不同的体重指数对血压的影响有统计学差异(b=1.08,95%CI 0.05-2.11,t=2.14,P=0.041)。
结果4:
结果5:
残差直方图:本例残差均数接近于0,标准差接近于1,数据呈正态分布(标准正态分布)
结果6:
残差图。本例从图形来看,标准化残差图分布在0值周围,基本是上下对称分布,分布特征不随预测值的增加而发生改变,意味着数据方差齐性、独立性条件符合。
线性回归分析注意事项:
1.线性回归分析LINE条件不成立怎么办?
•线性:如果X和Y的关系是非线性的关系(如曲线关系),则回归系数b值无法值正确反映X和Y 的关系(X是二分类、无序多分类除外)
处理方法:将X转为哑变量处理(分类),或者曲线回归,或者对自变量x进行转换(指数转换x^3,或者对数转换log(x)等)。
•正态性:如果残差不符合正态性(一般是严重偏态分布),则可以考虑对y或者x进行数据转换(比如BOX-COX转换),推动残差正态分布;或将y转成2分类或多分类数据采用logistic回归
方差不齐:方差不齐可以采用其他方法估计回归系数,常见的如加权最小二乘法估计回归系数
•独立性:如果独立性条件不符合,则采用非独立性的数据分析方法,比如线性混合模型、多水平模型、广义估计方程等。
数据不符合要求者,一定要谨慎开展线性回归分析。
2. 回归分析R^2很小怎么办?
医学研究线性回归有几个重要的用途,其中两个分别是预测结局,探讨影响因素。
目的是预测的线性回归,R^2非常重要,R^2越高,模型预测效果越好,所以经济学领域特别看中R^2。
医学研究开展回归模型,最大的目的是探讨影响因素(或者控制混杂)。在这个目的是,R^2无论大小,都不太影响结果。探讨影响因素,首要探讨的是某一个因素在假设检验中P值到底是否小于0.05。
有人说R^2这么小,建模有什么意思?我倒反驳说,就凭医学研究的那几个指标,你就想预测如此复杂的医学现象?痴人说梦!
所以,诸位不必纠结R^2是不是过小了!R^2虽好,不必苛求。
3.回归分析还需注意异常值
在实践中,科研工作者鉴别数据异常值是统计分析前首先要完成的工作,否则会导致前功尽弃,得不偿失。比如下图:虚线是代表受异常值影响而偏离的回归线。
异常值数据的识别可以通过简单、直观、有效的散点图,也可以计算相关统计量(比如残差或者广义平方距离获得)来反映。
发现可能的异常数据,不宜草率删除,应该仔细审查这些可能异常数据的获得过程。
•实验失误、记录错误或者录入错误等造成,考虑删除或者重新测量;
•若异常值便是个体本身造成,不便删除,否则会扭曲真实结果。
为什么多因素回归分析结果和单因素回归分析结果不一致?
原因在于,多因素回归分析时自变量直接存在相关性,或者很多时候我们说是多重共线性(即使程度很轻)。变量与变量复杂的关系,将影响模型构建的成功率,造成回归系数变动。
若变量之间没有相关,对于某一个自变量而言,多因素和单因素回归分析结果一致;
若存在着关系,当控制其它自变量不变时,多因素回归分析结果与单因素回归存在着一定的差异。
举例:探讨BMI与结局的关系
单因素结果如下:b=1.506,P<0.001
纳入年龄后,结果截然不同:b=0.564,P=0.064
说明:年龄对BMI有影响,同时年龄对血压也有影响,而多因素回归当控制年龄不变时,两者之间的关系就不复存在。
医学上称年龄为混杂因素。
多因素回归法分析较单因素回归更能有效控制混杂因素,从而更为准确地探讨自变量对因变量的影响