统计入门系统知识--多因素线性回归

案例1:研究究高血压患者血压与性别、年龄、身高、体重等变量的关系,随机测量了32名40岁以上的血压y、年龄X1、体重指数X2、性别X3,试建立多重线性回归方程。数据文件见mreg.sav。


多因素线性回归应用条件

线性(linear)、独立性(independent)、正态性(normal)、方差齐性(equal variance)----LINE

   线性—自变量与应变量的关系是线性的。用散点图判断

   独立性—任意两个(残差)观察值互相独立。常利用专业知识判断

   正态性—要求残差服从正态分布。常用残差图分析

   差齐性—要求残差的方差齐性。用散点图或残差图判断


多因素线性回归分析步骤

1.线性关系描述(包括散点图)

2.用各变量的数据建立线性回归方程

3.对总的方程进行假设检验


案例分析

1.根据知识判断三个自变量,在理论上是否可能会影响血压的改变

2.与简单线性回归相类似,先绘制散点图,以便在进行回归分析之前了解各变量之间是否存在线性关系。

3.本例有2个连续性定量自变量与一个反应变量,绘制散点图矩阵,如下。二分类或无序多分类,无需散点图。

第一步:散点图       

SPSS路径:Graphs→ Legacy Dialogs → Scatter/Dot→ matrix scatter


第二步:多因素线性回归分析

SPSS路径:Analyze→ regression → linear



残差独立性 b值的95%CI的置信区间


残差正态性、方差齐性


计算预测值和残差

第三步:结果解读

结果1: 

模型拟合优度情况,调整R^2=0.775,说明对真实世界模拟度好

Durbin-Watson值=1.969,在1-3之间,独立性符合

R^2结果和残差独立性检验( Durbin-Watson检验)

结果2: 

本例F=36.542,P<0.001,说明至少有一个自变量解释了一部分的因变量的变异,模型成功建立,模型具有统计学意义。

方差分析(ANOVA),主要探讨模型是否成功建成

结果3:

①回归系数b值,统计学上称为偏回归系数

②回归系数的抽样误差,即标准误

③Beta值,它是标准化b值,标准化回归系数。可以用来比较各个自变量x对y的影响程度。它回答以下问题:年龄、性别和体重指数,到底谁对y的影响更大。在本例中,年龄对血压的改变影响最大(它解释了血压最大程度的变异)。

④t值,是各个回归系数进行假设检验的检验统计量,线性回归检验统计量为t值。

⑤显著性:即P值。P<0.05说明自变量与因变量回归关系成立,有关系,有影响。

回归分析的主要结果: 计算回归系数、并对回归系数进行假设检验,探讨影响因素。

本研究结果显示,年龄对血压的影响的存在着统计学差异(b=0.99,t=3.22,P<0.001);这意味着年龄每增加一个单位(在本研究中一单位等于一岁),血压将上升0.99个单位

本研究结果显示,BMI对血压的影响的存在着统计学差异(b=1.08,t=2.14,P=0.041);这意味着BMI每增加一个单位,血压将上升1.08个单位

本研究结果显示,(b=-9.327, t=-3.72,P=0.002)男性=1,女性=2,女性相对男性,血压低9.33个单位;男性是高血压危险因素(对照组为低值组)

多因素回归分析结果表达

纳入年龄、体重指数和性别构建多因素线性回归方程。结果发现,不同年龄(岁)对血压的影响有统计学差异(b=0.99,95%CI 0.36-1.62,t=3.22,P<0.001),不同的性别(男性较女性)对血压的影响有统计学差异(b=-9.33,95%CI -14.47- -4.19,t=3.22,P=0.003),不同的体重指数对血压的影响有统计学差异(b=1.08,95%CI 0.05-2.11,t=2.14,P=0.041)。

结果4:

残差统计:PRE_1(预测值)和RES_1(残差) ,两组相加,刚好是y“血压值”

结果5:

残差直方图:本例残差均数接近于0,标准差接近于1,数据呈正态分布(标准正态分布)

残差直方图

结果6:

残差图。本例从图形来看,标准化残差图分布在0值周围,基本是上下对称分布,分布特征不随预测值的增加而发生改变,意味着数据方差齐性、独立性条件符合。

残差图

线性回归分析注意事项:


1.线性回归分析LINE条件不成立怎么办?

•线性:如果X和Y的关系是非线性的关系(如曲线关系),则回归系数b值无法值正确反映X和Y 的关系(X是二分类、无序多分类除外)

处理方法:将X转为哑变量处理(分类),或者曲线回归,或者对自变量x进行转换(指数转换x^3,或者对数转换log(x)等)。

•正态性:如果残差不符合正态性(一般是严重偏态分布),则可以考虑对y或者x进行数据转换(比如BOX-COX转换),推动残差正态分布;或将y转成2分类或多分类数据采用logistic回归

方差不齐:方差不齐可以采用其他方法估计回归系数,常见的如加权最小二乘法估计回归系数

•独立性:如果独立性条件不符合,则采用非独立性的数据分析方法,比如线性混合模型、多水平模型、广义估计方程等。

数据不符合要求者,一定要谨慎开展线性回归分析。


2. 回归分析R^2很小怎么办?

医学研究线性回归有几个重要的用途,其中两个分别是预测结局,探讨影响因素。

目的是预测的线性回归,R^2非常重要,R^2越高,模型预测效果越好,所以经济学领域特别看中R^2。

医学研究开展回归模型,最大的目的是探讨影响因素(或者控制混杂)。在这个目的是,R^2无论大小,都不太影响结果。探讨影响因素,首要探讨的是某一个因素在假设检验中P值到底是否小于0.05。

有人说R^2这么小,建模有什么意思?我倒反驳说,就凭医学研究的那几个指标,你就想预测如此复杂的医学现象?痴人说梦!

所以,诸位不必纠结R^2是不是过小了!R^2虽好,不必苛求。


3.回归分析还需注意异常值

在实践中,科研工作者鉴别数据异常值是统计分析前首先要完成的工作,否则会导致前功尽弃,得不偿失。比如下图:虚线是代表受异常值影响而偏离的回归线。


引自:方积乾主编,生物医学研究的统计学方法(第二版)

异常值数据的识别可以通过简单、直观、有效的散点图,也可以计算相关统计量(比如残差或者广义平方距离获得)来反映。

发现可能的异常数据,不宜草率删除,应该仔细审查这些可能异常数据的获得过程。

•实验失误、记录错误或者录入错误等造成,考虑删除或者重新测量;

•若异常值便是个体本身造成,不便删除,否则会扭曲真实结果。


为什么多因素回归分析结果和单因素回归分析结果不一致?

原因在于,多因素回归分析时自变量直接存在相关性,或者很多时候我们说是多重共线性(即使程度很轻)。变量与变量复杂的关系,将影响模型构建的成功率,造成回归系数变动。

若变量之间没有相关,对于某一个自变量而言,多因素和单因素回归分析结果一致;

若存在着关系,当控制其它自变量不变时,多因素回归分析结果与单因素回归存在着一定的差异。


举例:探讨BMI与结局的关系

探讨BMI与结局的关系

单因素结果如下:b=1.506,P<0.001

纳入年龄后,结果截然不同:b=0.564,P=0.064

说明:年龄对BMI有影响,同时年龄对血压也有影响,而多因素回归当控制年龄不变时,两者之间的关系就不复存在。

医学上称年龄为混杂因素。

多因素回归法分析较单因素回归更能有效控制混杂因素,从而更为准确地探讨自变量对因变量的影响


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容