昨天从一个坑爬出来,今天又掉进另一个坑里
问题就是这么个问题,生存回归单因素分析的95%CI和HR,为什么和cox多因素算出来的不一样?丁香园的人说,这是因为共线性的问题。
于是小张又踏上了解决共线性的问题的道路
此文贼长,看到最后有个小彩蛋
百度文库里有一个很详细全面的文档(认真一看,其实也不是很详细),丁香园子里还有个老师是用sas做的,但是那个文档看起来很头晕
多重共线性问题的几种解决方法 - 百度文库wenku.baidu.com
还是我自己来,首先你要怎么的得知自己的几个变量它就共线性了呢
完全不知道这个是在说什么
让我们回到COX需要满足的条件
接着就是——多重线性回归看是否符合假设3-8
经过上述操作,dataview出现了五个新变量
这5个变量分别是未标化预测值(unstandardized predicted values,PRE_1)、学生化残差(studentized residuals SRE_1)、学生化删除残差(studentized deleted residuals,SDR_1)、Cook距离(Cook's Distance values,COO_1)以及杠杆值(leverage values,LEV_1)。
根据这5个新增变量和其它结果,我们将逐一对假设3-8进行检验。
假设3.DURBIN-WATSON检验可用于观测变量间是否有影响,一般处于0-4之间,越接近2,观测值相互独立的可能性越大
假设4.因变量和自变量之间存在线性关系
(1)因变量和所有自变量之间的关系
一般来说,如果未标化预测值(PRE_1)和学生化残差(SRE_1)的散点图呈水平带状,就说明多重线性回归中因所有自变量之间存在线性关系。结果提示,本研究满足因变量与所有自变量之间存在线性关系的假设。
(2).因变量与每一个自变量是否有关
假设5.残差的方差齐
这些就属于方差不齐
假设6.不存在多重共线性
一般来说,如果自变量之间的相关系数大于0.7,则可能存在多重共线性。本研究中,任意两个自变量的相关系数都小于0.7,提示不存在多重共线性。
点击Collinearity diagnosis,SPSS可以输出容忍度(Tolerance)和方差膨胀因子大于10。
实际上,方差膨胀因子是容忍度的倒数(1/容忍度),我们只需要判断其中一个指标即可。如果容忍度小于0.1(或方差膨胀因子大于10),提示数据存在多重共线性。
在本研究中,所有容忍度值都大于0.1,提示数据满足假设6。
假设7.没有显著异常值
1.离群值
方法1.Casewise Diagnostics检验标准是上下3倍标准差,并标记超出此范围的数据为离群值。
如果研究中没有标化残差超出3倍标准差的离群值,SPSS就不会输出该表格。本研究中没有标化残差超出3倍标准差的离群值,SPSS也未输出Casewise Diagnostics检验结果
方法2.将学生化删除残差降序(或升序)排列后,在数据栏的最上方和最下方检查是否存在超过3倍标准差的离群值。如果存在,就应进行相应的调整或剔除。
2.高杠杆点
自变量的异常值即高杠杆点。高杠杆点可以通过杠杆值检测。Distance框内点选Leverage values后,新增变量(LEV_1)就是杠杆值。Data View窗口中,右击LEV_1数据栏,选择"Sort Descending"(或Sort Ascending)。将杠杆值降序(或升序)排列后,检查杠杆值。
一般来说,如果杠杆值小于0.2,可以认为数据安全。但如果杠杆值位于0.2-0.5之间,则认为对应数据可能是高杠杆点;若杠杆值大于0.5,数据就很可能是高杠杆点了。
我发现自己的文章有一堆高杠杆点
3.强影响点
COO_1,小于1就认为ok
假设8.残差近似正态分布
离对角线越近,越认为是正态分布
PP图比直方图更直观
近似即可
太累了,不能连续打出一段话了,以上,我看完资料的三点总结
八个假设走一遭
文末的小彩蛋~啾
没了,哈哈哈