病例对照研究(回顾性调查)
•病例对照研究(case-control study)
•研究对象分为病例组、对照组(广义来说阳性组/阴性组)
•回顾性比较阳性事件(发病/死亡/有效)前接触某暴露因素的状况
•通过比较暴露因素在阳性组和对照组的差异性,初步探讨了发生阳性事件有关的原因 •
•不仅研究发病的有关原因
•广义来说,探讨阳性事件发生的影响因素
病例对照研究的基本思维
•如果一项暴露因素影响了结局,比如吸烟提升了肺癌的发生率
•则肺癌人群的过去吸烟比例将高于非肺癌人群
病例对照研究数据整理方式
病例对照研究统计分析过程
(一)统计描述
(二)简单关联性研究方法
•差异性分析:常用卡方检验
•或单因素回归分析—logistic回归
关联性指标 OR值,优势比/比数比(oddsratio,OR)
优势(odds)是指二分类事件中一类事件相对于其对立事件的优势。
病例组中优势:暴露数/非暴露数
对照组中优势:暴露数/非暴露数
OR值大于1,提示暴露促进阳性事件的发生;
OR值小于1,提示暴露阻碍阳性事件的发生;
OR值等于1,提示暴露与阳性事件发生无关。
OR值越远离1,暴露对结局的影响程度越大,它几乎可以用倍数或者百分比来反映暴露因素相对结局的影响。
OR=3,意味着暴露组相对对照组,产生阳性结局的可能性几乎增加2倍
OR=0.6,意味着暴露组相对对照组,产生阳性结局的可能性几乎减少40%
举例:
例1:某医师基于某医院开展病例对照研究,探讨冠心病发病有关的影响因素,收集新发冠心病患者作为病例组,收集同期医院非循环系统疾病患者作为对照组,研究的暴露因素是病人的年龄age、性别sex、心电图检验是否异常ecg、高血压hyper、糖尿病diabetes。数据见casecontrol.sav。
步骤(一)
对年龄进行差异性分析 ①正态检验,两组年龄分布 ②t检验,两组差异
步骤(二)
对分类变量进行卡方检验,计算OR值、P值
步骤(三)
差异性分析结果可以合并成一张总表:表格有两种形式,不带OR值和带OR值。
不带OR值
(三)多因素Logistic回归分析方法
多因素回归分析操作步骤 Analyze → regression → binary logistic
模型效果评价
Omnibus Tests of model Coefficients 结果里面的三行分别指的是:
步骤(step)统计量是每一步与前一步的似然比检验结果,
块(block)是指将blockn与block n-1 相比的似然比检验结果,
模型(model) 一行输出了Logistic回归模型中所有参数是否均为0的似然比检验结果,这是总体评价的关键检验。P<0.05表示本次拟合的模型中,纳入的变量中,至少有一个变量的OR值有统计学意义,即模型总体有意义。
量化评价拟合优度效果。
质性评价拟合优度效果。
主要回归结果分析
核心分析的结果:Logistic回归分析分别回归系数b值、b值的标准误、Wald卡方值(瓦尔德)、自由度、P值(显著性)、OR值(ExpB)及其置信区间。
Wald 卡方值(瓦尔德)和P值是对回归系数b值的假设检验。P<0.05,
说明该变量对结局的影响具有统计学意义;本例,性别、年龄、心电图表现、有无高血压变量对结果具有统计学意义
Exp B即OR值,与回归系数的关系是e^b值。OR值置信区间与P值的关系是:当P<0.05,则置信区间不包括1;当P>0.05,则置信区间包括1。
SPSS分析中,阳性事件指的是数据库结局变量赋值较大的结局
SPSS统计分析在二分类自变量的影响时,默认是以自变量赋值较低作为对照,探讨赋值较大者能否相对能否增加阳性事件概率。
规范文字1:纳入年龄、心电图和性别等构建多因素Logistic回归方程。结果发现:心电图异常对冠心病的影响具有统计学意义(OR=3.40,95%CI 1.81-6.37, P<0.001);年龄对冠心病的影响具有统计学意义(OR=1.09, 95%CI 1.03-1.15, P=0.001); 性别对冠心病的影响具有统计学意义(OR=6.24,95%CI 2.50-15.56, P<0.001);高血压状况对对冠心病的影响具有统计学意义(OR=10.81,95%CI4.15-28.20, P<0.001)。
规范文字2:纳入年龄、心电图和性别等构建多因素Logistic回归方程。结果发现:心电图异常等级增加将增加冠心病的风险,具有统计学意义(OR=3.40,95%CI1.81-6.37, P<0.001);年龄越大冠心病风险越高,具有统计学意义(OR=1.09,95%CI 1.03-1.15, P=0.001);相对女性,男性增加冠心病发生的风险,差异具有统计学意义(OR=6.24,95%CI 2.50-15.56, P<0.001);高血压增加冠心病的风险,差异具有统计学意义(OR=10.81,95%CI4.15-28.20, P<0.001)。
特别提醒:Logistic回归OR值不能代表风险增加的准确倍数,因此文字描述,切勿说相对女性,男性增加冠心病风险5.24倍的说法。
变量赋值注意事项
OR值大于1是暴露促进结局变量赋值较大值事件的发生(比如赋值1)
构建数据库时,暴露编码值要大于对照(一般分别设置1和0)
目标阳性事件的编码要大于对照组,最好就设置1和0(比如冠心病这一结局变量,未患冠心病者赋值0作为对照,冠心病患者赋值为1作为阳性事件组)