初学者非常迷惑,很多英文SCI经常出现Covariate。什么是Covariate?它在统计分析中扮演什么角色?如何控制它的不良影响呢?
协变量是指不同干预措施前,研究者预计的、会对主要变量分析产生重要影响的因素。这类变量可以是定性,也可以是定量的,抑或是等级资料。其可以是人口统计学指标如年龄、体重、种族/民族等;也可以是一些疾病预后因素如疾病分型、病程或病情严重程度;当然还有一些其它因素如研究中心或研究者等。上述随机对照研究的基线信息均可以看作协变量,是随机对照研究设计和分析时必须要考虑的问题之一。
协变量对主要变量分析最重要的影响,指的是它往往会造成实验性研究干预措施疗效评价的偏倚。协变量,经常成为混杂变量。
随机对照研究中, 随机化作为一种必需手段,可避免处理组对象的分配偏倚, 并提供统计学假设检验的基础 。理论上, 随机化将确保所有的协变量在处理组间的平衡, 包括病人特征和疾病特征,比如年龄 、病情等 。然而, 实际工作中若仅用简单随机化, 则很难保证有些重要的协变量的平衡,尤其是当试验的样本含量较小时 。如果出现协变量不平衡, 而它们又与研究结果密切相关时,则这时不合理考虑协变量的影响,直接评价处理效应, 将很可能会导致结论的偏倚乃至错误。
所以,随机对照研究也会出现分组不均衡的情况,而分组不均衡的协变量可能带来结果偏倚。此时的协变量便是混杂因素,带来混杂偏倚。
1 如何控制协变量带来的偏倚?
有两类可用于调整处理组间潜在的或实际存在的不平衡的方法。第一类是防止试验设计阶段不平衡的方法,比如分层法和匹配法, 用来强制使处理组间在重要的和事先指定的协变量上达到平衡 。这些方法常被称为“事先控制“方法 。
另一类是在试验分析阶段调整不平衡的方法, 例如分层检验法 、回归模型法 。这些方法在比较处理组间的处理效应 、进行统计学检验时, 考虑到不平衡的协变量影响, 常叫做” 事后控制“方法 。
2 事先控制法
(1) 完全随机分组
要使基线(已知的或未知的)在各处理组间达到均衡,最好的办法是使用随机分组。理论上,在样本量足够大时,通过完全随机分组,各种因素(已知的和未知的)在各处理组间的分布趋于均衡。
(2)分层随机化
按协变量取值进行分层随机化。在样本量不是很大时,即使通过简单随机分组,也不一定能确保各因素在各处理组间的分布达到期望的均衡状态。此时,可以按照协变量进行分层,采用分层随机化保证一些重要协变量在组间分布的均衡。但分层因素不宜太多,一般考虑最重要的 1~3 个因素,每个因素 2~3 个水平。
(3)匹配随机化
如临床试验中,根据具体要求可将性别、体重、年龄、职业、病情和病程等条件相同或相近的病人配成对子(或列入一个区组),再将同对(或同一区组)的实验对象随机分配到到各处理组中去。配对(随机区组)设计可以使各处理组中的实验对象条件均衡,具有良好的可比性,由于控制了非处理因素的影响,使处理因素的效应能得到比较符合实际的客观反映。
关于随机区组分析,本系列文章之前已经有所介绍:SPSS 统计分析策略(8):随机区组设计方差分析
3事后控制法
根据协变量的性质和需考虑的协变量数目的不同,需采用不同的方法对协变量进行校正:当主要结果变量为连续性指标时,可采用差值法或者协方差分析(analysis of covariance,ANCOVA);当主要结果变量和协变量是分类指标时,可采用分层分析;当有多个协变量需要考虑时,常采用相应的线性模型或广义线性模型进行校正。
(1)差值法
在评价主要终点指标时,如果其基线取值是连续性变量,往往要考虑基线值的大小对预后的影响。常用的方法是计算观察指标相对于基线的变 化值,即治疗后观测值与基线值的差值,包括绝对差值或相对差值。绝对差值即干预后-干预前,相对差值即(干预后-干预前)/干预前 。
控制法,我们在之前的系列文章已经全面细致地进行介绍,欢迎点击学习:
小统计大文章,如何利用简单统计学获得可靠证据(上)
(2)协方差方法
通俗来讲,协方差分析是方差分析基础上加入协变量进行回归分析,也就是方差分析和线性回归分析的结合。大家都明白,方差分析是可以开展组间差异性分析,在分组均衡性的实验性研究中,方差分析可以证明处理因素与定量结局的关系;那么线性回归呢?在上一讲我已经介绍,线性回归可以控制混杂偏倚。既然如此,如果协变量是混杂变量,我们用线性回归分析便可以控制偏倚。因此,方差分析与回归分析相结合的协方差分析,可以用来控制偏倚、探讨处理因素效应。
(3)分层分析方法
分层分析是控制协变量的基本方法之一,此时协变量是分类变量,如果协变量是连续性变量,则需要分类化。选择具体分层分析方法时要考虑结果变量的类型。当主要结果变量是分类指标时,对协变量的校正可采用 Cochran-Mantel-Haenszel(CMH)检验进行分层分析;当结果变量为生存时间时,可用分层 log-rank 检验、分层 Cox 模型等。
(4)回归分析法
上述几种方法中,一般指有1-2个混杂变量,采用良好的设计或用分层分析可以控制混杂因素的影响。当有多个协变量需要考虑时,常采用相应的统计学模型进行校正。一般而言,当结果变量为连续性指标时,采用一般线性模型;当结果变量为二分类时,采用 logistic 回归;当结果为有序分类变量时,采用有序结果的累积比数 logistic 回归;当结果变量是生存变量时,采用 Cox 比例风险模型;当结果变量是事件发生数时,采用 poisson 回归模型等。
原文链接:https://mp.weixin.qq.com/s?src=11×tamp=1599468206&ver=2569&signature=KZ3QsJO117B1aXOW6vVE6*4D4oYNz89Egivj2pRNC6z8qGNJ4EXQ8BNV1*MXk7SvfUeHjeu0oPRzHuvPlrU*-2rhn74OzsgkwseExhvqKtlQyvjiMX*qjPcriwslFYwx&new=1