协变量(covariate)是变量,千万别和协方差(covariance)搞混了!他们的英文名很像,但他们的含义有大区别!
举个例子说明协方差是什么:
我想研究某款减肥药对体重变化的影响,我们都知道减肥药是自变量,体重是因变量。
简而言之,减肥药影响体重。然而,存在一些可知/不可知的变量也同时影响着体重。
譬如说年龄,食量,饮水量,运动量等,我们统称这些不受实验设计控制/不受干预变量影响的变量作协变量。
也就是说,协变量是会对实验结果产生影响但不可控的变量。
说到协变量,也应该提一提混杂因素(confounder)。混杂因素一定是协变量,协变量不一定是混杂因素。混杂因素是协变量的升级版,它不仅影响结局,还影响/受干预变量影响。
比如研究吸烟对患肺癌的影响,吸烟与否是自变量,患肺癌是因变量。
我们又想到,年龄应该也会影响患癌症的概率。那年龄、就是一个协变量。
那它是不是一个混杂因素呢?可能是的,因为年龄不仅会影响是否患癌症,还会影响是否吸烟,年纪越大,吸烟的可能就越大。
为什么我说了可能是呢?因为要满足另一个条件才能确定年龄是不是混杂因素,那就是看年龄在干预组和非干预组的分布是否相同。如果年龄分布是相同的,RCT就很完美地将人群随机化了,两组分布相同,管他有没有影响呢,就算有影响也是两组一起影响,就不会混杂(confound)结果了。