协变量与混杂因素的理解

协变量(covariate)是变量,千万别和协方差(covariance)搞混了!他们的英文名很像,但他们的含义有大区别!

举个例子说明协方差是什么:

我想研究某款减肥药体重变化的影响,我们都知道减肥药是自变量,体重是因变量。

简而言之,减肥药影响体重。然而,存在一些可知/不可知的变量也同时影响着体重。

譬如说年龄,食量,饮水量,运动量等,我们统称这些不受实验设计控制/不受干预变量影响的变量作协变量。

也就是说,协变量是会对实验结果产生影响但不可控的变量。

说到协变量,也应该提一提混杂因素(confounder)。混杂因素一定是协变量,协变量不一定是混杂因素。混杂因素是协变量的升级版,它不仅影响结局,还影响/受干预变量影响。

比如研究吸烟对患肺癌的影响,吸烟与否是自变量,患肺癌是因变量。

我们又想到,年龄应该也会影响患癌症的概率。那年龄、就是一个协变量。

那它是不是一个混杂因素呢?可能是的,因为年龄不仅会影响是否患癌症,还会影响是否吸烟,年纪越大,吸烟的可能就越大。

为什么我说了可能是呢?因为要满足另一个条件才能确定年龄是不是混杂因素,那就是看年龄在干预组和非干预组的分布是否相同。如果年龄分布是相同的,RCT就很完美地将人群随机化了,两组分布相同,管他有没有影响呢,就算有影响也是两组一起影响,就不会混杂(confound)结果了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容