说来惭愧,跟师姐聊天的时候,我按照传统的生信思路把临床特征做风险打分,然后定义高低风险打分,接着就是标准的生存图、森林图了。在做到森林图的时候,忽然被问到,单因素与多因素的区别。我按照原有的知识体系说是单因素就单个变量与生存的cox回归,而多因素则是将单因素显著的部分提取出来作为自变量做cox,也就是说多因素的cox是有多个自变量的。当被问到为什么要做多因素时,我想了一下说是为了去除共线性的问题,也就是a再做单因素分析时可能为显著,但是是其他变量带来的协同效应,所以再进入多因素cox回归后,如果还保持住显著性的那么就说明了该变量是独立因素,不受其他因子影响。所以关键不在于共线性,而在于该因素是否是独立的预后因子,那么问题来了。为什么不直接把全部变量放到公式里而得到该因素是否为独立的预后因子么,理论为什么要挑显著的呢。
我想起来了,cox回归不能得到每个样本的风险值,它只能得到每个变量的风险比。这样的话,风险值其实是根据变量的打分加和而得到的。而且这个把显著的变量放进模型中进行多因素回归分析其实也包括模型的选择和筛选过程,所以还是按第一种解释为了避免风险因子其实是由单因素的显著的变量带过来的偏倚导致的。
————————————————