在逻辑回归分析中,如同最小二乘回归一样,你经常会想试图评估每个独立自变量对独立因变量的影响。然而在逻辑回归中,这会比最小二乘回归中的情况更复杂一些。
回归系数表用途 #2:评估自变量的影响
在我对最小二乘回归系数表的讨论中,评估自变量效应是相对直接的。在最小二乘回归中,由于模型的拟合是完全线性的,某个自变量改变的影响不依赖于其他自变量。因此,最小二乘回归系数可以被简单解释为改变自变量的一个单位对因变量的影响。
在逻辑回归中就不这么简单了。在逻辑回归中,我们不是对一个独立的因变量本身进行线性拟合,而是对odds的对数进行线性拟合:
其中p为成功(即,Y=1)的概率。如果log(odds)就是我们感兴趣的数据,那么事情就变得和最小二乘回归一样了。果真是这种情况,那么对回归系数的解释就和最小二乘回归中一样:回归系数显示的是自变量一个单位的改变对Y的影响。
不知道你们怎么想,但我通常不考虑log(odds)。其结果是,知道自变量对log(odds)的效应并不能给我传达太多信息。说实话,我考虑的是概率,所以我通常想知道的是改变自变量对成功的概率(Y=1的概率)的效应。
问题是,在逻辑回归中,一个自变量改变的效应并不是所有情况下都相同,它取决于其他自变量的值。这是因为自变量和成功的概率p之间的关系是非线性的。明确的讲,成功的概率p和自变量之间的关系是:
这个等式读起来可能有点难,但是e的指数是线性函数
以上等式的另一个等价的写法是
这里,e的指数就变成
在这里,我不想让你担心这些显示自变量和p之间非线性关系的等式。我向你展示这些等式只是因为它们的SHOCK VALUE。我希望你表现出“eeewwww”,“yuck”或者“OMG”,从现在起把它们从脑中清除出去,不要理睬这些等式。但是我想让你明白自变量和p之间的非线性关系,因此分析起来要比最小二乘回归要更复杂。
由于你我最终都是要搞清楚自变量的改变对p的效应,我们首先可以通过理解自变量对odds的效应,而不是log(odds)的效应。Odds并没有完全超出我们直观理解的范围。为了解释自变量对odds的效应,我们来看看odds ratio,这个统计量通常都会作为逻辑回归系数表的一部分。
(注:这里的结果都是我自己算的,所以形式和原帖中不太一样。)
为何odds ratio在最后才计算呢?因为odds ratio是相应的回归系数的指数函数。即:
再一次的,我不想在这里推到这个等式,如果你对数学推到有兴趣,点击 这里。
为了确保它完全是清晰的,让我们检查一下这个式子。比如,变量Is_Female的回归系数是1.64600,计算exp(1.64600)会得到5.18637,与结果表中一致。所以通过指数函数可以很容易的利用回归系数计算出odds ratio。
但odds ratio是什么意思呢?odds ratio列的数据显示了当自变量X改变一个单位时,odds是如何改变的。odds ratio以乘法的方式显示了这种改变,而不是差异。
我们再次使用变量Is_Female举例。假设现在有两个人,除了性别不一样,其他的变量全都一样。由于Is_Female变量使用0和1表示的,0代表男性,1代表女性,Is_Female变量一个单位的变化意味着从男性变为女性。这个变量的OR值是5.18637,它的意思是我们期望的女性购买的odds是其“等价的”男性购买的odds的大约5.2倍。因此,假如男性购买的odds为 1-9,那么女性购买的odds就是5.2-9(或26-45)。我在这个例子中做的事情是,将odds中的第一个数乘以odds ratio。在括号中,我根据odds的表示习惯将数据转换成了整数。
我们再来看一个没有指示变量的例子。请看变量ResidenceLength。ResidenceLength的odds ratio是1.025,这表明居住时间每延长一年(自变量改变1个单位),购买的odds将乘以1.025。所以,如果一个顾客购买的odds为1-9,他们多居住一年后odds为1.025-9(或者41-360,即每个数乘以40),类似的,如果顾客少居住一年,odds为1/1.025 = 0.976-9。
以上例子向你展示了对于自变量一个单位的改变,如何使用odds ratio对odds作出相应的调整。向你展示这些例子对于你理解odds ratio的涵义是必要的,即使它们比一般的逻辑回归odds ratio讲解的文章要稍复杂。
让我告诉你用ResidenceLength的odds ratio 1.025解释ODDS RATIO的典型列子。典型的做法是忽略整数部分的1(本例中是0.025)并将它转换成百分数。那么在本例中,每增加一年将导致购买的odds增加2.5%。
重点:如果将odds ratio 减去1后乘以100((odds ratio - 1) X 100),这个值就是自变量X每改变一个单位,odds的该变量。因此,odds ratio是我们看到自变量的改变对odds的效应。就像我们对odds ratio的概括,自变量改变的效应是乘法。通常来说,最好是将其理解为自变量每改变一个单位所引起的odds的百分数变化。某种意义上说,这更符合直觉。
在这篇文章中,我不会试图更进一步的去解释自变量的改变对p的效应,这会在以后的文章中解释。在结束之前,我想提醒你的是,回归一般只显示相关,而不是因果。然而在本文中,我举例是说的是一个变量的“效应”,这是不准确的。准确的说法是自变量的改变与log(odds)改变的百分量相关。通篇都讨论“改变相关”而不是“效应”显得很别扭,因此我使用了一种暗示因果关系的不准确的表述。
我还要提醒你们,逻辑回归所捕获的某个自变量的效应是以其他变量为条件的(即,其他变量保持不变)。这一事实对于结果解释至关重要。这两个问题(因果关系和条件效应)将在本系列的第5篇讲解。