本文将对利用逻辑回归结果评估不确定性进行讨论。
回归系数表用途 #4:不确定性的评估
在逻辑回归中对回归系数的不确定性进行评估实际上和最小二乘回归中是一样的(回顾)。在这两个模型中,回归系数表都有一列是回归系数,下一列是标准差,紧接着一列是一个统计量,后面一列p值。下面展示了“Kid Creative”逻辑回归的系数表:
请注意上面的表中,统计量一栏标记为“z”, p值标记为“P>|z|“。
标准差可用于构建回归系数的置信区间。我不想在这里重复基本的统计学,所以我不会演示置信区间的计算。不过,粗略的说,用回归系数 +/- 2倍的标准差大约就是95%置信区间。
我在本系列的第三篇介绍过,我们经常使用odds ratio来解释回归系数的含义。我们可以计算置信区间右边界的odds ratio,这些odds ratio会给我们和odds等价的置信区间。我们继续用Residence Length举例,置信区间右边界相应的odds ratio是:
那么,区间[0.99708, 1.05367]就是odds ratio的95%置信区间的估计值。这就是说居住时间每增加一年,购买杂志的odds可能性增量为0.292%-5.367%。
到现在我已经讨论了逻辑回归系数表用来评估不确定性的主要方法。你可能回忆起我在最小二乘回归中对这个问题的讨论,我简单的谈及计算预测的不确定性(预测区间)。
在逻辑回归中,像最小二乘回归中一样为一个新的观测建立预测区间并没有什么实际意义。原因很简单,因为我们清楚的知道任何一组观测数据的预测值Y不是0就是1,这是很显然的,逻辑回归中Y是二元变量。我们所不知道的是Y=1的概率,所以我们考虑的是计算概率的置信区间,而不是Y的值。
本文是逻辑回归结果解读和应用系列的总结。回归系数表是逻辑回归分析的结果中最重要和有用处的部分,但我们还有另一个和系数表同等重要的话题需要处理,那就是评估我们的逻辑回归模型和数据集的拟合程度,称作”拟合度“(”goodness-of-fit“),这是后续关于逻辑回归的话题中最重要的部分。