广义线性模型与逻辑回归
广义线性模型的原理
首先,广义线性模型是基于指数分布族的,而指数分布族的原型如下
其中 为自然参数,它可能是一个向量,而
叫做充分统计量,也可能是一个向量,通常来说
。
广义线性模型就是把自变量 的线性预测函数
当作因变量
的估计值。
根据指数分布族来构建广义线性模型的三个假设
- 给定特征属性
和参数
后,
的条件概率
服从指数分布族,即
。
- 预测
的期望,即计算
,通常来说
。
-
与
之间是线性的,即
。
逻辑回归
- 伯努利分布又叫做两点分布或者0-1分布,是一个离散型概率分布,若伯努利实验成功,则伯努利随机变量取值为1,如果失败,则伯努利随机变量取值为0。并记成功的概率为
,那么失败的概率就是
- 伯努利分布的概率密度函数
如果把伯努利分布写成指数分布族,形式如下
对比指数分布族,有
-
Logistic回归是基于伯努利分布的,推导可得Sigmoid函数,如下
其中
,
即为预测为正样本的概率。
这也解释了为什么逻辑回归要用Sigmoid函数。
Sigmoid 函数的性质
- sigmoid 函数连续,单调递增
- sigmiod 函数关于
中心对称
- 对sigmoid函数求导
,计算sigmoid函数的导数简单快速