因为简书不支持Latex,建议阅读原文
1 问题来源
记得一开始学逻辑回归时候也不知道当时怎么想得,很自然就接受了逻辑回归的决策函数——sigmod函数:
与此同时,有些书上直接给出了该函数与将 y 视为类后验概率估计 p(y=1|x) 等价,即
并给出了二分类(标签 y∈(0,1))情况下的判别方式:
但今天再回过头看的时候,突然就不理解了,一个函数值是怎么和一个概率联系起来了呢?有些人解释说因为 hθ(x) 范围在0~1之间啊,可是数值在此之间还是没说明白和概率究竟有什么关系。所以,前几天看了一些资料,对个人而言比较好理解的还是从广义线性模型(Generalized Linear Models, GLM)来解释,至少这种方法能从概率出发直接推出 sigmod 函数。实际上,线性回归和逻辑回归都是广义线性模型的特例,从此出发,得到对应的决策函数就比较自然了。
2 指数分布族
在介绍广义线性模型之前不得不先说一下“指数分布族”,因为指数分布族是广义线性模型所提出的假设之一。
指数分布族中的一类分布都可以用下述公式描述:
下面是公式中的参数:(可以通过后面具体例子的推导来理解)
当T、a、b固定之后实际上就确定了指数分布族中的一种分布模型,就得到了以η为参数的模型。
其实,大多数的概率分布都属于指数分布族:
- 伯努利分布(Bernoulli):对 0、1 问题进行建模;
- 二项分布(Multinomial):对 K 个离散结果的事件建模;
- 泊松分布(Poisson):对计数过程进行建模,比如网站访问量的计数问题,放射性衰变的数目,商店顾客数量等问题;
- 伽马分布(gamma)与指数分布(exponential):对有间隔的正数进行建模,比如公交车的到站时间问题;
- β 分布:对小数建模;
- Dirichlet 分布:对概率分布进建模;
- Wishart 分布:协方差矩阵的分布;
- 高斯分布(Gaussian)
知道了这么多的指数分布族之后其实我们已经能够求解一些问题了,求解的方法就是将概率分布符合上述指数分布族的转换成它对应的指数分布族的形式,求出指数分布族对应位置上的参数即可求出原模型的参数。
3 广义线性模型
为了给问题构造GLM模型,必须首先知道GLM为作出的三个假设:
这些假设看起来似乎很神奇,比如第三条,但这就是GLM的假设(说成“设计”更合理),从这三个假设出发能得到一类很好的学习算法。下面就来展示一下如何从GLM推导出逻辑回归和线性回归。
3.1 GLM与逻辑回归
接下来按照上面GLM作出的假设条件来推导逻辑回归。
到这里,GLM已经解决了概率和sigmod函数之间关系的疑惑了。
3.2 GLM与线性回归
通刚才一样,参照指数分布族的标准形式,可以得到:
再根据第三个假设条件,即可得到线性回归模型
综上所述,广义线性模型GLM是通过假设一个概率分布并将其化成指数分布族形式,从而得到不同的模型,这对理解模型的由来很有帮助。
参考:
CS229 Andrew Ng