LR

概念

逻辑回归是一个分类算法。
假设因变量Y服从伯努利分布,假设正样本的概率为P(x;\theta) = \frac{1}{1+e^{-\theta ^T x}}=h_{\theta}(x),用极大似然函数作为目标函数,运用梯度下降求解参数,达到二分类的目的。

LR的目标函数

似然函数为:
\prod_{i=1}^{n}h_{\theta}(x^{(i)})^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}
为了方便求解,使用对数似然函数:
J(\theta) = \sum_{i=1}^{n}[y^{(i)}\log h_{\theta}(x^{(i)}) + (1-y^{(i)}) \log (1-h_{\theta}(x^{(i)})]
极大化似然函数就相当于极小化负似然函数
max\ J(\theta) = min\ -J(\theta)
目标函数变为:
J(\theta) =- \sum_{i=1}^{n}[y^{(i)}\log h_{\theta}(x^{(i)}) + (1-y^{(i)}) \log (1-h_{\theta}(x^{(i)})]
这样就可以用梯度下降法求解了

梯度下降更新参数

链式法则求偏导
\begin{align*} \nabla \theta_j &= \frac{\partial J}{\partial \theta_j} \\ &= \frac{\partial J}{\partial h} \frac{\partial h}{\partial (\theta^Tx)} \frac{\partial (\theta^Tx)}{\partial \theta_j} \\ & =- (\frac{y}{h}-\frac{1-y}{1-h})(h(1-h)) x_j\\ & = (h-y)x_j \end{align*}
竟然如此简单!!!

下面详细解释一下:
第二部分\frac{\partial h}{\partial (\theta^Tx)}相当于对sigmoid函数求导
z=\theta^Tx,则h=\frac{1}{1+e^{-z}}即:
\begin{align*} \frac{\partial h}{\partial (\theta^Tx)}&=\frac{\partial}{\partial z}\frac{1}{1+e^{-z}} \\ &= \frac{e^{-z}}{(1+e^{-z})^2}\\ &= \frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}}) \\ &= h(1-h) \end{align*}
第三部分\frac{\partial (\theta^Tx)}{\partial \theta_j}=\frac{\partial (\theta_1x_1+\theta_2x_2+\dots+\theta_nx_n)}{\partial \theta_j}=x_j

最后用梯度下降更新参数,其中\alpha为步长
\theta_j \leftarrow \theta_j - \alpha \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容