用Square error解Logistic regression问题

作者:hooly
微信公号:一口袋星光


我们都知道应该用Cross Entropy的方法求解Logistic Regression的问题,今天我们解释一下为什么用Square error解Logistic regression是有问题的。

首先:
fw,b(x)是一个关于z的sigmod函数而z是和参数w以及b有关的对于x的线性函数。
所以有如下公式:


image.png

我们使用Linear Regression求解时候的求Square error的Loss function如下:


image.png

对w求偏导:
image.png

假设:
image.png

则有:
当fw,b(x) = 1,有L对w的偏导数 = 0;close to target
当fw,b(x) = 0 ,有L对w的偏导数 = 0;far from target


image.png

以上说明:无论我们和结果接近还是远离,我们这一点的偏导数都是0。这就和我们想要的“和结果相近时导数->0;和结果远离时,导数>0”这个观点不一致。这是为什么呢?
我们把参数的变化对total loss的影响做图如下:
image.png

在Cross entropy图中:在距离目标很近的地方,微分值是很小的;距离目标很远的地方,微分值是大的。
在Square error图中:距离目标很近的地方也就是最低点,微分值是小的;但是当你距离目标远的时候,你的微分值也是很小的。
因为你在用Square error方法中做gradient descent 的时候,如果你的微分值很小,你不知道你是距离目标很近还是很远,这时候你的update的速度是非常慢的,特别卡。


作者:hooly
微信公号:一口袋星光
我会在微信公号上持续更新我的文章,你来讨论我很欢迎。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • *【gradient descent】 { 看完所有example,才进行update(初始化,计算总的loss,...
    satyrs_sh阅读 3,434评论 0 0
  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    在河之简阅读 20,709评论 4 65
  • 逻辑回归的定义 简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)...
    李亚鑫阅读 14,056评论 3 20
  • Tsomoriri lake 为世界最高的湖 站在这里 人类只有渺小可言 却也渺小得自大 这里不是必游之地 但是却...
    小木路过阅读 3,192评论 2 0
  • 2016.3.23 1天 出生 5天 从出生在医院里待了5天中午回家了 1个月6天 第一次出远门去姥姥家 1月18...
    馨鱼儿阅读 3,446评论 0 0

友情链接更多精彩内容