逻辑回归完全剖析

算法原理

概述：
算法通过梯度下降法去极大化似然函数 $\prod_{i=1}^{n}(p_i)^{y_i}(1-p_i)^{1-y_i}$ ，得到极大化时的权值向量。
似然的本质就是根据已观察到的数据（现象），求得某个参数，使得在这个参数的情况下是最有可能出现已观察到的数据（现象）。这里的pi为标签y为1的概率，因此很明显的当y_i=1的时候我们希望pi越大越好，当y_i=0的时候我们希望pi越小越好，这样就很自然地导出了我们希望最大化的全局的似然函数 $\prod_{i=1}^{n}(p_i)^{y_i}(1-p_i)^{1-y_i}$
其中p_i是和权值向量相关的（下面会讲解），所以通俗来讲，这个算法试图找到一个权值向量w，使得出现训练集的数据（现象）的可能性最大。

问题1： $p_i$ 是哪里来的？
pla中将 $w^Tx_i$ 的结果通过sign函数将其转换成-1和1，而这里的逻辑回归模型则是将其转换成（0,1）之间的连续值，使用的是 $sigmoid$ 函数（下图），这个转换后的值就是 $p_i$
$σ(z)=\frac{1}{1+e^{-z}}$
其图像如下：

sigmoid函数

也就是说 $p_i=σ(w^T x_i)$ ，可以看到当 $w^T x_i$ 的值越大的时候 $p_i$ 就接近于1，当 $w^T x_i$ 的值越小的时候 $p_i$ 就接近于0.

问题2：通过sigmoid函数得到的 $p_i$ 有什么物理意义？
通过一个例子来解释p_i的含义。
假设有一个学生的各科成绩（组成向量X），每一科有相应的权值（W），用权值乘以成绩然后加和就得到加权总成绩C。学校设定了总成绩的及格线（记为b），那么C-b就是学生相对于及格线的成绩，将这个成绩通过sigmoid函数进行变换，就得到（0,1）之间的一个值（记为p）。上述过程用假想的数据表示成表格：

很明显，成绩越高的人得到的p值就越接近1，成绩越低的人得到的p值就越接近0，如果某个人加权总成绩刚好等于及格线，那么他的p值为0.5。
因此，p值可以作为判定一个学生学习好的概率，p值越大，他学习好的概率就越大，p值为0.5时，他学习好和学习差的概率相等，因为刚好及格（~~及格万岁？~~ ）。
那么不失普遍性地说，就是p值可以作为判定一个输入X其对应标签为1的概率。

问题3：如何极大化似然函数？
极大化似然函数 $\prod_{i=1}^{n}(p_i)^{y_i}(1-p_i)^{1-y_i}$ 就等价于极大化对数似然函数：
$L(w) = \sum_{i=1}^{n}(y_ilog p_i+(1-y_i)(log(1-p_i)))$
子问题：为什么要将其转换成L(w)函数？
我认为是因为连加比连乘更好处理，因此通过log函数将连乘变成连加

极大化对数似然函数L(w)也就等同于极小化损失函数C(w)= -L(w), 这样就可以对C(w)使用梯度下降法对函数进行极小化

问题4：什么是梯度？梯度下降法是如何更新的？

在了解梯度之前，先了解“导数”下降法是怎样的。
假设要通过程序求得某个x使得 $f(x)= (x^3+ 2x + e^x- 3)^2$ 取到最小值（函数形状如下图），注意不是通过公式推导。

f(x)

这里先假设f(0)就是f(x)最小值，那么通过图像可知，在x=0左边，导数为负，右边导数为正。显然，对于随机的一个x，要使得它更新之后更靠近0，那么
①如果 $f\prime(x)<0$ ，就应该往右边走（也就是x值增大）
②如果 $f\prime(x)>0$ ，就应该往左边走（也就是x值减小）
③特殊的情况，如果该函数是凸函数，那么在越靠近最低点的地方 $f\prime(x)>0$ 越接近于0，这样一来我们可以让x值改变量正比于 $|f\prime(x)>0|$ ，因为离最低点越远x就应该多移动一些，离最低点越近x就应该少移动一些
通过以上①②③的分析可得到在凸函数情况下x的更新方式应为：
$x_{new}=x_{old}-f\prime(x_{old})$

了解了“导数下降法”，那么梯度下降又是什么
一元函数f(x)在点x处的导数，称为f在x处的导数；
而如果是N元函数 $f(x_0,x_1,x_2…x_n)$ 在点 $x = [x_0,x_1,x_2…x_n ]$ 的“导数”，就不称为“导数”，因为在x处共有N个偏导数，分别是 $f$ 在该点关于 $x_0$ 的偏导数，关于 $x_1$ 的偏导数……，而这些偏导数构成的一个N维向量，就称为f在点x处的梯度向量
理清了导数和梯度的关系之后就很清楚了，梯度下降不过是“导数”下降作用在多元函数的各个维度，这样就可以将“导数”下降法的公式推广到梯度下降中来：
$x_{i_{new}}= x_{i_{old}}- \frac{∂f}{∂x_{i_{old}}}$

关键代码截图（带注释）

image

思考题

如果把梯度为 0 作为算法停止的条件，可能存在怎样的弊端？
答： ① 梯度下降法在梯度较小的时候更新是越来越慢的。因此，梯度在比较大的时候确实是下降的快，但是想要梯度下降到0要花很长的时候
② 如果题目的意思是梯度 == 0 作为终止条件的话，那么容易遇到浮点数精度的问题，也就是本来梯度确实应该是0的，但是由于精度的原因变成了0.000001这样子，就会导致条件判断不成立
𝜂 的大小会怎么影响梯度下降的结果？给出具体的解释，可视化的解释最好，比如图形展示等？
答：当步长较大( 0.11 )的时候可能产生震荡的现象，因为变化太大导致跑到了最低点的另一边，该现象见下图，可见因为震荡导致越来越偏离最小值

f(x)=10*x^2+1，初始点x=-50

当步长适中( 0.02 )的时候能较快收敛到最小值，见下图

f(x)=10*x^2+1，初始点x=-50

当步长更小( 0.005 )的时候，虽然不会震荡，但是收敛很慢，见下图

f(x)=10*x^2+1，初始点x=-50

思考这两种优化方法（批梯度下降和随机梯度下降）的优缺点？
答： 1）批梯度下降在求偏导的时候用的是全部的样本，也就是更新的时候考虑的是往全局的似然度最高的方向进行更新。
优点是它能是往全局最优去更新的，因此能更容易得到全局最优。
缺点也很明显，每次更新都要对所有样本计算，这在样本数据量大的时候很难接受
2）随机梯度下降在求偏导的时候用的是随机的单个样本，也就是更新的时候考虑的仅仅是往该样本的似然度最高的方向进行更新。
优点是克服了数据量变大带来的运算量上面的上升，在大数据的时候也表现良好
缺点是它并非每次都向着全局最优方向更新的（但是整体是往全局最优的），就是它的更新比较盲目，这也就导致了要到达最优点需要更多的迭代次数

最后编辑于：2020.04.08 10:26:15

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,406评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,732评论 3赞 393
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,711评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,380评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,432评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,301评论 1赞 301
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,145评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,008评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,443评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,649评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,795评论 1赞 347
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,501评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,119评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,731评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,865评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,899评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,724评论 2赞 354

逻辑回归完全剖析

算法原理

关键代码截图（带注释）

思考题

推荐阅读更多精彩内容