李宏毅机器学习——误差和梯度下降

误差

误差的来源

在机器学习中，误差=偏差+方差(Error=Bias+Variance)。

Error反映整个模型的准确度

Bias反映模型在样本上的输出与真实值之间的误差，即模型本身的精准度

Variance反映模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性

Bias的计算

估计μ: $m=\dfrac{1}{n} \sum_{n} {x^n} \neq μ$

$E(m)=E(\dfrac{1}{n} \sum_{n} {x^n}) = \dfrac{1}{N}\sum_n E(x^n)=μ$

$m$ 分布对于 $μ$ 的离散程度(方差): $Var(m)=\dfrac{σ^2}{N}$

Var的计算

估计 $\sigma ^ 2$ :

$m=\dfrac{1}{N} \sum_{n} x^{n}$

$s^{2}=\dfrac{1}{N} \sum_{n}\left(x^{n}-m\right)^{2}$

$E\left[s^{2}\right]=\dfrac{N-1}{N} \sigma^{2} \neq \sigma^{2}$

下面这张图可以更直观地显示Bias和Variance的区别。

Bias vs Variance

比较简单的model var小（受数据的影响小），var大；复杂的model var大，bias小。

简单模型拟合能力不如复杂模型，所以对一些偏差较大的值不太敏感。

简单模型是偏差比较大造成的误差，这种情况叫做欠拟合，而复杂模型是方差过大造成的误差，这种情况叫做过拟合。

过拟合和欠拟合

欠拟合：模型没有很好的训练训练集，偏差过大。
过拟合：模型在训练集上得到很小的错误，但是在测试集上得到很大的错误。

处理方式

偏差大-欠拟合：重新设计模型，加入更多的函数，或者考虑更复杂的模型。

方差大-过拟合：更多的数据（可以采用数据增强方法）；正则化。

模型的选择

权衡偏差和偏差，使得总误差最好，但是公共测试集的数据往往是不可靠的，所以不要做下面这张图片的事。

Model Selection

交叉验证
将训练集分为训练集和验证集，根据验证集上的error选择模型。

Cross Validation1

N-折交叉验证
将训练集分为N份，在每一份上分别训练模型，最后再用全部训练数据上训练较好的模型。

Cross Validation 2

梯度下降

梯度下降法

在回归问题中需要解决最优化问题，使得 $Loss$ 最小。

gd1.png

这里的parameters是复数，即 $\theta$ 。需要找一组参数 $\theta$ ，让损失函数越小越好，可以用梯度下降法解决。

$\theta$ 有里面有两个参数 $θ_1,θ_2$ ，随机选取初始值；
分别计算偏微分，得到梯度，根据学习率更新参数

gd2.png

学习率的调整

将参数改变对损失函数的影响进行可视化（右图）。

gd3.png

自适应学习率

随着次数的增加，通过一些因子来减少学习率

通常刚开始，初始点会距离最低点比较远，使用大一点的学习率
update好几次参数之后，比较靠近最低点了，减少学习率

学习率不能是一个值通用所有特征，不同的参数需要不同的学习率

Adagrad

每个参数的学习率都把它除上之前微分的均方根。

普通的梯度下降
$\mathrm{w}^{\mathrm{t}+1} \leftarrow \mathrm{w}^{\mathrm{t}}-\eta^{\mathrm{t}} \mathrm{g}^{\mathrm{t}}$
$\eta^{\mathrm{t}}=\frac{\eta^{\mathrm{t}}}{\sqrt{\mathrm{t}+1}}$
Adagard
$\mathrm{w}^{\mathrm{t}+1} \leftarrow \mathrm{w}^{\mathrm{t}}-\frac{\eta^{\mathrm{t}}}{\sigma^{\mathrm{t}}} \mathrm{g}^{\mathrm{t}}$
$\mathrm{g}^{\mathrm{t}}=\frac{\partial \mathrm{L}\left(\theta^{\mathrm{t}}\right)}{\partial \mathrm{w}}$

$\sigma ^ t$ : 之前参数的所有微分的均方根，对于每个参数都是不一样的。

具体的参数更新过程

adagard.png

对 Adagard 式子进行化简，得到
$w^{t+1} \leftarrow w^t - \dfrac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}$

adagard2.png

Adagard存在的矛盾？

adagard3.png

Gradient越大的时候，分母越大，更新的步伐越小？

Adagard考虑的是Gradient的反差
计算过去Gradient的平方和

不一定gradient越大，距离loss最低点越远

最佳的步伐应该是 $\dfrac{一次微分}{二次微分}$

对于 ${\sqrt{\sum_{i=0}^t(g^i)^2}}$ ，就是希望再尽可能不增加过多运算的情况下模拟二次微分。

（如果计算二次微分，在实际情况中可能会增加很多的时间消耗）

随机梯度下降SGD

随机梯度下降损失函数不需要用到全部的训练数据，而是随机选取一个例子计算损失函数，并且更新梯度。

传统梯度下降

$\mathrm{L}=\sum_{\mathrm{n}}\left(\hat{\mathrm{y}}^{\mathrm{n}}-\left(\mathrm{b}+\sum \mathrm{w}_{\mathrm{i}} \mathrm{x}_{\mathrm{i}}^{\mathrm{n}}\right)\right)^{2}$
$\theta^{\mathrm{i}}=\theta^{\mathrm{i}-1}-\eta \nabla \mathrm{L}\left(\theta^{\mathrm{i}-1}\right)$

随机梯度下降

$\mathrm{L}=\left(\hat{\mathrm{y}}^{\mathrm{n}}-\left(\mathrm{b}+\sum \mathrm{w}_{\mathrm{i}} \mathrm{x}_{\mathrm{i}}^{\mathrm{n}}\right)\right)^{2}$
$\theta^{\mathrm{i}}=\theta^{\mathrm{i}-1}-\eta \nabla \mathrm{L}^{\mathrm{n}}\left(\theta^{\mathrm{i}-1}\right)$

不需要对所有数据进行处理，更新速度更快。

特征缩放 Feature Scaling

对特征数量较多的时候，将不同的feature范围缩放到一致，保证这些特征具有相近的尺度（无量纲化），可以使梯度下降法更快的收敛。

Feature Scaling的方法

Min-Max Normalization（min-max标准化）
$x^{*}=\frac{x-\min (x)}{\max (x)-\min (x)}$
Mean normalization（mean归一化）
$x^{*}=\frac{x-\operatorname{mean}(x)}{\max (x)-\min (x)}$
Standarddization（z-score标准化）
$x^{*}=\frac{x-x}{\sigma}$
max标准化
$x^{*}=\frac{x}{\max (x)}$

norm.png

梯度下降的理论基础

math (1).PNG

如何在小圆圈内快速找到最小值？

泰勒展开式

若 $h(x)$ 在 $x=x_0$ 点的某个领域内有无限阶导数（即无限可微分，infinitely differentiable），有

math (2).PNG

math (3).PNG

多变量泰勒展开式

math (4).PNG

利用泰勒展开式简化

如果红色圈圈足够小，那么损失函数可以用泰勒展开式进行简化：

math (5).PNG

math (6).PNG

math (7).PNG

梯度下降的限制

微分值为0的地方，可能是局部极值或者不是极值点（可能实际上当微分值小于某一个数值就停下来了，并不是极值点）

作业————PM2.5预测

参考资料

李宏毅机器学习笔记

李宏毅机器学习视频课

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,547评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,399评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,428评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,599评论 1赞 274
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,612评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,577评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,941评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,603评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,852评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,605评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,693评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,375评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,955评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,936评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,172评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,970评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,414评论 2赞 342