花书《深度学习》《Deep Learning》学习笔记chapter 5 (1)

5.1 学习算法

5.1.1 任务，T

常见机器学习任务列举：分类，输入缺失分类，回归，转录，机器翻译，结构化输出，异常检测，合成和采样，缺失值填补，去噪，密度估计或概率分布律函数估计

5.1.2 性能度量，P

5.1.3 经验，E

机器学习算法分为:无监督 (unsupervised) 和监督 (supervised)

5.1.4 实例:线性回归

任务T-->线性函数: $\overset { \wedge}{ y } =w^Tx$
度量P-->均方误差 (mean squared error)
MSE = $\frac{1}{m}\sum_i{(\overset { \wedge}{ y }-y)_i^2 )}=\frac{1}{m}||\overset { \wedge}{ y }-y||_2^2$
argminMSE:
$\nabla _{ w }MSE_{ train }=0\\ \Rightarrow \nabla _{ w }\frac { 1 }{ m } ||\overset { \wedge }{ y } -y||=0\\ \Rightarrow \nabla _{ w }\frac { 1 }{ m } ||Xw-y||=0\\ \Rightarrow \nabla _{ w }(Xw-y)^{ T }(Xw-y)=0\\ \Rightarrow 2X^{ T }(Xw-y)=0\\ \Rightarrow w=(X^{ T }X)^{ -1 }X^{ T }y$

5.2 容量，过拟合和欠拟合

模型的容量(capacity)是指其拟合各种函数的能力。容量低的模型可能很难拟合训练集。容量高的模型可能会过拟合，因为记住了不适用于测试集的训练集性质。

容量和误差之间的典型关系。训练误差和测试误差表现得非常不同。在图的左端，训练误差和泛化误差都非常高。这是欠拟合期 (underfitting regime)。当我们增加容量时，训练误差减小，但是训练误差和泛化误差之间的间距却不断扩大。最终，这个间距的大小超过了训练误差的下降，我们进入到了过拟合期 (overfitting regime)，其中容量过大，超过了最佳容量 (optimal capacity)。

提高机器学习模型泛化。奥卡姆剃刀 (Occam’s razor)。该原则指出，在同样能够解释已知观测现象的假设中，应该挑选 ‘‘最简单’’ 的那一个。

5.2.1 没有免费午餐定理

机器学习的没有免费午餐定理 (no free lunch theorem)表明，在所有可能的数据生成分布上平均，每一个分类算法在未事先观测的点上都有相同的错误率。换言之，在某种意义上，没有一个机器学习算法总是比其他的要好。什么样的学习算法在我们关注的数据生成分布上效果最好。

5.2.2 正则化

训练集大小对训练误差，测试误差以及最佳容量的影响。通过给一个 5 阶多项式添加适当大小的噪声，我们构造了一个合成的回归问题，生成单个测试集，然后生成一些不同尺寸的训练集。为了描述%95 置信区间的误差条，对于每一个尺寸，我们生成了 40 个不同的训练集。(上) 两个不同的模型上训练集和测试集的MSE，一个二次模型，另一个模型的阶数通过最小化测试误差来选择。两个模型都是用闭式解来拟合。对于二次模型来说，当训练集增加时训练误差也随之增大。这是由于越大的数据集越难以拟合。同时，测试误差随之减小，因为关于训练数据的不正确的假设越来越少。二次模型的容量并不足以解决这个问题，所以它的测试误差趋近于一个较高的值。最佳容量点处的测试误差趋近于贝叶斯误差。训练误差可以低于贝叶斯误差，因为训练算法有能力记住训练集中特定的样本。当训练集趋向于无穷大时，任何固定容量的模型(在这里指的是二次模型)的训练误差都至少增至贝叶斯误差。(下)当训练集大小增大时，最佳容量(在这里是用最优多项式回归器的阶数衡量的)也会随之增大。最佳容量在达到足够捕捉模型复杂度之后就不再增长了。

上图是举例了通过增加或减少学习算法可选假设空间（上图通过增加或减少多项式的次数）的函数来增加或减少模型的容量。除此之外，算法也取决于这些函数的具体形式。例如针对线性回归，可以加入权重衰减 (weight decay)来修改线性回归的训练标准。带权重衰减的线性回归最小化，训练集上的均方误差和正则项的和 J(w)，偏好于平方 L2 范数较小的权重。

J(w)=MSE_{ train }+\lambda w^{ T }w

\lambda

控制偏好小范数权重的程度。越大的 λ 偏好范数越小的权重。

如第一张图所示，我们使用高阶多项式回归模型来拟合图中训练样本。真实函数是二次的，但是在这里我们只使用 9 阶多项式。我们通过改变权重衰减的量来避免高阶模型的过拟合问题。(左)当 λ 非常大时，我们可以强迫模型学习到了一个没有斜率的函数。由于它只能表示一个常数函数，所以会导致欠拟合。(中)取一个适当的 λ 时，学习算法能够用一个正常的形状来恢复曲率。即使模型能够用更复杂的形状来来表示函数，权重衰减鼓励用一个带有更小参数的更简单的模型来描述它。(右)当权重衰减趋近于 0(即，使用Moore-Penrose 伪逆来解这个带有最小正则化的欠定问题)时，这个 9 阶多项式会导致严重的过拟合，这和我们在图中看到的一样。

5.3 超参数和验证集

如5.2中所示的多项式回归实例中，有一个超参数:多项式的次数，作为容量超参数。控制权重衰减程度的 λ 是另一个超参数。

5.3.1 交叉验证

k-折交叉验证算法

5.4 估计，偏差和方差

5.4.1 点估计

点估计 (point estimator):参数 $θ$ 的点估计为 $\overset{ˆ}{ θ }$

函数估计:模型估计去近似 f

5.4.2 偏差

定义: $bia(\overset { \wedge } { \theta }_{ m })=E(\overset { \wedge } { \theta }_{ m })-\theta$ ，无偏 (unbiased): $E(\overset { \wedge } { \theta }_{ m })=\theta$

伯努利分布: $P(x^{(i)};\theta)=\theta^{x^{(i)}}(1-\theta)^{(1-x^{(i)})}$ , $\overset { \wedge } { \theta }_{ m }=\frac{1}{m}\sum_{i=1}^{m}x^{(i)}$ 是参数 $\theta$ 的无偏估计

高斯分布: $p(x^{(i)})=N(x^{(i)};\mu,\sigma ^2)$ ,即 $p(x^{ (i) })=\frac { 1 }{ \sqrt { 2\pi \sigma ^{ 2 } } } exp(-\frac { 1 }{ 2 } \frac { (x^{ (i) }-\mu )^{ 2 } }{ \sigma ^{ 2 } } )$

样本均值 $\overset { \wedge }{ \mu }_ { m }=\frac { 1 }{ m } \sum _{ i=1 }^{ m } x^{ (i) }$ 是高斯均值参数 $\mu$ 的无偏估计量

样本方差 $\overset { \wedge }{ \sigma } _{ { m } }^{ 2 }=\frac { 1 }{ m } \sum _{ i=1 }^{ m } (x^{ (i) }-\overset{\wedge}{\mu }_m)^2$ 是参数 $\sigma ^2$ 的有偏估计，即 $bias(\overset { \wedge }{ \sigma } _{ { m } }^{ 2 })=E[\overset { \wedge }{ \sigma } _{ { m } }^{ 2 }]-\sigma ^2=\frac{m-1}{m}\sigma ^2-\sigma ^2 = -\frac{\sigma ^2}{m}$ ，从此式可以得到 $\sigma ^2$ 的无偏样本方差 (unbiased sample variance)估计： $\frac{m}{m-1}E[\overset { \wedge }{ \sigma } _{ { m } }^{ 2 }]=\frac{1}{m-1}\sum _{ i=1 }^{ m } (x^{ (i) }-\overset{\wedge}{\mu }_m)^2$

Tips:有两个估计量:一个是有偏的，另一个是无偏的。尽管无偏估计显然是可
取的，但它并不总是 ‘‘最好’’ 的估计。我们将看到，经常会使用其他具有重要性质的有偏估计。

5.4.4 权衡偏值和方差以最小化均方误差

均方误差 (mean squared error,MSE):

$MSE\\=E[(\overset { \wedge }{ \theta } _{ m }-\theta )^{ 2 }]\\=Bias(\overset { \wedge }{ \theta } _{ m })^2+Var(\overset { \wedge }{ \theta } _{ m })$

偏差和方差的关系和机器学习容量，欠拟合和过拟合的概念紧密相联。用MSE度量泛化误差(偏差和方差对于泛化误差都是有意义的)时，增加容量会增加方差，降低偏差。

当容量增大(x 轴)时，偏差(用点表示)随之减小，而方差(虚线)随之增大，使得泛化误差(加粗曲线)产生了另一种 U 形。如果我们沿着轴改变容量，会发现最佳容量，当容量小于最佳容量会呈现欠拟合，大于时导致过拟合。

5.4.5 一致性

一致性保证了估计量的偏差会随数据样本数目的增多而减少。

5.5 最大似然估计

一组含有m个样本的数据集 $X= \left\{ x^{(1)},...x^{(m)}\right\}$ ,独立地由真正但未知的数据生成分布 $p_{data}(x)$ 生成。让 $p_{model}(x; θ)$ 是一族由 θ 确定在相同空间上的概率分布。换言之， $p_{model}(x; θ)$ 将任意输入x映射到实数去估计真实概率 $p_{data}(x)$ 。

θ 的最大后验估计被定义为:

$\theta_{ML}\\=\underset{\theta}{argmax} p_{model}(X;\theta)\\=\underset{\theta}{argmax}\prod _{ i=1 }^{m }{ p_{model}(x^{(i)};\theta) }$

$\theta_{ML}\\\\=\underset{\theta}{argmax}\sum _{ i=1 }^{m }{ logp_{model}(x^{(i)};\theta) }$

比较经验分布和模型分布之间的差异，可以通过KL散度度量，定义:

$D_{ KL }(\overset { \wedge }{ p_{ data } } ||{ p_{ model } })\\=E_{ X\sim \overset { \wedge }{ p_{ data } } }[log\overset { \wedge }{ p_{ data } } (x)-log{ p_{ model } } (x)]$

左边一项仅涉及到数据生成过程，和模型无关。表明最小化KL散度和最大化后验概率是一样的。

最小化 KL 散度其实就是在最小化分布之间的交叉熵。许多作者使用术语 ‘‘交
叉熵’’ 特定表示伯努利或 softmax 分布的负对数似然，但那是用词不当的。任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如，均方误差是经验分布和高斯模型之间的交叉熵。

5.5.1 条件对数似然和均方误差

最大似然估计很容易扩展到估计条件概率 P (y | x; θ)，给定 x 预测 y。

如果 X 表示所有的输入，Y 表示我们观测到的目标，那么条件最大似然估计是,

$\theta_{ML}=\underset{\theta}{argmax}P{(Y|X;\theta)}$

实例:线性回归作为最大似然

假设 $p(y | x) = N (y; \overset{\wedge}{y}(x;w),\sigma^2)$ ,样本独立同分布，条件对数似然如下：

$\sum _{ i=1 }^{ m } logp(y^{ (i) }|x^{ (i) };\sigma)\\ =-mlog\sigma-\frac{m}{2}log(2\pi)-\sum_{i=1}^{m}\frac{||\overset{\wedge}{y}^{(i)}-y^{(i)}||^2}{2\sigma^2}$

5.5.2 最大似然的性质

在合适的条件下，最大似然估计具有一致性(参考第5.4.5节)，意味着训练样本数目趋向于无限大时，参数的最大似然估计收敛到参数的真实值。这些条件是:

真实分布 $p_{data}$ 必须在模型族 $p_{model}(·; θ)$ 中。否则，没有估计可以表示 $p_{data}$ 。
真实分布 $p_{data}$ 必须刚好对应一个 $\theta$ 值。否则，最大似然学习恢复出真实分布
$p_{data}$ 后，也不能决定数据生成过程使用哪个 $\theta$ 。

5.6 贝叶斯统计

贝叶斯统计 (Bayesian statistics):贝叶斯用概率反映知识状态的确定性程度。数据集能够直接观测到，因此不是随机的。另一方面，真实参数θ是未知或不确定的。因此可以表示成随机变量。
通俗的理解，就是贝叶斯统计会考虑参数的所有分布，而不是W的一个最优化的值。最常使用的还是对参数的单点估计。
实例:贝叶斯线性回归
书中的推导一开始看起来不是很友好，以下几个链接可供参考，：
https://blog.csdn.net/daunxx/article/details/51725086
https://www.zhihu.com/question/22007264
https://zhuanlan.zhihu.com/p/21598595
https://www.jiqizhixin.com/articles/2018-04-25-3
http://blog.sciencenet.cn/blog-3189881-1140129.html
https://cloud.tencent.com/developer/article/1097341
https://www.cnblogs.com/leezx/p/8721645.html

对比下最大似然估计，最大后验估计，贝叶斯统计：

最大似然估计和最大后验估计都是属于点估计，但最大后验估计会假设参数服从某一分布。假设参数服从高斯分布，就相当于我们对目标函数加上L2范数；假设参数服从拉普拉斯分布，则是加上L1范数。

贝叶斯统计则会考虑参数的整个分布。从理论上看，贝叶斯统计相比于最大后验估计更准确，但缺点在于贝叶斯统计计算更加复杂。实际上，数据量越大，参数的先验影响就会变小，模型的不确定性程度会降低。

最后编辑于：2019.02.22 14:40:49

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,039评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,223评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,916评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,009评论 1赞 291
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,030评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,011评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,934评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,754评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,202评论 1赞 309
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,433评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,590评论 1赞 346
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,321评论 5赞 342
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,917评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,568评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,738评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,583评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,482评论 2赞 352