5.1 学习算法
5.1.1 任务,T
常见机器学习任务列举:分类,输入缺失分类,回归,转录,机器翻译,结构化输出,异常检测,合成和采样,缺失值填补,去噪,密度估计或概率分布律函数估计
5.1.2 性能度量,P
**
5.1.3 经验,E
机器学习算法分为:无监督 (unsupervised) 和监督 (supervised)
5.1.4 实例:线性回归
任务T-->线性函数:
度量P-->均方误差 (mean squared error)
MSE =
argminMSE:
5.2 容量,过拟合和欠拟合
模型的容量(capacity)是指其拟合各种函数的能力。容量低的模型可能很难拟合训练集。容量高的模型可能会过拟合,因为记住了不适用于测试集的训练集性质。
提高机器学习模型泛化。奥卡姆剃刀 (Occam’s razor)。该原则指出,在同样能够解释已知观测现象的假设中,应该挑选 ‘‘最简单’’ 的那一个。
5.2.1 没有免费午餐定理
机器学习的没有免费午餐定理 (no free lunch theorem)表明,在所有可能的数据生成分布上平均,每一个分类算法在未事先观测的点上都有相同的错误率。换言之,在某种意义上,没有一个机器学习算法总是比其他的要好。什么样的学习算法在我们关注的数据生成分布上效果最好。
5.2.2 正则化
上图是举例了通过增加或减少学习算法可选假设空间(上图通过增加或减少多项式的次数)的函数来增加或减少模型的容量。除此之外,算法也取决于这些函数的具体形式。例如针对线性回归,可以加入权重衰减 (weight decay)来修改线性回归的训练标准。带权重衰减的线性回归最小化,训练集上的均方误差和正则项的和 J(w),偏好于平方 L2 范数较小的权重。
如第一张图所示,我们使用高阶多项式回归模型来拟合图中训练样本。真实函数是二次的,但是在这里我 们只使用 9 阶多项式。我们通过改变权重衰减的量来避免高阶模型的过拟合问题。(左)当 λ 非 常大时,我们可以强迫模型学习到了一个没有斜率的函数。由于它只能表示一个常数函数,所以会导致欠拟合。(中)取一个适当的 λ 时,学习算法能够用一个正常的形状来恢复曲率。即使模 型能够用更复杂的形状来来表示函数,权重衰减鼓励用一个带有更小参数的更简单的模型来描述 它。(右)当权重衰减趋近于 0(即,使用Moore-Penrose 伪逆来解这个带有最小正则化的欠定问 题)时,这个 9 阶多项式会导致严重的过拟合,这和我们在图中看到的一样。
5.3 超参数和验证集
如5.2中所示的多项式回归实例中,有一个超参数:多项式的次数,作为容量超参数。控制权重衰减程度的 λ 是另一个超参数。
5.3.1 交叉验证
k-折交叉验证算法
5.4 估计,偏差和方差
5.4.1 点估计
点估计 (point estimator):参数 的点估计为
函数估计:模型估计去近似 f
5.4.2 偏差
定义:,无偏 (unbiased):
伯努利分布:,是参数的无偏估计
高斯分布:,即
样本均值是高斯均值参数的无偏估计量
样本方差是参数的有偏估计,即,从此式可以得到的无偏样本方差 (unbiased sample variance)估计:
Tips:有两个估计量:一个是有偏的,另一个是无偏的。尽管无偏估计显然是可
取的,但它并不总是 ‘‘最好’’ 的估计。我们将看到,经常会使用其他具有重要性质的有偏估计。
5.4.4 权衡偏值和方差以最小化均方误差
均方误差 (mean squared error,MSE):
偏差和方差的关系和机器学习容量,欠拟合和过拟合的概念紧密相联。用MSE度量泛化误差(偏差和方差对于泛化误差都是有意义的)时,增加容量会增加方差,降低偏差。5.4.5 一致性
一致性保证了估计量的偏差会随数据样本数目的增多而减少。
5.5 最大似然估计
一组含有m个样本的数据集,独立地由真正但未知的数据生成分布生成。让 是一族由 θ 确定在相同空间上的概率分布。换言之,将任意输入x映射到实数去估计真实概率 。
θ 的最大后验估计被定义为:
比较经验分布和模型分布之间的差异,可以通过KL散度度量,定义:
左边一项仅涉及到数据生成过程,和模型无关。表明最小化KL散度和最大化后验概率是一样的。
最小化 KL 散度其实就是在最小化分布之间的交叉熵。许多作者使用术语 ‘‘交
叉熵’’ 特定表示伯努利或 softmax 分布的负对数似然,但那是用词不当的。任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。
5.5.1 条件对数似然和均方误差
最大似然估计很容易扩展到估计条件概率 P (y | x; θ),给定 x 预测 y。
如果 X 表示所有的输入,Y 表示我们观测到的目标,那么条件最大似然估计是,
实例:线性回归作为最大似然
假设,样本独立同分布,条件对数似然如下:
5.5.2 最大似然的性质
在合适的条件下,最大似然估计具有一致性(参考第5.4.5节),意味着训练样本数目趋向于无限大时,参数的最大似然估计收敛到参数的真实值。这些条件是:
- 真实分布 必须在模型族 中。否则,没有估计可以表示。
- 真实分布必须刚好对应一个值。否则,最大似然学习恢复出真实分布
后,也不能决定数据生成过程使用哪个。
5.6 贝叶斯统计
贝叶斯统计 (Bayesian statistics):贝叶斯用概率反映知识状态的确定性程度。数据集能够直接观测到,因此不是随机的。另一方面,真实参数θ是未知或不确定的。因此可以表示成随机变量。
通俗的理解,就是贝叶斯统计会考虑参数的所有分布,而不是W的一个最优化的值。最常使用的还是对参数的单点估计。
实例:贝叶斯线性回归
书中的推导一开始看起来不是很友好,以下几个链接可供参考,:
https://blog.csdn.net/daunxx/article/details/51725086
https://www.zhihu.com/question/22007264
https://zhuanlan.zhihu.com/p/21598595
https://www.jiqizhixin.com/articles/2018-04-25-3
http://blog.sciencenet.cn/blog-3189881-1140129.html
https://cloud.tencent.com/developer/article/1097341
https://www.cnblogs.com/leezx/p/8721645.html
对比下最大似然估计,最大后验估计,贝叶斯统计:
- 最大似然估计和最大后验估计都是属于点估计,但最大后验估计会假设参数服从某一分布。假设参数服从高斯分布,就相当于我们对目标函数加上L2范数;假设参数服从拉普拉斯分布,则是加上L1范数。
- 贝叶斯统计则会考虑参数的整个分布。从理论上看,贝叶斯统计相比于最大后验估计更准确,但缺点在于贝叶斯统计计算更加复杂。实际上,数据量越大,参数的先验影响就会变小,模型的不确定性程度会降低。