机器学习——西瓜书(02)

一、基本术语

错误率(error rate):把分类错误的样本数占样本总数的比例称为错误率。

精度(accuracy):精度=1-错误率

误差(error):学习器的实际预测输出与样本的真实输出之间的差异称为误差。

训练误差(training error)/经验误差(empirical error):学习器在训练集上的误差

泛化误差(generalization error):在新样本上的误差

过拟合(overfitting):当学习器把训练样本学得"太好"了的时候,很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。

欠拟合(underfitting):指对训练样本的一般性质尚未学好

真正例 (true positive):真实情况和预测结果皆为正例

假正例 (false positive):真实情况是反例,预测结果是正例

真反倒 (true negative) :真实情况和预测结果皆是反例

假反例 (false negative):真实情况是正例,预测结果是反例。

二 问题:经验误差与过拟合

如前所述经验误差较大会导致欠拟合,经验误差较小甚至为0会导致过拟合。欠拟合与过拟合的具体实例如下图所示:

来源:周志华《机器学习》p24

欠拟合比较容易克服,过拟合是无法彻底避免的,只能减缓。机器学习面临的问题通常是 NP 难甚至更难,而有效的学习算法必然是在多项式时间内运行完成。要解决过拟合实质上蕴含了假设p=np,但该假设还未验证,所以过拟合仍无法避免。

三、评估方法

我们通常通过测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似,通常我们假设测试样本也是从样本真实分布中独立同分布采样获得。接下来的问题是如何从数据集中产生训练集S和测试集T。(值得注意的是,测试集应该尽量与训练集互斥,即训练集中的样本尽量不要出现在测试集之中)

(1)留出法(hold-out)

"留出法" (hold-out)直接将数据集划分为两个互斥的集合,其中一个集合作为训练集 ,另一个作为测试集 ,即 D=S\cup T , S\cap T= \phi 。在训练集上训练出模型后,用测试集来评估其测试误差,作为对泛化误差的估计。

(2)交叉验证法(cross validation)

"交叉验证法" 先将数据集 划分为 个大小相似的互斥子集, 即 D= D_{1} \cup D_{2} \cup .. \cup D_{k} , D_{i} n D_{j} =  \phi (i\neq j), 每个子集都尽可能保持数据分布的一致性,即从 D中通过分层采样得到。然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得 k组训练/测试集,从而可进行 k 次训练和测试,最终返回的是这 k 个测试误差的均值。

交叉验证法的一个特殊方法是留一法(Leave-On-Out,简称 LOO)。假定数据集D中包含m个样本,若令 k=m,则m 个样本只有唯一的方式划分为 m 个子集一一每个子集包含一个样本留一法使用的训练集与初始数据集相比只少了一个样本,这就使得在绝大多数情况下,留一法中被实际评估的模型与期望评估的用 D 训练出的模型很相似。

(3)自助法(bootstrapping)

留出法和交叉验证法都有一个问题,即训练集必定小于数据集D,但是我们希望评估的是用D训练出的模型,这必定会导致一些因训练样本规模不同而导致的估计偏差。自助法是给定包含m个样本的数据集D ,每次随机从D中挑选一个样本,将其拷贝放入 D' ,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;这个过程重复执行m次后,就得到了包含m个样本的数据集D'。

根据\lim_{m\to+\infty} (1-\frac{1}{m} )^m\approx 0.368

有36.8%的D中的数据在采样中从来不会出现在D'中,因此我们可以用D'作训练集,用D/D'作测试集。

该方法的优点在于训练集的样本总数和数据集一样都是m个,并且仍有约1/3的数据不出现在训练集中可以作为测试集。但是该方法的不足在于这样产生的训练集的数据分布和原数据集的分布不一样了,会引入估计偏差。

四、调参与最终模型

大多数学习算法都有参数需要设定,参数配置不同,学得的模型往往有显著差别。由于学习算法的参数是在实数范围内取值,因此,对每种参数都用数据训练出模型是不可行的。实际操作中,往往会给每个参数设置范围和步长。显然,这样选定的参数值往往不是"最佳"值,但是可以通过天正参数设置,不断优化模型的性能。

参考文献:

周志华.机器学习,北京:清华大学出版社出版年:2016-1-1页数:425

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容