第1章:【1.4-归纳偏好】可以跳过
第2章:【2.3.3-ROC与AUC】及其以后的都可以跳过
1.1引言
机器学习致力于研究如何通过计算手段,利用经验来改善系统的自身性能。
机器学习的研究内容:在计算机上从数据中产生“模型”的算法(学习方法)
我们提供经验数据给计算机,计算机基于数据产生模型。在面对一个新的情况的时候,模型会提供相应判断。
模型是泛指从数据中学到的结果。
部分文献用‘模型’指全局性结果,而‘模式’指局部性结果
1.2基本术语
如果需要预测的是离散值-分类
如果需要预测的是连续值-回归
聚类:将训练集中的西瓜分成若干组,每组称为簇
监督学习:分类和回归
无监督学习:聚类
泛化能力:学得模型能很好的适应整个样本空间
1.3假设空间
归纳:特殊->一般的泛化过程
演绎:一般->特殊的特化过程
第二章
错误率:分类错误的样本数/样本总数。
精度=1-错误率
误差(期望):学习器的实际预测输出与样本的真实输出
训练误差/经验误差:学习器在训练集上的误差
泛化误差:学习器在新样本上的误差
过拟合:可能把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降。
2.2.1留出法
将数据集划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集。
注意:训练/测试集的划分要尽可能保持数据分布的一致性,避免因为在数据划分过程引入额外偏差从而对结果产生影响。例如:在分类任务中至少要保持样本的类别与比例相似。
分层采样:保留类别比例
2.2.2交叉验证法
1.将数据集D划分为k个大小相似的互斥子集。每个子集都尽可能保持数据分布的一致性。每次用k-1 个子集的并集作为训练集,余下的子集作为测试集。最终返回的是这个k个测试结果的均值。
2.2.3自助法
给定包含m个样本的数据集D,对其采样产生数据集D‘。
每次从D中随机挑选一个样本,将其拷贝放入D‘中。
重复执行m次后,我们就得到了包含m个样本的数据集D’
自助法在数据集较小,难以有效划分训练集/测试集时很有用
2.2.4调参与最终模型
对每种参数配置都训练出模型,然后把对应最好模型的参数作为结果。
机器学习涉及两类参数1.算法参数(超参数)2.模型的参数
算法参数数目常在10以内,通常由人工设定多个参数候选值;另一类是模型参数,数目可能很多
2.3性能度量
对学习器的泛化性能进行评估,需要实验估计方法+评价标准
2.3.1错误率与精度
2.3.2查准率,查全率与F1
真正例(TP),假正例(FP),真反例(TN),假反例(FN)
若一个学习器的P-R曲线被另一个学习器曲线完全包住,则断言后者性能优于前者