一、什么是错误率
通常我们把分类错误的样本数占样本总数的比例称为"错误率" ,即如果在 m 个样本中有 α 个样本分类错误,则错误率 E= α/m; 相应的, 1 一 α/m 称为"精度" ,即"精度=1一错误率"。
二、两种误差
1、训练误差 在训练集上的误差
2、泛化误差 在新样本(测试集?)上的误差
三、两种导致误差的现象
1、过拟合:学习到了训练样本不太一般的特性(一定要包含某种特征才能判断为某种结果)
2、欠拟合:学习能力低下(误认为有某种特征的都是该结果)
四、为什么用测试误差作为泛化误差的近似
1、我们无法直接获得泛化误差
2、训练误差由于过拟合现象的存在而不适合作为标准
五、为什么测试样本要与训练集互斥?
机器学习得到的模型是通过训练样本构造的,用这样的模型返回去测试将会得到过于乐观的估计结果。
六、如何使训练集和样本集互斥?
1、留出法
直接将数据集分为互斥的两个集合
在分层采样的基础上得到的结果仍会因为划分顺序等方面的不同产生差别
所以一般采用多次留出法取平均值作为结果
测试集和训练集数量上的差别可能导致
由于测试集数量小,评估结果不准确
由于训练集数量小,被评估的模型与用 数据集训练出 的模型相比可能有较大差别
2、交叉验证法
先将先将数据集 D 划 分为 k 个大小相似的 互斥子集(分层采样),每次轮流取一个作为测试集,剩下的作为训练集,得到k 组结果,最终返回均值。
3、自助法
重复抽样 m个样本抽取m次
每次样本不被抽中的概率是1-1/m 一共抽取m次 根据极限定理 可得从未被抽中的样本约占0、368
自助法在数据集较小、难以有效划分训练/测试集时很有用
由于每个参数都需考虑多个候选值 所以每组训练测试集都有大量的模型需考察,这将导致极大的调参工程量。
七 、对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需 要有衡量模型泛化能力的评价标准,这就是性能度量,性能度量反应学习器预测结果和真实标记的差别。
1、均方误差 用于回归任务(每种数据的概率乘以它的预测结果和真实标记的差的平方)
2、错误率 精度 用于分类任务 (错误率和正确率)
错误率衡 量了有多少比例的瓜被判别错误.但是若我们关心的是"挑出的西瓜中有多少 比例是好瓜",或者"所有好瓜中有多少比例被挑了出来 就不够用了'这时需要使用其他的性能度量.
这时需要使用查重率和查准率进行度量
查准率P 预测结果为正的里正确的比率为(预测是否准确)
查全率R 真实结果为正的里被预测对的比率(预测是否全面)
查准率和查全率是一对矛盾的度量.一般来说,查准率高时,查全率往往 偏低;而查全率高时,查准率往往偏低.
若一个学习器的 P-R 曲线被另一个学习器的曲线完全"包住 " , 则可断言 后者的性能优于前者,
如果两个曲线发生交叉,则引入平衡点作为比较标准
平衡点是是"查准率=查全率"时的取值,平衡点BEP大的曲线对应的学习器性能更优。
1/P 需要多少个正的预测结果才会对一个
1/R 需要多少个正的真实结果才会被预测到一个
F1 用来度量学习器性能
比较检验
八、为什么不能直接用性能度量的值比较学习器的性能
1、希望比较泛化性能
然而通过实验评估 方法我们获得的是测试集上的性能
2、测试集的大小会影响学习器得到的结果
3、相同参数在同一个测试集上运行结果也会不同
而基于假设检验结果我们可推断出,若在测试集上观察到学习器 A 比 B 好, 则 A 的泛化性能是否在统计意义上优于 B,以及这个结论的把握有多大.(测试结果能多大程度代替泛化性能)
"假设"是对学习器泛化错误率分布的某种判断或猜想,泛化错误率和测试错误率未必相同,但直观上,可根据测试错误率估推出泛化错误率的分布。
泛化错误率是对新样本判断错误的概率,相当于在任意一个样本上犯错的概率。
测试错误率是在一定数量的测试集中判断错误的数量比率。
泛化 错误率为 E 的学习器和测试错误率为 e学习器在对测试集进行判断时有一样的错误数量 时(在一个样本上犯错的概率为a的学习器测试测试集的错误概率是A)的概率是
对泛化错误率求导可得 当泛化错误率等于测试错误率时 上述概率最大(测试错误率和泛化错误率效果最可能相同)