1.机器学习的一般分类
机器学习的分类
2.训练集、测试集和验证集
如果训练一个单一的模型,想要评估它的质量,那么把数据集划分成训练集和留存集很有效,但实际上通常要训练很多个模型,比较他们的质量,然后选择最好的一个。两路划分的方法是不行的:你不知道最终的分类器的设置在总体上是好的,还是仅仅在留存集中是好的。也不知道留存集上准确率的提高是否会传递到新的实例上。
一个普遍被接收的办法是把数据划分成训练集、验证集和测试集(7:1:2)。所有的实验、调参、误差分析和模型选择都应该在验证集上进行,然后最终模型在测试集上的一次简单运行将会给出它在未见实例上的期望质量的一个好的估计。