基本概念
- 示例/样本/特征向量:关于一个事件或对象的描述,可能为数值也可能为离散值,通常表示为(颜色=白,种类=鸟,喙=尖嘴,体重=23kg)
- 属性值:反应事件或对象在某方面的表现或性质的描述,类似白,鸟,等
- 数据集:一组示例/样本的集合
- 属性空间/样本空间/输入空间:以属性值为坐标轴,构成的多维空间,样本值为数据点,每个样本都能在其中找到属于自己的位置
- 维数:通常是属性的数量,例如上例,共有颜色、种类、喙、体重四种属性,则构成的样本空间维数为4
- 学习/训练:从数据/样本集中,通过学习或训练抽象出模型的过程
- 训练集和训练样本:用于训练模型的样本是训练样本,训练样本的集合是训练集
- 假设/学习器:指训练出的模型,因为是从数据集中抽象推断出的一般规律,因此称为假设
- 真相/事实:是指数据实际上遵循的分布规律,是一种客观事实
- 标记:是示例的结果信息
- 样例:有结果信息的示例称为样例
- 标记空间/输出空间:所有样例的空间
- 分类&回归:分类主要针对预测值为离散值的数据,例如通过各类特征值判断猫狗,回归主要针对预测值为连续值的数据,例如预测一周的温度
- 二分类&多分类:只涉及两个分类类比的称为二分类,有多个分类类别的称为多分类
- 测试和测试样本:用于测试训练出的模型效果的样本称为测试样本
- 聚类:根据特征和样本间的相似性,可以将样本分为多个组,每个组称之为簇,这类样本通常不具有标记信息
- 监督性学习&无监督性学习:通常有标记信息的是监督性学习,无标记信息的是无监督性学习
- 泛化:是指将训练出的模型用于新样本推导的能力
- 分布:通常一个样本空间的数据会遵循同一个分布(但真实数据集中往往有噪声存在)
- 归纳&演绎:归纳是指从特殊向一般演化的过程,如归纳出一般公式的过程,演绎是指从一般向特殊演化的过程,如从许多公式推导出一个特定情况下的公式
归纳偏好
在训练模型时,常常会出现多个与训练集分布一致的假设,为了分类结果的唯一性,需要对这多个假设进行选取,选取假设的趋向就是归纳偏好
NFL理论:当一个算法在某些样本集上表现良好时,他必然在另一些样本集上有所欠缺 --》 比较算法优劣需要基于具体的问题而谈
过拟合&欠拟合
- 过拟合:在训练集中过于追求精准度,导致一些特性也被模型算为一般性特征的情况,例如:训练集中所有的猫都是白猫,所有的狗都是黑狗,那么模型可能会在对测试集/真实数据进行判断时,将黑猫也判定为狗
- 欠拟合:是指在训练过程中因为训练程度不够,学习器学习能力低下而导致的模型准确性不高,这种通常更容易解决,例如神经元算法中可以多加几个节点或几层隐层
评估模型效果的方法
- 测试误差:指模型在测试集中的预测结果与事实之间的误差,通常也作为泛化误差的标准
1. 留出法
将所有数据中部分样本留为测试集,剩下的部分用于训练
ps:为了避免数据划分影响数据分布,通常需要采用分层抽样的形式,使测试集和训练集中的数据都与原数据集分布保持一致。此外为了保证结果的稳定可靠,通常需要多次采样后取平均值作为测试误差
2. 交叉验证
将数据分为k个子集,每次用k-1个子集作为训练集,1个子集作为测试集,最终的测试误差为所有结果的均值
ps: 特殊情况,当对n个样本的数据集进行k折(k=n)交叉验证时,为留一法,通常被认为是准确度较高的验证方法,但当数据量大时难以适用
3.自助法
针对m个样本的数据集进行采样,每次抽样后放回,重复m次后,将未取到的样本作为测试集
ps:通常用于数据量太小,难以划分训练/测试集的情况,但因为改变了数据分布,可能引入估计误差,并不常用
调参
通过调整参数,改善模型性能的行为
调参 vs 算法选择
- 算法选择是离散值,而参数通常是实数范围取值,很难选取到最佳值,因此往往在一定范围内以步长测算,选取相对性能较好的数值
- 模型选择和调参通常应用在验证集上
性能度量
- 错误率 & 精度
- 错误率:分类错误的数据在总样本中的比例
- 精度:分类正确的数据在总样本中的比例
- 查准率、查全率、F1
- 查准率Precise:真正例在所有预期正例中所占的比例
- 查全率Recall:真正例在所有实际正例中所占的比例
- F1:2*TP/(样例总数+TP-TN)