机器学习-西瓜书1-2章学习总结

基本概念

  • 示例/样本/特征向量:关于一个事件或对象的描述,可能为数值也可能为离散值,通常表示为(颜色=白,种类=鸟,喙=尖嘴,体重=23kg)
  • 属性值:反应事件或对象在某方面的表现或性质的描述,类似白,鸟,等
  • 数据集:一组示例/样本的集合
  • 属性空间/样本空间/输入空间:以属性值为坐标轴,构成的多维空间,样本值为数据点,每个样本都能在其中找到属于自己的位置
  • 维数:通常是属性的数量,例如上例,共有颜色、种类、喙、体重四种属性,则构成的样本空间维数为4
  • 学习/训练:从数据/样本集中,通过学习或训练抽象出模型的过程
  • 训练集和训练样本:用于训练模型的样本是训练样本,训练样本的集合是训练集
  • 假设/学习器:指训练出的模型,因为是从数据集中抽象推断出的一般规律,因此称为假设
  • 真相/事实:是指数据实际上遵循的分布规律,是一种客观事实
  • 标记:是示例的结果信息
  • 样例:有结果信息的示例称为样例
  • 标记空间/输出空间:所有样例的空间
  • 分类&回归:分类主要针对预测值为离散值的数据,例如通过各类特征值判断猫狗,回归主要针对预测值为连续值的数据,例如预测一周的温度
  • 二分类&多分类:只涉及两个分类类比的称为二分类,有多个分类类别的称为多分类
  • 测试和测试样本:用于测试训练出的模型效果的样本称为测试样本
  • 聚类:根据特征和样本间的相似性,可以将样本分为多个组,每个组称之为簇,这类样本通常不具有标记信息
  • 监督性学习&无监督性学习:通常有标记信息的是监督性学习,无标记信息的是无监督性学习
  • 泛化:是指将训练出的模型用于新样本推导的能力
  • 分布:通常一个样本空间的数据会遵循同一个分布(但真实数据集中往往有噪声存在)
  • 归纳&演绎:归纳是指从特殊向一般演化的过程,如归纳出一般公式的过程,演绎是指从一般向特殊演化的过程,如从许多公式推导出一个特定情况下的公式

归纳偏好

在训练模型时,常常会出现多个与训练集分布一致的假设,为了分类结果的唯一性,需要对这多个假设进行选取,选取假设的趋向就是归纳偏好

NFL理论:当一个算法在某些样本集上表现良好时,他必然在另一些样本集上有所欠缺 --》 比较算法优劣需要基于具体的问题而谈

过拟合&欠拟合

  • 过拟合:在训练集中过于追求精准度,导致一些特性也被模型算为一般性特征的情况,例如:训练集中所有的猫都是白猫,所有的狗都是黑狗,那么模型可能会在对测试集/真实数据进行判断时,将黑猫也判定为狗
  • 欠拟合:是指在训练过程中因为训练程度不够,学习器学习能力低下而导致的模型准确性不高,这种通常更容易解决,例如神经元算法中可以多加几个节点或几层隐层

评估模型效果的方法

  • 测试误差:指模型在测试集中的预测结果与事实之间的误差,通常也作为泛化误差的标准
    1. 留出法
    将所有数据中部分样本留为测试集,剩下的部分用于训练

    ps:为了避免数据划分影响数据分布,通常需要采用分层抽样的形式,使测试集和训练集中的数据都与原数据集分布保持一致。此外为了保证结果的稳定可靠,通常需要多次采样后取平均值作为测试误差

2. 交叉验证
将数据分为k个子集,每次用k-1个子集作为训练集,1个子集作为测试集,最终的测试误差为所有结果的均值

ps: 特殊情况,当对n个样本的数据集进行k折(k=n)交叉验证时,为留一法,通常被认为是准确度较高的验证方法,但当数据量大时难以适用

3.自助法
针对m个样本的数据集进行采样,每次抽样后放回,重复m次后,将未取到的样本作为测试集

ps:通常用于数据量太小,难以划分训练/测试集的情况,但因为改变了数据分布,可能引入估计误差,并不常用

调参

通过调整参数,改善模型性能的行为
调参 vs 算法选择

  • 算法选择是离散值,而参数通常是实数范围取值,很难选取到最佳值,因此往往在一定范围内以步长测算,选取相对性能较好的数值
  • 模型选择和调参通常应用在验证集上

性能度量

  1. 错误率 & 精度
  • 错误率:分类错误的数据在总样本中的比例
  • 精度:分类正确的数据在总样本中的比例
  1. 查准率、查全率、F1
  • 查准率Precise:真正例在所有预期正例中所占的比例
  • 查全率Recall:真正例在所有实际正例中所占的比例
  • F1:2*TP/(样例总数+TP-TN)
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容