机器学习

机器学习 Chapter One

样本和模型

  • 样本
  • 标签
  • 特征
  • 模型

模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段:

训练表示创建或学习模型。也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。

推断表示将训练后的模型应用于无标签样本。也就是说,您使用训练后的模型来做出有用的预测 (y')。例如,在推断期间,您可以针对新的无标签样本预测 medianHouseValue。

此点用线性回归方程 y = b +wx 很好理解 (why we use w 是因为,这是机器学习问题,w是 weight 权重的意思)其中b的含义是偏差,偏差项,也是超参数的一个

  • 回归与分类

回归模型可以预测连续值,分类模型可以预测离散值

分类模型是什么?
一种机器学习的模型,用于区别两种或多种离散类别,常见的有如 二元分类问题。

线性回归问题中出现的基本概念

  • 损失
    误差在英文中为loss
    很明显 L2级误差为方差,离真实数据越远,误差以平方数增加,因此这就要求我们在训练数据集的时候,并不是专注于减少某一个误差,而是着眼于最大限度地,减少整个数据集的误差
    当然,损失函数有很多,常见的L2,MSE是平均计算后的L2,当然,适合于不同情景的损失函数是不同的

  • 训练
    一般我们机器学习大概有如下步骤:

  1. 确定模型
  2. 训练模型
  3. 使用模型
    确定模型,简单来讲就是选函数
    然后 训练模型,就是用已有的数据,肯定带标签的,来通过一些方法,比如最优化等等,确定函数的参数(在线性回归模型中,即所有权重w和偏差b的理想值),参数确定后的函数就是训练的结果,使用模型,就是inference 用模型对无标签的数据进行分类/回归
  • 再多谈一点训练集,验证集和测试集
    训练集就是 数据集的子集,而验证集也是数据集的子集(带标签),测试集也是数据集的子集,用于在模型经验证集的初步验证之后测试模型,训练集和测试集应该保持数据独立。
  • 使用模型 就是inference
    统计学概念就是,在某些观测数据条件下(即各个feature 特征量下,拟合分布参数的过程,拟合则又涉及到了过拟合和欠拟合)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容