机器学习 Chapter One
样本和模型
- 样本
- 标签
- 特征
- 模型
模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段:
训练表示创建或学习模型。也就是说,您向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
推断表示将训练后的模型应用于无标签样本。也就是说,您使用训练后的模型来做出有用的预测 (y')。例如,在推断期间,您可以针对新的无标签样本预测 medianHouseValue。
此点用线性回归方程 y = b +wx 很好理解 (why we use w 是因为,这是机器学习问题,w是 weight 权重的意思)其中b的含义是偏差,偏差项,也是超参数的一个
- 回归与分类
回归模型可以预测连续值,分类模型可以预测离散值
分类模型是什么?
一种机器学习的模型,用于区别两种或多种离散类别,常见的有如 二元分类问题。
线性回归问题中出现的基本概念
损失
误差在英文中为loss
很明显 L2级误差为方差,离真实数据越远,误差以平方数增加,因此这就要求我们在训练数据集的时候,并不是专注于减少某一个误差,而是着眼于最大限度地,减少整个数据集的误差
当然,损失函数有很多,常见的L2,MSE是平均计算后的L2,当然,适合于不同情景的损失函数是不同的训练
一般我们机器学习大概有如下步骤:
- 确定模型
- 训练模型
- 使用模型
确定模型,简单来讲就是选函数
然后 训练模型,就是用已有的数据,肯定带标签的,来通过一些方法,比如最优化等等,确定函数的参数(在线性回归模型中,即所有权重w和偏差b的理想值),参数确定后的函数就是训练的结果,使用模型,就是inference 用模型对无标签的数据进行分类/回归
- 再多谈一点训练集,验证集和测试集
训练集就是 数据集的子集,而验证集也是数据集的子集(带标签),测试集也是数据集的子集,用于在模型经验证集的初步验证之后测试模型,训练集和测试集应该保持数据独立。 - 使用模型 就是inference
统计学概念就是,在某些观测数据条件下(即各个feature 特征量下,拟合分布参数的过程,拟合则又涉及到了过拟合和欠拟合)