机器学习 Chapter One

样本和模型

模型定义了特征与标签之间的关系。例如，垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。我们来重点介绍一下模型生命周期的两个阶段：

训练表示创建或学习模型。也就是说，您向模型展示有标签样本，让模型逐渐学习特征与标签之间的关系。

推断表示将训练后的模型应用于无标签样本。也就是说，您使用训练后的模型来做出有用的预测 (y')。例如，在推断期间，您可以针对新的无标签样本预测 medianHouseValue。

此点用线性回归方程 y = b +wx 很好理解（why we use w 是因为，这是机器学习问题，w是 weight 权重的意思）其中b的含义是偏差，偏差项，也是超参数的一个

回归模型可以预测连续值，分类模型可以预测离散值

分类模型是什么？
一种机器学习的模型，用于区别两种或多种离散类别，常见的有如二元分类问题。

线性回归问题中出现的基本概念

损失
误差在英文中为loss
很明显 L2级误差为方差，离真实数据越远，误差以平方数增加，因此这就要求我们在训练数据集的时候，并不是专注于减少某一个误差，而是着眼于最大限度地，减少整个数据集的误差
当然，损失函数有很多，常见的L2，MSE是平均计算后的L2，当然，适合于不同情景的损失函数是不同的
训练
一般我们机器学习大概有如下步骤：

确定模型
训练模型
使用模型
确定模型，简单来讲就是选函数
然后训练模型，就是用已有的数据，肯定带标签的，来通过一些方法，比如最优化等等，确定函数的参数（在线性回归模型中，即所有权重w和偏差b的理想值），参数确定后的函数就是训练的结果，使用模型，就是inference 用模型对无标签的数据进行分类/回归

再多谈一点训练集，验证集和测试集
训练集就是数据集的子集，而验证集也是数据集的子集（带标签），测试集也是数据集的子集，用于在模型经验证集的初步验证之后测试模型，训练集和测试集应该保持数据独立。
使用模型就是inference
统计学概念就是，在某些观测数据条件下（即各个feature 特征量下，拟合分布参数的过程，拟合则又涉及到了过拟合和欠拟合）

机器学习