学习目标
- 看懂每一步推导
- 会调scikit-learn库实现代码
第一章 绪论
1 基本术语
- 模型:一个函数
- 样本空间 :
表示
- 标记:
标记取值为离散型,是分类任务classification
标记取值为连续性,是回归任务regression
用到标记,是有监督学习
没用标记,是无监督学习 - 泛化:对未知事物判断的准确与否
- 分布:假设样本空间服从一个概率分布
。通常假设我们收集到的样本都是独立同分布的。
- 算法:从数据中学得“模型”的具体方法
2 假设空间和版本空间
- 假设空间:如一元一次函数,一元二次函数。。。对一个问题可能可以解决的模型(假设)所在的空间。
- 数据作为训练集可以有多个假设空间,且在不同的假设空间中都有可能学得能够拟合训练集的模型,我们将所有能够拟合训练集的模型构成的集合称为版本空间。
3 归纳偏好
不同的机器学习算法有不同的偏好,我们称为 “归纳偏好”
- “奥卡姆剃刀”原则——“若有多个假设与观察一致,则选最简单的那个”
通常基于模型在测试集上的表现来评判模型之间的优劣。
总误差与学习算法无关
NFL定理
证明:(考虑二分类,f均匀分布)

1.1.png
学习算法自身的归纳偏好和问题要相配。
数据决定模型的上限,而算法让模型无限逼近上限。