吃瓜第一章 2023-12-11

学习目标

  • 看懂每一步推导
  • 会调scikit-learn库实现代码

第一章 绪论

1 基本术语

  • 模型:一个函数
  • 样本空间 :\mathcal X表示
  • 标记:
    标记取值为离散型,是分类任务classification
    标记取值为连续性,是回归任务regression
    用到标记,是有监督学习
    没用标记,是无监督学习
  • 泛化:对未知事物判断的准确与否
  • 分布:假设样本空间服从一个概率分布\mathcal D。通常假设我们收集到的样本都是独立同分布的。
  • 算法:从数据中学得“模型”的具体方法

2 假设空间和版本空间

  • 假设空间:如一元一次函数,一元二次函数。。。对一个问题可能可以解决的模型(假设)所在的空间。
  • 数据作为训练集可以有多个假设空间,且在不同的假设空间中都有可能学得能够拟合训练集的模型,我们将所有能够拟合训练集的模型构成的集合称为版本空间

3 归纳偏好

不同的机器学习算法有不同的偏好,我们称为 “归纳偏好”

  • “奥卡姆剃刀”原则——“若有多个假设与观察一致,则选最简单的那个”

通常基于模型在测试集上的表现来评判模型之间的优劣。
总误差与学习算法无关
NFL定理
证明:(考虑二分类,f均匀分布)

1.1.png

学习算法自身的归纳偏好和问题要相配。

数据决定模型的上限,而算法让模型无限逼近上限。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容