今天开始养成一个好的习惯
培养意志力
读书 《机器学习》 周志华著
每天至少15页
Day01 p1-p22
第一章 绪论
1.1 引言
1.2 基本术语
模型 : 全局性结果(一棵决策树)
模式:局部性结果(一条规则)
特征向量:一个示例
标记(label):结果(如 好瓜)
(xi,yi):第i个样例 xi是特征向量
预测的是离散值,如好瓜,坏瓜:分类
预测的是连续值,如成熟度:回归
对西瓜做聚类,即分成若干组:聚类,每组称为一个簇
根据训练数据是否拥有label,可将学习分为监督学习 与 无监督学习
分类与回归属于前者 聚类属于后者
泛化能力:学得模型适用于新样本的能力
因此,我们希望样本能很好地反映整个样本空间。
通常假设样本空间中所有样本服从一个未知“分布”,所有样本来自这个分布,即“独立同分布”
1.3 假设空间 p5
西瓜问题的假设空间 444+1
1.4 归纳偏好
最终可能会有很多与训练集一致的假设 无法取舍
通过实际偏好来选择
有没有一般性原则来引导选择正确的偏好呢?
奥卡姆剃刀:若有多个假设与观察一致,选择简单的那个(如最光滑的曲线)
NFL定理(没有免费的午餐)定理:A,B算法期望性能相同。
寓意:不能脱离具体问题空谈什么算法更好,因为,若考虑所有潜在问题,则所有算法一样好。
1.5 发展历程
1.6 应用现状
数据挖掘 与 机器学习 的关系:
数据库与机器学习是数据挖掘的两大支撑
统计学主要是通过机器学习对数据挖掘发挥影响