监督学习:
- 简单定义: 根据例题来做新的习题,根据有结果的数据, 来训练没有结果的数据, 有预期的
- 模型的生命周期是有限的
- 流程: 输入数据->特征工程->模型训练->模型部署->模型应用
输入空间和输出空间
- 输入空间(Input Space): 将输入的所有可能取值的集合称作输入空间
- 输出空间(Output Space): 将输出的所有可能取值的集合称作输出空间
- 输入空间和输出空间可以是有限元素的集合, 也可以是整个欧式空间
- 输入空间和输出空间可以是连续值集合, 也可以是离散值集合
- 输入空间和输出空间可以是同一个空间, 也可以是不同的空间
- 通常输出空间会比输入空间小
特征空间
- 特征(Feature): 即属性, 每个输入实例的各个组成部分(属性)称作原始特征, 基于原始特征还可以扩展出更多的衍生特征.
- 特征向量(Feature Vector): 由多个特征组成的集合, 称作特征向量
- 特征空间(Feature Space): 将特征向量存在的空间成为特征空间
1.
特征空间中每一个维都对应了一个特征(属性)
2.
特征空间可以和输入空间相同, 也可以不同
3.
需将将实例从输入空间映射到特征空间
4.
模型实际上是定义于特征空间之上的
假设空间
- 假设空间(Hypothesis Space): 由输入空间到输出空间的映射的集合, 称作假设空间
用两位大神的话来解释的话:
监督学习的目的在于学习一个由输入到输出的映射, 这一映射由模型来表示, 换句话说, 学习的目的在于找到最好的这样的模型. 模型属于由输入空间到输出空间的映射集合, 这个集合就是假设空间. 假设空间的确定意味着学习范围的确定. ---------------------<统计学习方法> 李航
假设空间指的是问题所有假设组成的空间, 我们可以把学习过程看作是在假设空间中搜索的过程, 搜索目标是寻找和训练集"匹配"的假设
----------周志华<机器学习>
机器学习方法的三要素
机器学习方法通常都是由模型, 策略和算法三个部分构成:方法=模型+策略+算法
-
模型: 输入空间到输出空间的映射关系, 学习过程即为从假设空间中搜索合适当前数据的假设
-
策略: 从假设空间众多的假设中选择到最优的模型的学习标准或规则
- 要从假设空间中选择一个最合适的模型出来, 需要解决以下问题:
- 评估某个模型对单个训练样本的效果
- 评估某个模型对训练集的整体效果
- 评估某个模型对包括训练集, 预测集在内的所有数据的整体效果
- 定义几个指标用来衡量上述问题
- 损失函数: 0-1损失函数, 平方损失函数, 绝对损失函数, 对损失函数等
- 风险函数: 经验风险, 期望风险, 结构风险
- 基本策略
- 经验风险最小(EMR: Empirical Risk Minimization)
- 结构风险最小(SRM: Structural Risk Minimization)
- 要从假设空间中选择一个最合适的模型出来, 需要解决以下问题:
-
算法: 学习模型的具体的计算方法, 通常是求解最优化问题