机器学习的基本概念

监督学习:
  • 简单定义: 根据例题来做新的习题,根据有结果的数据, 来训练没有结果的数据, 有预期的
  • 模型的生命周期是有限的
  • 流程: 输入数据->特征工程->模型训练->模型部署->模型应用
输入空间和输出空间
  • 输入空间(Input Space): 将输入的所有可能取值的集合称作输入空间
  • 输出空间(Output Space): 将输出的所有可能取值的集合称作输出空间
  • 输入空间和输出空间可以是有限元素的集合, 也可以是整个欧式空间
  • 输入空间和输出空间可以是连续值集合, 也可以是离散值集合
  • 输入空间和输出空间可以是同一个空间, 也可以是不同的空间
  • 通常输出空间会比输入空间小
特征空间
  • 特征(Feature): 即属性, 每个输入实例的各个组成部分(属性)称作原始特征, 基于原始特征还可以扩展出更多的衍生特征.
  • 特征向量(Feature Vector): 由多个特征组成的集合, 称作特征向量
  • 特征空间(Feature Space): 将特征向量存在的空间成为特征空间
    1.特征空间中每一个维都对应了一个特征(属性)
    2.特征空间可以和输入空间相同, 也可以不同
    3.需将将实例从输入空间映射到特征空间
    4.模型实际上是定义于特征空间之上的
假设空间
  • 假设空间(Hypothesis Space): 由输入空间到输出空间的映射的集合, 称作假设空间
    用两位大神的话来解释的话:

监督学习的目的在于学习一个由输入到输出的映射, 这一映射由模型来表示, 换句话说, 学习的目的在于找到最好的这样的模型. 模型属于由输入空间到输出空间的映射集合, 这个集合就是假设空间. 假设空间的确定意味着学习范围的确定. ---------------------<统计学习方法> 李航

假设空间指的是问题所有假设组成的空间, 我们可以把学习过程看作是在假设空间中搜索的过程, 搜索目标是寻找和训练集"匹配"的假设
----------周志华<机器学习>

假设个数的计算
机器学习方法的三要素

机器学习方法通常都是由模型, 策略和算法三个部分构成:方法=模型+策略+算法

  • 模型: 输入空间到输出空间的映射关系, 学习过程即为从假设空间中搜索合适当前数据的假设


    模型
  • 策略: 从假设空间众多的假设中选择到最优的模型的学习标准或规则

    • 要从假设空间中选择一个最合适的模型出来, 需要解决以下问题:
      • 评估某个模型对单个训练样本的效果
      • 评估某个模型对训练集的整体效果
      • 评估某个模型对包括训练集, 预测集在内的所有数据的整体效果
    • 定义几个指标用来衡量上述问题
      • 损失函数: 0-1损失函数, 平方损失函数, 绝对损失函数, 对损失函数等
      • 风险函数: 经验风险, 期望风险, 结构风险
    • 基本策略
      • 经验风险最小(EMR: Empirical Risk Minimization)
      • 结构风险最小(SRM: Structural Risk Minimization)
  • 算法: 学习模型的具体的计算方法, 通常是求解最优化问题


    三要素
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容