《机器学习实战》第一章

绪论

机器如何学习

监督式学习
  • 算法类型
    • 按输入空间划分
      • Concrete Feature
      • Raw Feature
      • Abstract Features
    • 按输出空间划分
      • 分类问题
      • 回归问题
      • 结构化学习
    • 按不同协议划分
      • Batch Learning
      • Online Learning
      • Active Learning
    • 按样本标签划分
      • 监督式学习
        • 分类:将实例数据划分到合适的分类中(垃圾邮件的过滤)
          • K-近邻
          • Logistic回归
          • 决策树
          • 支持向量机
          • 朴素贝叶斯
          • AdaBoost
        • 回归:预测数值型数据(房屋价格预测)
          • 线性回归
          • 树回归
          • Ridge回归
          • Lasso最小回归系数估计
      • 半监督式学习
      • 非监督式学习
        • K-均值聚类:新闻报道自动分类
        • 最大期望算法
        • DBSCAN
        • Parzen窗设计

监督学习一般使用两种类型的目标变量

  • 标称型,目标变量只在有限目标集中取值
  • 数值型,目标变量可以从无限数值集合中取值

选择算法

  • 目的:
    • 预测目标变量值:监督学习算法
      • 目标变量类型离散型:分类器算法
      • 目标变量类型连续型:回归算法
    • 不预测目标变量值:非监督学习算法
      • 将数据划分为离散的组:聚类算法
      • 估计数据和每个分组的相似程度:密度估计算法
  • 数据
    • 特征值为离散型变量或连续型变量
    • 特征值中是否存在缺失值,何种原因造成缺失值
    • 数据中是否存在异常值,某个特征发生的频率如何

开发机器学习应用程序的步骤

  • 收集数据
  • 准备输入数据
  • 分析输入数据:缺失值、异常值、维度压缩
  • 训练算法:非监督学习不存在此步
  • 测试算法:监督学习——必须已知用于评估算法的目标变量值;无监督学习——必须用其他的评测手段来检验算法的成功率。
  • 使用算法
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容