转载自ApacheCN
原文太长,所以提取了我认为重要的部分,并加工。
机器学习 概述
机器学习(Machine Learning,ML) 是使用计算机来彰显数据背后的真实含义,它为了把无序的数据转换成有用的信息。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
- 海量的数据(train_data)
- 获取有用的信息(fit)
机器学习 组成
主要任务
- 分类(classification):将实例数据划分到合适的类别中。
- 应用实例:判断网站是否被黑客入侵(二分类 ),手写数字的自动识别(多分类)
- 回归(regression):主要用于预测数值型数据。
- 应用实例:股票价格波动的预测,房屋价格的预测等。
训练过程
算法汇总
机器学习 使用
选择算法需要考虑的两个问题
- 算法场景
- 预测明天是否下雨,因为可以用历史的天气情况做预测,所以选择监督学习算法
- 给一群陌生的人进行分组,但是我们并没有这些人的类别信息,所以选择无监督学习算法、通过他们身高、体重等特征进行处理。
- 需要收集或分析的数据是什么
举例
机器学习 开发流程
- 收集数据: 收集样本数据
- 准备数据: 注意数据的格式
- 分析数据: 为了确保数据集中没有垃圾数据;
- 如果是算法可以处理的数据格式或可信任的数据源,则可以跳过该步骤;
- 另外该步骤需要人工干预,会降低自动化系统的价值。
- 训练算法: [机器学习算法核心]如果使用无监督学习算法,由于不存在目标变量值,则可以跳过该步骤
- 测试算法: [机器学习算法核心]评估算法效果
- 使用算法: 将机器学习算法转为应用程序