机器学习是设计和研究能够根据过去的经验为未来做决策的软件,是通过
数据进行研究的程序
机器学习的基础是归纳,就是从已知案例数据中找出未知的规律
example:
垃圾邮件过滤
监督学习:
从成对已经标记好的输入和输出经验作为一个输入进行学习,用来预测输出结果。也就是说从有正确答案的例子中学习
无监督学习:
不能从标记好的数据中学习,它需要在数据中发现一些规律
半监督学习:
既包含监督学习也包含无监督学习,这类问题可以看作是介于监督学习和无监督学习之间的学习,半监督学习是一种增强学习,问题可以通过决策获得反馈,但是反馈可能与某一个决策没有直接关系。
训练集:
构成监督学习经验的案例集合
测试集:
评估程序效果的案例集合
常见的监督式机器学习任务就是分类(classification)和回归(regression)
- 分类认为需要学会从若干变量约束条件中预测出目标变量的值, 就是必须预测出新观测值的类型,种类或标签。
分类的应用包括股票的涨跌,新闻头条是政治新闻还是娱乐新闻。 - 回归问题需要预测连续变量的数值,比如预测新产品的销量,或者依据工作的描述预算工资水平等(与分类方式类似,回归问题需要监督学习)
- 常见的无监督式机器学习任务是通过训练数据发现观测值的组别,称为类。对应的任务称为聚类,通过一些相似性度量方法把一些观测值分成同一类。聚类常用来分析数据集。如影评数据,聚类算法可以分辨积极和消极的的影评。
- 降维是另一个常见的无监督学习任务,是发现对响应变量影响最大的解释变量的过程,可以更容易的实现数据可视化。有些问题可能包含成千上万个解释变量,还有些解释变量属于噪音,也有些完全是无边的变量,这些影响都会降低程序的归纳能力。