基本概念
从数据中学得模型的过程称为学习[learning]或训练[training],这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为训练数据[training data],其中每个样本称为一个训练样本,训练样本组成的集合称为训练集[training set],学得模型对应了关于数据的某种潜在规律,因此亦称假设[hypothesis]。这种潜在规律自身,则称为真相或真实,学习的过程就是为了找出或逼近真相。
训练样本的“结果”信息,称为标记[label],拥有了标记信息的示例,则称为样例。根据训练数据是否拥有标记信息,学习任务可大致分为两大类:监督学习(supervised learning)和无监督学习(unsupervised learning),分类和回归属于前者,聚类则是后者。
若与预测的是离散值,此类学习任务称为分类[classification];若预测的是连续值,则称为回归[regression]。
学的模型适用于新样本的能量,称为泛化能力(generalization)。
我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。需注意的是,现实问题中我们常面临很大的假设空间,但学校过程是基于有限样本训练集进行的,因此可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,我们称之为版本空间(version space)
机器学习算法在学习过程中对某种类型的偏好,称为归纳偏好,任何一个机器学习算法必有其归纳偏好。
奥卡姆剃刀是一种常用的,自然科学研究中最基本的原则,即若多个假设与观察一致,则选择最简单的那个。
没有免费的午餐(NFL)定理:无论一个算法多么好,另一个算法多么差,他们的期望性能相同!NFL定理最重要的寓意,是让我们清楚地认识到,脱离具体问题,空泛的谈“什么学习算法更好”毫无意义。