1.1引言
本书的“模型”泛指从数据中学的的结果。
1.2基本术语
从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”,其中每个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”。
对只涉及两个类别的“二分类”任务,通常称其中一个类为“正类”,另一个类为“反类”;涉及多个类别时,则称为“多分类”任务。
“聚类”即将训练集中的西瓜分为若干个组,每组称为一个“簇”;这些自动形成的簇可能对应一些潜在的概念划分。
根据训练数据是否拥有标记信息,学习任务大致划分为两大类:“监督学习”和“无监督学习”,分类和回归是前者的代表,而聚类是后者的代表。
1.3假设空间
归纳学习有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,因此亦称为“概念学习”或“概念形成”。
我们可以把学习过程看作是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。
需注意的是,现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设合集”,我们称之为“版本空间”。
1.4归纳偏好
机器算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。
“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选择最简单的那个”。然而奥卡姆剃刀并非唯一可行的原则。
无论学习算法A多聪明、学习算法B多笨拙,它们的期望性能竟然相同!这就是“没有免费的午餐”定理,简称NFL定理。我们需要注意到,NFL定理有一个重要的前提:所有“问题”出现的机会相同、或所有问题同等重要。
NFL定理最重要的寓意是,若考虑所有潜在的问题,则所有学习算法都一样好。要谈论算法的相对优略,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。
1.6应用现状
数据发掘是从海量数据中发掘知识,这就必然涉及对“海量数据"的管理和分析,大体来说,数据领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。