续上次的部分。
从数据中学得模型的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”(training data),每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)。学得模型对应了关于数据的某种潜在的规律,因此亦称“假设” (hypothesis);这种潜在规律自身,则称为“真相”或“真实”(ground-truth),学习过程就是为了找出或逼近真相。
关于示例结果的信息,称为“标记”(label);拥有了标记信息的示例,则称为“样例”(example)。一般地,用(xi,yi)表示第i个样例,其中yi属于Y,Y是所有标记的集合,亦称“标记空间”(label space)或“输出空间”。
若我们预测的是离散值,此类学习任务称为“分类”(classification) ;若预测的是连续值,此类学习任务称为“回归”(regression)。对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个类称为“反类”“negative class”;涉及多个类别时,则称为“多分类”(multi-class classification)任务。
学得模型之后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)。
此外,我们还可以对某种需要分类的东西进行“聚类”(clustering),即将训练集中的数据分成若干组,每组称为一个“簇”(cluster)。这样的分类过程可能基于某种属性进行划分,这样的划分过程可以帮助我们了解数据内在的规律,能为更深入地分析数据建立基础。但在实际进行聚类学习时,一般认为不知道所谓的属性分类,并且学习过程中使用的训练样本通常不拥有标记信息。根据训练数据是否拥有标记信息,学习任务可以大致分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。
需要注意的是,机器学习的目标是使学得的模型能很好地适用于“新样本”,而不仅仅是在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力,称为“泛化”(generalization)能力。具有强泛化能力的模型能很好地适用于整个样本空间。