绪论
基本术语
- 数据集(data set):示例(instance)或样本(sample)的集合。样本由反映时间或对象在某方面的表现或性质的属性(attribute)或特征(feature)构成。属性上的取值为属性值(attribute value),属性张成的空间成为属性空间(attribute space)、样本空间(sample space)。把每一个实称为一个特征向量(feature vector)。拥有标记信息的示例称为样例(example)。所有标记构成标记空间(label space)。
- 学习(learning)或训练(training):通过执行某个学习算法来完成。学得模型对应了关于数据的某种潜在的规律,称为假设(hypothesis),学习过程就是为了找出或者逼近真相。
- 分类(classification)、回归(regression):欲预测的是离散值,此时学习任务为分类;欲预测的是连续值,此学习任务为回归。一般地,预测任务是希望通过对训练集${(x_1,y_1)(x_2,y_2),.....,(x_m,y_m)}$进行学习,建立一个从输入空间$X到输出空间Y的映射f:X\rightarrowY。对于二分类任务,通常令$Y={-1,+1}或{0,1};对于多分为任务,|Y|>2$;对于回归任务,Y=R$。学得模型后,使用其进行预测的过程称为测试(testing),被测试的样本成为测试样本(testing sample)。
- 聚类(clustering):将训练集中的示例分为若干组,每组成为一个簇(cluster)。这些自动形成的簇可能对应一些潜在的概念划分,这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。
- 监督学习(supervised learning)和无监督学习(unsupervised learning):监督学习的训练数据拥有标记信息,分类和回归是代表;无监督学习不拥有标记信息,聚类是代表。
- 泛化(generalization):机器学习的目的是使得学得的模型更好的适用于新样本,而不是仅仅在训练样本上工作的很好。具有强泛化能力的模型能很好地适用于整个样本空间。尽管训练集通常只是样本空间的一个很小的采样,我们仍希望它能很好地反映出整个样本空间的特性,否者就要很难期望哎训练集上学得的模型在整个样本空间都工作得很好。一般假设样本空间全体服从一个未知分布(distribution)$D$,我们获得的每个样本都是独立地从这个分布上采样获得的,即独立同分布(independent and identically distribution)。#假设空间