机器学习
机器学习(machine learning)
此处介绍的机器学习主要为归纳学习,包括监督学习和无监督学习两类,我们有这样一个著名的定义
Tom Mitchell (1998) Well-posed LearningProblem: A computer program is said to learn from experience E with respect to some task Tand some performance measure P, if itsperformance on T, as measured by', improves with experience E.
监督学习、无监督学习
监督学习(supervised learning)
又叫有监督学习,监督式学习,是机器学习的一种方法,可以由训练资料中学到或建立一个模式(learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
无监督学习(unsupervised learning)
是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的资料进行分类或分群
学习、学习算法
从数据中学得模型的过程称为学习 (learning)或训练 (training),这个过程通过执行某个学习算法来完成
数据相关
数据集
若干组数据记录的集合,称为数据集
示例,样本与属性
每条数据记录关于一个事件或研究对象的描述,称为一个示例 (instance) 或样本 (samp1e),示例在某方面的表现或性质,称为属性 (attribute) 或特征 (feature); 属性对应的取值称为属性值 (attribute va1ue). 属性张成的空间称为属性空间 (attribute space) 、样本空间 (samp1e space)或输入空间(input space), 由于空间中的每个点对应一个坐标向量,因此我们也把…个示例称为一个特征向量 (feature vector).
维数
一般地,令 表示包含m 个示例的数据集,每个示例由
个属性描述,则每个示例
是d 维样本空间X 中的一个向量,
, 其中
是凯在第j 个属性上的取值, d 称为样本的维数 (dimensionality).
学习过程相关
训练数据,训练样本,训练集
训练过程中使用的数据称为训练数据 (training data) ,其中每个样本称为一个训练样本(training samp1e), 训练样本组成的集合称为训练集 (training set).
假设与真相
学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis); 这种潜在规律自身,则称
为"真相"或"真实" (ground-truth)
预测,样例与标记
这里关于示例结果的信息,称为"标记" (labe1); 拥有了标记信息的示例,则称为"样例" (examp1e),我们可以用表示第
个样例,
是样例
的标记,则我们称
为标记空间或"标记空间" (label space)或"输出空间
预测相关
分类与回归
若我们想要预测离散的值,我们称这样的任务为分类(classfication),若为连续值,则称为回归(regression)
测试
学得模型后,使用其母行预测的过程称为测试 (testing) ,被预测的样本称为测试样本"(testing sample).
归纳偏置(归纳偏好)
当学习器去预测其未遇到过的输入的结果时,会做一些假设(Mitchell, 1980)。而学习算法中的归纳偏置(inductive bias)则是这些假设的集合。
归纳偏置有点像一种”价值观“,任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看
似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果