机器学习(二)—— 基本概念

机器学习

机器学习(machine learning)

此处介绍的机器学习主要为归纳学习,包括监督学习和无监督学习两类,我们有这样一个著名的定义

Tom Mitchell (1998) Well-posed LearningProblem: A computer program is said to learn from experience E with respect to some task Tand some performance measure P, if itsperformance on T, as measured by', improves with experience E.

监督学习、无监督学习

监督学习(supervised learning)

又叫有监督学习,监督式学习,是机器学习的一种方法,可以由训练资料中学到或建立一个模式(learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

无监督学习(unsupervised learning)

是机器学习的一种方法,没有给定事先标记过的训练示例,自动对输入的资料进行分类或分群

学习、学习算法

从数据中学得模型的过程称为学习 (learning)或训练 (training),这个过程通过执行某个学习算法来完成

数据相关

数据集

若干组数据记录的集合,称为数据集

示例,样本与属性

每条数据记录关于一个事件或研究对象的描述,称为一个示例 (instance) 或样本 (samp1e),示例在某方面的表现或性质,称为属性 (attribute) 或特征 (feature); 属性对应的取值称为属性值 (attribute va1ue). 属性张成的空间称为属性空间 (attribute space) 、样本空间 (samp1e space)或输入空间(input space), 由于空间中的每个点对应一个坐标向量,因此我们也把…个示例称为一个特征向量 (feature vector).

维数

一般地,令D = {x_1, x_2,...,x_m} 表示包含m 个示例的数据集,每个示例由d个属性描述,则每个示例x_i = (x_{i1}; x_{i2}; . . . ; x_{id}) 是d 维样本空间X 中的一个向量, x_i ε X , 其中X_{ij} 是凯在第j 个属性上的取值, d 称为样本的维数 (dimensionality).

学习过程相关

训练数据,训练样本,训练集

训练过程中使用的数据称为训练数据 (training data) ,其中每个样本称为一个训练样本(training samp1e), 训练样本组成的集合称为训练集 (training set).

假设与真相

学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis); 这种潜在规律自身,则称
"真相"或"真实" (ground-truth)

预测,样例与标记

这里关于示例结果的信息,称为"标记" (labe1); 拥有了标记信息的示例,则称为"样例" (examp1e),我们可以用(x_i, y_i)表示第i个样例,y_i∈Y是样例i的标记,则我们称Y为标记空间或"标记空间" (label space)或"输出空间

预测相关

分类与回归

若我们想要预测离散的值,我们称这样的任务为分类(classfication),若为连续值,则称为回归(regression)

测试

学得模型后,使用其母行预测的过程称为测试 (testing) ,被预测的样本称为测试样本"(testing sample).

归纳偏置(归纳偏好)

当学习器去预测其未遇到过的输入的结果时,会做一些假设(Mitchell, 1980)。而学习算法中的归纳偏置(inductive bias)则是这些假设的集合。

归纳偏置有点像一种”价值观“,任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看
似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容