机器学习——绪论

1 什么是机器学习?

在计算机上从 “数据” 中产生“模型”的算法,即 ”学习算法“。

有了学习算法,我们把经验数据提供给它,就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。

2 基本术语

2.1 数据集(data set)

记录的集合称为一个数据集,比如MNIST数据集。

数据集可以分为训练集、验证集和测试集。训练集是训练过程中使用的数据;验证集是模型评估与选择中用于评估测试的数据集;测试集是测试模型对新样本判别能力的数据集。

2.2 样本(sample)

关于一个事件或对象的描述的每条记录称为一个样本,比如MNIST数据中的一张图片就是一个样本。

2.3 特征(feature)

反映事件或对象在某方面的表现或性质的事项,称为特征,也可以称为属性。

2.4 样本空间(sample space)

特征(属性)张成的空间。

2.5 标记(label)

关于样本结果的信息,称为标记。拥有了标记信息的样本,被称为样例。若将标记看作对象本身的一部分,则样例有时也称作样本。所有标记的集合被称为标记空间。

2.5 举例

若 D = { x_1, x_2,\cdot \cdot \cdot ,x_m} 为一个包含m个元素的数据集,

每个x就是一个样本,若每个样本由d个属性描述,则每个样本可表示为x_i = ( x_{i1},x_{i2}, \cdot\cdot\cdot,x_{id} )

d 就表示D中的样本由d个特征

每个样本x_i中的元素x_{ij}表示第 j 个特征的值

这些特征张成的d维空间称为样本空间

(x_i, y_i)表示第 i 个样例,则 y_i 就是样本 x_i的标记,所有y_i组成的集合就是标记空间Y

3 机器学习任务分类

根据训练数据是否有标记,学习任务可以划分为两大类:“监督学习(supervised learning)” 和 “无监督学习(supervised learning)”

3.1 监督学习(supervised learning)

数据集中的样本有标记。

3.1.1 分类(classification)

预测的是离散值,此类学习任务被称为“分类”。根据预测类别数目的不同,可以分为二分类任务和多分类任务。MNIST数据集的手写数字识别任务,要预测数字属于0到9中的哪一个,这是一个分类任务,并且是一个多分类任务

3.1.2 回归(regression)

预测的是连续值,此类学习任务被称为“回归”,比如房价的预测。

3.2 无监督学习(supervised learning)

数据集中的样本无标记。

3.2.1 聚类(clustering)

将数据集中的样本分成若干组,每组称为一个“簇(cluster)”;这些自动形成的簇可能对应一些潜在的概念划分。这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。

参考书目周志华老师的《机器学习》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容