基本术语

要进行机器学习，首先要有数据，假设我们收集了一批关于西瓜的数据。

数据列表：

（色泽=青绿；根蒂=蜷缩；敲声=浊响）

（色泽=乌黑；根蒂=稍蜷；敲声=沉闷）

（色泽=浅白；根蒂=硬挺；敲声=清脆）

…

每队括号内是一条记录，“=”意思是“取值为”

数据集（data set）：这组记录的集合。（类似于数据库中的一张二维表）

示例（instance）或者样本（sample）：集合中每条记录是关于一个事件或对象（这里指的是西瓜）的描述，也称为特征向量（feature vector）（类似于表中的一条记录）

属性（attribute）或者特征（feature）:反应事件或对象在某一方面的事项。（类似于表中的一个字段）

属性值（attribute value）：属性上的取值。（类似于字段值）

属性空间（attribute apace）、样本空间（sample space）、输入空间（input space）：属性张成的空间。

学习（learning）或者训练（training）：从数据中生成模型的过程，一般通过执行某个算法来完成。

训练数据（training data）：学习过程使用的样本数据

训练样本（training sample）：训练数据中的每一条样本

训练集（training set）：训练样本组成的集合

假设（hypothesis）：学得模型，它对应训练数据的潜在规律，对应的，这种潜在规律本身，称为真相或者真实（ground-truth），学习过程就是为了找到或者逼近真相

学习器（learner）：本书将模型称为学习期，可以理解为学习算法在给定数据和参数上的实例化

要建立并预测一个未剖开的西瓜是否是一个好瓜，仅有数据是不够的。我们需要获得训练样本的结果值，这个结果称为标记（label）。如（（色泽=青绿；根蒂=蜷缩；敲声=浊响），好瓜），其中，“好瓜”就是标记。

若我们预测的结果是诸如“好瓜”、“坏瓜”的离散结果，称为分类（classification）

若预测是连续值，如西瓜成熟度为0.95，0.6等连续结果，称为回归（regression）

对于只涉及到两个分类结果的预测任务，称为二分类任务（binary classification），二分类任务通常一个称为正类，一个称为负类。

涉及多个分类任务时，称为多分类任务（multi-classification）。

聚类（clustering）：将训练集中的西瓜分为多个组，每组称为一个簇（cluster）,这些自动形成的簇可能是一些潜在的概念

根据训练数据是否有标签，学习任务大致分两类：有监督学习（supervised learning）和无监督学习(unsupervised learning)。分类和回归是前者的代表，聚类是后者的代表。

泛化能力（generalization）:机器学习的目标是使得学习到的模型能广泛的应用于未知空间，而不是只在样本空间中表现良好，将学得模型在新样本上的适应能力，称为泛化能力。

发展历程

发展的两个阶段

1950-1970年代

机器学习处于“推理期”，那时人们认为只要给机器赋予推理能力，机器就具有智能。

代表性工作

A . Newell和H . Simon 的“逻辑理论家”和“通用问题求解”程序

成果

“逻辑理论家”在1952年证明了著名数学家罗素和怀特海的名著《数学原理》的第38条定理；

1963年证明了全部53条定理，而且，定理2.85的证明比罗素和怀特海的证明还巧妙；

获得1975年的图灵奖

1970年代中期

随着研究的深入，发现机器仅有推理能力远远不够，实现不了人工智能，E.A.Feigenbaum 等人认为应该让机器拥有知识。在他们的倡导下，机器学习从而进入“知识期”。

成果

大量的专家系统问世，在很多领域取得了大量的成果

E.A.Feigenbaum作为知识工程之父获得1994年的图灵奖

随着研究的继续深入，人们逐渐触碰到了知识工程的瓶颈。人为的总结大量的知识，并教给机器是很困难的，人们开始思考，如果机器能够自动学习，应该是极好的。

大致发展历程

1950年图灵提出机器学习的可能

1950年代初A.Samuel 著名的跳棋程序

1950年代中后期，基于神经网络的“连接主义”学习开始出现，如F.Rosenblatt的感知机

1960-1970年代，基于逻辑表示的符号主义蓬勃兴起，如P.Winston的结构学习系统、R.S.Michlski等人的基于逻辑的归纳学习系统、E.B.Hunt的概念学习系统；以决策理论为基础的学习技术以及强化学习都有了很大进展，代表工作有N.J.Nilson的学习机器；二十多年后红极一时的统计学习理论的一些奠基性结果

1980年夏，在美国卡梅隆大学举办了第一届机器学习研讨会（IWML），同年，《策略分析与信息系统》连出三期机器学习专辑

1983年，Tioga出版社出版了R.S.Michalski等主编的《机器学习：一种人工智能途径》，对当时的机器学习研究工作进行了总结

1986年，第一本机器学习专业期刊Machine Learning创刊

1989年，机器学习权威期刊artificial intelligence初版机器学习专辑，刊发了一些比较活跃的研究工作，并被后来1990年出版的《机器学习：泛型与方法》收录

总的来看，二十世纪八十年代，机器学习逐渐成为一个独立的学科领域、各种机器学习技术百花绽放

分类与发展历程

R.S.Michalski等人将机器学习划分为：“从样例中学习”、“从问题求解和规划中学习”、“通过观察和发现学习”、“从指令中学习”。

E.A.Feigenbaum等人在《人工智能手册》(第三卷) 中将机器学习划分为“机械学习”、“示教学习”、“类比学习”、“归纳学习”。

其中“机械学习”也称为“死记硬背式学习”，相当于检索，没学习。

“示教学习”和“类比学习”类似于“从指令中学习”和“通过观察和发现学习”；

“归纳学习”类似于“从样例中学习”，1980年代以来，从样例中学习（广义的归纳学习）被广泛研究和应用，它涵盖了监督学习，无监督学习等。

从样例中学习，大致分为如下几个阶段

1980年代，符号主义学习，其中代表就是决策树和基于逻辑的学习。

典型的决策树学习以信息论为基础，以信息熵的最小化为目标，直接模拟人类对概念进行判定的树形流程。

基于逻辑学习的代表是归纳逻辑程序设计（Inductive Logic Programming，ILP）,可以看做机器学习与逻辑程序设计的交叉，它使用一阶逻辑来进行知识表示，通过修改和扩充逻辑表达式来完成对数据的归纳。

1990年中期之前，基于神经网络的连接主义学习。

1950年代，连接主义学习已经得到发展，但是早起很多人工智能研究者对符号主义比较偏爱（如图灵得主H.Simon曾断言人工智能是研究“对智能行为的符号化建模”），再加上连接注意学习本身也遇到很大的障碍（如图灵得主M.Minsky 和S.Papert在1969年指出，神经网络只能处理线性问题，对于简单的异或都处理不了），所以未被纳入主流人工智能研究范畴。

1983年，J.J.Hopfield利用神经网络求“流动解推销员问题”这个著名的NP难题取得重大进展，使得连结主义学习重新被人们关注

1986年，D.E.Rumehart等人重新发明了BP算法，产生了深远的影响。连结主义最大的局限性就是“试错性”，简单说，在过程中需要大量参数，而参数的设定缺乏理论指导，靠“手工调参“。经常会出现差之毫厘，谬以千里。

1990年中期，统计学习闪亮登场并迅速占据主流舞台，代表性技术就是支持向量机（SV，support vector machine）以及更一般的核方法（kernel method）。

2000年代初，连接主义学习卷土重来，以“深度学习“的为名的热潮。狭义的说，深度学习就是很多层的神经网络。深度学习能够火热起来，应该跟两个原因有关：1、数据量大了；2、计算能力提升了。

机器学习领域已经成为了一个相当大的学科领域，依然在不断的发展和壮大

机器学习（西瓜书）-- 基本术语与发展历程