机器学习(西瓜书)-- 基本术语与发展历程

基本术语

要进行机器学习,首先要有数据,假设我们收集了一批关于西瓜的数据。

数据列表:

(色泽=青绿;根蒂=蜷缩;敲声=浊响)

(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)

(色泽=浅白;根蒂=硬挺;敲声=清脆)

每队括号内是一条记录,“=”意思是“取值为”


数据集(data set):这组记录的集合。(类似于数据库中的一张二维表)

示例(instance)或者样本(sample):集合中每条记录是关于一个事件或对象(这里指的是西瓜)的描述,也称为特征向量(feature vector)(类似于表中的一条记录)

属性(attribute)或者特征(feature):反应事件或对象在某一方面的事项。(类似于表中的一个字段)

属性值(attribute value):属性上的取值。(类似于字段值)

属性空间(attribute apace)、样本空间(sample space)、输入空间(input space):属性张成的空间。


学习(learning)或者训练(training):从数据中生成模型的过程,一般通过执行某个算法来完成。

训练数据(training data):学习过程使用的样本数据

训练样本(training sample):训练数据中的每一条样本

训练集(training set):训练样本组成的集合


假设(hypothesis):学得模型,它对应训练数据的潜在规律,对应的,这种潜在规律本身,称为真相或者真实(ground-truth),学习过程就是为了找到或者逼近真相

学习器(learner):本书将模型称为学习期,可以理解为学习算法在给定数据和参数上的实例化


要建立并预测一个未剖开的西瓜是否是一个好瓜,仅有数据是不够的。我们需要获得训练样本的结果值,这个结果称为标记(label)。如((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜),其中,“好瓜”就是标记。

若我们预测的结果是诸如“好瓜”、“坏瓜”的离散结果,称为分类(classification)

若预测是连续值,如西瓜成熟度为0.95,0.6等连续结果,称为回归(regression)

对于只涉及到两个分类结果的预测任务,称为二分类任务(binary classification),二分类任务通常一个称为正类,一个称为负类。

涉及多个分类任务时,称为多分类任务(multi-classification)。

聚类(clustering):将训练集中的西瓜分为多个组,每组称为一个簇(cluster),这些自动形成的簇可能是一些潜在的概念

根据训练数据是否有标签,学习任务大致分两类:有监督学习(supervised learning)和无监督学习(unsupervised learning)。分类和回归是前者的代表,聚类是后者的代表。

泛化能力(generalization):机器学习的目标是使得学习到的模型能广泛的应用于未知空间,而不是只在样本空间中表现良好,将学得模型在新样本上的适应能力,称为泛化能力。


发展历程


发展的两个阶段


1950-1970年代


机器学习处于“推理期”,那时人们认为只要给机器赋予推理能力,机器就具有智能。

代表性工作

A . Newell和H . Simon 的“逻辑理论家”和“通用问题求解”程序

成果

“逻辑理论家”在1952年证明了著名数学家罗素和怀特海的名著《数学原理》的第38条定理;

1963年证明了全部53条定理,而且,定理2.85的证明比罗素和怀特海的证明还巧妙;

获得1975年的图灵奖


1970年代中期


随着研究的深入,发现机器仅有推理能力远远不够,实现不了人工智能,E.A.Feigenbaum 等人认为应该让机器拥有知识。在他们的倡导下,机器学习从而进入“知识期”。

成果

大量的专家系统问世,在很多领域取得了大量的成果

E.A.Feigenbaum作为知识工程之父获得1994年的图灵奖

随着研究的继续深入,人们逐渐触碰到了知识工程的瓶颈。人为的总结大量的知识,并教给机器是很困难的,人们开始思考,如果机器能够自动学习,应该是极好的。


大致发展历程


1950年 图灵 提出机器学习的可能

1950年代初A.Samuel 著名的跳棋程序

1950年代中后期,基于神经网络的“连接主义”学习开始出现,如F.Rosenblatt的感知机

1960-1970年代,基于逻辑表示的符号主义蓬勃兴起,如P.Winston的结构学习系统、R.S.Michlski等人的基于逻辑的归纳学习系统、E.B.Hunt的概念学习系统;以决策理论为基础的学习技术以及强化学习都有了很大进展,代表工作有N.J.Nilson的学习机器;二十多年后红极一时的统计学习理论的一些奠基性结果

1980年夏,在美国卡梅隆大学举办了第一届机器学习研讨会(IWML),同年,《策略分析与信息系统》连出三期机器学习专辑

1983年,Tioga出版社出版了R.S.Michalski等主编的《机器学习:一种人工智能途径》,对当时的机器学习研究工作进行了总结

1986年,第一本机器学习专业期刊Machine Learning创刊

1989年,机器学习权威期刊artificial intelligence初版机器学习专辑,刊发了一些比较活跃的研究工作,并被后来1990年出版的《机器学习:泛型与方法》收录

总的来看,二十世纪八十年代,机器学习逐渐成为一个独立的学科领域、各种机器学习技术百花绽放


分类与发展历程


R.S.Michalski等人将机器学习划分为:“从样例中学习”、“从问题求解和规划中学习”、“通过观察和发现学习”、“从指令中学习”。

E.A.Feigenbaum等人在《人工智能手册》(第三卷) 中将机器学习划分为“机械学习”、“示教学习”、“类比学习”、“归纳学习”。

其中“机械学习”也称为“死记硬背式学习”,相当于检索,没学习。

“示教学习”和“类比学习”类似于“从指令中学习”和“通过观察和发现学习”;

“归纳学习”类似于“从样例中学习”,1980年代以来,从样例中学习(广义的归纳学习)被广泛研究和应用,它涵盖了监督学习,无监督学习等。

从样例中学习,大致分为如下几个阶段


01

1980年代,符号主义学习,其中代表就是决策树和基于逻辑的学习。

典型的决策树学习以信息论为基础,以信息熵的最小化为目标,直接模拟人类对概念进行判定的树形流程。

基于逻辑学习的代表是归纳逻辑程序设计(Inductive Logic Programming,ILP),可以看做机器学习与逻辑程序设计的交叉,它使用一阶逻辑来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。

02

1990年中期之前,基于神经网络的连接主义学习。

1950年代,连接主义学习已经得到发展,但是早起很多人工智能研究者对符号主义比较偏爱(如图灵得主H.Simon曾断言人工智能是研究“对智能行为的符号化建模”),再加上连接注意学习本身也遇到很大的障碍(如图灵得主M.Minsky 和S.Papert在1969年指出,神经网络只能处理线性问题,对于简单的异或都处理不了),所以未被纳入主流人工智能研究范畴。

1983年,J.J.Hopfield利用神经网络求“流动解推销员问题”这个著名的NP难题取得重大进展,使得连结主义学习重新被人们关注

1986年,D.E.Rumehart等人重新发明了BP算法,产生了深远的影响。连结主义最大的局限性就是“试错性”,简单说,在过程中需要大量参数,而参数的设定缺乏理论指导,靠“手工调参“。经常会出现差之毫厘,谬以千里。


03

1990年中期,统计学习闪亮登场并迅速占据主流舞台,代表性技术就是支持向量机(SV,support vector machine)以及更一般的核方法(kernel method)。

04

2000年代初,连接主义学习卷土重来,以“深度学习“的为名的热潮。狭义的说,深度学习就是很多层的神经网络。深度学习能够火热起来,应该跟两个原因有关:1、数据量大了;2、计算能力提升了。


机器学习领域已经成为了一个相当大的学科领域,依然在不断的发展和壮大

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。