基本术语
要进行机器学习,首先要有数据,假设我们收集了一批关于西瓜的数据。
数据列表:
(色泽=青绿;根蒂=蜷缩;敲声=浊响)
(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)
(色泽=浅白;根蒂=硬挺;敲声=清脆)
…
每队括号内是一条记录,“=”意思是“取值为”
数据集(data set):这组记录的集合。(类似于数据库中的一张二维表)
示例(instance)或者样本(sample):集合中每条记录是关于一个事件或对象(这里指的是西瓜)的描述,也称为特征向量(feature vector)(类似于表中的一条记录)
属性(attribute)或者特征(feature):反应事件或对象在某一方面的事项。(类似于表中的一个字段)
属性值(attribute value):属性上的取值。(类似于字段值)
属性空间(attribute apace)、样本空间(sample space)、输入空间(input space):属性张成的空间。
学习(learning)或者训练(training):从数据中生成模型的过程,一般通过执行某个算法来完成。
训练数据(training data):学习过程使用的样本数据
训练样本(training sample):训练数据中的每一条样本
训练集(training set):训练样本组成的集合
假设(hypothesis):学得模型,它对应训练数据的潜在规律,对应的,这种潜在规律本身,称为真相或者真实(ground-truth),学习过程就是为了找到或者逼近真相
学习器(learner):本书将模型称为学习期,可以理解为学习算法在给定数据和参数上的实例化
要建立并预测一个未剖开的西瓜是否是一个好瓜,仅有数据是不够的。我们需要获得训练样本的结果值,这个结果称为标记(label)。如((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜),其中,“好瓜”就是标记。
若我们预测的结果是诸如“好瓜”、“坏瓜”的离散结果,称为分类(classification)
若预测是连续值,如西瓜成熟度为0.95,0.6等连续结果,称为回归(regression)
对于只涉及到两个分类结果的预测任务,称为二分类任务(binary classification),二分类任务通常一个称为正类,一个称为负类。
涉及多个分类任务时,称为多分类任务(multi-classification)。
聚类(clustering):将训练集中的西瓜分为多个组,每组称为一个簇(cluster),这些自动形成的簇可能是一些潜在的概念
根据训练数据是否有标签,学习任务大致分两类:有监督学习(supervised learning)和无监督学习(unsupervised learning)。分类和回归是前者的代表,聚类是后者的代表。
泛化能力(generalization):机器学习的目标是使得学习到的模型能广泛的应用于未知空间,而不是只在样本空间中表现良好,将学得模型在新样本上的适应能力,称为泛化能力。
发展历程
发展的两个阶段
1950-1970年代
机器学习处于“推理期”,那时人们认为只要给机器赋予推理能力,机器就具有智能。
代表性工作
A . Newell和H . Simon 的“逻辑理论家”和“通用问题求解”程序
成果
“逻辑理论家”在1952年证明了著名数学家罗素和怀特海的名著《数学原理》的第38条定理;
1963年证明了全部53条定理,而且,定理2.85的证明比罗素和怀特海的证明还巧妙;
获得1975年的图灵奖
1970年代中期
随着研究的深入,发现机器仅有推理能力远远不够,实现不了人工智能,E.A.Feigenbaum 等人认为应该让机器拥有知识。在他们的倡导下,机器学习从而进入“知识期”。
成果
大量的专家系统问世,在很多领域取得了大量的成果
E.A.Feigenbaum作为知识工程之父获得1994年的图灵奖
随着研究的继续深入,人们逐渐触碰到了知识工程的瓶颈。人为的总结大量的知识,并教给机器是很困难的,人们开始思考,如果机器能够自动学习,应该是极好的。
大致发展历程
1950年 图灵 提出机器学习的可能
1950年代初A.Samuel 著名的跳棋程序
1950年代中后期,基于神经网络的“连接主义”学习开始出现,如F.Rosenblatt的感知机
1960-1970年代,基于逻辑表示的符号主义蓬勃兴起,如P.Winston的结构学习系统、R.S.Michlski等人的基于逻辑的归纳学习系统、E.B.Hunt的概念学习系统;以决策理论为基础的学习技术以及强化学习都有了很大进展,代表工作有N.J.Nilson的学习机器;二十多年后红极一时的统计学习理论的一些奠基性结果
1980年夏,在美国卡梅隆大学举办了第一届机器学习研讨会(IWML),同年,《策略分析与信息系统》连出三期机器学习专辑
1983年,Tioga出版社出版了R.S.Michalski等主编的《机器学习:一种人工智能途径》,对当时的机器学习研究工作进行了总结
1986年,第一本机器学习专业期刊Machine Learning创刊
1989年,机器学习权威期刊artificial intelligence初版机器学习专辑,刊发了一些比较活跃的研究工作,并被后来1990年出版的《机器学习:泛型与方法》收录
总的来看,二十世纪八十年代,机器学习逐渐成为一个独立的学科领域、各种机器学习技术百花绽放
分类与发展历程
R.S.Michalski等人将机器学习划分为:“从样例中学习”、“从问题求解和规划中学习”、“通过观察和发现学习”、“从指令中学习”。
E.A.Feigenbaum等人在《人工智能手册》(第三卷) 中将机器学习划分为“机械学习”、“示教学习”、“类比学习”、“归纳学习”。
其中“机械学习”也称为“死记硬背式学习”,相当于检索,没学习。
“示教学习”和“类比学习”类似于“从指令中学习”和“通过观察和发现学习”;
“归纳学习”类似于“从样例中学习”,1980年代以来,从样例中学习(广义的归纳学习)被广泛研究和应用,它涵盖了监督学习,无监督学习等。
从样例中学习,大致分为如下几个阶段
01
1980年代,符号主义学习,其中代表就是决策树和基于逻辑的学习。
典型的决策树学习以信息论为基础,以信息熵的最小化为目标,直接模拟人类对概念进行判定的树形流程。
基于逻辑学习的代表是归纳逻辑程序设计(Inductive Logic Programming,ILP),可以看做机器学习与逻辑程序设计的交叉,它使用一阶逻辑来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。
02
1990年中期之前,基于神经网络的连接主义学习。
1950年代,连接主义学习已经得到发展,但是早起很多人工智能研究者对符号主义比较偏爱(如图灵得主H.Simon曾断言人工智能是研究“对智能行为的符号化建模”),再加上连接注意学习本身也遇到很大的障碍(如图灵得主M.Minsky 和S.Papert在1969年指出,神经网络只能处理线性问题,对于简单的异或都处理不了),所以未被纳入主流人工智能研究范畴。
1983年,J.J.Hopfield利用神经网络求“流动解推销员问题”这个著名的NP难题取得重大进展,使得连结主义学习重新被人们关注
1986年,D.E.Rumehart等人重新发明了BP算法,产生了深远的影响。连结主义最大的局限性就是“试错性”,简单说,在过程中需要大量参数,而参数的设定缺乏理论指导,靠“手工调参“。经常会出现差之毫厘,谬以千里。
03
1990年中期,统计学习闪亮登场并迅速占据主流舞台,代表性技术就是支持向量机(SV,support vector machine)以及更一般的核方法(kernel method)。
04
2000年代初,连接主义学习卷土重来,以“深度学习“的为名的热潮。狭义的说,深度学习就是很多层的神经网络。深度学习能够火热起来,应该跟两个原因有关:1、数据量大了;2、计算能力提升了。
机器学习领域已经成为了一个相当大的学科领域,依然在不断的发展和壮大