机器学习(西瓜书)-- 基本术语与发展历程

基本术语

要进行机器学习,首先要有数据,假设我们收集了一批关于西瓜的数据。

数据列表:

(色泽=青绿;根蒂=蜷缩;敲声=浊响)

(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)

(色泽=浅白;根蒂=硬挺;敲声=清脆)

每队括号内是一条记录,“=”意思是“取值为”


数据集(data set):这组记录的集合。(类似于数据库中的一张二维表)

示例(instance)或者样本(sample):集合中每条记录是关于一个事件或对象(这里指的是西瓜)的描述,也称为特征向量(feature vector)(类似于表中的一条记录)

属性(attribute)或者特征(feature):反应事件或对象在某一方面的事项。(类似于表中的一个字段)

属性值(attribute value):属性上的取值。(类似于字段值)

属性空间(attribute apace)、样本空间(sample space)、输入空间(input space):属性张成的空间。


学习(learning)或者训练(training):从数据中生成模型的过程,一般通过执行某个算法来完成。

训练数据(training data):学习过程使用的样本数据

训练样本(training sample):训练数据中的每一条样本

训练集(training set):训练样本组成的集合


假设(hypothesis):学得模型,它对应训练数据的潜在规律,对应的,这种潜在规律本身,称为真相或者真实(ground-truth),学习过程就是为了找到或者逼近真相

学习器(learner):本书将模型称为学习期,可以理解为学习算法在给定数据和参数上的实例化


要建立并预测一个未剖开的西瓜是否是一个好瓜,仅有数据是不够的。我们需要获得训练样本的结果值,这个结果称为标记(label)。如((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜),其中,“好瓜”就是标记。

若我们预测的结果是诸如“好瓜”、“坏瓜”的离散结果,称为分类(classification)

若预测是连续值,如西瓜成熟度为0.95,0.6等连续结果,称为回归(regression)

对于只涉及到两个分类结果的预测任务,称为二分类任务(binary classification),二分类任务通常一个称为正类,一个称为负类。

涉及多个分类任务时,称为多分类任务(multi-classification)。

聚类(clustering):将训练集中的西瓜分为多个组,每组称为一个簇(cluster),这些自动形成的簇可能是一些潜在的概念

根据训练数据是否有标签,学习任务大致分两类:有监督学习(supervised learning)和无监督学习(unsupervised learning)。分类和回归是前者的代表,聚类是后者的代表。

泛化能力(generalization):机器学习的目标是使得学习到的模型能广泛的应用于未知空间,而不是只在样本空间中表现良好,将学得模型在新样本上的适应能力,称为泛化能力。


发展历程


发展的两个阶段


1950-1970年代


机器学习处于“推理期”,那时人们认为只要给机器赋予推理能力,机器就具有智能。

代表性工作

A . Newell和H . Simon 的“逻辑理论家”和“通用问题求解”程序

成果

“逻辑理论家”在1952年证明了著名数学家罗素和怀特海的名著《数学原理》的第38条定理;

1963年证明了全部53条定理,而且,定理2.85的证明比罗素和怀特海的证明还巧妙;

获得1975年的图灵奖


1970年代中期


随着研究的深入,发现机器仅有推理能力远远不够,实现不了人工智能,E.A.Feigenbaum 等人认为应该让机器拥有知识。在他们的倡导下,机器学习从而进入“知识期”。

成果

大量的专家系统问世,在很多领域取得了大量的成果

E.A.Feigenbaum作为知识工程之父获得1994年的图灵奖

随着研究的继续深入,人们逐渐触碰到了知识工程的瓶颈。人为的总结大量的知识,并教给机器是很困难的,人们开始思考,如果机器能够自动学习,应该是极好的。


大致发展历程


1950年 图灵 提出机器学习的可能

1950年代初A.Samuel 著名的跳棋程序

1950年代中后期,基于神经网络的“连接主义”学习开始出现,如F.Rosenblatt的感知机

1960-1970年代,基于逻辑表示的符号主义蓬勃兴起,如P.Winston的结构学习系统、R.S.Michlski等人的基于逻辑的归纳学习系统、E.B.Hunt的概念学习系统;以决策理论为基础的学习技术以及强化学习都有了很大进展,代表工作有N.J.Nilson的学习机器;二十多年后红极一时的统计学习理论的一些奠基性结果

1980年夏,在美国卡梅隆大学举办了第一届机器学习研讨会(IWML),同年,《策略分析与信息系统》连出三期机器学习专辑

1983年,Tioga出版社出版了R.S.Michalski等主编的《机器学习:一种人工智能途径》,对当时的机器学习研究工作进行了总结

1986年,第一本机器学习专业期刊Machine Learning创刊

1989年,机器学习权威期刊artificial intelligence初版机器学习专辑,刊发了一些比较活跃的研究工作,并被后来1990年出版的《机器学习:泛型与方法》收录

总的来看,二十世纪八十年代,机器学习逐渐成为一个独立的学科领域、各种机器学习技术百花绽放


分类与发展历程


R.S.Michalski等人将机器学习划分为:“从样例中学习”、“从问题求解和规划中学习”、“通过观察和发现学习”、“从指令中学习”。

E.A.Feigenbaum等人在《人工智能手册》(第三卷) 中将机器学习划分为“机械学习”、“示教学习”、“类比学习”、“归纳学习”。

其中“机械学习”也称为“死记硬背式学习”,相当于检索,没学习。

“示教学习”和“类比学习”类似于“从指令中学习”和“通过观察和发现学习”;

“归纳学习”类似于“从样例中学习”,1980年代以来,从样例中学习(广义的归纳学习)被广泛研究和应用,它涵盖了监督学习,无监督学习等。

从样例中学习,大致分为如下几个阶段


01

1980年代,符号主义学习,其中代表就是决策树和基于逻辑的学习。

典型的决策树学习以信息论为基础,以信息熵的最小化为目标,直接模拟人类对概念进行判定的树形流程。

基于逻辑学习的代表是归纳逻辑程序设计(Inductive Logic Programming,ILP),可以看做机器学习与逻辑程序设计的交叉,它使用一阶逻辑来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。

02

1990年中期之前,基于神经网络的连接主义学习。

1950年代,连接主义学习已经得到发展,但是早起很多人工智能研究者对符号主义比较偏爱(如图灵得主H.Simon曾断言人工智能是研究“对智能行为的符号化建模”),再加上连接注意学习本身也遇到很大的障碍(如图灵得主M.Minsky 和S.Papert在1969年指出,神经网络只能处理线性问题,对于简单的异或都处理不了),所以未被纳入主流人工智能研究范畴。

1983年,J.J.Hopfield利用神经网络求“流动解推销员问题”这个著名的NP难题取得重大进展,使得连结主义学习重新被人们关注

1986年,D.E.Rumehart等人重新发明了BP算法,产生了深远的影响。连结主义最大的局限性就是“试错性”,简单说,在过程中需要大量参数,而参数的设定缺乏理论指导,靠“手工调参“。经常会出现差之毫厘,谬以千里。


03

1990年中期,统计学习闪亮登场并迅速占据主流舞台,代表性技术就是支持向量机(SV,support vector machine)以及更一般的核方法(kernel method)。

04

2000年代初,连接主义学习卷土重来,以“深度学习“的为名的热潮。狭义的说,深度学习就是很多层的神经网络。深度学习能够火热起来,应该跟两个原因有关:1、数据量大了;2、计算能力提升了。


机器学习领域已经成为了一个相当大的学科领域,依然在不断的发展和壮大

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352