机器学习(1)

本章节是对我学习完机器学习(周志华)第一章 所做出来的总结

第一章绪论

1.1 引言

机器学习的定义:致力于如何通过计算的手段,利用经验来改善系统自身的性能。

机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,也就是“学习算法”。

1.2 基本术语

数据集:由数据组成的集合。有时整个数据集也可称为一个“样本”,因为它可看作对样本空间的一个采样。

样本:数据集中每条记录关于一个事件或对象的描述,也称为“示例”。

样例:拥有标记信息的示例。

属性:反应事件或对象在某方面的表现或性质的事项,也称为“特征”。

属性值:属性的取值。

属性空间:属性张成的空间,也称为“样本空间”或“输入空间”。

学习:从数据中学得模型的过程,也称为“训练”。这个过程通过执行某个学习算法来完成。

训练数据:训练过程中使用的数据。

训练样本:训练数据中的每个样本。

训练集:训练样本组成的集合。

分类:预测的是离散值,例如:“好瓜” “坏瓜”。

回归:预测的是连续值,例如西瓜的成熟度0.95、0.37。

聚类:将训练集中的西瓜分为若干组,每组称为一个“簇”;这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜” “深色瓜”,甚至“本地瓜” “外地瓜”。

在聚类学习中,“浅色瓜” “深色瓜”这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。

分类和聚类的区别:https://blog.csdn.net/u010412719/article/details/46726625/

监督学习和无监督学习:根据训练数据可以分为监督学习(分类、回归)和无监督学习(聚类),也称为有导师学习和无导师学习。

二分类:只涉及两个类别。一个为“正类”,一个为“反类”。样本空间——>输出空间;输出空间={+1,-1}或{0,1}。

多分类:涉及多个类别,|输出空间|>2。

泛化能力:学得模型适用于新样本的能力。机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,也希望学得的簇划分能适用于没在训练集中出现的样本。

1.3 假设空间

归纳学习有广义和狭义之分。

广义的归纳学习:从样例中学习。

狭义的归纳学习:从训练数据中学得概念,因此又称为“概念学习”或“概念形成”。

概念学习中最基本的是布尔概念学习,即对“是” “不是”这样的可表示为0/1布尔值的目标概念的学习。

假设空间:由所有假设组成的空间。这里我们由“色泽” “根蒂” “敲声”组成假设空间,分别有3、3、3种可能取值,则假设空间的规模大小为:4*4*4+1=65,图中*代表任意值


西瓜问题的假设空间

1.4 归纳偏好

归纳偏好:机器学算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。如没有偏好每个假设都是等效的,那么对于一个新瓜,学得模型时而说是好瓜、时而说是坏瓜,这样的结果明显没有意义。

可用“奥卡姆剃刀”来引导算法确立“正确”的偏好。

奥卡姆剃刀原则:如多个假设与观察一致,则选用最简单那个。

如果采用奥卡姆剃刀原则,并且假设“更平滑”则“更简单”,那么在下图中,我们会自然的偏好“平滑”的曲线A。


存在多条曲线与有限样本训练集一致

“没有免费的午餐”定理(简称NFL定理):对于一个学习算法A,若它在某些问题上比学习算法B好,则必然存在另一些问题,在那里算法B会比算法A好。这个结论对任何算法都成立。也就是说无论学习算法A多聪明、学习算法B多笨拙,它们的期望性能都相同。


没有免费的午餐(黑点:训练样本;白点:测试样本)

NFL定理最重要的寓意是让我们清楚地认识到,脱离具体问题,空乏地谈论“什么学习算法更好”毫无意义。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,367评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,959评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,750评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,226评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,252评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,975评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,592评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,497评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,027评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,147评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,274评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,953评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,623评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,143评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,260评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,607评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,271评论 2 358

推荐阅读更多精彩内容