机器学习（1）

本章节是对我学习完机器学习（周志华）第一章所做出来的总结

第一章绪论

1.1 引言

机器学习的定义：致力于如何通过计算的手段，利用经验来改善系统自身的性能。

机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，也就是“学习算法”。

1.2 基本术语

数据集：由数据组成的集合。有时整个数据集也可称为一个“样本”，因为它可看作对样本空间的一个采样。

样本：数据集中每条记录关于一个事件或对象的描述，也称为“示例”。

样例：拥有标记信息的示例。

属性：反应事件或对象在某方面的表现或性质的事项，也称为“特征”。

属性值：属性的取值。

属性空间：属性张成的空间，也称为“样本空间”或“输入空间”。

学习：从数据中学得模型的过程，也称为“训练”。这个过程通过执行某个学习算法来完成。

训练数据：训练过程中使用的数据。

训练样本：训练数据中的每个样本。

训练集：训练样本组成的集合。

分类：预测的是离散值，例如：“好瓜” “坏瓜”。

回归：预测的是连续值，例如西瓜的成熟度0.95、0.37。

聚类：将训练集中的西瓜分为若干组，每组称为一个“簇”；这些自动形成的簇可能对应一些潜在的概念划分，例如“浅色瓜” “深色瓜”，甚至“本地瓜” “外地瓜”。

在聚类学习中，“浅色瓜” “深色瓜”这样的概念我们事先是不知道的，而且学习过程中使用的训练样本通常不拥有标记信息。

分类和聚类的区别：https://blog.csdn.net/u010412719/article/details/46726625/

监督学习和无监督学习：根据训练数据可以分为监督学习（分类、回归）和无监督学习（聚类），也称为有导师学习和无导师学习。

二分类：只涉及两个类别。一个为“正类”，一个为“反类”。样本空间——>输出空间；输出空间={+1，-1}或{0，1}。

多分类：涉及多个类别，|输出空间|>2。

泛化能力：学得模型适用于新样本的能力。机器学习的目标是使学得的模型能很好地适用于“新样本”，而不是仅仅在训练样本上工作得很好；即便对聚类这样的无监督学习任务，也希望学得的簇划分能适用于没在训练集中出现的样本。

1.3 假设空间

归纳学习有广义和狭义之分。

广义的归纳学习：从样例中学习。

狭义的归纳学习：从训练数据中学得概念，因此又称为“概念学习”或“概念形成”。

概念学习中最基本的是布尔概念学习，即对“是” “不是”这样的可表示为0/1布尔值的目标概念的学习。

假设空间：由所有假设组成的空间。这里我们由“色泽” “根蒂” “敲声”组成假设空间，分别有3、3、3种可能取值，则假设空间的规模大小为：4*4*4+1=65，图中*代表任意值

西瓜问题的假设空间

1.4 归纳偏好

归纳偏好：机器学算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上“等效”的假设所迷惑，而无法产生确定的学习结果。如没有偏好每个假设都是等效的，那么对于一个新瓜，学得模型时而说是好瓜、时而说是坏瓜，这样的结果明显没有意义。

可用“奥卡姆剃刀”来引导算法确立“正确”的偏好。

奥卡姆剃刀原则：如多个假设与观察一致，则选用最简单那个。

如果采用奥卡姆剃刀原则，并且假设“更平滑”则“更简单”，那么在下图中，我们会自然的偏好“平滑”的曲线A。

存在多条曲线与有限样本训练集一致

“没有免费的午餐”定理（简称NFL定理）：对于一个学习算法A，若它在某些问题上比学习算法B好，则必然存在另一些问题，在那里算法B会比算法A好。这个结论对任何算法都成立。也就是说无论学习算法A多聪明、学习算法B多笨拙，它们的期望性能都相同。

没有免费的午餐（黑点：训练样本；白点：测试样本）

NFL定理最重要的寓意是让我们清楚地认识到，脱离具体问题，空乏地谈论“什么学习算法更好”毫无意义。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,367评论 6赞 512
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,959评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,750评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,226评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,252评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,975评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,592评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,497评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,027评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,147评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,274评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,953评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,623评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,143评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,260评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,607评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,271评论 2赞 358