机器学习入门——基本概念(1)

朝霞不出门,晚霞行千里。这是人们在生活中总结出来的天气规律。当人们看到早晨的云霞的时候,便知道今天极有可能下雨,不便出门。晚霞告诉人们接下来不会有雨。

在这里“朝霞”和“有雨”,“晚霞”和“无雨”之间存在的关系是人们通过无数次的生活见闻总结出来的,也就是说,是人们学习得来的。

“朝霞不出门,晚霞行千里”的原理:先先说说霞的形成。霞是由于日出和日落前后,阳光通过厚厚的大气层,被大量的空气分子散射的结果。当空中的尘埃、水汽等杂质愈多时,其色彩愈显著。如果有云层,云块也会染上橙红艳丽的颜色。朝霞、晚霞这里指的主要是反射霞。早晨当太阳照射在西边的云彩上经过云彩的散射,使云彩呈深红色,这就是朝霞。它说明西边天空已经有云存在,而早上起云主要是由于天气系统性原因而形成的。未来随着天气系统东移,本地将逐渐转受其影响,天气将转阴雨。另一方面朝霞说明早晨天空有云彩存在,表明天空状态不十分稳定,随着太阳升高,热力作用增强,对流进一步发展,云也会进一步发展,容易造成阴雨天气。晚霞是指夕阳斜照在东边天空上的云彩,使云彩呈深红色。在这种情况下,一般西部天空没有云彩,太阳才能直接照射在东边天空,而东边天空上的云彩只会随着时间离本地愈来愈远的,不会影响本地的,而西边晴朗的天空也将会随时间逐渐移来,天气晴好。另一方面,晚上由于太阳下山,空气层结逐渐恢复稳定,对流减弱,原来白天生成的云彩也将归于消散,天气一般晴好。

既然人可以通过学习,掌握预测天气的本领,那么计算机能不能做到呢?

答案是肯定的,但是我们这里强调的是计算机能否具有学习能力,而非要介绍怎么做天气预报。

和人一样,机器在学习“本领”前,必须要有学习材料,对机器来说是数据,在这里我们称之为样本。如果我们要预测一个西瓜是否是好瓜,那么需要先拿到一些样本,通过学习这些样本数据,预测其他瓜的好坏。

数据集

数据集中的每条记录(一行),称为一个“示例”或“样本”,每个样本都有属性,比如色泽,其中青绿是属性值。属性张成的空间称为属性空间(也叫样本空间或输入空间),如我们把色泽、根蒂、敲声作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,空间中每个(样本)点对应一个坐标向量,比如(青绿,蜷缩,浊响),称为特征向量

现在,我们准备好了用于训练计算学习判断瓜的质量的数据,称为训练集。计算机所要做的事情就是找到一个模型,可以将样本空间中的点进行分类(是否好瓜)。

在这里,训练集中每个样本都已被打上标签(是否是好瓜),即我们知道样本本来应当是什么类,机器学习这种拥有标记信息的数据叫做监督学习,而无监督学习则是训练没有标签的数据,此外还有半监督学习、强化学习等。

半监督学习的数据有部分标签,强化学习则是指智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,有环境提供的强化信号是对产生动作的好坏做一种评价,而不是告诉如何去产生动作。

这里应当提醒的是,并不是让计算机记住所有的情况,见到新样本时进行搜索匹配,而是假设这种“属性”到“分类”的映射符合某个函数(模型),学习的过程就是找到这个模型。当然,对一些数据可能符合的模型,我们可以做各种假设,所有可能的函数组成的空间,称为假设空间

西瓜问题的假设空间

在训练数据过程中,我么可以减去那些与正例(或反例)样本不一致的假设,最终得到一个与训练集一致的假设集合(称“版本空间”),训练集使用这些假设都能正确分类。

版本空间中的假设并不都是我们需要的,即使它们在训练集中表现良好,但面对新的样本时,还有可能产生不同的输出结果。根据我们对数据的理解,往往选择具有一定偏向性的假设,比如由于某种原因,更相信根蒂的作用,于是会选择假设(色泽=;根蒂=蜷缩;敲声=),这样虽某种假设的偏好,称为归纳偏好(简称偏好)。

更一般的,“奥卡姆剃刀”原理可以帮助算法选择“正确的”偏好,即若有多个假设与观察一致,则选择最简单的那个,所以这个原理被称为“如无必要,勿增实体”。但是,“奥卡姆剃刀”得到的假设一定正确吗?请看下图

没有免费的午餐

上面两种情况面对不同的问题,是完全有可能出现的。这里说的“优于”指的是在新样本上的表现,称为泛化能力

没有免费的午餐定理指没有一种算法比随机胡猜的效果好,在机器学习中表示:若对于某些问题算法La学得的模型更好,那么必然存在另一些问题,这里算法Lb学得的模型更好.

不知道读者有没有发现,前面假设空间中的假设是可以随意假设的,但是脱离实际应用需求,空谈“什么学习算法更好”是没有意义的,所以在实际中,必须根据实际问题的应用场景,作出相应的假设,这才是“没有免费午餐”定理最重要的寓意。

参考:百度知道
《机器学习》周志华
https://blog.csdn.net/u013238941/article/details/79091252

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容