机器学习

What's Machine Learning?

卡内基梅隆大学的 Tom Mitchell 对机器学习做出如下定义:

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if it's performance on T, as measured by P, improves with experience E.

翻译如下:

计算机程序从经验 E 中学习,解决某一任务 T 进行某一性能度量 P,通过 P 测定在 T 上的表现因经验 E 而提高。

举例解释一下,对于围棋程序阿尔法狗来说,经验 E 就是它自己与自己成千上万次的对弈,任务 T 就是与现实世界的围棋高手对弈,性能度量 P 就是它的胜率。

机器学习算法主要分为监督学习(Supervised Learning)和无监督学习(Unsupervised Learning),还有一些其他的算法,比如强化学习(Reinforcement Learning)和推荐系统(Recommender Systems)。

Supervised Learning

监督学习是指,我们给算法一个数据集,其中包含了正确答案,通常叫作标签,通过算法可以给出更多其他样本对应的标签。举个例子,比如小明想卖一套房,但不知道要卖多少钱,但他收集到了一些参考数据,下图展示了他收集到的历史房屋售价随房屋平米数的变化:

上图横坐标为房屋的平米数,纵坐标为房屋售价。我们可以尝试用一次函数和二次函数分别拟合历史数据,如下图所示:

假设小明的房子为 750 平,通过拟合的一次函数(紫色)可以得到预测售价为 150 万,通过二次函数(蓝色)可以得到预测售价为 200 万。像这样通过拟合数据集中一些历史数据和标签,我们就得出了新数据的标签。值得注意的是,根据历史房屋的售价来预测新房源的售价,输出的预测售价为连续值。像这样需要算法输出连续值的情况通常被称为回归问题(Regression Problem)。

还有另外一种情况,我们举例说明。假如小明体检时被检测到有肿瘤,但不知道是恶性肿瘤还是良性肿瘤,他又收集到了一些历史数据并希望能够从中找到答案,如下图所示:

图中横坐标代表肿瘤大小,纵坐标 1 为恶性肿瘤 0 为良性肿瘤。能够看出,我们很难拟合出一个函数,因为横坐标的一个点可能对应多个值,既有良性肿瘤又有恶性肿瘤。我们尝试将二维函数上的点全部映射到一维的一条直线上,如下图所示:

可以看到,良性肿瘤(蓝色)和恶性肿瘤(橘黄色)有一个大致的分布,但中间还是有一些交叉的部分,我们需要更多的特征(feature)来使数据区分的更好。幸运的是,小明又收集到了病人的年龄数据,如下图所示:

可以看到,加入年龄特征后,良性肿瘤和恶性肿瘤的分布已经很明显,我们可以画一条直线将他们区分开,这时我们能够判定小明的肿瘤(紫色)属于良性肿瘤。事实上,我们得到的 feature 越多,分类效果也会越好。那么,如果算法输出的不是连续值,而是像 0 和 1 分别代表良性和恶性这样的离散值,通常叫作分类问题(Classification Problem)。

Unsupervised Learning

在无监督学习中,我们获得的数据可能没有任何标签或者都具有相同的标签,然后从中找到某种结构。比如将一堆杂乱无章的数据分成不同的簇(cluster),这就是无监督学习算法之一——聚类算法。

比如,百度新闻的相关信息会有很多来自不同网站的新闻链接,而新闻主题都是密切相关的,这就是百度爬虫在抓取大量新闻后,通过聚类算法实现的。

上图展示了聚类问题的很多其他应用:

  • 基于计算机之间的通信数据,优化计算机集群物理分布。
  • 基于用户关系数据,分析社交网络形成的社交圈。
  • 基于消费数据,分析消费者所属的细分市场。
  • 基于天文观测数据,了解银河系的构成及天文知识,比如星系形成理论。

还有一个神奇的案例是,如果将两段混杂着背景音乐的谈话音频(例如人们在酒会中的谈话)输入到同一个数据集中,聚类算法能够将混杂的音频内容剥离,输出两段清晰的音频,一段为清晰的背景音乐,一段为清晰的谈话内容。人们喜欢将这个问题叫作鸡尾酒会问题,所以这个算法就被称为鸡尾酒会问题算法(Cocktail party problem algorithm)。更神奇的是,这个算法只需一行 Octave 代码。

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');

参考

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,451评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,172评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,782评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,709评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,733评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,578评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,320评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,241评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,686评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,878评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,992评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,715评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,336评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,912评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,040评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,173评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,947评论 2 355