初识机器学习(Machine Learning)

一. 机器学习的定义

Arthur Sameul 1959年给出了机器学习一个非正式定义:

Field of study that gives computers the ability to learn without being explicitely programmed.

Arthur Sameul在机器学习的历史上做了一些很酷的事情,他写了一个跳棋程序,程序可以自己和自己下棋,计算机可以相当快的和自己下棋,经过成千上万盘棋,逐渐的,这个程序可以识别哪些局面赢的概率大,哪些局面输的概率大,最终在1959年的时候,跳棋程序的棋艺远远超过了Arthur Sameul自己。有些人认为计算机除了能做程序明确让它做的事情之外不能做任何事,也许Arthur Sameul的跳棋程序是第一个对这种观点的有力反驳,Arthur Sameul希望让他的跳棋程序比他自己更会下棋,但他并没有教程序应该具体怎样下棋,而是让它自己学习。

Tom Mitchell 1998年提出一种更现代,更正式的机器学习定义:

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E"

对应上面的跳棋程序,经验E = 不断下棋的经历,任务T = 下棋,性能指标P = 下一盘棋赢的概率。

二. 监督学习简介(supervised learning)

2.1 监督学习

数据集中每个样本都有相应的“正确答案”,我们希望通过学习这些样本和相应的“正确答案”,从而能够对其他样本预测出相应的“正确答案”举两个例子:

a. 回归问题(regression problem)

例如预测房屋售价,横坐标是房屋面积(feet^2),纵坐标是房屋售价($),假设根据样本集拟合出一条直线,当房屋的面积是750feet^2时,预测房屋的售价是150,1000$,如图所示:

回归问题举例.png

当输出的“正确答案”为连续值时,称为回归问题,例如房屋售价。

b.分类问题(classification problem)

例如:根据肿瘤大小(tumor size)来判断“良性(benign)”还是“恶性(malignant)”,如图所示:


分类问题举例.png

当输出的“正确答案”为少数几个离散值时,称为分类问题,例如“良性(benign)”还是“恶性(malignant)”两个值。

2.2 如何预测?

假设有2.1中回归问题,已知一个数据集,我们怎样预测其他房屋的售价,如果已知其他房屋的面积?
为了今后更好的描述问题,我们先来说明一些符号,x^{(i)}表示“输入”变量,即房屋面积,也称为特征,y^{(i)}表示“输出”或目标变量,即我们正尝试预测的房屋售价,(x^{(i)},y^{(i)})被称为一组训练样本,我们将用于学习的数据集-m个训练样本的列表{{(x^{(i)},y^{(i)});i=1,...,m}}称为训练集。注意,符号中的上标"(i)"只是训练集的索引,与幂运算无关。我们还将使用X表示输入值空间,使用Y表示输出值空间。在这个例子中,X=Y=\mathbb{R}

监督学习的目标是,在给定训练集的情况下,学习得到函数h:X \to Y,使得h(x)能较好地预测y。由于历史原因,该函数h被称为假设(hypothesis)。这个过程可描述如下:

预测过程

三. 无监督学习简介(unsupervised learning)

回顾监督学习中判断肿瘤是“恶性”还是“良性”的例子,每一组输入样本都对应一个“正确答案”,即“恶性”还是“良性”的标签,如图所示:


无监督学习数据样本无标签.png

而在无监督学习(unsupervised learning)中的数据集,没有“恶性”还是“良性”的标签,如图所示:


无监督学习数据样本无标签.png

我们希望机器能自己发现数据中一些有趣的结构,比如从输入数据中发现恶性肿瘤和良性肿瘤两个类别,即聚类,如图所示:


无监督学习聚类.png

聚类是无监督学习的典型例子,聚类还能应用于图像处理,对图片中的像素进行聚类,以及很多其他问题,比如社交网络分析,市场按照消费人群进行划分,将混杂在一起的音频流分离等等。

参考资料:
http://cs229.stanford.edu/notes/cs229-notes1.pdf
https://www.coursera.org/learn/machine-learning/lecture/1VkCb/supervised-learning

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容