第六章 机器学习三要素之数据、模型、算法

三者之间的关系总结成一句话就是 :运用某种算法对数据进行运算的到模型。

0dda27f0-07eb-11e8-bc59-a900ae7da972.jpeg

一 数据

原始数据

向量空间模型VSM(Vector Space Model)

就是将格式(文字、图片、音频、视频)的数据转化为向量。
(怎么转换的? 特征工程,后面会讲)
如前一章中的6匹小马:


f19bee70-07ea-11e8-bc59-a900ae7da972.jpeg

我们要用独角和翅膀这两个特征来给她们做聚类,那么我们就可以定义一个二维的向量 A=[a_1,a_2]。a_1 表示是否有独角,有则 a_1 = 1, 否则 a_1 = 0。而 a_2 表示是否有翅膀。

那么按照这个定义,我们的6匹小马最终就会被转化为下面6个向量

    X_1 = [1,0]
    X_2 = [0,0]
    X_3 = [0,0]
    X_4 = [0,1]
    X_5 = [0,1]
    X_6 = [1,0]

这六个向量也叫这份数据的特征向量(Feature Vector)

二 模型

模型就是机器学习的结果,学习的过程称为训练,训练好的模型可以理解为一个函数y=f(x)(这个函数描述了某种规律)。
我们把数据(对应其中的 x)输入进去,得到输出结果(对应其中的 y)。

这个输出结果可能是一个数值(回归),也可能是一个标签(分类),它会告诉我们一些事情。
类似打标签的任务就是分类,求值的任务就是回归。

什么是回归

回归就是从数据中得到事物的真实值。
比如一张桌子的真实高度,由于测量是存在误差的,在有限的次数下我们永远无法测得桌子的真实高度,只能测出很多近似值,从这些近似值中得到真实值,叫做回归。回归事物本质的意思。
(其实只能无限接近真实值,细想起来桌子也没有固定的真实高度,不同温度下膨胀程度不同,高度也就不同。再进一步说:其实我们接触的所有事物的属性数值都是近似值,因为都是不固定的)

什么是训练

根据已经被指定的 f(x) 的具体形式——模型类型(如y=f(x)=ax2+bx+c),结合训练数据,计算出其中各个参数的具体取值的过程。
就是已知函数类型和一些输入输出数据求参数。

算法

损失函数(Loss Function)

有监督学习的目标就是:让训练数据的所有 x 经过 f(x) 计算后,获得的 y’ 与它们原本对应的 y 的差别尽量小。
用一个函数来描述 y’ 与 y 之间的差别,这个函数叫做损失函数(Loss Function)L(y, y’)= L(y, f(x))。

代价函数(Cost Function)

Loss 函数针对一个训练数据,对于所有的训练数据,我们用代价函数(Cost Function)来描述整体的损失

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 10,184评论 0 5
  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 9,420评论 1 10
  • 转载自 http://www.52caml.com/head_first_ml/ml-chapter6-boost...
    麒麟楚庄王阅读 7,251评论 1 3
  • 沉没成本是指由于过去的决策而决定的,不能用现在或将来的选择而改变的成本。 沉没成本不但是经济界最棘手的问题之一,而...
    oi345阅读 3,971评论 0 1
  • 闲来无事的时候,翻了一下手机相册,看到了几张自己留着短发的照片。不禁微笑了,当时留短发的情景历历在目。 依稀记得,...
    兰馨若冰阅读 4,274评论 11 22

友情链接更多精彩内容