花书第五章笔记

[TOC]

第五章 机器学习基础

机器学习基础 掌握机器学习的基本知识和基础原理

  • 机器学习基础[p87-p142]

5.1 学习算法

  • 机器学习算法:Mitchell (1997) 提供了一个简洁的定义:“对于某类任务T 和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E 改进后,它在任务T上由性能度量P衡量的性能有所提升。”

5.1.1 任务T

  • 任务定义为机器学习系统应该如何处理样本(example)。样本是指从某些希望机器学习系统处理的对象或事件中收集到的已经量化的特征(feature)的集合。通常将样本表示为\boldsymbol{x}\in \mathbb{R}^2

常见的机器学习任务列举如下:

  • 分类:,计算机程序需要指定某些输入属于k类中的哪一类。函数表示:f:\mathbb{R}^n\rightarrow \left \{ 1,\cdots ,k \right \}
  • 输入缺失分类:当输入向量的每个度量不被保证的时候,学习算法必须学习一组函数.有效地定义这样一个大集合函数的方法是学习所有相关变量的概率分布,然后通过边缘化缺失变量来解决分类任务。
  • 回归:计算机程序需要对给定输入预测数值,预测数值是连续的,而分类任务的类别值是离散的。函数表示:f:\mathbb{R}^n\rightarrow \mathbb{R}
  • 转录:,机器学习系统观测一些相对非结构化表示的数据,并转录信息为离散的文本形式。如光学字符识别(OCR-Optical Character Recognition)和语音识别等。
  • 机器翻译:在机器翻译任务中,输入是一种语言的符号序列,计算机程序必须将其转化成另一种语言的符号序列。
  • 结构化输出:结构化输出任务的输出是向量或者其他包含多个值的数据结构,并且构成输出的这些不同元素间具有重要关系。如语法分析,图像语义分割,图像描述。
  • 异常检测:计算机程序在一组事件或对象中筛选,并标记不正常或非典型的个体。如信用卡欺诈。
  • 合成和采样:机器学习程序生成一些和训练数据相似的新样本。如视频游戏场景建模、艺术创作。
  • 缺失值填补:在这类任务中,机器学习算法给定一个新样\boldsymbol{x}\in \mathbb{R}^n\boldsymbol{x} 中某些元素x_i缺失。算法必须填补这些缺失值。如图像补全。
  • 去噪:机器学习算法的输入是,干净样本\boldsymbol{x}\in \mathbb{R}^n 经过未知损坏过程后得到的损坏样本\tilde{\boldsymbol{x}}\in \mathbb{R}^n。算法根据损坏后的样本\tilde{\boldsymbol{x}}预测干净的样本\boldsymbol{x},或者更一般地预测条件概率分布p(\boldsymbol{x \mid \tilde{\boldsymbol{x}})}
  • 密度估计概率质量函数估计:在密度估计问题,机器学习算法学习函数p_{model} : \mathbb{R}^n \rightarrow \mathbb{R},其中p_{model}(\boldsymbol{x})可以解释成样本采样空间的概率密度函数(如果\boldsymbol{x} 是连续的)或者概率质量函数(如果\boldsymbol{x}是离散的)。

5.1.2 性能度量P

  • 准确率(accuracy):指该模型输出正确结果的样本比率。常用于分类、缺失输入分类和转录任务。类似的指标还有错误率(error rate)。
  • 测试集(test set):未观测的数据,不参与模型训练,用于评价模型性能。

5.1.3 经验E

机器学习算法可以大致分类为无监督(unsupervised)算法和监督(supervised)算法。

  • 无监督学习算法(unsupervised learningalgorithm)训练含有很多特征的数据集,然后学习出这个数据集上有用的结构性质。没有对应的label标签。

  • 监督学习算法(supervised learning algorithm)训练含有很多特征的数据集,不过数据集中的样本都有一个标签(label)或目标(target)。

  • 概率链式法则

p(x)=\prod_{i=1}^{n}p(x_i\mid x_1,\cdots,x_{i-1})

  • 全概率公式

p(y \mid x)=\frac {p(x,y)}{\sum_{{y}'}p(x \mid {y}')}

  • 设计矩阵(design matrix):表示数据集的常用方法。设计矩阵的每一行包含
    一个不同的样本。每一列对应不同的特征。

  • 5.1.4 示例:线性回归

\hat{y}=\boldsymbol{w}^{T} \boldsymbol{x}

  • 均方误差(mean squared error):

\mathrm{MSE}_{\mathrm{test}}=\frac{1}{m}\sum_{i}(\hat{\boldsymbol{y}}^{\mathrm{test}}-\boldsymbol{y}^{\mathrm{test}})_i ^2

5.2 容量、过拟合和欠拟合

  • 泛化(generalization):在先前未观测到的输入上表现良好的能力。

  • 训练误差(training error):训练模型时在训练集上的误差

  • 泛化误差(generalization error)(也被称为测试误差(test error)):在未知的测试集上的误差。

  • 独立同分布假设(i.i.d.assumption):该假设是说,每个数据集中的样本都是彼此相互独立的(independent),并且训练集和测试集是同分布的(identically distributed),采样自相同的分布。

决定机器学习算法效果是否好的因素:

  1. 降低训练误差
  2. 缩小训练误差和测试误差的差距。
  • 欠拟合(underfitting):模型不能在训练集上获得足够低的误差。

  • 过拟合(overfitting):训练误差和和测试误差之间的差距太大。

  • 模型的容量(capacity):指其拟合各种函数的能力。

  • 奥卡姆剃刀(Occam’s razor):在同样能够解释已知观测现象的假设中,我们
    应该挑选“最简单”的那一个。

  • Vapnik-Chervonenkis 维度(Vapnik-Chervonenkis dimension, VC)。VC维度量二元分类器的容量。

  • 非参数(non-parametric)模型,如最近邻回归(nearest neighbor regression)。

  • 贝叶斯误差(Bayes error):从预先知道的真实分布p(x, y) 预测而出现的误差。

5.2.1 没有免费午餐定理

  • 机器学习的没有免费午餐定理(no free
    lunch theorem),在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上都有相同的错误率。换言之,在某种意义上,没有一个机器学习算法总是比其他的要好。我们能够设想的最先进的算法和简单地将
    所有点归为同一类的简单算法有着相同的平均性能(在所有可能的任务上)。

5.2.2 正则化

  • 权重衰减(weight decay):控制偏好权重程度。

  • 正则化(regularization):修改学习算法,使其降低泛化误差而非训练误差。

5.3 超参数和验证集

  • 超参数(hyper-parameter):不用学习的参数,因为它难优化,不适合在训练集上学习。

  • 验证集(validation set):用于挑选超参数的数据子集,由原始训练集划分出的一部分。

5.3.1 交叉验证

  • k-折交叉验证过程:将数据集分成k个不重合的子集。测试误差可以估计为k次计算后的平均测试误差。在第i 次测试时,数据的第i个子集用于测试集,其他的数据用于训练集。

5.4 估计、偏差和方差

5.4.1 点估计

  • 点估计(point estimator)或统计量(statistics)是这些数据的任意函数:

\hat{\theta}_m=g(x^{(1)},\cdots,x^{(m)})

5.4.2 偏差

\mathrm{bias}(\hat{\theta}_m)=\mathbb{E}(\hat{\theta}_m)-\theta

  • 如果\mathrm{bias}(\hat{\theta}_m) = 0,那么估计量\hat{\theta}_m被称为是无偏
    (unbiased);如果\lim _{m \rightarrow \infty }\mathrm{bias}(\hat{\theta}_m)=0,那么估计量\hat{\theta}_m 被称为是渐近无偏(asymptotically unbiased)。

5.4.3 方差和标准差

  • 方差(variance):\mathrm{Var}(\hat{\theta})
  • 标准差(standard error),记作SE(\hat{\theta})

5.4.4 权衡偏差和方差以最小化均方误差

  • 估计的均方误差(mean squared error,MSE):

\mathrm{MSE}=\mathbb{E}[(\hat{\theta}_m-\theta)^2]=\mathrm{Bias}(\hat{\theta}_m)^2+\mathrm{Var}(\hat{\theta}_m)

5.4.5 一致性

  • 一致性(consistency):

\mathrm{p}\lim _{m \rightarrow \infty} \hat{\theta}_m = \theta

5.5 最大似然估计

  • 最大似然估计

\theta_{\mathrm{ML}}=\arg \max_{\theta}\sum _{i=1}^{m}\log p_{model}(x^{(i)};\theta)

5.5.1 条件对数似然和均方误差

  • 条件对数似然

\theta_{\mathrm{ML}}=\arg \max_{\theta}P(Y\mid X;\theta)=\arg \max_{\theta}\sum _{i=1}^{m}\log P(y^{(i)}\mid x^{(i)};\theta)

5.6 贝叶斯统计

  • 贝叶斯统计(Bayesian statistics):在做预测时会考虑所有可能的\theta
  • 先验概率分布(prior probability distribution):将\theta的已知知识表示为p(\theta)

5.6.1 最大后验(MAP) 估计

  • 最大后验(Maximum A Posteriori, MAP)点估计:MAP估计选择后验概率最大的点(或在\theta 是连续值的更常见情况下,概率密度最大的点):

\theta_{\mathrm{MAP}}=\arg \max_{\theta}p(\theta\mid x)=\arg \max _{\theta}\log p(x\mid \theta)+\log p(\theta)

5.7 监督学习算法

  • 监督学习算法是给定一组输入x和输出y的训练集,学习如何关联输入和输出。

5.7.1 概率监督学习

  • 线性回归:

p(y\mid x;\theta)=\mathcal {N}(y;\theta^{T}x,I)

  • 逻辑回归(logistic regression):

p(y=1\mid x;\theta)=\sigma(\theta^{T}x)

5.7.2 支持向量机

  • 支持向量机(support vector machine,SVM)是监督学习中最有影响力的方法之一。基于线性函数w^{T}x + b 的,用于分类,结果为正属于正类;结果为负属于负类。

  • 核技巧(kernel trick):

w^{T}x+b=b+\sum _{i=1}^{m}\alpha_ix^Tx^{(i)}

  • 核函数(kernel function)的函数k(x, x^{(i)}) = \phi (x) \dot \phi (x^{(i)})

    • 高斯核(Gaussian kernel):也称为径向基函数(radial basis func-
      tion, RBF)核,

    k(u,v)=\mathcal{N}(u-v;0,\sigma^2I)

5.7.3 其他简单的监督学习算法

  • 最近邻回归
  • k-最近邻
  • 决策树(decision tree)及其变种是另一类将输入空间分成不同的区域,每个区域有独立参数的算法。

5.8 无监督学习算法

  • 无监督学习的大多数尝试是指从不需要人为注释的样本的分布中抽取信息。

5.8.1 主成分分析

  • 参考第2.12 节

5.8.2 k-均值聚类

  • k-均值聚类算法将训练集分成k个靠近彼此的不同样本聚类。

5.9 随机梯度下降

  • 随机梯度下降(stochastic gradient descent, SGD):是梯度下降法的扩展,每次从训练集中均匀抽出一小批量(minibatch)样本,然后去计算梯度。

5.10 构建机器学习算法

  • 几乎所有的深度学习算法都可以被描述为一个相当简单的配方:特定的数据集、代价函数、优化过程和模型。

5.11 促使深度学习发展的挑战

5.11.1 维数灾难

  • 当数据的维数很高时,很多机器学习问题变得相当困难。这种现象被称为维数灾难(curse of dimensionality)。

5.11.2 局部不变性和平滑正则化

  • 平滑先验(smoothness prior),或局部不变性先验(local constancy prior)。这个先验表明我们学习的函数不应在小区域内发生很大的变化。

5.11.3 流形学习

  • 流形(manifold):考虑少数嵌入在高维空间中的自由度或维数就能很好地近似。每一维都对应着局部的变化方向。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容

  • 》拟合训练数据和寻找能够泛化到新数据的参数有哪些不同。 》如何使用额外的数据设置超参数。 》机器学习本质上属于应用...
    N89757阅读 2,124评论 0 0
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,514评论 0 6
  • 一、机器学习策略的原因 机器学习是无数重要应用程序的基础,包括网络搜索,电子邮件反垃圾邮件,语音识别,产品推荐等。...
    阳光前阅读 673评论 0 0
  • 连载《梦断上海》第四章生日宴会8巧妙化解 文/雪漫飞 【前情回顾】 “是我吓着小天使了吗?对不起!”杰弗斯不安地把...
    雪漫飞阅读 226评论 13 4
  • 图片来自于网络 《夏有乔木,雅望天堂》电影简介 《夏有乔木雅望天堂》是赵真奎执导,吴亦凡、韩庚、卢杉、周元主演的青...
    墨叶秋阅读 483评论 0 0