Foundations of Machine Learning 详解

《Foundations of Machine Learning》一书是一本很好的机器学习教材,

作者: Mohri,Rostamizeadeh, Talwalkar.

Machine Learning Foundation:

特点:

理论性强,书中公式极多,基础性机器学习书籍

chapter 1: Introduction [总体介绍]

part:

机器学习应用场景

机器学习任务

机器学习元素定义和学习场景

模型泛化性

part1: Applications [机器学习应用场景]

包括: 文本分类[text or document classification],  NLP[这里的nlp主要是指句子成分分析,词性标注等技术], 语音识别[Speech processing applications], 计算机视觉[Computer vision applications], 生物学模式识别[Computational biology applications]等。不一一列举

part2: Standard Learning Tasks [机器学习经典任务和学习场景]

classification[分类]: 分类任务是很多机器学习算法和理论的基础,许多问题都可以抽象成一个分类任务加以建模

Regression[回归]:  回归任务和分类任务的区别,是回归任务预测的目标是一个real value,而不是一个分类标签[this is the problem of predicting a real value for each item.]

Ranking[排序]: 排序任务, 如网页搜索的场景. [this is the problem of learning to order items according to some criterion.]

Clustering[聚类]: 将一个数据集按照一定的规则划分成N个子集. 一般针对比较大的数据集对数据分析 [this is the problem of partitioning a set of items.]

Dimensionality reduction or manifold learning[降维]:  将一个样本的表示做降维处理. [this problem consists of transforming an initial representation of items into a lower-dimensional representation]

part3: Learning stages[学习阶段]

机器学习基本元素的定义列举如下:

Examples: 样本.  用于做训练和测试[Items or instances of data used for learning or evaluation].

Features: 特征.  属性集合,一般用向量表示, 用于表示一个样本. [The set of attributes, often represented as a vector, associated to an example]

Labels: 标签,也就是要学习的目标.[Values or categories assigned to examples]

Hyperparameters: 超参数. 一些在算法model中没有被定义,需要特殊定义和初始化的参数.

Training sample: 训练样本 [Examples used to train a learning algorithm.]

validation  sample: 校验样本,用于作为确定模型参数的标准样本[Examples used to tune the parameters of a learning algorithm.]

test sample: 测试样本, 用户作为衡量模型效果的样本[Examples used to evaluate the performance of a learning algorithm.]

Loss function: 损失函数[A function that measures the difference] 说的直白点,就是衡量y与y1的差距.

这里可以展开一下:

Loss function一般有哪一些?

再进一步想一个问题:为什么在深度学习的过程中,一般使用交叉熵,而不采用平方差等loss的形式呢?

还是要推导loss公式反向传播看一下:

一般y_pred是由sigmoid函数得到:

从上面的推导可以看出, 若将sigmoid之前的输出值看做x,则L对x的导数可以变成上面那种简单的形式。梯度求导计算简单又好传递. 有兴趣的话,还可以推导一下squares loss的dL/dx, 结果比较复杂在这里就不表述了.

言归正传,机器学习元素这一块,还需要有以下的注意:

特征的提取是机器学习的关键。它是作为machine learning的input出现的。在样本不足的情况下,根据知识人工提取有用的特征,是防止过拟合的一种重要手段.

Reference: This is a critical step in the design of machine learning solutions. Useful features can effectively gude the learning algorithm, while poor or uninformative ones can be misleading.Although it is critical, to a large extent, the choice of the features is left ot the user. This choice reflects the user's prior knowledge about the learning task which in practice can have a dramatic effect on the performace result.

学习场景[learning scenarios]

机器学习算法运行的具体场景定义,和学习过程有关。 分为:监督学习,无监督学习,半监督学习,转导推理,线上学习,强化学习,主动学习等。

监督学习: 对有标注的一批样本进行学习,验证和测试

无监督学习:对没有标注的样本进行学习分析,比较有代表性的是cluster.

半监督学习:这种学习场景,一般出现在有一部分标注样本和大量的未标注样本,标注的成本较高。半监督学习的目的就是怎样将大量的未标注样本,用于帮助标注样本取得更好的学习效果。这一主题下衍生出大量的现代理论和机器学习研究成果,是目前研究的一大焦点。

转导推理:类似于无监督学习,有一部分标注样本和未标注样本。但转导推理的目标是给这一部分未标注的样本做推理和打标签。未标注样本即是可以帮助标注样本做预测的集合,又是推理的目标。

在线学习:在线学习的集合是多轮变化的,在每一轮中,都有一批未标注的样本,使用model对样本进行预测之后,对预测的样本打label,得到一批新的学习样本,在线学习的目标是保证多轮累加loss [cumulative loss] 的最小化。

强化学习:强化学习的场景,学习器和环境进行不断的交互,接受者将正负反馈传递给学习器,学习器会逐渐选择奖励最多的一条路径。

主动学习:主动学习的一个关键就是定向采样。由于标注的代价较高,为了减少标注成本,学习者会主动定向针对需要学习的任务采样代表性的样本,并采用定向增强的方式,将更有价值的样本做标注采样,替换随机取样的方式。这一系列的过程称为active learning.

part4: 模型泛化性

我们学习machine learning的目的就是为了提升模型的泛化性[Machine learning is fundamentally about generalization.] 注意, machine learning的目的不是为了拟合训练数据,而是在没有见过的测试数据上也可以做正确的预测。因此就有了欠拟合和过拟合的概念,这决定了假设集,也就是学出来的模型的复杂度的选择:

过拟合:当一个模型学习的太复杂,导致一些有一些不重要的特征都作为划分依据,会导致拟合过度而泛化能力降低。比如你拿了一批小学生的样本,有身高,体重,运动成绩等。如果样本分布不均衡,采样到了一批运动成绩普遍不强的小学生的样本,模型在学习的时候,会误把运动成绩差作为样本是小学生的feature,过拟合了.

欠拟合:欠拟合的直观感受就是,学到的特征太少,分隔曲线过于简单。

因此,样本大小,分布和模型复杂度在ML里面扮演重要角色。如果样本数目本来不多,选择参数较大的复杂模型,容易导致模型缺乏泛化性,也就是过拟合。


接下来引入本书的一个重要评价概念:PAC Learning Framework

PAC: Probably Approximately Correct [假设集正确率衡量]

意义:根据获得近似解所需的样本点数来定义可学习概念的类别,从而定义平衡模型的复杂度,以及模型的性能。

[PAC helps defines the class of learnable concepts in terms of the number of sample points needed to achieve an approximate solution.]

PAC 定义:

这两个误差之间的关系:

ES∈Dm[Rs(h)]=R(h)

泛化误差是经验误差在各个样本集合中的期望.

下面就可以给出PAC-learnable的定义:

对于一个h,c,D集合, 如果对于任何给定的

就可以说,这个按照c标准进行标注的集合D,对于h来说,是可以学习的。

有关PAC的进一步介绍和举例,请看下篇更新.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,470评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,393评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,577评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,176评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,189评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,155评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,041评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,903评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,319评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,539评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,703评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,417评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,013评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,664评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,818评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,711评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,601评论 2 353

推荐阅读更多精彩内容