Foundations of Machine Learning 详解

《Foundations of Machine Learning》一书是一本很好的机器学习教材，

作者: Mohri,Rostamizeadeh, Talwalkar.

Machine Learning Foundation:

特点：

理论性强，书中公式极多，基础性机器学习书籍

chapter 1: Introduction [总体介绍]

part:

机器学习应用场景

机器学习任务

机器学习元素定义和学习场景

模型泛化性

part1: Applications [机器学习应用场景]

包括: 文本分类[text or document classification], NLP[这里的nlp主要是指句子成分分析,词性标注等技术], 语音识别[Speech processing applications], 计算机视觉[Computer vision applications], 生物学模式识别[Computational biology applications]等。不一一列举

part2: Standard Learning Tasks [机器学习经典任务和学习场景]

classification[分类]：分类任务是很多机器学习算法和理论的基础，许多问题都可以抽象成一个分类任务加以建模

Regression[回归]: 回归任务和分类任务的区别,是回归任务预测的目标是一个real value,而不是一个分类标签[this is the problem of predicting a real value for each item.]

Ranking[排序]: 排序任务, 如网页搜索的场景. [this is the problem of learning to order items according to some criterion.]

Clustering[聚类]: 将一个数据集按照一定的规则划分成N个子集. 一般针对比较大的数据集对数据分析 [this is the problem of partitioning a set of items.]

Dimensionality reduction or manifold learning[降维]: 将一个样本的表示做降维处理. [this problem consists of transforming an initial representation of items into a lower-dimensional representation]

part3: Learning stages[学习阶段]

机器学习基本元素的定义列举如下:

Examples: 样本. 用于做训练和测试[Items or instances of data used for learning or evaluation].

Features: 特征. 属性集合，一般用向量表示, 用于表示一个样本. [The set of attributes, often represented as a vector, associated to an example]

Labels: 标签，也就是要学习的目标.[Values or categories assigned to examples]

Hyperparameters: 超参数. 一些在算法model中没有被定义，需要特殊定义和初始化的参数.

Training sample: 训练样本 [Examples used to train a learning algorithm.]

validation sample: 校验样本，用于作为确定模型参数的标准样本[Examples used to tune the parameters of a learning algorithm.]

test sample: 测试样本, 用户作为衡量模型效果的样本[Examples used to evaluate the performance of a learning algorithm.]

Loss function: 损失函数[A function that measures the difference] 说的直白点，就是衡量y与y1的差距.

这里可以展开一下：

Loss function一般有哪一些？

再进一步想一个问题：为什么在深度学习的过程中，一般使用交叉熵，而不采用平方差等loss的形式呢？

还是要推导loss公式反向传播看一下:

一般y_pred是由sigmoid函数得到:

从上面的推导可以看出, 若将sigmoid之前的输出值看做x，则L对x的导数可以变成上面那种简单的形式。梯度求导计算简单又好传递. 有兴趣的话，还可以推导一下squares loss的dL/dx, 结果比较复杂在这里就不表述了.

言归正传，机器学习元素这一块，还需要有以下的注意：

特征的提取是机器学习的关键。它是作为machine learning的input出现的。在样本不足的情况下，根据知识人工提取有用的特征，是防止过拟合的一种重要手段.

Reference: This is a critical step in the design of machine learning solutions. Useful features can effectively gude the learning algorithm, while poor or uninformative ones can be misleading.Although it is critical, to a large extent, the choice of the features is left ot the user. This choice reflects the user's prior knowledge about the learning task which in practice can have a dramatic effect on the performace result.

学习场景[learning scenarios]

机器学习算法运行的具体场景定义，和学习过程有关。分为：监督学习，无监督学习，半监督学习，转导推理，线上学习，强化学习，主动学习等。

监督学习：对有标注的一批样本进行学习，验证和测试

无监督学习：对没有标注的样本进行学习分析，比较有代表性的是cluster.

半监督学习：这种学习场景，一般出现在有一部分标注样本和大量的未标注样本，标注的成本较高。半监督学习的目的就是怎样将大量的未标注样本，用于帮助标注样本取得更好的学习效果。这一主题下衍生出大量的现代理论和机器学习研究成果，是目前研究的一大焦点。

转导推理：类似于无监督学习，有一部分标注样本和未标注样本。但转导推理的目标是给这一部分未标注的样本做推理和打标签。未标注样本即是可以帮助标注样本做预测的集合，又是推理的目标。

在线学习：在线学习的集合是多轮变化的，在每一轮中，都有一批未标注的样本，使用model对样本进行预测之后，对预测的样本打label，得到一批新的学习样本，在线学习的目标是保证多轮累加loss [cumulative loss] 的最小化。

强化学习：强化学习的场景，学习器和环境进行不断的交互，接受者将正负反馈传递给学习器，学习器会逐渐选择奖励最多的一条路径。

主动学习：主动学习的一个关键就是定向采样。由于标注的代价较高，为了减少标注成本，学习者会主动定向针对需要学习的任务采样代表性的样本，并采用定向增强的方式，将更有价值的样本做标注采样，替换随机取样的方式。这一系列的过程称为active learning.

part4: 模型泛化性

我们学习machine learning的目的就是为了提升模型的泛化性[Machine learning is fundamentally about generalization.] 注意, machine learning的目的不是为了拟合训练数据，而是在没有见过的测试数据上也可以做正确的预测。因此就有了欠拟合和过拟合的概念，这决定了假设集，也就是学出来的模型的复杂度的选择：

过拟合：当一个模型学习的太复杂，导致一些有一些不重要的特征都作为划分依据，会导致拟合过度而泛化能力降低。比如你拿了一批小学生的样本，有身高，体重，运动成绩等。如果样本分布不均衡，采样到了一批运动成绩普遍不强的小学生的样本，模型在学习的时候，会误把运动成绩差作为样本是小学生的feature，过拟合了.

欠拟合：欠拟合的直观感受就是，学到的特征太少，分隔曲线过于简单。

因此,样本大小，分布和模型复杂度在ML里面扮演重要角色。如果样本数目本来不多，选择参数较大的复杂模型，容易导致模型缺乏泛化性，也就是过拟合。

接下来引入本书的一个重要评价概念：PAC Learning Framework

PAC: Probably Approximately Correct [假设集正确率衡量]

意义：根据获得近似解所需的样本点数来定义可学习概念的类别，从而定义平衡模型的复杂度，以及模型的性能。

[PAC helps defines the class of learnable concepts in terms of the number of sample points needed to achieve an approximate solution.]

PAC 定义:

这两个误差之间的关系：

ES∈Dm[Rs(h)]=R(h)

泛化误差是经验误差在各个样本集合中的期望.

下面就可以给出PAC-learnable的定义：

对于一个h,c,D集合, 如果对于任何给定的

就可以说，这个按照c标准进行标注的集合D，对于h来说，是可以学习的。

有关PAC的进一步介绍和举例，请看下篇更新.

Foundations of Machine Learning 详解

Foundations of Machine Learning 详解

相关阅读更多精彩内容

友情链接更多精彩内容