第二周课程目标
Understand what multi-task learning and transfer learning are
Recognize bias, variance and data-mismatch by looking at the performances of your algorithm on train/dev/test sets
Error Analysis
通常针对有监督学习,为了提高准确率,降低错误率,我们需要分析错误的原因是什么,这就涉及到error analysis。通常的做法是可以看下具体是哪些item进行了错误的分类,然后可以整理出如下图所示的表格,从而可以判断接下来应该如何降低错误率。
在进行错误分析的时候,也需要注意有些情况下并不是我们的算法有问题,而是样本标记错误导致的。针对这种情况,就需要分析这类错误所占的比例是多少,即可以在上图的表格当中加入一列'error labeled',如果所占比例较大,则说明需要去针对错误样本进行重新标记,但是如果比例很小,则不值得我们花精力去做这件事,而且通常DL算法对错误样本是有很强的容忍性的,即可以允许部分样本的错误,对算法的准确度影响很小。 针对标记错误的样本,当我们判断需要进行更正的时候,那么有以下原则需要考虑:
- dev set 和test set服从同一个分布才能建立统一的验证标准,从而让我们能够准确判断算法的优劣
- training set并没有必要去做更正标签的工作,这是因为很多情况下,尤其是做迁移训练的时候,我们的训练集本身就是来自很多不同源数据,这并不影响训练算法。DL算法对于此类问题有健壮性的。
- 有的时候我们需要考虑预测正确的样本。因为有时我们标记错误了,但是预测也错了,这就导致预测结果是正确的(有点绕啊,举个例子,比如实际是一个狗的照片,你标记的时候,把它标记成猫,你的算法也预测是猫,虽然显示预测正确因为跟标记一致,但是实际是错误的)
另外,Andrew还强调了要尽快建立第一个模型,然后再通过分析是bias问题还是variance问题来决定下一步的方向,逐渐地迭代改进。这很类似于现在的互联网产品理念,即最小模型原则,先建立一个基本的原型产品,再跟进用户反馈快速迭代。所以一开始最好不要想太多,先做出第一个原型产品再说。
Mismatched training and dev/testing set
这一节主要讲当training set和dev/test set并非同一个distribution的时候如何处理。当我们只有很小量的实际数据,但是有大量的非实际场景数据(但是仍然是可以迁移使用的,比如都是图片),这时一种直观的做法是将所有的数据混合在一起,shuffle之后再按比例切分,但是这种情况下就存在一个问题,我们的dev/test中存在的数据大部分都是非实际场景的数据,这导致了我们的训练的target就已经不准确了,所以更好的做法是,所有的dev/test set的数据均来源于实际场景的数据,而添加一部分实际场景的数据到training set。
但是,当training set和dev/test set来自不同的distribution的时候又会带来一个问题,即当training set的error rate和dev set的error rate有较大差距的时候,我们怎么判断是存在variance问题,还是由于dev set的数据本身更加难以识别导致的,即有两种可能的因素,那么如何区分这两个因素呢?Andrew在这里提到了一个新的概念,training-dev set,如下图所示:
- 在原先的training set中切分出一小部分作为training-dev set,这样保证了training set和training-dev set在同一个distribution
-
通过在training set上训练,然后在training-dev set和dev set上分别验证,然后看这三者之间的差距就可以分析出到底是variance问题还是dev set数据本身的问题。当training set和training-dev set差距比较大时,说明存在variance问题,反之则不是variance问题,而是data mismatch问题。
总的来说,可以通过如下图中的表格来展示具体是什么问题:
how to confirm the problem
那么问题来了,当我们发现data mismatch问题时,我们该如何处理了,总的来说有两步,如下图所示:
- 第一步是分析到底有哪些不同,比如在车载语音系统中可能实际的声音会有大量背景噪声,而训练集中的声音大都没有背景噪音。
- 第二步就是尽可能让训练集的数据与dev set中的数据近似,比如为训练集中的语言添加背景噪音
那么如何让训练集中数据更像dev set中的数据呢,这主要是通过两种方式来实现:
- 最好是收集更多的实际数据,然后充实到训练集中
- 可以用合成的方式来生成模拟数据,比如dev set的声音有背景噪音,那么我们就可以通过合成背景噪音的方式来生成模拟数据
生成模拟数据需要注意的是,我们的生成数据因为只是实际数据的一个非常小的子集,这可能导致我们的模型针对这部分数据过拟合。
Learning for multiple tasks
作者首先在这节讲述了什么是transfer learning
- 作者举了一个例子是说首先训练了一个图片识别的神经网络,之后如果我们需要一个X射线诊断的模型,我们可以将最后一层的输出层替换掉,然后再针对X射线诊断进行训练,这样最终的模型的训练会更加有效,之前的训练获得的知识可以转移到新的模型当中来。
- 针对新模型进行再训练有两种模式,一种是当实际的数据集较小时,我们可以只针对最后一层输出层进行训练;另一种是当我们有大量的实际数据时,我们可以针对整个神经网络进行重新训练。
- 针对第二种训练方式,这里会有两个概念。之前针对图像识别的训练我们可以叫做pre-training,之后的针对X射线的训练可以叫做fine tuning
- 那么为什么这样是有效的呢?这是因为神经网络之前通过训练习得的knowledge如对于图像边缘的识别,对于曲线和物体的识别这些low level的knowledge对于新模型仍然是有效的
那么在什么情况下我们需要使用transfer learning呢?
接下来讲了什么是multi-task learning
- 可以看出最终的输出不再是单个的output,而是多个output,最终输出结果是一个vector
- 也就是一个神经网络可以针对多个target进行结果输出。这里需要对multi-class和multi-label进行区分(具体参考multi-class vs multi-label):
Multiclass classification means a classification task with more than two classes; e.g., classify a set of images of fruits which may be oranges, apples, or pears. Multiclass classification makes the assumption that each sample is assigned to one and only one label: a fruit can be either an apple or a pear but not both at the same time.
Multilabel classification assigns to each sample a set of target labels. This can be thought as predicting properties of a data-point that are not mutually exclusive, such as topics that are relevant for a document. A text might be about any of religion, politics, finance or education at the same time or none of these.
下图展示了一个multi-task neural network:
- 在计算loss function的时候,需要将4个output的y hat都相加来计算的总的loss
- 通常这种多任务的神经网络也可以分开成single target的神经网络,比如只去标记行人,但是,通常情况下把其变成多任务的神经网络performance更好,这是由于其low level的knowledge可以互相share,这样通常有助于提高神经网络的性能
- 另外,当某些样本没有针对某个target进行标记的时候也不影响神经网络的训练,因为在计算的时候,如果发现某个label没有标记,就不会对其损失函数进行加总,也不影响其最终结果
那么什么情况下multi-task learning是有意义的?
End-to-end deep learning
什么是end-to-end deep learning?作者首先举了个例子
- 在之前的人工智能很多时候我们人为的分成了不同阶段(作者举了speech recognition的例子),但是通过神经网络我们不需要人工的区分阶段,通过输入audio,输出transcript,直接可以训练出end-to-end的模型
之后,作者举了个人脸识别的例子,这个例子表明有的时候分步进行又是有意义的:
- 这里当我们将人脸识别程序分为两步时,通常效果更好,我们可以先从图中识别人脸,第二部再讲人脸放大到一定比例后进行鉴别(跟存储的人像进行比较)。通常分成两步会提高系统的整体性能。
那么什么情况下使用end-to-end,什么情况下使用分步法比较好呢?
这通常跟我们的数据有极大的关系,当我们有大量的input和output数据的时候,我们可以直接使用end-to-end的方式,但是当我们的数据的模式是input->step output, step output-> output的时候,那么我们就需要分步来做,总的来说跟你的数据模式有关系。