Structuring Machine Learning Projects - 第二周

第二周课程目标

Understand what multi-task learning and transfer learning are
Recognize bias, variance and data-mismatch by looking at the performances of your algorithm on train/dev/test sets

Error Analysis

通常针对有监督学习，为了提高准确率，降低错误率，我们需要分析错误的原因是什么，这就涉及到error analysis。通常的做法是可以看下具体是哪些item进行了错误的分类，然后可以整理出如下图所示的表格，从而可以判断接下来应该如何降低错误率。

error analysis

在进行错误分析的时候，也需要注意有些情况下并不是我们的算法有问题，而是样本标记错误导致的。针对这种情况，就需要分析这类错误所占的比例是多少，即可以在上图的表格当中加入一列'error labeled'，如果所占比例较大，则说明需要去针对错误样本进行重新标记，但是如果比例很小，则不值得我们花精力去做这件事，而且通常DL算法对错误样本是有很强的容忍性的，即可以允许部分样本的错误，对算法的准确度影响很小。针对标记错误的样本，当我们判断需要进行更正的时候，那么有以下原则需要考虑：

rules for updating labels

dev set 和test set服从同一个分布才能建立统一的验证标准，从而让我们能够准确判断算法的优劣
training set并没有必要去做更正标签的工作，这是因为很多情况下，尤其是做迁移训练的时候，我们的训练集本身就是来自很多不同源数据，这并不影响训练算法。DL算法对于此类问题有健壮性的。
有的时候我们需要考虑预测正确的样本。因为有时我们标记错误了，但是预测也错了，这就导致预测结果是正确的（有点绕啊，举个例子，比如实际是一个狗的照片，你标记的时候，把它标记成猫，你的算法也预测是猫，虽然显示预测正确因为跟标记一致，但是实际是错误的）

另外，Andrew还强调了要尽快建立第一个模型，然后再通过分析是bias问题还是variance问题来决定下一步的方向，逐渐地迭代改进。这很类似于现在的互联网产品理念，即最小模型原则，先建立一个基本的原型产品，再跟进用户反馈快速迭代。所以一开始最好不要想太多，先做出第一个原型产品再说。

Mismatched training and dev/testing set

这一节主要讲当training set和dev/test set并非同一个distribution的时候如何处理。当我们只有很小量的实际数据，但是有大量的非实际场景数据（但是仍然是可以迁移使用的，比如都是图片），这时一种直观的做法是将所有的数据混合在一起，shuffle之后再按比例切分，但是这种情况下就存在一个问题，我们的dev/test中存在的数据大部分都是非实际场景的数据，这导致了我们的训练的target就已经不准确了，所以更好的做法是，所有的dev/test set的数据均来源于实际场景的数据，而添加一部分实际场景的数据到training set。

但是，当training set和dev/test set来自不同的distribution的时候又会带来一个问题，即当training set的error rate和dev set的error rate有较大差距的时候，我们怎么判断是存在variance问题，还是由于dev set的数据本身更加难以识别导致的，即有两种可能的因素，那么如何区分这两个因素呢？Andrew在这里提到了一个新的概念，training-dev set，如下图所示：

what's the reason of error rate difference

在原先的training set中切分出一小部分作为training-dev set，这样保证了training set和training-dev set在同一个distribution
通过在training set上训练，然后在training-dev set和dev set上分别验证，然后看这三者之间的差距就可以分析出到底是variance问题还是dev set数据本身的问题。当training set和training-dev set差距比较大时，说明存在variance问题，反之则不是variance问题，而是data mismatch问题。
总的来说，可以通过如下图中的表格来展示具体是什么问题：

how to confirm the problem

那么问题来了，当我们发现data mismatch问题时，我们该如何处理了，总的来说有两步，如下图所示：

deal with data mismatch

第一步是分析到底有哪些不同，比如在车载语音系统中可能实际的声音会有大量背景噪声，而训练集中的声音大都没有背景噪音。
第二步就是尽可能让训练集的数据与dev set中的数据近似，比如为训练集中的语言添加背景噪音

那么如何让训练集中数据更像dev set中的数据呢，这主要是通过两种方式来实现：

最好是收集更多的实际数据，然后充实到训练集中
可以用合成的方式来生成模拟数据，比如dev set的声音有背景噪音，那么我们就可以通过合成背景噪音的方式来生成模拟数据

生成模拟数据需要注意的是，我们的生成数据因为只是实际数据的一个非常小的子集，这可能导致我们的模型针对这部分数据过拟合。

Learning for multiple tasks

作者首先在这节讲述了什么是transfer learning

transfer learning

作者举了一个例子是说首先训练了一个图片识别的神经网络，之后如果我们需要一个X射线诊断的模型，我们可以将最后一层的输出层替换掉，然后再针对X射线诊断进行训练，这样最终的模型的训练会更加有效，之前的训练获得的知识可以转移到新的模型当中来。
针对新模型进行再训练有两种模式，一种是当实际的数据集较小时，我们可以只针对最后一层输出层进行训练；另一种是当我们有大量的实际数据时，我们可以针对整个神经网络进行重新训练。
针对第二种训练方式，这里会有两个概念。之前针对图像识别的训练我们可以叫做pre-training，之后的针对X射线的训练可以叫做fine tuning
那么为什么这样是有效的呢？这是因为神经网络之前通过训练习得的knowledge如对于图像边缘的识别，对于曲线和物体的识别这些low level的knowledge对于新模型仍然是有效的

那么在什么情况下我们需要使用transfer learning呢？

when transfer learning makes sense

接下来讲了什么是multi-task learning

auto driving example

可以看出最终的输出不再是单个的output，而是多个output，最终输出结果是一个vector
也就是一个神经网络可以针对多个target进行结果输出。这里需要对multi-class和multi-label进行区分（具体参考multi-class vs multi-label)：

Multiclass classification means a classification task with more than two classes; e.g., classify a set of images of fruits which may be oranges, apples, or pears. Multiclass classification makes the assumption that each sample is assigned to one and only one label: a fruit can be either an apple or a pear but not both at the same time.
Multilabel classification assigns to each sample a set of target labels. This can be thought as predicting properties of a data-point that are not mutually exclusive, such as topics that are relevant for a document. A text might be about any of religion, politics, finance or education at the same time or none of these.

下图展示了一个multi-task neural network：

multi-class neural network

在计算loss function的时候，需要将4个output的y hat都相加来计算的总的loss
通常这种多任务的神经网络也可以分开成single target的神经网络，比如只去标记行人，但是，通常情况下把其变成多任务的神经网络performance更好，这是由于其low level的knowledge可以互相share，这样通常有助于提高神经网络的性能
另外，当某些样本没有针对某个target进行标记的时候也不影响神经网络的训练，因为在计算的时候，如果发现某个label没有标记，就不会对其损失函数进行加总，也不影响其最终结果

那么什么情况下multi-task learning是有意义的？

when multi-task learning makes sense

End-to-end deep learning

什么是end-to-end deep learning?作者首先举了个例子

end-to-end learning

在之前的人工智能很多时候我们人为的分成了不同阶段（作者举了speech recognition的例子），但是通过神经网络我们不需要人工的区分阶段，通过输入audio，输出transcript，直接可以训练出end-to-end的模型

之后，作者举了个人脸识别的例子，这个例子表明有的时候分步进行又是有意义的：

face recognition

这里当我们将人脸识别程序分为两步时，通常效果更好，我们可以先从图中识别人脸，第二部再讲人脸放大到一定比例后进行鉴别（跟存储的人像进行比较）。通常分成两步会提高系统的整体性能。

那么什么情况下使用end-to-end，什么情况下使用分步法比较好呢？
这通常跟我们的数据有极大的关系，当我们有大量的input和output数据的时候，我们可以直接使用end-to-end的方式，但是当我们的数据的模式是input->step output, step output-> output的时候，那么我们就需要分步来做，总的来说跟你的数据模式有关系。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,509评论 6赞 504
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,806评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,875评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,441评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,488评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,365评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,190评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,062评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,500评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,706评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,834评论 1赞 347
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,559评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,167评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,779评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,912评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,958评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,779评论 2赞 354

Structuring Machine Learning Projects - 第二周

Error Analysis

Mismatched training and dev/testing set

Learning for multiple tasks

End-to-end deep learning

推荐阅读更多精彩内容