[机器学习入门] 李宏毅机器学习笔记-21(Transfer Learning part 1 ; 迁移学习 part 1)
VIDEO |
---|
Transfer Learning
利用与task没有直接相关的data
什么叫没有直接相关呢?
比如:
why
Example in real life
从漫画家的法则,来理解研究生法则
Overview
分成四个象限:下面将以象限作为小标题。
Target Data:直接相关的数据。
Source Data:没有直接相关的数据。
第一象限
Traget Data labelled,Source Data labelled。
Model Fine-tuning
把在source data上train出来的model当作是training的initial value。
由于target data可能很少,极有可能过拟合,所以train的时候要很小心,这里有一下几种技巧。
Conservative Training
让左右两个model差距不要太大。
Layer Transfer
将Source data train好的model,复制几个参数到新的model里,然后再利用Target data训练没有被复制来的参数,这样每次训练的参数都较少,避免了过拟合。
那么那些layer 的参数可以copy呢?
因任务而异,case by case
• Speech: usually copy the last few layers
• Image: usually copy the first few layers
Multitask Learning
Multilingual Speech Recognition
目前发现,几乎所有的语言都可以互相transfer。
实验表明transfer 果然是很有帮助的
第四象限
Traget Data unlabelled,Source Data labelled。un
Target Description:
Domain-adversarial training
当我们利用neutral network抽取feature和做classification时,可以看到,蓝色部分抽取的feature分成10块,而红色部分并没有被区分开来,所以后面的分类也不可能做好。
运用Domain-adversarial training
全部分类为零就可以骗过Domain classifier,所以要加一个Label predictor。使之不仅要骗过Domain classifier,还要同时满足label classifier。
这是一个很庞大的网络,不同于以往所有的参数都目标一致,这个网络中的参数可谓各怀鬼胎。
蓝色部分参数想让Domain classifier做得更好。
红色部分参数想要正确预测来者属于哪个domain。
绿色部分参数想同时做两件事,提高蓝色部分的预测正确率,最小化红色部分的分类正确率。
可以看到红色与绿色是在相互对抗的。
效果
下见part 2