Transferrable Prototypical Networks for Unsupervised Domain Adaptation
本文的结构是在论文Prototypical Networks for Few-shot Learning的结构上改的。
Prototypical networks learn a metric space in which classification can be performed by computing distances to prototype representations of each class.
作者:Yingwei Pan , Ting Yao , Yehao Li , Yu Wang , Chong-Wah Ngo , and Tao Mei
来源:CVPR 2019
机构:JD AI Research, Beijing, China,City University of Hong Kong, Kowloon, Hong Kong(香港城市大学),中山大学
数据集:VisDA 2017 dataset,MNIST, USPS and SVHN datasets
相似方法的论文:Progressive Feature Alignment for Unsupervised Domain Adaptation
Learning Semantic Representations for Unsupervised Domain Adaptation
不同之处:
本文不仅考虑了类之间的差异,还考虑了样本和分类器的关系(这个比较少见).
本文的分类器和一般论文中的分类器不同,
1.本文采用的分类器是计算一个样本和类的prototype的距离,计算prototype的开销会不会很大?
2.若给目标域样本分配的伪标签是错误的,对最终的分类是否有影响?
3.Prototypical Networks for Few-shot Learning这篇论文里针对的是带标签样本数目比较少的情况,在领域自适应中,一般情况下,原域样本数目还是很多的,直接拿few-shot的方法来用,计算开销会变得很大,是否会忽略了样本数目多带来的好处,效果会好吗?
4.文中进行了class-level的对齐,但是好像没有进行整体的对齐,为什么?
Different from the existing transfertechniques [16, 17] which are typically composed oftwo cascaded networks for learning domain-invariant featuresand target-discriminative classifiers respectively, weconsider unsupervised domain adaptation in the frameworkof Prototypical Networks. Such framework naturally unifiesthe learning of features and classifiers into one networkby constructing classifiers purely on the prototype of eachclass. This design reflects a very simple inductive bias thatis beneficial in domain adaptation regime.
以上是作者对本文框架的不同之处的解释,已有的迁移技术由两个级联网络组成,分别学习特征和分类器,而本文用的Prototypical Networks则把特征学习和分类器融合到一个网络中。
论文思路:
1.首先,用原域样本算出每个类的prototype,假设原域分为C类,则计算出C个prototype,然后对于一个目标域样本,计算它和这C个prototype的距 离,选择离它最近的类的标签作为目标域样本的标签。这样,就得到了带标签的目标域样本,之后就可以利用带标签的目标域样本去计算prototype了。
2.每一个类计算出了3个prototype,一个是只用原域数据计算出的,一个是只用目标域数据计算出的,还有一个是既用原域数据,又用目标域数据计算出的。
3.在训练的时候,对于每一类,两两最小化最小化这三个prototype之间的距离,本文计算的是reproducing kernel
Hilbert space (RKHS) distance。
4.score distributions有3个,一个是由原域的prototype预测出来的,一个是由目标域的prototype预测出来的,还有一个是由原域和目标域的prototype预测出来的。
5.在训练的时候,两两最小化这三个score distributions之间的KL散度。
意思是当原域和目标域的分布很好地对齐后,无论使用原域样本得到的分类器还是目标域样本得到的分类器,抑或原域样本,目标域样本共同得到的分类器,对一个来自原域或目标域的样本,这三个分类器对其进行分类,不同分类器把该样本分到某一类别的概率是相同的。
6.最终的损失函数:
这个损失函数是用原域样本进行分类,因为原域样本有标签,所以可以去训练分类器,使得分类器的分类性能更加好。
更抽象的层面:
1.本文在哪些层面进行了域适配?
class level and sample level
2 文中作者给出的General purpose Domain Adaptation以及Task specific Domain Adaptation分别指什么?
3.什么是prototype networks?
4.在Task specific Domain Adaptation中,本文考虑了样本和分类器之间的关系。
holistic adj. 整体的; 全面的; 功能整体性的
Most of the existing models aim to reduce the domain shift bymeasuring the holistic domain discrepancy/domain confusion over source and target data, while leaving the domain discrepancy of eachclass or the relations between samples and classifiers unexploited.
preliminarily 初步; 预先; 初步地
Prototypical Networks is preliminarily proposed in [26]to construct an embedding space in which points clusteraround a single prototype representation of each class.