Conditional Adversarial Domain Adaptation
来源:AAAI 2018
作者:Mingsheng Long, Zhangjie Cao, JianminWang, and Michael I. Jordan
机构:清华大学软件学院,清华大学大数据研究中心,加州大学伯克利分校
数据集:Office-31,ImageCLEF-DA,Office-Home,Digits(MNIST,USPS,SVHN)
网络结构:用AlexNet,ResNet-50作为基本的网络
1.整体感受
本文的数学证明非常多,刚开始读的时候被证明吓住了,读的时候抛开证明去读,先捋清本文脉络。
2.CDAN结构
2.1多线性映射(Multilinear Conditioning)
作者认为,分类问题本身就具有多模式分布的特性(一类就是一个分布),而分类器的预测结果g里面包含了多模式信息。因此,作者就想办法来发掘并利用g里面的多模式信息,具体做法是改变判别器的输入,原来的判别器输入是特征提取器提取出的特征f,现在变成f和g,如何对f和g进行处理,使得我们能发掘并利用g里面的多模式信息,这是一个值得思考的问题,作者经过一番数学理论分析,最终决定选择f和g的多线性映射。如图1中(a)所示。
然而,f和g的多模式映射有个问题,就是映射后的维度是二者的乘积,这个维度太大了,嵌入到深度网络中会带来参数爆炸问题。作者提出用随机的方法来解决这一问题,加入随机的网络结构如图1中(b)所示.
现在,我们为条件域判别器D提供了两个选择,什么时候用什么,作者在文中给出了一个标准。
2.2 熵(Entropy Conditioning)
作者利用熵来给每个训练样本赋予不同的权重,并说CDAN的变种,CDAN+E会改善可迁移性。目标函数如下:
3.CDAN目标函数
4.实验结果
5.文中摘要:
Conditional domain adversarial networks (CDANs) are designed with two novel conditioning strategies: multilinear conditioning that captures the cross-covariance between feature representations and classifier predictions to improve the discriminability, and entropy conditioning that controls the uncertainty of classifier predictions to guarantee the transferability.以上是摘要里关于本文的描述
6.英文词汇积累
be applicable to 适用于
be fit to 适用于
prioritize v. 按重要性排列; 划分优先顺序; 优先处理
as a rule of thumb,根据经验