迁移学习方法总览——笔记

以一 种统一的视角对已有的迁移学习方法进行总览、分类和统一表征。
分析迁移学习问题的统一思路。

  • 4.1迁移学习总体思路
  • 4.2分布差异的度量
  • 4.3迁移学习的统一表征
  • 4.4上手实践、迁移学习实验环境
  • 4.5经典的迁移学习理论

4.1 迁移学习总体思路

开发算法来最大限度地利用有标注的领域的知识,以辅助目标领域的学习。
找到相似性(核心),并依据度量准则增加相似,完成迁移学习。

4.2 分布差异的度量

相似性的刻画:

问题定义.png

从问题定义出发,因本书仅讨论领域自适应(即①②相同、③不同),通过对源域和目标域不同的概率分布建模来刻画二者的相似性。
P_s(\boldsymbol x ,y) \neq P_t(\boldsymbol x ,y)\tag{4.2.1}
无标记的目标域数据难以直接估计其概率分布。通过贝叶斯公式,可以将这个联合概率分布分解为:P(\boldsymbol x ,y) = P(y|\boldsymbol x )P(\boldsymbol x) = P(\boldsymbol x |y)P(y) \tag{4.2.2}

迁移学习分布度量

  • 边缘分布自适应(Marginal Distribution Adaptation,MDA)
    P_s(\boldsymbol x)\neq P_t(\boldsymbol x)时,假设P_s(y|\boldsymbol x ) \approx P_t(y|\boldsymbol x )
    D(P_s(\boldsymbol x ,y),P_t(\boldsymbol x ,y)) \approx D(P_s(\boldsymbol x ),P_t(\boldsymbol x)) \tag{4.2.3}
  • 条件分布自适应(Conditional Distribution Adaptation,CDA)
    P_s(y|\boldsymbol x ) \neq P_t(y|\boldsymbol x ) 时,假设P_s(\boldsymbol x)\approx P_t(\boldsymbol x)
    D(P_s(\boldsymbol x ,y),P_t(\boldsymbol x ,y)) \approx D(P_s(y|\boldsymbol x ),P_t(y|\boldsymbol x )) \tag{4.2.4}
  • 联合分布自适应(Joint Distribution Adaptation,JDA)
    条件和边缘概率都考虑
    D(P_s(\boldsymbol x ,y),P_t(\boldsymbol x ,y)) \approx D(P_s(y|\boldsymbol x ),P_t(y|\boldsymbol x )) + D(P_s(\boldsymbol x ),P_t(\boldsymbol x))\tag{4.2.5}
  • 动态分布自适应(Dynamic Distribution Adaptation,DDA)
    根据数据域,自适应地调整分布适配过程中边缘分布和条 件分布的重要性。
    D(P_s(\boldsymbol x ,y),P_t(\boldsymbol x ,y)) \approx (1-\mu)D(P_s(y|\boldsymbol x ),P_t(y|\boldsymbol x )) + \mu D(P_s(\boldsymbol x ),P_t(\boldsymbol x))\tag{4.2.6}
    \mu \in [0,1]表示平衡因子。当\mu \rightarrow 0,表示源域和目标域数据本身 存在较大的差异性,因此,边缘分布适配更重要;当μ→1时,表示源域和目标域数据集有较高的相似性,因此,条件分布适配更加重要。
表4.1 迁移学习中的概率分布差异方法与假设.png

上面三种自适应是动态分布的特殊情况,对应于不同的 \mu值。

图4.2 分布自适应因子μ.png

对于不同的数据集构造的迁移任务,最优的迁移效果对应不同的\mu值,并且\mu没有显著的变化规律。

分布自适应因子\mu的计算

随机猜测法和最大最小平均法

动态分布自适应

  • 度量方式
    \mathcal{A}-distance:建立一个二分类器进行两个不同领域的分类 得出的误差。
    d_{A}( \mathcal{D}_s , \mathcal{D}_t) = 2(1 - 2 \epsilon (h)) \tag{4.2.7}
    \epsilon(h)作为线性分类器h区分两个 领域\mathcal{D}_s\mathcal{D}_t 的误差

以此计算边缘分布的\mathcal{A}-distance,表示为d_M。对应于类别c的条件分布距离d_c = d_A( \mathcal{D}_s ^ {(c)}, \mathcal{D}_t^{(c)})
最终\mu用下式计算:

图片.png

D(P_s(\boldsymbol x ,y),P_t(\boldsymbol x ,y)) \approx (1-\mu)D(P_s(y|\boldsymbol x ),P_t(y|\boldsymbol x )) + \mu D(P_s(\boldsymbol x ),P_t(\boldsymbol x))\tag{4.2.6}
①图4.2(b)
②由于特征的动态和渐近变化性,此估 计需要在每一轮迭代中给出。
③选择的距离不同,计算μ的方式 也有所不同。
④动态分布自适应的方法又被扩展到了深度网络[Wang et al., 2020]、对抗网络[Yu et al.,2019a]、人体行为识别应用[Qin et al., 2019]中,取得了更好的效果。

4.3迁移学习的统一表征

从SRM准则出发,可以将迁移学习统一表征为下面的形式:

f^* = \mathop{\arg\min}\limits_{f \in \mathcal{H}} \frac1{N_s} \sum_{ i =1}^{N_s} \ell (v_i f( \boldsymbol x_i),y_i) + \lambda R(T(\mathcal{D}_s), T(\mathcal{D}_t))\tag{4.3.1}

图片.png

其中:

  • \boldsymbol v \in \mathcal{R}^{N_s}为源域样本的权重,v_i \in [0,1]N_s为源域样本的数 量。
  • T为作用于源域和目标域上的特征变换函数。
  • 为方便理解,我们采用\frac1{N_s} 来计算平均值。读者应注意,显式引入样本权重\boldsymbol v后,平均值亦需更新为加权平均值。具体计算方式并不 统一,需要根据问题来相应处理。
    R(·,·)形式上替代正则化项,正则化项仍然可以加。
    R(·,·)迁移正则化项
    在统一表征下,迁移学习的问题可以被大体概括为寻找合适的迁 移正则化项的问题。也就是说,相比于传统的机器学习,迁移学习更 强调发现和利用源域和目标域之间的关系,并将此表征作为学习目标 中最重要的一项。
  1. 样本权重迁移法。此类方法学习目标是学习源域样本的权重 v_i
  2. 特征变换迁移法。此类方法对应于v_i =1∀i,目标是学习一 个特征变换T来减小正则化项R(·,·)
  3. 模型预训练迁移法。此类方法对应于v_i=1∀iR(T(\mathcal{D}_s), T(\mathcal{D}_t)) := R( {\mathcal{D}_t} ;f_s) 。在此种方法下,目标是如何将源域的判别函数f_s对目标域数据进行正则化和微调。
图片.png

f^* = \mathop{\arg\min}\limits_{f \in \mathcal{H}} \frac1{N_s} \sum_{ i =1}^{N_s} \ell (v_i f( \boldsymbol x_i),y_i) + \lambda R(T(\mathcal{D}_s), T(\mathcal{D}_t))\tag{4.3.1}

4.3.1 样本权重迁移法

动机:决定迁移学习成功与否的关键是源域和目标域的相似程度。
这启发我们从源域中选择一个数据样本子集\mathcal{D} _s^{\prime} \in \mathcal{D}_s,使得\mathcal{D} _s^{\prime}足够表征源域\mathcal{D}_s中的所有信息(充分提取有效信息).

4.3.2 特征变换迁移法

特征变换迁移法与概率分布差异的度量直接相关。如果我们假定源域和目标域中所有样本均是非常重要的(即vi=1,∀i),则迁移学 习的目标就变成了:如何求解特征变换T,使得特征变换后的源域和目标域概率分布差异达到最小。
统计特征变换和几何特征变换。统计特征变换的目标是通过显式最小化源域和目标域的分布差异来进行求解;而几何特征变换的目标则是从几何分布出发,隐式地最小化二者的分布差异。
显式:直接寻找一种分布差异度量方法 来计算源域和目标域的分布差异。
KL散度,JS散度,互信息。
隐式:不能运用预先定义的距离,或者不适用,比如动态变化的数据分布。
生成对抗网络

4.3.3 模型预训练迁移法

已经有一个在源域上训练好的模型fs,并且目标域本身有一些可供学习的有标签数据。然后在目标域进行微调。


表4.2 统一表征及三大类迁移方法.png

4.4 上手实践

图片.png

图片.png

4.5 迁移学习理论

无监督与适应

  • 基于差异的误差界限[Ben-David et al.,2007,Ben-David et al.,2010]
  • 基于积分概率矩阵的误差界限[Courty et al.,2017,Dhouib et al., 2020,Redko et al.,2017]
    基于PAC-Bayesian的误差界限[Germain et al.,2013,Germain et al.,2015]
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容