前言

本文旨在学习和记录，如需转载，请附出处https://www.jianshu.com/p/f1995148800e

迁移学习问题

我们都知道，在深度判别模型中，如果训练数据和测试数据是独立同分布的，在训练集上训练的深度模型会在测试集上表现的比较好。但是，现实生活中的数据并不一定是独立同分布的，所以，如何在源域上训练的模型能在目标域上泛化的很好是一个新兴的问题，另外，在何种条件下，在什么时候源域上训练的模型能够在目标域上泛化的很好。直观的，在特征层面上进行对齐迁移（采用某种度量标准）已经促进了domain adaptation的发展。在2006年，Ben-David就迁移学习的理论进行证明，并提出了domain adaptation的泛化边界，并指出了在DA问题上设计一个特征表示平衡训练源域分类误差和减小源域目标域的差异的理论可行性。

参数介绍

$\chi$ :数据集
$D_{s}$ :源域数据集（原始分布）
$D_{t}$ :目标域数据集（原始分布）
$\tilde{D_{s}}$ :源域特征分布
$\tilde{D_{t}}$ :目标域特征分布
$f$ :真实标签函数{0,1}二分类，我们训练得到 $f$ 。 $\chi\rightarrow {{0,1}}$ ,原始数据分布映射到标签分布。
$h$ :自己设计的预测函数，给定特征 $z$ ，得到对应的标签。 $z\rightarrow{0,1}$ ，特征分布映射到标签分布。
$R$ : $\chi\rightarrow{z}$ 。原始数据映射到特征分布。
定义特征到标签的真实映射函数
$\tilde{f}(z)=E_{x-D_{s}}[f(x)|R(x)=z]$
因为 $\tilde{f}$ 是随机的。即使数据到标签的分布是已知确定的，在给定特征z的情况下，z可能来源于不同的x。
源域错误率
$\epsilon_{S}(h)=E_{z-\tilde{D}_{S}}[E_{y-\tilde{f}(z)}[y\neq h(z)]]$
$\epsilon_{S}(h)=E_{z-\tilde{D}_{S}}[\tilde{f}(z)- h(z)]$
相似的，目标域的错误率也可能写成这个样子，但是前提是目标域标签已知。

域距离度量标准

作者提出来一个 $\mathbf{A}$ 距离，是计算两个概率分布的距离。其定义为：

$d_{\mathbf{A}}(D_{S}',D_{T}')=2sup_{A\in \mathbf{A} }|Pr_{D_{S}'}[A]-Pr_{D_{T}'}'[A]|$
其中 $\mathbf{A}$ 是整个的集合，A是其中一个子集。意思就是取所有的 $\mathbf{A}$ 子集，找出 $D_{T}'$ 和 $D_{S}'$ 的概率差的最大值。
为了使用 $\mathbf{A}$ 距离，限制了真实 $f$ 函数的复杂度。将源域和目标域的错误率固定在一个小范围内。
$inf_{h \in \mathbf{H}}[\epsilon_{S}(h)+\epsilon_{T}(h)]\leq \lambda$
针对二分类问题，我们可以将A具体化：
$A\rightarrow I(h)={z \in Z:h(z)=1,h\in H}$
上式可以理解为对特征到标签的映射上，源域特征和目标域特征分类为1的概率差。
则此时的 $\mathbf{A}$ 距离具体化为 $\mathbf{H}$ ：
$d_{\mathbf{H}}(D_{S}',D_{T}')=2sup_{h\in \mathbf{H} }|Pr_{D_{S}'}[I(h)]-Pr_{D_{T}'}'[I(h)]|$
定义对称假设空间 $\mathbf{H}\Delta\mathbf{H}$
$\mathbf{H}\Delta\mathbf{H}={ {h(z)}\oplus h'(z), h,h'\in \mathbf{H}}$ 代表异或。
$d_{\mathbf{H}\Delta\mathbf{H}}(D_{S}',D_{T}')=2sup_{h_{1},h_{2}\in \mathbf{H} }|Pr_{D_{S}'}[{z:h_{1}(z)\neq h_{2}(z)}]-Pr_{D_{T}'}'[{z:h_{1}(z)\neq h_{2}(z)}]|$
$d_{\mathbf{H}\Delta\mathbf{H}}(D_{S}',D_{T}')=2sup_{\eta \in \mathbf{H}\Delta\mathbf{H} }|Pr_{D_{S}'}[{z:\eta(z)=1}]-Pr_{D_{T}'}'[{z:\eta(z)=1}|$
where
$z^{*}={z:h_{1}(z)\oplus h_{2}(z)},h_{1}、h_{2}\in \mathbf{H},\eta(z^{*})=1$
则我们可以进而进行具体化：
$d_{\mathbf{H}\Delta\mathbf{H}}(D_{S}',D_{T}')=2sup_{\eta \in \mathbf{H}\Delta\mathbf{H} }|Pr_{D_{S}'}[{z:\eta(z)=1}]-Pr_{D_{T}'}'[{z:\eta(z)=1}|$
$d_{\mathbf{H}\Delta\mathbf{H}}(D_{S}',D_{T}')\leq 2sup_{\eta \in Hd}|Pr_{D_{S}'}[{z:\eta(z)=1}]-Pr_{D_{T}'}'[{z:\eta(z)=1}|$
$d_{\mathbf{H}\Delta\mathbf{H}}(D_{S}',D_{T}')\leq 2sup_{\eta \in Hd}|Pr_{D_{S}'}[{z:\eta(z)=1}]+Pr_{D_{T}'}'[{z:\eta(z)=0]-1}|$
通过上式推导，只要我们设置函数集合 $Hd$ 比 $\mathbf{H}\Delta\mathbf{H}$ 复杂就可。这个在神经网络设计中是简易的。

目标域的误差边界

$\epsilon_{T}(h) \leq \epsilon_{S}(h)+d_{\mathbf{H}\Delta\mathbf{H}}(D_{S}',D_{T}')+\lambda$
condition:
$h^{*}=argmin_{h \in \mathbf{H}\Delta\mathbf{H}}(\epsilon_{T}(h) +\epsilon_{S}(h))$
$在h^{*}下，定义\lambda_{S}=\epsilon_{S}(h^{*}),\lambda_{T}=\epsilon_{T}(h^{*})$
$\lambda =\lambda_{S}+\lambda_{T}$
说明：目标域的误差边界有三项。第一项为源域误差边界，第二项为源域和目标域映射在特征层面上的距离度量，第三项为 $\lambda$ ，是个常数可以不管。
证明：
$Z_{h}={z \in Z:h(z)=1}$
$\epsilon_{T}(h) \leq\lambda_{T}+Pr_{\tilde D_{T}}[Z_{h} \Delta Z_{h^{*}}]$
$\epsilon_{T}(h) \leq\lambda_{T}+Pr_{\tilde D_{S}}[Z_{h} \Delta Z_{h^{*}}]+|Pr_{\tilde D_{S}}[Z_{h} \Delta Z_{h^{*}}]-Pr_{\tilde D_{T}}[Z_{h} \Delta Z_{h^{*}}]|$
$\epsilon_{T}(h) \leq\lambda_{T}+Pr_{\tilde D_{S}}[Z_{h} \Delta Z_{h^{*}}]+d_{\mathbf{H}\Delta\mathbf{H}}(\tilde D_{S},\tilde D_{T}) /2$
$\epsilon_{T}(h) \leq\lambda_{T}+\lambda_{S}+\epsilon_{S}(h)+d_{\mathbf{H}\Delta\mathbf{H}}(\tilde D_{S},\tilde D_{T}) /2$
$\epsilon_{T}(h) \leq\lambda+\epsilon_{S}(h)+d_{\mathbf{H}\Delta\mathbf{H}}(\tilde D_{S},\tilde D_{T}) /2$
解释：
证明推导第一个公式代表的是特征被判别为1的概率，
第一个不等式第一项代表 $h^{*}$ 情况下的误差，第二项代表的是对目标域 $h^{*}$ 和 $h$ 不同的情况下的距离度量，这是显而易见的。
第二个不等式推导将目标域的不同的误差转换成源域的和两个域之差进行度量，这样这个距离就可以采用 $\mathbf{H}\Delta\mathbf{H}$ 距离来度量。
进而，我们可以将泛化误差转化成经验误差的形式，一般经验误差可以理解为我们的训练误差。
则最后的公式可以写成
$\epsilon_{T}(h) \leq\lambda+\hat\epsilon_{S}(h)+\sqrt{\frac{4}{m}(dlog\frac{2em}{d}+log\frac{4}{\delta})}+\hat d_{\mathbf{H}\Delta\mathbf{H}}(\tilde D_{S},\tilde D_{T}) /2+4\sqrt{(\frac{dlog(2m')+log\frac{4}{\delta}}{m'}}$
其中 $m,m'$ 代表源域和目标域的个数。