long time no see~
短暂拥有了一个假期 回家啦!还有好几篇论文阅读还没有更新 也还没理通 那就暂时搁置吧~寒假任务也很多 偶尔划水偶尔焦虑 那就慢慢来吧!不着急 慢慢熬!新阶段加油!
今天就简要梳理一下域适应的一些概念
域适应
What?
什么是域适应?
网络上的解释大都是这样:
当源域和目标域的数据分布不同 ,但两个任务相同时,叫做域适应。
其实可以通俗地这样理解,也就是说:
在模型进行训练的时候源域Source domain和模型测试或者使用的目标域target domain不是同一分布(也可以说训练集和测试集分布不一样),但做的事情是一致的即任务相同,那这时候的一个迁移就叫做域适应。该任务的核心主要解决两个不同域数据分布差异的问题。
在我个人的理解中来说,域适应可以说是迁移学习中的一个分类,是特殊的迁移学习。
举个例子:
如下图所示,训练的时候我们采用的是彩色的手写数字的图片,测试时候采用的是黑白的手写数字图片,这个时候彩色图片为源域,黑白图片为目标域。那么训练好后的模型要在黑白图片上测试,需要做一个域适应,如果没有做域适应会因为数据分布不同,而使得模型的性能下降。
Why?
为什么需要域适应?
在机器学习模型中,我们习惯性假设训练数据集和目标训练集有着相同的概率分布(举个例子,就是训练集和测试集来自同个数据集)。
而在现实生活中,这种约束性假设很难实现。当训练数据集和测试集有着巨大差异时(比如,来自不同数据集,有不同的数据分布),很容易出现过拟合的现象,使得训练的模型在测试集上表现不理想,模型性能大。故,当训练数据集和测试数据集分布不一致的情况下,通过在训练数据集上按经验误差最小准则训练得到的模型在测试数据集上性能不佳。为了在拥有不同分布的数据集上有较好的表现,引入域适应。
例如,我们有时在一个感兴趣的领域中有一个分类任务,但是在另一个感兴趣的领域中我们只有足够的训练数据,在另一个领域中,后者可能位于不同的特征空间或遵循不同的数据分布。在这种情况下,如果成功地进行知识迁移,就可以避免昂贵的数据标记工作,从而大大提高学习性能
补充一个友情链接
关于数据分布可以参考:https://blog.csdn.net/qq_16488989/article/details/109645773
https://blog.csdn.net/qq_16488989/article/details/109645773
后期再更啦~懒人如我