Unsupervised Visual Representation Learning by Context Prediction读后感

这篇文章的思想是利用self-supervise的思想去运用一些互联网规模的数据集（人工的annotation很难获得），无监督地为图片生成特征。

生成的embedding希望是语义相近的目标在embedding空间中也是要相近的（语义不同也就不相近）。一种方法是构建一个pretext任务，autoencoders，context prediction（文本很容易，但是图片的话很难预测context），因此要把prediction任务转换成discrimination任务。例如把真实图片和被换掉一个patches的图片辨别出来（这里有个点就是可能此任务抽取出来的特征是比较低级的特征）

想要做到给予两个patches的输入，预测第二个patches在第一个的哪个方位。

为了防止一些“trivial”的shortcuts，因此保证patches之间要存在gap，并且每一个都会在各个方向进行随机的抖动。

还发现了有色差（chromatic aberration）的问题，解决这个问题是通过两种方法（1：projection，2：color dropping）

网络结构为，fc6即为抽取的特征空间

本文还做了Nearest Neighbors，Learnability of Chromatic Aberration，Object Detection，Geometry Estimation，Visual Data Mining（不太懂是怎么做的）

Unsupervised Visual Representation Learning by Context Prediction读后感

推荐阅读更多精彩内容