Unsupervised Visual Representation Learning by Context Prediction读后感

这篇文章的思想是利用self-supervise的思想去运用一些互联网规模的数据集(人工的annotation很难获得),无监督地为图片生成特征。

生成的embedding希望是语义相近的目标在embedding空间中也是要相近的(语义不同也就不相近)。一种方法是构建一个pretext任务,autoencoders,context prediction(文本很容易,但是图片的话很难预测context),因此要把prediction任务转换成discrimination任务。例如把真实图片和被换掉一个patches的图片辨别出来(这里有个点就是可能此任务抽取出来的特征是比较低级的特征)


想要做到给予两个patches的输入,预测第二个patches在第一个的哪个方位。

为了防止一些“trivial”的shortcuts,因此保证patches之间要存在gap,并且每一个都会在各个方向进行随机的抖动。

还发现了有色差(chromatic aberration)的问题,解决这个问题是通过两种方法(1:projection,2:color dropping)

网络结构为,fc6即为抽取的特征空间


本文还做了Nearest Neighbors,Learnability of Chromatic Aberration,Object Detection,Geometry Estimation,Visual Data Mining(不太懂是怎么做的)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容