CLIP

这篇文章发自OpenAI, 首先给出该文的地址以及对应的代码：
Blog paper code

该模型是zero-shot模式（没有在任务数据集上做训练），迁移能力很强，甚至预训练好的模型可以在任意视觉任务取得不错的效果，作者在30多个训练任务上都做了实验，效果相当显著，效果最好的就是在ImageNet上的结果，Clip在不适用ImageNet数据集（128万张图片）的情况下就能何之前有监督学习的res50取得同样好的效果。下图主要展示clip的模型原理：

Contrastive pre-training

1）训练

1. 预训练对比学习（Contrastive pre-training）
该模型通过自然语言处理得到一部分监督信号可以训练迁移效果很好的视觉模型，所以这是一篇文字图片的多模态的工作。模型的输入是文字与图片的配对，相对应的图上图是一只小狗，对应的文字pepper也是一只小狗。图片首先通过图片编码器（resnet或transformer等）得到一些特征，文本也通过文本编码器获得文本的特征，假设每个training batch里面有n个这样的图片文本匹配对就能得到n个这种图片特征以及对应的文本特征，clip就是在这些特征上面做对比学习的。这里的正样本就是文字图片匹配对，因为描述的是一个东西所以配对矩阵对角线就是正样本（N个正样本），剩下的不是对角线上的匹配对就不是正样本了( $N^2-N$ 个负样本），如下图所示：

这样一旦有了正负样本模型就可以通过对比学习训练出来了。为了训练这个模型，openAI专门收集了这个文字图片匹配数据集有4亿个。

2）推理

2. 从文本标注中制作数据分类器（Create dataset classifier from label text）
这里使用的是prompt template, 这里的prompt在最近的cv以及nlp都比较火，这里可以理解为就是提示，引导的意思，CLIP就是先把ImageNet这1000个类别的名称变成一个句子，这里我们仅仅需要添加我们感兴趣的标签信息。比如说一个图片表述的是一个dog，这里的文字描述句子就是A photo of dog。 ImageNet有1000个类别，这样就会有1000个句子，再将其输入到我们之前预训练好的文本编码器（Text Encoder）,就会得到1000个文本特征 $T_1, T_2, T_3 ... T_N$ , 这里用prompt template单词生成句子的原因是整个模型在训练预训练模型的时候，图片每次看到的时候都是一个句子，所以在推理的时候也希望保持一致，另外一个原因就是往往一个单词是有多种意思的，比如说remote其实是遥控器的意思，但是会被解读为遥远的的意思，这样就会出现distribution gap问题，关于怎么讲文字变成句子也是很有讲究的，有多种方法，这篇文字在prompt engineering以及prompt ensemble两种方式中也有详细的解释，可以进一步提高模型的准确率。比如说你知道你描述的是数据集是一个描述动物的数据集，那么你提供的prompt template可以是这句话A photo of a {label}, a type of pet, 这种提示模板作者用到了80个，以下是80个提示模板

prompt template

3. 使用zero-shot进行预测（use for zero-shot prediction）
这样不论任何一张照片，将其传送给图片编码器得到图片特征 $I_1$ , 我只需要拿图片特征预所有的文本特征去做匹配（cosine similarity）就是去计算相似性，然后通过softmax得到概率分布，查找相似度即概率最大的，也就是说图像特征与哪个文本特征最相似，我们就把该文本特征所对应的那个句子挑选出来从而来完成这个分类任务，所以在CLIP真正在使用的时候这些标签是可以更改的，不光是ImageNet这1000个类别，你可以换成任何一个单词，这里的图片也不需要ImageNet里面的图片可以任何图片，依旧可以看出这个图片包括哪些物体，比如一张图片你就不断的问你是不是飞机，你是不是狗，你是不是汽车等，像一个三轮车图片可以分类出，以前监督学习最多只能分类成车或者自行车。

3）效果

下面我们来看下模型效果

效果

在ImageNet数据集上，在第一行中之前训练的ResNet101有76.2%的准确率，在CLip-vit-L的准确率也是76.2%。但是在后面几行中我们发现基于CLIP方法的准确率是由很大的提升的。因为和自然语言结合，导致CLIP学出来的视觉特征和我们用语言描述的某个物体文字的语义联系到了一起所以该模型学习到的特征语义非常强迁移的效果非常好。