Deep Supervised Hashing for Fast Image Retrieval论文翻译


用于快速图像检索的深度监督散列

(为了学习的渣翻,谢绝转载了)

摘要

        本文提出了一种新的学习压缩二进制代码的散列方法,用于大规模数据集上的高效图像检索。针对复杂图像外观变化对可靠检索提出的挑战,针对卷积神经网络(CNNs)在学习各种视觉任务的鲁棒图像表示方面的最新进展,提出了一种新的深度监督散列(DSH)方法来学习庞大的图像数据的紧凑相似保持二进制代码。具体而言,我们设计了一种CNN架构,将图像对(相似/不相似)作为训练输入,并鼓励每个图像的输出接近离散值(例如+1/-1)。为此,通过对来自输入图像对的监督信息进行编码,并同时对实值输出施加正则化以近似期望的离散值,精心设计损失函数以最大化输出空间的可区分度。对于图像检索,新的查询图像可以很容易地通过网络传播,然后将网络输出量化为二进制代码表示。在CIFAR-10和NUS-WIDE两个大规模数据集上的实验表明,与现有的SOTA相比,该方法具有良好的性能。

1.导言

        近年来,每天有数十万张图像上传到互联网,这使得根据不同用户的请求找到相关图像变得异常困难。例如,基于内容的图像检索要检索的是与给定查询图像相似的图像,其中“相似”可以指视觉上相似或语义上相似。假设数据库中的图像和查询图像都由实值特征表示,寻找相关图像的最简单方法是根据数据库图像在特征空间中与查询图像的距离对数据库图像进行排序,并返回最接近的图像。然而,对于现在相当普遍的具有数百万图像的数据库,即使在数据库中进行线性搜索也将花费大量的时间和内存。

        为了解决实值特征的低效率,一些研究提出了哈希方法来将图像映射到近似保持原始空间中的数据结构的紧凑二进制码,如[27,9,17]。图像由二进制码而非实值特征表示,可以大大减少搜索的时间和内存成本。然而,现有的大多数哈希方法的检索性能很大程度上取决于它们所使用的特征,这些特征基本上是以无监督的方式提取的,因此更适合于处理视觉相似性搜索而不是语义相似性搜索。另一方面,最近,CNN在图像分类[12,25,8]、目标检测[26]、人脸识别[24]以及许多其他视觉任务[18,2]上展示了令人印象深刻的学习能力。在这些不同的任务中,CNN可以被视为专门为各个任务设计的目标函数所引导的特征提取器。CNN在各种任务中的成功应用表明,但CNN学习的特征能够很好地捕捉图像的潜在语义结构,尽管这些图像的外表各不相同。

        受CNN特征鲁棒性的启发,我们提出了一种利用CNN结构的二进制代码学习框架,称为深度监督散列(DSH)。在我们的方法中,首先我们设计一个CNN模型,它将图像对连同指示两个图像是否相似的标签一起作为训练输入,并产生二进制代码作为输出,如图1所示。在实践中,我们在线生成图像对,使得更多的图像对可以在训练阶段被利用。设计损失函数将相似图像的网络输出拉到一起,将不相似图像的输出推远,使得学习到的Hamming空间能够很好地逼近图像的语义结构。为了避免优化汉明空间中的不可微分损失函数,将网络输出松弛为实值,同时施加正则化器以促使实值输出接近期望的离散值。在该框架下,图像通过首先通过网络传播,然后将网络输出量化为二进制代码表示,可以容易地对图像进行编码。

        论文的其余部分组织如下:第2节讨论了与我们方法相关的工作。第3节详细介绍了DSH。第4节在两个大规模数据集上对本文所提出的方法进行了评估。第5节是结束语。

第2节省略

3.方法

3.1.损失函数

        研究目标是学习图像的紧凑二进制码,以达到两个目的:(a)相似的图像被编码为汉明空间中的相似二进制码,反之亦然;(B)可以有效地计算二进制码。

        尽管前人已经提出了一些方法来学习保留相似性的二进制码,但由于它们通常是手工特征或线性投影,因此有很多限制。CNN作为强大的非线性模型促进了最近计算机视觉在各种任务上的成功。为此,我们提出使用图1所示的CNN来同时学习区别性图像表示和紧凑二进制码,这可以打破手工特征和线性模型的限制。我们的方法首先使用图像对和相应的相似性标签来训练CNN。这里,损失函数被精心设计来学习保留相似性的图像表示。然后对CNN输出进行量化以新图像的二进制码。


图1 .DSH网络结构。该网络由3个卷积池层和2个完全连接层组成。卷积层中的filter大小为5 × 5,stride为1(在三个卷积层中分别为32、32和64个filters),池化大小3 × 3,stride为2。第一个全连接层包含500个节点,第二个(输出层)具有K个(码长度)节点。通过利用可区分项和正则化器,设计损失函数来学习保留相似小的类二元码。二进制码通过量化图像的网络输出而获得。

        令\Omega为RGB空间,我们的目标是学习从\Omegak 位二进制码的映射\mathscr{F}: \Omega \rightarrow\{+1,-1\}^{k},使得相似(在视觉上相似或语义上相似)的图像被编码为相似的二进制码。为此,相似图像的编码应尽可能接近,而不同图像的代码应远离。基于这个目标,损失函数自然地被设计成将相似图像的二进制码拉到一起,并将不同图像的编码彼此推开。

        具体而言,对于一对图像I_{1}, I_{2} \in \Omega和它们的二进制网络输出\mathbf{b}_{1}, \mathbf{b}_{2} \in\{+1,-1\}^{k},如果它们相似,我们定义y=0,如果不相似定义y=1。关于这一对图像的损失被定义为:

                      \begin{aligned}L\left(\mathbf{b}_{1}, \mathbf{b}_{2}, y\right)=& \frac{1}{2}(1-y) D_{h}\left(\mathbf{b}_{1}, \mathbf{b}_{2}\right) \\&+\frac{1}{2} y \max \left(m-D_{h}\left(\mathbf{b}_{1}, \mathbf{b}_{2}\right), 0\right) \\\text { s.t. } & \mathbf{b}_{j} \in\{+1,-1\}^{k}, j \in\{1,2\}\end{aligned}        (1)

        其中D_{h}(\cdot, \cdot)表示两个二进制矢量之间的汉明距离,并且m > 0是边际阈值参数。式子的第一项会对相似图像映射为不同二进制码进行惩罚,第二项会对不相似图像映射为接近的二进制码(二进制码的汉明距离小于边际阈值m)进行惩罚。这里值得注意的是,为了避免崩溃解,我们的损失函数采用对比损失形式[7],其中只有那些距离在半径内的不同对才有资格对损失函数做出贡献。

        假设有从训练图像中随机选择的N个训练对\left\{\left(I_{i, 1}, I_{i, 2}, y_{i}\right) \mid i=1, \ldots, N\right\},我们的目标是最小化整体损失函数:

                      \begin{array}{c}\mathcal{L}=\sum_{i=1}^{N} L\left(\mathbf{b}_{i, 1}, \mathbf{b}_{i, 2}, y_{i}\right) \\\text { s.t. } \mathbf{b}_{i, j} \in\{+1,-1\}^{k}, i \in\{1, \ldots, N\}, j \in\{1,2\}\end{array}           (2)

3.2 

        我们首选的方案是直接优化 (2)式,然而这是不可行的,这是因为\mathbf{b}_{i, j}上的约束要求我们对网络输出进行阈值处理(例如用Signum函数),约束也使得用反向传播算法训练网络不可行(译者注:因为{b}_{i, j} \in\{+1,-1\}会导致梯度消失)。最近的一些研究[23,16]提出直接优化二进制码,然而,由于内存的限制,CNN模型只能用mini-batch来训练,当批量大小与整个训练集相比非常小时,所产生的二进制码的最优性值得怀疑。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容