【划重点】Deep Learning of Binary Hash Codes for Fast Image Retrieval

Abstract

        最近邻检索是一个适用于大规模图像检索的有效策略。基于最近CNNs网络的流行,本文提出一个有效的深度学习框架去生成二值哈希码,运用于快速图像检索。文章的想法是,当数据标签可用时,通过利用隐层表示控制类别标签的潜在概念,可以学习到一个二进制码。CNN的利用也可以学习到图像表示,不同于其他监督策略需要成对的输入来学习二进制码,本文的方法通过“点对”的方式学习哈希码和图像表示,使其更适用于大规模的数据库。实验结果表明本文策略在CIFAR10和MNIST数据库上优于state-of-the-art的哈希算法。

1.Introduction

        基于内容的图像检索旨在通过分析图像内容来寻找相似图像,因此图像表示和相似度度量方法成为此课题的关键。因循这样的研究路线,最有挑战性的问题是联系像素级别的信息和来自于人类感知的语义信息。尽管一些手工制作的特征被用来表征图像,但这些视觉描述自仍然有所局限,一直到深度学习的突破。进来的研究表明深度CNN在许多课题上显著提升了性能,例如目标检测,图像分类,分割。这些成果都归功于深度CNN学习了丰富的中层图像表示。

        因为深度CNN学习了丰富的图像的中层特征描述子,Krizhevsky等人将CNN第七个layer的特征向量用于图像检索,在ImageNet上得到了不错的效果。但也因为CNN特征维度较高,直接计算4096维向量之间的相似性效率很低,Babenko等人提出采用PCA降维的方法,取得了不错的效果。

        在CBIR(content based image retrieval ,基于内容的图像检索)中,图像表示和计算开销骑着额至关重要的作用,由于近来视觉内容的增长,基于大规模数据库的快速搜索成为迫切需要。许多研究致力于解决怎样在大规模数据库上有效地检索出相关数据。因为大量的计算开销,传统的线性搜索(或者穷举搜索)不再适用于大规模的数据搜索。取而代之的是ANN(Approximate Nearest Neighbor ,近似最近邻)和基于散列(hashing)的方法来提高速度。这种方法将高维特征映射到地位空间,产生简洁的二进制码。通过这些二进制码,快速图像搜索能够通过二进制模式匹配或者汉明距离来进行,显著降低计算开销并且优化搜索效率。这些策略一部分属于“配对”策略,通过利用相似矩阵描述图像对(或者数据对)之间的关系,利用这种相似信息取学习hash函数。但当处理一个大规模数据库时,需要构建矩阵和码。

        本文利用CNN来实现hashing的想法,通过深度CNN产生简洁的二进制codes。在数据被标记的前提下,设计CNN模型能够同时产生图像藐视和二进制码,也就是有监督的学习。我们认为深度CNN能够学习并且数据标签可用,二进制编码能够通过利用一些隐层所代表的决定了结构中的类别标签的潜在概念实现学习(通过sigmoid等二进制激活函数)。这和其他一些监督策略不同,其他策略需要成对的输入以考虑数据标签来实现学习。也就是说本文以“点对”的方式学习哈希编码,利用了CNN的增量学习性质(随机梯度下降)。深度框架的采用也实现了高效率的检索特征的学习。适用于大规模的数据集。

        本文方法具有以下特性:

        `引入了一种简单有效的监督学习框架适用于图像检索

        `通过网络模型的微调,能够同时学习区域特定的图像表示和一系列hashing-like函数

        `提出的方法超过了现有的baseline

        `本文方法通过“点对”的方式学习hashing编码,相比于传统的“成对”策略更易于扩展

3.Method

        下图是本文提出的框架。3个主要部分。

        1.在ImageNet上进行有监督的预训练

        2.利用隐层进行fine-tune,同时学习特定区域的特征表示和hash-like函数

        3.通过分层深度搜索进行图片检索

upload-byScharlie

        图注:本文通过分层的深度搜索提出图片检索框架.首先在ImageNet上预训练CNN以学习到丰富的中层图像表示;其次在通过添加隐层并在隐层中设置神经元,在目标数据库上fine-tune时学习到hashes-like表示;最后基于由粗到细的策略,利用学习到的hashes-like二进制码和F7层特征,实现图片检索。

3.1 Learning Hash-like Binary Codes

        近来研究表明,由输入图片引入的F6-F8的特征激活可以当做视觉特征。这些中层图像表示可以提高图像分类、检索的精度。然而这些特征维度较高,不适用于大规模的图像检索。为了提高图片检索的效率,一个降低运算量的有效方法是将特征向量转化为二进制码。这种精巧的二进制码能够通过hashing或者汉明距离很快比较。

        本文试图同时学习特定区域的图像表示和一系列的hash-like函数。假设最后一个F8层的输出依赖一系列隐藏的有on和off状态的属性h。即是说,图片诱导相似的二进制激活有同样的label(标签)。为了实现该想法,在F7和F8之间部署一个隐层H,H是一个全连接层,受后面编码语义特征和实现分类的F8层的调整。H层不仅提供对F7层丰富特征的抽象,也是中层特征和高层语义的桥梁(承上启 下)。H层的神经元通过Sigmoid函数激活近似到{0,1}。

        为了实现领域适应,通过在目标数据集上反向传播fine-tune。CNN的初始化权重为ImageNet的预训练模型,H层和F8层的权重随机初始化。H层的初始化随机权重类似与LSH,在构建hashing位时使用随机映射。在监督学习下,编码能够从LSH(局部敏感度哈希)调整为更好匹配数据的形式。不用通过大规模的网络模型修改,该模型能够同时学习特定区域的视觉表示和hashing-like函数以用于图片检索。

3.2 Image Retrieval via Hierarchical Deep Search

        Zeiler和Fergus研究过CNN的浅层学习局部视觉表示,高层捕捉语义信息能更好地用于识别。采用由粗到细的搜索策略以满足图片检索的速度和精度。首先通过相似的高层语义检索出一系列的候选图片,他们在隐层H上具有相似的二进制激活;随后进一步筛选在中层特征上具有相似性的图片。

        Coarse-level Search.给定图片I,首先提取隐层H的输出作为图片标签,用Out(H)表示。隐层的激活通过一个门限,二进制化,得到二进制码。对于每一个位j=1```h(h是隐层节点的个数),输出隐层H的二进制编码如下:

uploadby-Scharlie

        假设有n幅待选图片{I 1 , I 2 , . . . , I n },相关联的二进制码{H 1 , H 2 , . . . , H n }。H i ∈ {0, 1} 。给定一个查询图像Iq和它的二进制码Hq,能是别处它的m个候选图片{I 1 c , I 2 c , . . . , I mc},如果Hq和{H 1 , H 2 , . . . , H n }中的汉明距离小于某一个门限。

        Fine-level Search.给定一个待检索图片Iq和候选集P,通过F7层的特征提取找出前k个最相似的图片,Vq表示带检索图片的F7层特征,Vip表示候选集的F7层特征,是通过比较待检索图片和候选集中的图片的欧氏距离得到相似性。距离越小越相似。

                                                       s i = ∥V q − V i P ∥.

4. Experimental Results

作者在MNIST Dataset、CIFAR-10 Dataset、Yahoo-1M Dataset上进行了实验。分别是0-9的手写体数据库、包含10类的数据库、包含116类衣物的数据库。

MNIST Dataset

upload-byScharlie
upload-byScharlie

CIFAR-10 Dataset

upload-byScharlie
upload-byScharlie

Yahoo-1M Dataset

upload-byScharlie
upload-byScharlie

Yahoo-1M上的检索示例

upload-byScharlie

PS:文中的hashing-like function可以理解为一种得到二值检索向量的方式。通过对图片的二进制编码实现对图片高层语义特征的表达。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容