Faiss核心技术(二)

Faiss核心技术一文中我以IndexFlatL2为例解释了Faiss的工作原理。IndexFlatL2只是个距离索引,它把数据库向量的L2 norm提前算好,虽然可以减少向量搜索过程中的计算量,但效果终究有限,更重要的是,它无法避免需要对整个数据库做穷举搜索。

因此本文将会介绍另一个基础索引,IndexIVFFlat,它会做些一个索引真正该做的事儿:少做事情才会快。

Overview

IVF(Inverted File Index)是一种数据库预处理技术,先把数据库中所有向量通过K-means聚类算法划分成多个簇,后续在进行数据库搜索时,先找出与目标向量(query)所对应的目标簇,再在簇内做穷举比对。

还是拿图像检索来举例,假设数据库里有10K张图片,IndexIVFFlat先把这些图片train(划分)成100个簇,当需要搜索一张猴子图片时,只需搜索动物类簇即可,这样一来,向量比对次数就从原本的10K变成了200(100 + 10K / 100),减少了将近2个数量级。

Workflow of IndexIVFFlat

Clustering

IndexIVFFlat通过K-means聚类算法为数据库建立簇索引(上图中的quantizer),索引中的data(centroids)是各簇的中心向量,目标向量和哪个centroid最接近就属于哪个簇。

k-means算法如图示,先从数据库随机(不重复)挑选出N个向量作为簇索引的初始centroids,接着通过不断地迭代优化(or训练 )centroids:

  1. 为centroids创建一个距离索引(IndexFlatL2),然后为数据库里的每个向量找出它所属的簇。
  2. 将同一簇的所有向量作加权求和,然后用它作为该簇的新centroid。
  3. 回到第一步,进行下一轮迭代。
workflow of clustering

Search

IndexIVFFlat的搜索过程分为两步,先是通过簇索引来搜索出query所属的簇,再在该簇内做穷举比对。搜索过程依旧是通过IndexFlatL2来计算向量间的距离,然后找出距离最接近的K个元素,这在前文Faiss核心技术有详细介绍,这里不再赘述。

Next

虽然IndexIVFFlat在搜索时的计算虽然只涉及数据库的一部分,但终究还是要存储整个数据库,这不仅费内存,更重要的是会导致memory bound。假设数据库里有256M个向量,向量长度是1024维,数据类型是fp32,那这个数据库大小就是1TB,划分为256个簇,每个簇就有4GB

Faiss提供了一种量化索引:IndexIVFPQ,它可以量化压缩索引中的数据库向量(centroids),在搜索时再解压缩使用,相关的详细介绍可以看这篇博文Product Quantizers for k-NN Tutorial Part 1

Conclusion

IndexIVFFlat虽然可以将向量比对缩小在一个簇的范围内,但终究还是要计算向量间距离,这样就需要在索引中维护整个数据库原始数据,而IndexIVFPQ通过压缩/解压缩向量的方式减轻了对内存带宽的需求。


欢迎关注和点赞,你的鼓励将是我创作的动力

欢迎转发至朋友圈,公众号转载请后台留言申请授权~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,192评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,858评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,517评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,148评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,162评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,905评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,537评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,439评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,956评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,083评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,218评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,899评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,565评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,093评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,201评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,539评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,215评论 2 358

推荐阅读更多精彩内容

  • Overview Faiss是Facebook AI Research[https://research.fb.c...
    A君来了阅读 5,456评论 0 2
  • 与 TensorFlow 的初次相遇 https://jorditorres.org/wp-content/upl...
    布客飞龙阅读 3,948评论 2 89
  • 最近看了下Faiss的原因,今天让我们来Faiss那点事~全名叫Facebook AI Similarity Se...
    南朝容止阅读 2,170评论 0 0
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,538评论 28 53
  • 信任包括信任自己和信任他人 很多时候,很多事情,失败、遗憾、错过,源于不自信,不信任他人 觉得自己做不成,别人做不...
    吴氵晃阅读 6,190评论 4 8