Faiss核心技术

Overview

Faiss是Facebook AI Research开发的快速相似性搜索(similarity search)计算库。所谓的相似性搜索,就是进行向量间比对,如图示,图像经过特征提取转换成一个高维向量,通过将该向量和数据库中其他图像特征向量作一一比对,就能找出最相近的K个目标图像。不仅是图像,只要是可以用高维向量表征的,都可以做相似性搜索,如文字、音频等。

similarity search

向量比对就是计算两向量间的距离,Faiss提供了两种方法:欧几里得距离(L2)和向量点积(IP),前者是默认方法,它的计算结果值越小表示向量越相近,后者则刚好相反,值越大表示两向量越相近。

因此,相似性搜索的过程可以简单地分为三个步骤:

  1. 计算目标向量(query)和数据库中所有向量(centroids)的L2或IP距离。
  2. 将距离值进行排序(L2采用升序排序,IP则采用降序排序),top-K个元素就是与query最相近的K个向量。
  3. 回到第一步,遍历余下的query。

IndexFlatL2

我们知道,如果数据库建立过索引,那查找起来就会飞快。Faiss也一样,需要先对数据库建立索引。Faiss支持的索引有很多,如IndexFlatL2, IndexIVFFlat, IndexIVFPQ和IndexIVFScalarQuantizer,本文介绍的是最基础的索引--IndexFlatL2,严格上讲,它不算真正意义上的索引,因为它会对数据库做全向量计算。

IndexFlatL2 tutorial

IndexFlatL2的用法很简单,add()负责为数据库建立索引,然后通过search()在数据库中为queries查找最接近的4个向量。详细的工作流程如下图所示:

  • 两个向量间的距离,x和y的欧氏距离,拆解成了3部分:query的L2范数,centroids的L2范数以及query和centroids的矩阵乘。
  • centroids的L2范数在add()就已经计算好了,search()只需计算query和centroids的矩阵乘,然后再加上centroids的L2范数,即可得到每个query和数据库所有向量的相对距离。
  • 接着对这些距离做排序后,就能到和query最相近的K个向量在数据库的index(centroids行号)。
  • 如果需要得到目标向量的距离,只需再加上query的L2范数即可。(Option)
workflow of IndexFlatL2

Bitonic Sort

Bitonic Sort是并行排序算法,用于对向量距离进行排序。算法的思路是先把序列不断折半拆分,直到只有一个元素,然后再回溯回去两两resort成bitonic sequence,之所以是bitonic sequence,是因为对一个bitonic sequence做排序时,涉及到的swap是可以并行的。算法详解可以看https://www.youtube.com/watch?v=uEfieI0MumY,算法的GPU实现可以看https://arxiv.org/pdf/1702.08734.pdf.

bitonic sort

Conclusion

Faiss的工作流程基本可以分成两步:建立索引和搜索。IndexFlatL2是距离索引,它会对数据库中所有向量进行比对,如果要加速计算,还需要搭配其他索引一起服用。下一篇博文会介绍IndexIVFFlat索引,它会做一些索引该做的事儿。


欢迎关注和点赞,你的鼓励将是我创作的动力

欢迎转发至朋友圈,公众号转载请后台留言申请授权~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,192评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,858评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,517评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,148评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,162评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,905评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,537评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,439评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,956评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,083评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,218评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,899评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,565评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,093评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,201评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,539评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,215评论 2 358

推荐阅读更多精彩内容