利用faiss和flask提供矢量搜索服务API

需求背景

上一篇文章已经完成了对该开源库的调研,对于一些性能和使用姿势来说也有了一些基本的了解。在调研期内也通读了faiss的官方wiki,现在,准备开始动手了。有兴趣了解的同学可以戳链接faiss的一些相关调研
动手之前还是需要再次静静,好好思考这一次任务要输出的是什么内容。emm,本打野选手在读条时已经养成了为整局游戏写剧本的习惯了。这次继续以流程图的方式来输出,流程图的好处除了能让你理清思路以外,更重要的是能让你确定你的思路是不是和leader在同一条线上,确定这次任务的分界线(这个很重要),也是工作结果的痕迹。


上图中主要表达了一个使用faiss来进行搜索的API接口的流程,不同于以往的跟数据互动的方式(结构数据库,非结构数据库,图数据库等),faiss只是一个比较简陋的开源库,他并没有完整的提供一套解决方案。类比的话就好像elasticsearch和solr中的lucene包一样,而我要做的就是在此基础上二次开发,提供一套可用的解决方案。考虑到faiss是一个C++的开源工具库,它只提供了python的接口,所以只能使用python来做这次接口开发。考察过后决定技术选型为flask+uwsgi+faiss来完成这个接口。

环境依赖

  • faiss的库
  • python2.7
  • uwsgi
  • pycharm

吃井不忘挖水人

专门开一个标题来感谢一下这哥们plippe faiss-web-service。他开源的这个demo满足了我百分60以上的需求,本次的开发基本就是在读懂他的代码以后才能这么胸有成竹。

过程复盘

也不想唠唠叨叨的复盘整个开发过程,就只复盘几个比较棘手的点

python的API如何开发

本身比较习惯于使用Java,对于python更多的是会用来做一些小运维的脚本,所以对于python中的web开发会比较模糊。短时间内我不太愿意再投入学习成本在flask的所有细节上,因为以后可能再次重逢的缘分并不多。那么怎么快速的用flask开发一个web接口呢,如果你是Java工程师你可以参考下我的思路,大概两部就可以完成一个简单可拓展的接口,首先是主入口

# -*- coding: UTF-8 -*-

from flask import Flask
from faiss_index import blueprint as FaissIndexBlueprint

app = Flask(__name__)


app.config.from_pyfile('config.py')

app.register_blueprint(FaissIndexBlueprint.blueprint)


if __name__ == '__main__':
    app.run()

其次是在主入口中注册的模块(Blueprint)

# -*- coding: UTF-8 -*-

from jsonschema import validate, ValidationError
from flask import Blueprint, jsonify, request
from werkzeug.exceptions import BadRequest
from faiss_index import FaissIndex
import json

try:
    import uwsgi
except ImportError:
    print('Failed to load python module uwsgi')
    print('Periodic faiss index updates isn\'t enabled')

    uwsgi = None

blueprint = Blueprint('faiss_index', __name__)

@blueprint.route('/ping')
def ping():
    return "pong"

OK直接运行app.py就可以用flask自带的wsgi服务器启动app,看到这里是否会觉得和springboot非常相似?以及包括@blueprint.route('/ping')这样的路由方式,让我觉得像极了springmvc的路由注解方式,所以几乎不需要耗费特别多的学习成本投入到这上面,节省了比较多的时间。余下的工作就是开始慢慢拓展开程序。

搜索的参数

API调用方要提供的参数是一维向量,目的是搜索距离最近的K个向量,向量具体在程序中怎么表示呢?就是一维数组。比如[1,2,3,4,5],但是在拿到向量后不能马上进行搜索,要进行处理,如下

        vectors = [np.array(vectors, dtype=np.float32)]
        vectors = np.atleast_2d(vectors)

部署的方式-Docker

相比其他python web API来说,faiss搜索有一点特殊的地方,就是它最重要的依赖faiss本身。而faiss本身安装有两种方式

  • 通过下载源代码进行编译 非常麻烦
  • 通过anconda进行安装 一行代码完成
    但是服务器上本身是可能有其他python环境在运行的。不可能专门的让我为了部署我的工程而去改动,可能还能通过env的方式解决?但是我不够熟悉python,所以选择了我擅长的隔离方式Docker。原理就是从ubunt的image开始构建,首先构建出一个faiss运行环境的image,然后在第二个image上打包自己的flask程序。附上构建运行环境的Dockerfile
ARG IMAGE
FROM ${IMAGE}

ARG FAISS_CPU_OR_GPU
ARG FAISS_VERSION

RUN apt-get update && \
    apt-get install -y curl bzip2  && \
    curl https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh > /tmp/conda.sh && \
    bash /tmp/conda.sh -b -p /opt/conda && \
    /opt/conda/bin/conda update -n base conda && \
    /opt/conda/bin/conda install -y -c pytorch faiss-${FAISS_CPU_OR_GPU}=${FAISS_VERSION} && \
    apt-get remove -y --auto-remove curl bzip2 && \
    apt-get clean && \
    rm -fr /tmp/conda.sh

ENV PATH="/opt/conda/bin:${PATH}"

以及我打包到dockerhub上的镜像faiss-docker
可以在docker中搜索我的镜像pull下来使用

docker search huangqq
docker pull huangqq/faiss-docker:1.2.1-cpu

总结

最麻烦的使用姿势其实已经在上一篇调研中理清的差不多了,本篇主要是在探讨faiss在工程化应用的一些实践,如果有需要交流的欢迎右手边微信~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容