案例分享!Dmeta-Embedding 融入大模型技术栈

自 Dmeta-Embedding 系列模型发布以来,模型已累积下载近 6 万次、API 产品也有大量内测申请用户。同时我们也收到了很多用户反馈,这些反馈具有很大价值,是我们不断迭代改进、完善的动力,在此也表达下对大家真诚的谢意,让我们一起共建 AI 技术生态!

Embedding + 大模型应用典型示例

从大家反馈来看,在实际落地大模型相关应用时,会面临各种各样的问题,如向量数据库的使用、本地私有化部署、QA 问答应用等。我们也希望能够深入到应用场景中,助力大家将问题各个击破,坚持我们的初心:让大家低成本、低门槛的把大模型技术应用起来。

为此我们也围绕 Embedding 在大模型中的几个经典使用场景准备了教程和示例,后续还会不断进行补充完善:

教程代码地址:https://github.com/meta-soul/dmeta-embedding-examples/tree/main

1. 向量数据库

不论是 RAG、还是语义检索应用场景,都需要利用 Embedding 模型将物料文本向量化,然后将其存储在向量数据库中,以供线上实现高效的向量检索。我们为目前流行的 Chroma 和 Pinecone 向量数据库提供了使用示例,具体可参考代码仓库。

Dmeta-Embedding 模型在对文本向量化推理时,大家既可以基于 Langchain、Sentence-Transformers 等工具进行本地化推理,也可以使用我们发布的 Embedding API(内测申请)。

2. 语义检索应用

由于基于文本的检索存在字面语义鸿沟缺陷,现在基于向量的语义检索得到广泛的应用。我们给出一个基于豆瓣电眼数据的语义检索示例,通过 Dmeta-Embedding 模型来推理得到电影向量,然后基于 Faiss 构建本地向量索引,线上检索时引入 Langchain 工具,整个实现非常简单,具体参考示例代码:

https://github.com/meta-soul/dmeta-embedding-examples/tree/main/embed-your-data

3. 检索增强问答

由于大模型无法获取即时知识、存在幻觉,尤其对特定领域知识理解生成可能存在问题,因而检索增强式生成(RAG)就成为较为现实的落地解决方案。我们以 Pinecone 向量数据库为基础,提供了一个基于 RAG 的问答应用示例。

具体来说,该示例通过离线脚本将物料的 id、metadata、vector 等处理完成(其中 vector 由 Dmeta-Embedding 推理得到),写入到向量数据库中。然后当线上使用时,将用户 Question 也进行向量化,并从向量数据库中检索相关物料内容作为 context,拼接如下模版送给 LLM 来得到 Answer:

Answer the question based on the context below.

Context:
病情分析:你好:可能是运动性哮喘,这是一种特殊类型的哮喘,多在运动后8-15分钟出现咳嗽、,半小时至1小时后缓解,有的在运动结束后后4-12小时再次发作。指导意见:建议做肺部CT检查,排除心肺疾患,查找原因,积极治疗。

咳嗽一般多是由于支气管发炎局部炎症造成的,可以适当口服咳停片、可快好片、头孢克洛分散片、舒喘灵、蒲地蓝消炎片等药物一块治疗就可以了。指导意见同时注意禁酒及生冷辛辣刺激的食物,必要的时候输液治疗效果比较好。

出现建议首先检查是否是有肺部感染

Question: 
我一运动完就咳漱的厉害

Answer:

具体细节可以参考该示例代码。
https://github.com/meta-soul/dmeta-embedding-examples/blob/main/Pinecone/pinecone_infer_by_api.ipynb

4. 私有化部署

不少用户存在 Embedding 模型私有化推理部署的需求,随着目前技术生态的完善,如 llama.cpp、Ollama 等工具的出现,私有化部署的技术门槛越来越低、并且受欢迎程度也日益增加。为此我们针对 Ollama 大模型本地私有化部署工具,提供了 Dmeta-Embedding 系列模型的使用示例。

仅需两步即可在本地私有化部署使用 Dmeta-Embedding 模型,首先拉取模型到本地:

ollama pull shaw/dmeta-embedding-zh

然后即可调用本地 embedding api 接口获取向量:

curl http://localhost:11434/api/embeddings -d '{
  "model": "shaw/dmeta-embedding-zh",
  "prompt": "天空是灰色的"
}'

结语

后续我们将不断深入到大模型应用场景中,一方面迭代优化模型来提升效果,另一方面将更全面的融入到大模型技术生态中。如果大家在大模型落地应用中存在技术或者业务问题,欢迎一起来讨论,大家的反馈对我们十分宝贵!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,874评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,102评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,676评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,911评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,937评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,935评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,860评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,660评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,113评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,363评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,506评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,238评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,861评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,486评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,674评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,513评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,426评论 2 352

推荐阅读更多精彩内容