自 Dmeta-Embedding 系列模型发布以来,模型已累积下载近 6 万次、API 产品也有大量内测申请用户。同时我们也收到了很多用户反馈,这些反馈具有很大价值,是我们不断迭代改进、完善的动力,在此也表达下对大家真诚的谢意,让我们一起共建 AI 技术生态!
Embedding + 大模型应用典型示例
从大家反馈来看,在实际落地大模型相关应用时,会面临各种各样的问题,如向量数据库的使用、本地私有化部署、QA 问答应用等。我们也希望能够深入到应用场景中,助力大家将问题各个击破,坚持我们的初心:让大家低成本、低门槛的把大模型技术应用起来。
为此我们也围绕 Embedding 在大模型中的几个经典使用场景准备了教程和示例,后续还会不断进行补充完善:
1. 向量数据库
不论是 RAG、还是语义检索应用场景,都需要利用 Embedding 模型将物料文本向量化,然后将其存储在向量数据库中,以供线上实现高效的向量检索。我们为目前流行的 Chroma 和 Pinecone 向量数据库提供了使用示例,具体可参考代码仓库。
Dmeta-Embedding 模型在对文本向量化推理时,大家既可以基于 Langchain、Sentence-Transformers 等工具进行本地化推理,也可以使用我们发布的 Embedding API(内测申请)。
2. 语义检索应用
由于基于文本的检索存在字面语义鸿沟缺陷,现在基于向量的语义检索得到广泛的应用。我们给出一个基于豆瓣电眼数据的语义检索示例,通过 Dmeta-Embedding 模型来推理得到电影向量,然后基于 Faiss 构建本地向量索引,线上检索时引入 Langchain 工具,整个实现非常简单,具体参考示例代码:
https://github.com/meta-soul/dmeta-embedding-examples/tree/main/embed-your-data
3. 检索增强问答
由于大模型无法获取即时知识、存在幻觉,尤其对特定领域知识理解生成可能存在问题,因而检索增强式生成(RAG)就成为较为现实的落地解决方案。我们以 Pinecone 向量数据库为基础,提供了一个基于 RAG 的问答应用示例。
具体来说,该示例通过离线脚本将物料的 id、metadata、vector 等处理完成(其中 vector 由 Dmeta-Embedding 推理得到),写入到向量数据库中。然后当线上使用时,将用户 Question 也进行向量化,并从向量数据库中检索相关物料内容作为 context,拼接如下模版送给 LLM 来得到 Answer:
Answer the question based on the context below.
Context:
病情分析:你好:可能是运动性哮喘,这是一种特殊类型的哮喘,多在运动后8-15分钟出现咳嗽、,半小时至1小时后缓解,有的在运动结束后后4-12小时再次发作。指导意见:建议做肺部CT检查,排除心肺疾患,查找原因,积极治疗。
咳嗽一般多是由于支气管发炎局部炎症造成的,可以适当口服咳停片、可快好片、头孢克洛分散片、舒喘灵、蒲地蓝消炎片等药物一块治疗就可以了。指导意见同时注意禁酒及生冷辛辣刺激的食物,必要的时候输液治疗效果比较好。
出现建议首先检查是否是有肺部感染
Question:
我一运动完就咳漱的厉害
Answer:
具体细节可以参考该示例代码。
https://github.com/meta-soul/dmeta-embedding-examples/blob/main/Pinecone/pinecone_infer_by_api.ipynb
4. 私有化部署
不少用户存在 Embedding 模型私有化推理部署的需求,随着目前技术生态的完善,如 llama.cpp、Ollama 等工具的出现,私有化部署的技术门槛越来越低、并且受欢迎程度也日益增加。为此我们针对 Ollama 大模型本地私有化部署工具,提供了 Dmeta-Embedding 系列模型的使用示例。
仅需两步即可在本地私有化部署使用 Dmeta-Embedding 模型,首先拉取模型到本地:
ollama pull shaw/dmeta-embedding-zh
然后即可调用本地 embedding api 接口获取向量:
curl http://localhost:11434/api/embeddings -d '{
"model": "shaw/dmeta-embedding-zh",
"prompt": "天空是灰色的"
}'
结语
后续我们将不断深入到大模型应用场景中,一方面迭代优化模型来提升效果,另一方面将更全面的融入到大模型技术生态中。如果大家在大模型落地应用中存在技术或者业务问题,欢迎一起来讨论,大家的反馈对我们十分宝贵!