自春节前 DMeta Embedding API 开启内测以来,我们收到了众多用户的热情响应与支持,这一切离不开社区的认可与支持,我们深感荣幸。今天,我们将分享一个详细的模型使用教程,帮助您在语义搜索和 RAG 的道路上更进一步!
我们的初心
我们的初心依然不变:既要开源优秀的技术能力,又希望大家能够在实际业务中使用起来,用起来的技术才是好技术、能落地创造价值的技术才是值得长期投入的。在快一个月的时间里,模型的下载量即将突破 4 万大关,并且我们收到了大量用户的 API 申请。
但是仍然有用户和我们在线下沟通交流使用的方法,为了帮助大家更丝滑的使用 DMeta Embedding,帮大家解决疑问,我们这里写了一个开源的教程帮助更好地使用模型。
使用教程
在这里我们实现一个基于 Langchain + Faiss + DMeta Embedding 搭建的向量数据库,作为演示我们采用豆瓣的电影数据。为了减少对环境的依赖,我们建议您采用 API 的方式建立向量数据库。如果采用 API 方式,则需要参考如下方式设置好环境变量:
DMETA_API_KEY=sk-******************
这时我们就可以调用 DMeta Embedding 模型了,我们这里同时给出“local”和“api”两种不同方式的 Python 代码实现:
hf_model_path = "DMetaSoul/Dmeta-embedding-zh"
api_mode_name = "DMetaSoul/Dmeta-embedding"
model_kwargs = {'device': 'cuda'}
if mode == "local":
emb_model = HuggingFaceEmbeddings(model_name=hf_model_path, model_kwargs=model_kwargs)
vectorstore = FAISS.from_documents(documents, emb_model)
else:
emb_model = DMetaTextEmbeddings(model_name=api_mode_name)
vectorstore = FAISS.from_documents(documents, emb_model)
完整的代码教程 embed-your-data 已经发布到 Github 上:
https://github.com/meta-soul/dmeta-embedding-examples/tree/main/embed-your-data
后续我们将推出更多有用教程帮助大家熟悉数元灵的技术与产品,欢迎大家通过 Github、HuggingFace 和微信群等多种渠道向我们反馈、建议。
API 内测申请和使用
Embedding API 产品通过 HTTP 服务接口进行内测体验,为了兼容其它工具生态,接口跟 OpenAI Embedding 服务保持一致。目前每个内测名额将提供免费 4亿 tokens 额度,也即大概 1GB 左右汉字文本。参照百川智能 Embedding API 价格(0.0005元/千tokens),免费额度等价于 200 元;参照 OpenAI Embedding API 价格(0.00013$/千tokens),免费额度等价于 400 元;