现在!就请您使用 DMeta Embedding 轻松开启 RAG 之旅吧!

自春节前 DMeta Embedding API 开启内测以来,我们收到了众多用户的热情响应与支持,这一切离不开社区的认可与支持,我们深感荣幸。今天,我们将分享一个详细的模型使用教程,帮助您在语义搜索和 RAG 的道路上更进一步!

我们的初心

我们的初心依然不变:既要开源优秀的技术能力,又希望大家能够在实际业务中使用起来,用起来的技术才是好技术、能落地创造价值的技术才是值得长期投入的。在快一个月的时间里,模型的下载量即将突破 4 万大关,并且我们收到了大量用户的 API 申请。


模型下载量

但是仍然有用户和我们在线下沟通交流使用的方法,为了帮助大家更丝滑的使用 DMeta Embedding,帮大家解决疑问,我们这里写了一个开源的教程帮助更好地使用模型。

使用教程

在这里我们实现一个基于 Langchain + Faiss + DMeta Embedding 搭建的向量数据库,作为演示我们采用豆瓣的电影数据。为了减少对环境的依赖,我们建议您采用 API 的方式建立向量数据库。如果采用 API 方式,则需要参考如下方式设置好环境变量:

DMETA_API_KEY=sk-******************

这时我们就可以调用 DMeta Embedding 模型了,我们这里同时给出“local”和“api”两种不同方式的 Python 代码实现:

hf_model_path = "DMetaSoul/Dmeta-embedding-zh"
api_mode_name = "DMetaSoul/Dmeta-embedding"
model_kwargs = {'device': 'cuda'}

if mode == "local":
    emb_model = HuggingFaceEmbeddings(model_name=hf_model_path, model_kwargs=model_kwargs)
    vectorstore = FAISS.from_documents(documents, emb_model)
else:
    emb_model = DMetaTextEmbeddings(model_name=api_mode_name)
    vectorstore = FAISS.from_documents(documents, emb_model)

完整的代码教程 embed-your-data 已经发布到 Github 上:

https://github.com/meta-soul/dmeta-embedding-examples/tree/main/embed-your-data

后续我们将推出更多有用教程帮助大家熟悉数元灵的技术与产品,欢迎大家通过 Github、HuggingFace 和微信群等多种渠道向我们反馈、建议。

API 内测申请和使用

Embedding API 产品通过 HTTP 服务接口进行内测体验,为了兼容其它工具生态,接口跟 OpenAI Embedding 服务保持一致。目前每个内测名额将提供免费 4亿 tokens 额度,也即大概 1GB 左右汉字文本。参照百川智能 Embedding API 价格(0.0005元/千tokens),免费额度等价于 200 元;参照 OpenAI Embedding API 价格(0.00013$/千tokens),免费额度等价于 400 元;

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容