内测申请!Dmeta-Embedding轻量版本上线、轻松结合Chroma向量数据库

更轻、更快的Dmeta-Embedding-zh-small来啦!

自Dmeta-Embedding-zh发布以来,我们的模型受到了众多用户使用与支持,我们深感荣幸!现在,更轻、更快、更便捷的Dmeta-Embedding-zh轻量化版本Dmeta-Embedding-zh-small已上线!相较于原始版本的Dmeta-Embedding-zh,轻量化的small版本推理速度提升约30%,模型大小减小约三分之一,总体精度约下降1.4%(参考自MTEB榜单)。

高效性能:经过深度优化,新模型在基本保持原有精度的同时,显著降低了资源消耗,提升了运行效率。

易于集成:轻量化模型设计使得它更容易集成到各种规模的项目中,无论是初创企业还是大型企业,都能轻松应用。

成本效益:降低的资源消耗意味着更低的运行成本,让先进的 AI 技术更加亲民,助力开发者降低门槛,快速实现技术落地。

image.png

如何体验轻量化 Dmeta-Embedding 模型?

为了让大家能够第一时间体验到轻量化 Dmeta-Embedding 模型的强大功能,我们准备了详尽的教程和指南。您可以通过以下步骤快速开始:

  1. 访问模型主页(https://huggingface.co/DmetaSoul/Dmeta-embedding-zh-small),了解轻量化 Dmeta-Embedding 模型的详细信息。

  2. 查看教程文档,我们将提供包括但不限于 Langchain、Sentence-Transformers 等工具结合 Dmeta-Embedding 模型的使用教程,助您快速上手。

  3. 参与内测活动,通过提交申请(详见《现在!就请您使用 Dmeta Embedding 轻松开启 RAG 之旅吧!》),我们将为您开通 API Key,让您能够免费体验轻量化模型带来的便利。

如何在 Chroma 中使用Dmeta-Embedding系列模型?

为了方便大家在向量数据库 Chroma 中使用 Dmeta-Embedding 系列模型,在此我们提供了模型本地推理和HTTP API 两种方式的使用示例,简单快速集成到 Chroma 生态中。

0)首先,导入必要的依赖库

import chromadb
from chromadb import Documents, EmbeddingFunction, Embeddings
from sentence_transformers import SentenceTransformer
from langchain.embeddings import HuggingFaceEmbeddings
import torch
# 获取client
client = chromadb.PersistentClient(path="your_path")

1.1)如果采用 HTTP API 方式,可以利用我们推出的 Dmeta-Embedding API,申请内测即可免费获得 4 亿 tokens 使用额度(内测申请):


# 通过sentence-transformers加载推理
class Dmeta_embedding(EmbeddingFunction):
    def __call__(self, input: Documents) -> Embeddings:
        embeddings = []
        model = SentenceTransformer('DMetaSoul/Dmeta-embedding-zh')
        embeddings = model.encode(input, normalize_embeddings=True).tolist()
        return embeddings

DE = Dmeta_embedding()

# 或者通过通过 LLM 工具框架 langchain加载推理,二选一即可
class Dmeta_embedding(EmbeddingFunction):
    
    def __call__(self, input: Documents) -> Embeddings:
        model_name = "DMetaSoul/Dmeta-embedding-zh"
        model_kwargs = {'device': 'cuda' if torch.cuda.is_available() else 'cpu'}
        encode_kwargs = {'normalize_embeddings': True}

        model = HuggingFaceEmbeddings(
            model_name=model_name,
            model_kwargs=model_kwargs,
            encode_kwargs=encode_kwargs,
        )    
        embeddings = model.embed_documents(input)
        return embeddings
 
DE = Dmeta_embedding()

2)创建 collection 索引


# 创建collection
collection = client.get_or_create_collection("my_collection", embedding_function=DE)

collection.add(
    documents=["胡子长得快怎么办?", "怎样使胡子不浓密!", "香港买手表哪里好", "在杭州手机到哪里买"],
    metadatas=[{"source": "my_source"}, {"source": "my_source"}, {"source": "my_source"},  {"source": "my_source"}],
    ids=["id1", "id2", "id3", "id4"]
)

collection.get()

#{'ids': ['id1', 'id2', 'id3', 'id4'],
# 'embeddings': None,
# 'metadatas': [{'source': 'my_source'},
#  {'source': 'my_source'},
#  {'source': 'my_source'},
#  {'source': 'my_source'}],
# 'documents': ['胡子长得快怎么办?', '怎样使胡子不浓密!', '香港买手表哪里好', '在杭州手机到哪里买'],
# 'uris': None,
# 'data': None}

3)进行检索查询

query_result = collection.query(
        query_texts =["胡子长得太快怎么办?"],
        n_results=2,
    )
print(query_result)

# {'ids': [['id1', 'id2']], 'distances': [[0.09293291344747456, 0.6447157910392011]], 
# 'metadatas': [[{'source': 'my_source'}, {'source': 'my_source'}]], 
# 'embeddings': None, 'documents': [['胡子长得快怎么办?', '怎样使胡子不浓密!']], 
# 'uris': None, 'data': None}

完整代码示例请参考:https://github.com/meta-soul/dmeta-embedding-examples/tree/main/Chroma

后续支持与服务:

我们将持续提供技术支持和产品更新,同时,我们也期待您通过Github、HuggingFace等多种渠道给予我们宝贵反馈,以便我们不断优化产品,为您提供更加完善的服务。

立即行动,加入 Dmeta-Embedding 的行列,共同探索 AI 技术的无限可能!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,100评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,308评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,718评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,275评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,376评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,454评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,464评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,248评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,686评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,974评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,150评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,817评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,484评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,140评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,374评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,012评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,041评论 2 351

推荐阅读更多精彩内容