数元灵夺得全球权威Embedding评测榜单开源模型第一名,开放大模型“知识外挂”,赋能AI Native应用开发

近日,北京数元灵科技有限公司开源了语义向量(Embedding)模型:DMeta-Embedding,目前位列 MTEB 中文场景开源模型第一(总榜第一名百川只提供 API 服务,暂未开源模型),并在 Pair Classification Average 单项位列中文场景第一名,模型已经发布到了 HuggingFace 社区:

https://huggingface.co/DMetaSoul/Dmeta-embedding,以下是榜单排名情况:

MTEB Leaderboard(https://huggingface.co/spaces/mteb/leaderboard)

DMeta-Embedding 遵守 Apache License,可以免费商用,在多领域、多任务下开箱即用,让大模型如虎添翼,助力 AI Native 应用开发生态。

Embedding 的重要性

Embedding 是自然语言领域中基础、核心且经典的建模任务,从 Word2Vec 到 BERT 表征模型、再到现如今的大模型,Embedding 建模方法在不断创新迭代。不论在传统的搜索、问答场景,还是如今大语言模型(LLM)驱动的检索增强生成(Retrieval-Augmented Generation, RAG)场景中,Embedding 技术一直扮演着语义理解的核心角色,如下图所示:


生成式大模型技术解决了内容的生成、摘要、长尾语义理解任务等难题,有了 Embedding 加持后如虎添翼,能够缓解大模型幻觉问题、引入特定领域知识、海量内容的理解压缩、提高推理效率。

MTEB 榜单权威性

2022 年 MTEB 榜单被社区提出,成为该领域最权威榜单,遗憾的是当时还没有中文数据。2023 年中,智源研究院团队(BAAI)完善了中文领域评测数据,收集了 6 个经典任务共计 35 个中文数据集,涵盖了分类、检索、排序、句对、STS 等经典任务,几乎完全对标英语 MTEB 评测集,至此中文领域也形成了一套权威、科学评测 Embedding 模型的金标准。

技术亮点

这次数元灵推出的 DMeta-Embedding 之所以表现出色,主要得益于以下几个技术点:

1.首先是大规模弱标签对比学习。业界经验表明开箱即用的语言模型在 Embedding 相关任务上表现不佳,但由于监督数据标注、获取成本较高,因此大规模、高质量的弱标签学习成为一条可选技术路线。通过在互联网上论坛、新闻、问答社区、百科等半结构化数据中提取弱标签,并利用大模型进行低质过滤,得到 10 亿级别弱监督文本对数据。

2.其次是高质量监督学习。我们收集整理了大规模开源标注的语句对数据集,包含百科、教育、金融、医疗、法律、新闻、学术等多个领域共计 3000 万句对样本。同时挖掘难负样本对,借助对比学习更好的进行模型优化。

3.最后是检索任务针对性优化。考虑到搜索、问答以及 RAG 等场景是 Embedding 模型落地的重要应用阵地,为了增强模型跨领域、跨场景的效果性能,我们专门针对检索任务进行了模型优化,核心在于从问答、检索等数据中挖掘难负样本,借助稀疏和稠密检索等多种手段,构造百万级难负样本对数据集,显著提升了模型跨领域的检索性能。

通过以上的优化,此次 DMeta-Embedding 击败了众多强劲的对手,包括:阿里达摩院的 GTE 系列、智源研究院的 BGE 系列、商汤科技的 piccolo 系列、Jina AI 的 jina-embeddings-v2 等。我们将在后续的时间里继续分享模型训练的具体细节。

后续规划

数元灵一直积极在为大数据及 AI 社区贡献自己的力量,公司的湖仓一体项目 LakeSoul(Linux AI Foundation孵化)目前是国际上第一个能直接支撑大模型生态的湖仓数据底座,相关工作已经被Hugging Face社区集成:大模型时代,我们需要怎样的数据湖?。数元灵在 AI 领域一直保持较高的研发投入,除此次的 Embedding 模型在中文开源领域夺得第一名之外,目前公司还在 NL2SQL 场景保持总榜第一名:https://aistudio.baidu.com/competition/detail/47/0/leaderboard
针对于语义向量模型这个方向,接下来,我们还会推进以下几项重要工作:

  • 支持 API 接口访问:功能和 OpenAI Embedding 服务类似,但会以接近成本的价格提供给客户使用。

  • 支持私有化部署:针对于数据敏感的企业,提供容器化部署能力,保障模型即插即用。

  • 支持更长的上下文:与大语言模型更好地直接交互,为 AI Native 应用开发者提供更多的便利。

目前我们的工作还处在早期,后续我们还有计划在问答、大模型 RAG 等方向上持续进行生态的集成,并期待大家的使用反馈和交流。[图片上传失败...(image-1e6236-1706516274568)]

数元灵科技成立于2021年,专注于一站式的大数据智能平台新基建,在研项目包括云原生湖仓一体框架LakeSoul,一站式机器学习框架MetaSpore, 以及云原生一站式AI开发生产平台AlphaIDE。公司力争打造以数据驱动为中心的标准化pipeline,推动国家数字化经济发展,致力于为帮助企业充分释放业务价值,服务新基建,让更多的行业和技术从业者享受到更普惠的大数据人工智能红利。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,874评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,102评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,676评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,911评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,937评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,935评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,860评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,660评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,113评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,363评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,506评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,238评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,861评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,486评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,674评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,513评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,426评论 2 352

推荐阅读更多精彩内容