近日,北京数元灵科技有限公司开源了语义向量(Embedding)模型:DMeta-Embedding,目前位列 MTEB 中文场景开源模型第一(总榜第一名百川只提供 API 服务,暂未开源模型),并在 Pair Classification Average 单项位列中文场景第一名,模型已经发布到了 HuggingFace 社区:
https://huggingface.co/DMetaSoul/Dmeta-embedding,以下是榜单排名情况:
DMeta-Embedding 遵守 Apache License,可以免费商用,在多领域、多任务下开箱即用,让大模型如虎添翼,助力 AI Native 应用开发生态。
Embedding 的重要性
Embedding 是自然语言领域中基础、核心且经典的建模任务,从 Word2Vec 到 BERT 表征模型、再到现如今的大模型,Embedding 建模方法在不断创新迭代。不论在传统的搜索、问答场景,还是如今大语言模型(LLM)驱动的检索增强生成(Retrieval-Augmented Generation, RAG)场景中,Embedding 技术一直扮演着语义理解的核心角色,如下图所示:
生成式大模型技术解决了内容的生成、摘要、长尾语义理解任务等难题,有了 Embedding 加持后如虎添翼,能够缓解大模型幻觉问题、引入特定领域知识、海量内容的理解压缩、提高推理效率。
MTEB 榜单权威性
2022 年 MTEB 榜单被社区提出,成为该领域最权威榜单,遗憾的是当时还没有中文数据。2023 年中,智源研究院团队(BAAI)完善了中文领域评测数据,收集了 6 个经典任务共计 35 个中文数据集,涵盖了分类、检索、排序、句对、STS 等经典任务,几乎完全对标英语 MTEB 评测集,至此中文领域也形成了一套权威、科学评测 Embedding 模型的金标准。
技术亮点
这次数元灵推出的 DMeta-Embedding 之所以表现出色,主要得益于以下几个技术点:
1.首先是大规模弱标签对比学习。业界经验表明开箱即用的语言模型在 Embedding 相关任务上表现不佳,但由于监督数据标注、获取成本较高,因此大规模、高质量的弱标签学习成为一条可选技术路线。通过在互联网上论坛、新闻、问答社区、百科等半结构化数据中提取弱标签,并利用大模型进行低质过滤,得到 10 亿级别弱监督文本对数据。
2.其次是高质量监督学习。我们收集整理了大规模开源标注的语句对数据集,包含百科、教育、金融、医疗、法律、新闻、学术等多个领域共计 3000 万句对样本。同时挖掘难负样本对,借助对比学习更好的进行模型优化。
3.最后是检索任务针对性优化。考虑到搜索、问答以及 RAG 等场景是 Embedding 模型落地的重要应用阵地,为了增强模型跨领域、跨场景的效果性能,我们专门针对检索任务进行了模型优化,核心在于从问答、检索等数据中挖掘难负样本,借助稀疏和稠密检索等多种手段,构造百万级难负样本对数据集,显著提升了模型跨领域的检索性能。
通过以上的优化,此次 DMeta-Embedding 击败了众多强劲的对手,包括:阿里达摩院的 GTE 系列、智源研究院的 BGE 系列、商汤科技的 piccolo 系列、Jina AI 的 jina-embeddings-v2 等。我们将在后续的时间里继续分享模型训练的具体细节。
后续规划
数元灵一直积极在为大数据及 AI 社区贡献自己的力量,公司的湖仓一体项目 LakeSoul(Linux AI Foundation孵化)目前是国际上第一个能直接支撑大模型生态的湖仓数据底座,相关工作已经被Hugging Face社区集成:大模型时代,我们需要怎样的数据湖?。数元灵在 AI 领域一直保持较高的研发投入,除此次的 Embedding 模型在中文开源领域夺得第一名之外,目前公司还在 NL2SQL 场景保持总榜第一名:https://aistudio.baidu.com/competition/detail/47/0/leaderboard
针对于语义向量模型这个方向,接下来,我们还会推进以下几项重要工作:
支持 API 接口访问:功能和 OpenAI Embedding 服务类似,但会以接近成本的价格提供给客户使用。
支持私有化部署:针对于数据敏感的企业,提供容器化部署能力,保障模型即插即用。
支持更长的上下文:与大语言模型更好地直接交互,为 AI Native 应用开发者提供更多的便利。
目前我们的工作还处在早期,后续我们还有计划在问答、大模型 RAG 等方向上持续进行生态的集成,并期待大家的使用反馈和交流。[图片上传失败...(image-1e6236-1706516274568)]
数元灵科技成立于2021年,专注于一站式的大数据智能平台新基建,在研项目包括云原生湖仓一体框架LakeSoul,一站式机器学习框架MetaSpore, 以及云原生一站式AI开发生产平台AlphaIDE。公司力争打造以数据驱动为中心的标准化pipeline,推动国家数字化经济发展,致力于为帮助企业充分释放业务价值,服务新基建,让更多的行业和技术从业者享受到更普惠的大数据人工智能红利。