2024-02-29 简讯 : Scale AI 为五角大楼的LLM提供 测试和评估框架


头条


Mistral Large

https://mistral.ai/news/mistral-large/
法国人工智能初创公司 Mistral 宣布与 Azure 建立合作伙伴关系,为其 API 推出新模型。 Mistral Large 擅长多语言任务,在 MMLU 上与 GPT-4 相差几个百分点,并且具有强大的性能。 该初创公司还在其 API 中添加了一个新的 mistral-small 模型。

Scale AI 为五角大楼的LLM 提供 测试和评估框架

https://defensescoop.com/2024/02/20/scale-ai-pentagon-testing-evaluating-large-language-models/
Scale AI 已获得一份为期一年的合同,为五角大楼的大型语言人工智能模型开发测试和评估框架。 该公司的目标是加强军事应用中人工智能的安全部署和稳健性。 该项目涉及创建用于模型评估的专用数据集,以及为安全环境完善人工智能系统的迭代过程。 此次合作将帮助国防部了解并负责任地部署生成式人工智能技术。

DatologyAI 融资 1100 万美元用于可扩展的数据管理

https://techcrunch.com/2024/02/22/datologyai-is-building-tech-to-automatically-curate-ai-training-data-sets/
Datology 由一些最优秀的数据质量研究人员创立,旨在使数据集的可扩展管理变得更加容易。


研究


MobileLLM

https://arxiv.org/abs/2402.14905
Meta提出了350m的参数语言模型,具有很强的推理性能,在API函数调用任务的正确性上甚至接近Llama 7B。 模型尚未发布,但固定参数模型的创新值得探索。

测试LLM数学技能的新方法

https://arxiv.org/abs/2402.14660v1
ConceptMath 是一个新的双语基准测试,用于测试LLM的中英文数学技能。 它的独特之处在于它将数学问题分解为特定的概念,从而可以更详细地评估人工智能在数学方面的优势和劣势。

使用 DreamRec 预测用户理想的下一个选择

https://arxiv.org/abs/2310.20453v1
DreamRec 引入了一种新颖的“学习生成”顺序推荐方法,它不是传统的从正面和负面项目组合中对用户偏好进行分类的方法,而是创建一个代表用户理想的下一个选择的“预言”项目 。


工程


人体运动生成

https://barquerogerman.github.io/FlowMDM/
FlowMDM 是一种新模型,用于根据文本描述生成长、连续的人体运动序列。 这种首创的基于扩散的模型使用混合位置编码来创建真实的运动,无需额外的降噪步骤,在关键数据集上的准确性和真实性方面表现出色。

使用语言模型进行视觉语音识别 (GitHub Repo)

https://github.com/sally-sh/vsp-llm
VSP-LLM 框架通过集成 LLM 引入了一种新的视觉语音识别和翻译方法。 它通过对嵌入的视觉特征进行重复数据删除并采用低阶适配器进行经济高效的训练来有效地处理视频输入。

使用未来代币增强自回归模型 (GitHub Repo)

https://github.com/jakespringer/echo-embeddings
该项目引入了回声嵌入,这是一种新颖的策略,通过合并未来的代币信息来克服自回归模型的关键限制。 这是通过重复输入两次来实现的,这显着提高了基准任务的性能,同时与其他嵌入增强方法兼容。


杂七杂八


增强各种环境下的 3D 重建

https://andreaconti.github.io/projects/range_agnostic_multi_view_depth/
该项目引入了一个多视图 3D 重建框架,不需要场景深度的先验知识。 它智能地选择最相关的源帧,使其适用于包括大型室外和俯视建筑环境在内的多种场景。

平衡自动驾驶汽车的性能和效率 (GitHub Repo)

https://github.com/aitor-martinez-seras/snn-automotive-object-detection
尖峰神经网络是自动驾驶汽车的一种新的高效模型。 它实现了高性能,同时能耗降低了 85%。

旧金山计算公司

https://sfcompute.com/blog/worlds-cheapest-supercomputer
旧金山计算公司现提供全球最便宜的 H100 训练集群,并提供灵活的短期租赁选项,针对需要密集计算进行 AI 模型训练但无需长期承诺的客户。 它的第一个集群“天使岛”目前已上线,另一个集群“海湾大桥”也即将上线。 SF Compute 的模式是前所未有的,因为它优先考虑人工智能初创公司的可访问性和可负担性,而不要求签订冗长的合同。

Lazy Axolotl (Colab Notebook)

https://colab.research.google.com/drive/1TsDKNo2riwVmU55gjuBgB1AXVtRRfRHW
Axolotl 是一个用于微调语言模型的强大库

Persuva

https://persuva.ai/
制作点击并转化的广告

AlphaMonarch 7B 模型合并 (HuggingFace Hub)

https://huggingface.co/mlabonne/AlphaMonarch-7B
一个强大的合并和调整模型,在 elo 和静态基准测试中得分很高。 它专为多轮和指令跟踪任务而设计。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容