2025-04-21 简讯 : Mistral Classifier Factory


头条


Mistral Classifier Factory

https://docs.mistral.ai/capabilities/finetuning/classifier_factory/

法国人工智能初创公司Mistral 推出了一款新产品,用户能用它快速构建和部署适用于各种任务(如垃圾邮件、审核等)的定制分类器。

GoodFire获5000万美元A轮融资,用于模型操控与理解

https://www.goodfire.ai/blog/announcing-our-50m-series-a

Goodfire是一家专注于可解释性机制的公司,在自编码器等方面专业能力很强。该公司正与封闭和开源模型供应商紧密合作,以引导、控制并了解模型的运作原理和行为表现。

利用OpenAI O3和O4-Mini进行视觉推理

https://links.tldrnewsletter.com/1qIMWq

OpenAI的最新视觉模型能通过工具增强变换对图像进行推理,实现了更高水平的多模态理解以及逐步解决视觉问题的能力。


研究


借助更广泛参考实现高效线条画上色

https://zhuang2002.github.io/Cobra/

一种用于线稿上色的新型高效长上下文细粒度身份保留框架,在漫画上色方面实现了高精度、高效率和灵活可用性。它通过有效整合大量上下文参考,将黑白线稿转化为色彩鲜艳的插画。

场景字幕

https://arxiv.org/abs/2504.09518

3D CoCa是一个统一框架,它将视觉语言对比学习和3D场景字幕结合起来。

大推理模型担任评委

https://arxiv.org/abs/2504.00050

JudgeLRM是一族通过强化学习训练用于判断任务的大语言模型。与监督微调(SFT)不同,它在推理要求高的评估中表现出色,优于GPT-4和DeepSeek-R1等模型。


工程


DeepSpeed的DeepCompile(GitHub代码库)

https://github.com/deepspeedai/DeepSpeed/blob/master/blogs/deepcompile/README.md

DeepSpeed团队致力于将编译技术应用于其分布式训练工作中。这种编译技术能将各种瓶颈操作加速很多倍。它采用了torch compile的一个补丁版本。

语音指令微调数据集(Hugging Face平台)

https://huggingface.co/datasets/amazon-agi/SIFT-50M

SIFT-50M(语音指令微调)是一个包含5000万个示例的数据集,用于语音文本大语言模型(LLMs)的指令微调与预训练。它基于公开的语音语料库构建,这些语料库共有1.4万小时的语音,并借助了大语言模型和现成的专家模型。该数据集涵盖五种语言,涉及语音理解的多个方面以及可控的语音生成指令。SIFT-50M通过基于指令的问答(QA)对扩充了现有的语音数据集,用于语音理解,还包含约500万个用于可控语音生成的示例。

使用REPA-E进行端到端潜在扩散训练

https://end2end-diffusion.github.io/

REPA-E 利用一种表征对齐损失,实现了变分自编码器(VAEs)和潜在扩散模型的稳定联合训练,在 ImageNet 上取得了顶尖成绩。


其他


Meta发布众多新制品

https://ai.meta.com/blog/meta-fair-updates-perception-localization-reasoning/

Meta发布了一个图像编码器、一个视觉语言模型(VLM)、一个基于JEPA的3D物体定位模型,以及一个无需标记化可直接对字节进行操作的BLT模型的权重。

Hugging Face推理功能支持Cohere模型

https://huggingface.co/blog/inference-providers-cohere

Cohere成为首个在Hugging Face上直接托管并提供面向企业的AI模型的模型创建者。

用梦幻音轨在Shorts中创建人工智能生成的配乐

https://support.google.com/youtube/answer/14151606

YouTube的“梦幻音轨”现已在美国的YouTube Shorts和YouTube Create应用上推出,为内容创作者提供人工智能生成的纯音乐配乐。这些音轨可在全球范围内重新混音以创作独特的Shorts视频,营造了一个合作的生态系统。该功能直接集成到YouTube的创作工具中,并遵守社区准则。

OpenAI灵活处理

https://links.tldrnewsletter.com/rMY4Nv

OpenAI推出了Flex处理,这是一种节省成本的API选项,用较慢的响应时间和间歇性可用换取较低价格,适合非生产任务。

细胞对话式人工智能

https://blog.google/technology/research/cell2sentence-scale/

C2S-Scale是一个全新的大语言模型(LLM)系列,可解读单细胞数据,并将生物信号转化为自然语言,用于个性化医疗和药物研发。

Anthropic公司通过研究及谷歌办公套件集成功能强化Claude

https://links.tldrnewsletter.com/4KGX0x

Anthropic推出了Claude新功能:具备引用功能的自主多步搜索研究,以及集成谷歌办公套件以提供情境感知协助 。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容