头条
Mistral Classifier Factory
https://docs.mistral.ai/capabilities/finetuning/classifier_factory/
法国人工智能初创公司Mistral 推出了一款新产品,用户能用它快速构建和部署适用于各种任务(如垃圾邮件、审核等)的定制分类器。
GoodFire获5000万美元A轮融资,用于模型操控与理解
https://www.goodfire.ai/blog/announcing-our-50m-series-a
Goodfire是一家专注于可解释性机制的公司,在自编码器等方面专业能力很强。该公司正与封闭和开源模型供应商紧密合作,以引导、控制并了解模型的运作原理和行为表现。
利用OpenAI O3和O4-Mini进行视觉推理
https://links.tldrnewsletter.com/1qIMWq
OpenAI的最新视觉模型能通过工具增强变换对图像进行推理,实现了更高水平的多模态理解以及逐步解决视觉问题的能力。
研究
借助更广泛参考实现高效线条画上色
https://zhuang2002.github.io/Cobra/
一种用于线稿上色的新型高效长上下文细粒度身份保留框架,在漫画上色方面实现了高精度、高效率和灵活可用性。它通过有效整合大量上下文参考,将黑白线稿转化为色彩鲜艳的插画。
场景字幕
https://arxiv.org/abs/2504.09518
3D CoCa是一个统一框架,它将视觉语言对比学习和3D场景字幕结合起来。
大推理模型担任评委
https://arxiv.org/abs/2504.00050
JudgeLRM是一族通过强化学习训练用于判断任务的大语言模型。与监督微调(SFT)不同,它在推理要求高的评估中表现出色,优于GPT-4和DeepSeek-R1等模型。
工程
DeepSpeed的DeepCompile(GitHub代码库)
https://github.com/deepspeedai/DeepSpeed/blob/master/blogs/deepcompile/README.md
DeepSpeed团队致力于将编译技术应用于其分布式训练工作中。这种编译技术能将各种瓶颈操作加速很多倍。它采用了torch compile的一个补丁版本。
语音指令微调数据集(Hugging Face平台)
https://huggingface.co/datasets/amazon-agi/SIFT-50M
SIFT-50M(语音指令微调)是一个包含5000万个示例的数据集,用于语音文本大语言模型(LLMs)的指令微调与预训练。它基于公开的语音语料库构建,这些语料库共有1.4万小时的语音,并借助了大语言模型和现成的专家模型。该数据集涵盖五种语言,涉及语音理解的多个方面以及可控的语音生成指令。SIFT-50M通过基于指令的问答(QA)对扩充了现有的语音数据集,用于语音理解,还包含约500万个用于可控语音生成的示例。
使用REPA-E进行端到端潜在扩散训练
https://end2end-diffusion.github.io/
REPA-E 利用一种表征对齐损失,实现了变分自编码器(VAEs)和潜在扩散模型的稳定联合训练,在 ImageNet 上取得了顶尖成绩。
其他
Meta发布众多新制品
https://ai.meta.com/blog/meta-fair-updates-perception-localization-reasoning/
Meta发布了一个图像编码器、一个视觉语言模型(VLM)、一个基于JEPA的3D物体定位模型,以及一个无需标记化可直接对字节进行操作的BLT模型的权重。
Hugging Face推理功能支持Cohere模型
https://huggingface.co/blog/inference-providers-cohere
Cohere成为首个在Hugging Face上直接托管并提供面向企业的AI模型的模型创建者。
用梦幻音轨在Shorts中创建人工智能生成的配乐
https://support.google.com/youtube/answer/14151606
YouTube的“梦幻音轨”现已在美国的YouTube Shorts和YouTube Create应用上推出,为内容创作者提供人工智能生成的纯音乐配乐。这些音轨可在全球范围内重新混音以创作独特的Shorts视频,营造了一个合作的生态系统。该功能直接集成到YouTube的创作工具中,并遵守社区准则。
OpenAI灵活处理
https://links.tldrnewsletter.com/rMY4Nv
OpenAI推出了Flex处理,这是一种节省成本的API选项,用较慢的响应时间和间歇性可用换取较低价格,适合非生产任务。
细胞对话式人工智能
https://blog.google/technology/research/cell2sentence-scale/
C2S-Scale是一个全新的大语言模型(LLM)系列,可解读单细胞数据,并将生物信号转化为自然语言,用于个性化医疗和药物研发。
Anthropic公司通过研究及谷歌办公套件集成功能强化Claude
https://links.tldrnewsletter.com/4KGX0x
Anthropic推出了Claude新功能:具备引用功能的自主多步搜索研究,以及集成谷歌办公套件以提供情境感知协助 。