登录注册写文章

2025-04-21 简讯 : Mistral Classifier Factory

2025-04-21 简讯 : Mistral Classifier Factory

头条

Mistral Classifier Factory

https://docs.mistral.ai/capabilities/finetuning/classifier_factory/

法国人工智能初创公司Mistral 推出了一款新产品，用户能用它快速构建和部署适用于各种任务（如垃圾邮件、审核等）的定制分类器。

GoodFire获5000万美元A轮融资，用于模型操控与理解

https://www.goodfire.ai/blog/announcing-our-50m-series-a

Goodfire是一家专注于可解释性机制的公司，在自编码器等方面专业能力很强。该公司正与封闭和开源模型供应商紧密合作，以引导、控制并了解模型的运作原理和行为表现。

利用OpenAI O3和O4-Mini进行视觉推理

https://links.tldrnewsletter.com/1qIMWq

OpenAI的最新视觉模型能通过工具增强变换对图像进行推理，实现了更高水平的多模态理解以及逐步解决视觉问题的能力。

研究

借助更广泛参考实现高效线条画上色

https://zhuang2002.github.io/Cobra/

一种用于线稿上色的新型高效长上下文细粒度身份保留框架，在漫画上色方面实现了高精度、高效率和灵活可用性。它通过有效整合大量上下文参考，将黑白线稿转化为色彩鲜艳的插画。

场景字幕

https://arxiv.org/abs/2504.09518

3D CoCa是一个统一框架，它将视觉语言对比学习和3D场景字幕结合起来。

大推理模型担任评委

https://arxiv.org/abs/2504.00050

JudgeLRM是一族通过强化学习训练用于判断任务的大语言模型。与监督微调（SFT）不同，它在推理要求高的评估中表现出色，优于GPT-4和DeepSeek-R1等模型。

工程

DeepSpeed的DeepCompile（GitHub代码库）

https://github.com/deepspeedai/DeepSpeed/blob/master/blogs/deepcompile/README.md

DeepSpeed团队致力于将编译技术应用于其分布式训练工作中。这种编译技术能将各种瓶颈操作加速很多倍。它采用了torch compile的一个补丁版本。

语音指令微调数据集（Hugging Face平台）

https://huggingface.co/datasets/amazon-agi/SIFT-50M

SIFT-50M（语音指令微调）是一个包含5000万个示例的数据集，用于语音文本大语言模型（LLMs）的指令微调与预训练。它基于公开的语音语料库构建，这些语料库共有1.4万小时的语音，并借助了大语言模型和现成的专家模型。该数据集涵盖五种语言，涉及语音理解的多个方面以及可控的语音生成指令。SIFT-50M通过基于指令的问答（QA）对扩充了现有的语音数据集，用于语音理解，还包含约500万个用于可控语音生成的示例。

使用REPA-E进行端到端潜在扩散训练

https://end2end-diffusion.github.io/

REPA-E 利用一种表征对齐损失，实现了变分自编码器（VAEs）和潜在扩散模型的稳定联合训练，在 ImageNet 上取得了顶尖成绩。

其他

Meta发布众多新制品

https://ai.meta.com/blog/meta-fair-updates-perception-localization-reasoning/

Meta发布了一个图像编码器、一个视觉语言模型（VLM）、一个基于JEPA的3D物体定位模型，以及一个无需标记化可直接对字节进行操作的BLT模型的权重。

Hugging Face推理功能支持Cohere模型

https://huggingface.co/blog/inference-providers-cohere

Cohere成为首个在Hugging Face上直接托管并提供面向企业的AI模型的模型创建者。

用梦幻音轨在Shorts中创建人工智能生成的配乐

https://support.google.com/youtube/answer/14151606

YouTube的“梦幻音轨”现已在美国的YouTube Shorts和YouTube Create应用上推出，为内容创作者提供人工智能生成的纯音乐配乐。这些音轨可在全球范围内重新混音以创作独特的Shorts视频，营造了一个合作的生态系统。该功能直接集成到YouTube的创作工具中，并遵守社区准则。

OpenAI灵活处理

https://links.tldrnewsletter.com/rMY4Nv

OpenAI推出了Flex处理，这是一种节省成本的API选项，用较慢的响应时间和间歇性可用换取较低价格，适合非生产任务。

细胞对话式人工智能

https://blog.google/technology/research/cell2sentence-scale/

C2S-Scale是一个全新的大语言模型（LLM）系列，可解读单细胞数据，并将生物信号转化为自然语言，用于个性化医疗和药物研发。

Anthropic公司通过研究及谷歌办公套件集成功能强化Claude

https://links.tldrnewsletter.com/4KGX0x

Anthropic推出了Claude新功能：具备引用功能的自主多步搜索研究，以及集成谷歌办公套件以提供情境感知协助。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

2025-01-24 简讯 : DeepSeek如何改进了Transformer架构
头条 DeepSeek如何改进了Transformer架构[https://epoch.ai/gradient-u...
数科每日阅读 1,135评论 0赞 0
2025-01-22 简讯 : Perplexity AI 出价欲与抖音合并
头条 Perplexity AI 出价欲与抖音合并 [https://techcrunch.com/2025/0...
数科每日阅读 1,171评论 0赞 0

2025-03-20 简讯 : 法院驳回马斯克叫停OpenAI的企图
头条法院驳回马斯克叫停OpenAI的企图[https://links.tldrnewsletter.com/s8...
数科每日阅读 583评论 0赞 0
2025-02-12 简讯 : Mistra 推出超快速聊天助手
头条 Mistra 推出超快速聊天助手[https://mistral.ai/en/news/all-new-le...
数科每日阅读 1,270评论 0赞 0
2024-08-30 简讯 : 谷歌向 Gemini Advanced 推出 Gems 和 I...
头条谷歌向 Gemini Advanced 推出 Gems 和 Imagen 3[https://9to5goo...
数科每日阅读 1,486评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文