2025-09-17 简讯 : XAI 解雇 500 名数据标注员

VaultGemma 是谷歌用差分隐私（DP）从头开始训练的模型。DP 为用户隐私提供了数学上可靠的解决方案，通过添加校准噪声来防止记忆。不过它也有一些权衡，比如降低训练稳定性、大幅增加批量大小。DP 训练的模型和非 DP 训练的模型之间仍存在实用性差距，但通过对 DP 训练机制设计进行更多研究，这个差距可以逐步缩小。

收益递减的错觉：衡量大语言模型（LLM）的长期执行能力

https://arxiv.org/abs/2509.09677

现实价值往往源于智能体能够完成的任务长度。单步准确率的微小提升，能让模型成功完成的任务长度大幅增加。当前文内容存在之前步骤的错误时，模型更容易出错。任务变长时出现失败，往往是执行失误，而非缺乏推理能力。

MCP 第二波：为大语言模型（LLM）打造，而非开发者

https://vercel.com/blog/the-second-wave-of-mcp-building-for-llms-not-developers

从API型工具转向工作流型工具的团队，在可靠性和效率上会有显著提升。当工具能处理完整的用户意图，而非仅展示单个API操作时，MCP的效果最佳。大语言模型和开发者的工作方式不同，它们得不断重新摸索有哪些工具、怎么用以及使用顺序，所以围绕工作流打造工具能取得更好的效果。

2025-09-17 简讯 : XAI 解雇 500 名数据标注员

2025-09-17 简讯 : XAI 解雇 500 名数据标注员

头条

XAI 解雇 500 名数据标注员

XAI 以最高 10 倍速度推出 Grok 4 Fast 抢先体验版测试

深度分析

大语言模型（LLM）训练后指南101

《垂直人工智能行动手册》（书籍）

GPT-OSS 简要调查

工程

VAULTGEMMA：全球性能最强的差分隐私大语言模型

收益递减的错觉：衡量大语言模型（LLM）的长期执行能力

MCP 第二波：为大语言模型（LLM）打造，而非开发者

其他

你应该重写你的提示语。

人工智能不会让你发财

了解 GPU 架构

用会话管理代理存储

英伟达从DGX云业务抽身，不再与亚马逊云科技和微软Azure竞争

OpenAI Grove 项目公告

推荐阅读更多精彩内容