头条
XAI 解雇 500 名数据标注员
https://techcrunch.com/2025/09/13/xai-reportedly-lays-off-500-workers-from-data-annotation-team/
据报道,xAI 解雇了数据标注团队三分之一的员工,转而扩大其专业 AI 辅导部门。
XAI 以最高 10 倍速度推出 Grok 4 Fast 抢先体验版测试
https://www.testingcatalog.com/xai-launches-grok-4-fast-in-early-access-beta-with-up-to-10x-speed/
xAI最新推出的Grok 4 Fast,现已可通过模型选择器在Grok网页界面供用户使用。用户在订阅设置中开启新开关就能访问。Grok 4 Fast被标记为早期测试版,速度比标准版Grok 4快达10倍。它经过优化,处理复杂任务时耗时极少,能快速给出回应,但这也限制了它的创造力。
深度分析
大语言模型(LLM)训练后指南101
https://tokens-for-thoughts.notion.site/post-training-101
全面介绍大语言模型(LLM)训练后的整个生命周期,包括监督微调、奖励模型,以及基于人类反馈的强化学习(RLHF)等强化学习方法,还有评估的最佳实践。
《垂直人工智能行动手册》(书籍)
https://research.contrary.com/deep-dive/the-vertical-ai-playbook
尽管投入了数十亿美元,2024年仍有42%的企业AI项目中止。这是因为模型融入业务的方式有问题。成功的企业会重新设计工作流程、反思组织结构,并掌控创造价值的服务层。下一代CEO会把AI当作一种劳动力,像最成功的连续收购者运用资本那样,严谨地部署这项技术。
GPT-OSS 简要调查
https://www.lesswrong.com/posts/HfXyF4swFLpeLuv3W/breaking-gpt-oss-a-brief-investigation
本文评估了针对gpt-oss的不同越狱方法。该模型似乎在系统提示和拒绝向量攻击方面都接受过强大的安全训练。它很难对付,而且并非所有库都支持它的特性。
工程
VAULTGEMMA:全球性能最强的差分隐私大语言模型
https://research.google/blog/vaultgemma-the-worlds-most-capable-differentially-private-llm/
VaultGemma 是谷歌用差分隐私(DP)从头开始训练的模型。DP 为用户隐私提供了数学上可靠的解决方案,通过添加校准噪声来防止记忆。不过它也有一些权衡,比如降低训练稳定性、大幅增加批量大小。DP 训练的模型和非 DP 训练的模型之间仍存在实用性差距,但通过对 DP 训练机制设计进行更多研究,这个差距可以逐步缩小。
收益递减的错觉:衡量大语言模型(LLM)的长期执行能力
https://arxiv.org/abs/2509.09677
现实价值往往源于智能体能够完成的任务长度。单步准确率的微小提升,能让模型成功完成的任务长度大幅增加。当前文内容存在之前步骤的错误时,模型更容易出错。任务变长时出现失败,往往是执行失误,而非缺乏推理能力。
MCP 第二波:为大语言模型(LLM)打造,而非开发者
https://vercel.com/blog/the-second-wave-of-mcp-building-for-llms-not-developers
从API型工具转向工作流型工具的团队,在可靠性和效率上会有显著提升。当工具能处理完整的用户意图,而非仅展示单个API操作时,MCP的效果最佳。大语言模型和开发者的工作方式不同,它们得不断重新摸索有哪些工具、怎么用以及使用顺序,所以围绕工作流打造工具能取得更好的效果。
其他
你应该重写你的提示语。
https://maxleiter.com/blog/rewrite-your-prompts
模型并非完全可互换——要是你换模型了,就得重写提示词。提示词会像模型对数据过拟合一样,对模型过拟合。得对提示词进行测试、评估,使其与新模型的默认设置相匹配。调整提示词能节省令牌,还能产出更好的结果。
人工智能不会让你发财
https://joincolossus.com/article/ai-will-not-make-you-rich/
人工智能创造的新价值大多会被消费者获得。消费者能更广泛、更实惠地获得医疗、教育和咨询等服务。知识密集型服务会更便宜,消费者能购买更多。同时,需要人际互动的服务会更贵,在家庭支出中的占比也会更高。这两方面都有明显机会。想想知识工作者效率提高的影响,想象一下这种效率会开拓哪些市场,然后投资这些领域。
了解 GPU 架构
https://cvw.cac.cornell.edu/gpu-architecture
康奈尔大学高级计算中心发布了一个互动研讨会,内容涵盖 GPU 内存层级、流式多处理器,还详细剖析了英伟达的 Tesla V100 和 Quadro RTX 5000 架构。
用会话管理代理存储
https://cookbook.openai.com/examples/agents_sdk/session_memory
如何用OpenAI Agents SDK管理AI智能体的短期记忆,利用修剪和压缩技术让会话连贯、快速又可靠。
英伟达从DGX云业务抽身,不再与亚马逊云科技和微软Azure竞争
https://www.tomshardware.com/tech-industry/nvidia-steps-back-from-dgx-cloud
英伟达现在将其 DGX 云算力用于内部研究。
OpenAI Grove 项目公告
https://links.tldrnewsletter.com/iGSIfq
OpenAI宣布为初创技术公司创始人推出一项为期五周的项目,提供导师指导、早期工具使用权限和同行协作机会,以探索新的AI产品创意。