
头条
Your Year with ChatGPT
https://help.openai.com/en/articles/6825453-chatgpt-release-notes
OpenAI推出了名为"Your Year with ChatGPT"的个性化年度回顾功能,可供符合条件的特定地区用户使用。该功能受到Spotify Wrapped的启发,突出显示过去一年的个人使用趋势。
Z.AI 发布 GLM-4.7,新的编码开源模型
https://www.testingcatalog.com/z-ai-launches-glm-4-7-new-sota-open-source-model-for-coding
GLM-4.7是Z.AI通用语言模型系列的最新发布版本。这个高端基础模型旨在实现高级推理、编码和多模态工作负载。相比早期版本,这次更新扩展了上下文处理和推理深度。它引入了升级的推理管道和更广泛的多模态支持。
MiniMax M2.1 在 Kilo 上线
https://blog.kilo.ai/p/minimax-m21
MiniMax M2.1 在几个基准测试中领先于 DeepSeek 和 Kimi。它甚至在某些领域赶上了最先进的模型。这个模型速度快且高效。现在对所有 Kilo Code 用户可用。
介绍 Manus Design View
https://manus.im/blog/manus-design-view
Manus Design View 是 Manus agent 的扩展,用于无缝的 AI 设计工作流。它使设计师能够通过简单提示生成概念,使用 Mark Tool 进行精确编辑,以及轻松更改文本。Manus 移动应用允许设计者通过文本或语音输入随时随地进行设计编辑。现在对所有用户开放。
前沿
强化 Atlas 对抗提示注入
https://openai.com/index/hardening-atlas-against-prompt-injection
这篇文章详细介绍了 OpenAI 在保护其 AI 浏览器 Atlas 免受提示注入攻击方面的持续努力——恶意指令嵌入在网络内容中操纵代理行为。虽然缓解技术正在改善,但公司承认提示注入仍然是一个未解决且持续存在的威胁,特别是在代理能力在开放网络上扩展时。
从零开始构建异步编码代理
https://benanderson.work/blog/async-coding-agents/
很容易自己开发异步编码代理。这意味着销售编码代理的公司不能再仅仅依靠在云中运行沙盒代理并连接到 Slack 来区分自己。致力于编码代理的公司可能已经意识到这一点,并尽一切努力培训自己的 SWE 代理和辅助模型来改进他们的工具。
我认为让 Gemini 3 Flash 优秀且快速的原因
https://bdtechtalks.substack.com/p/what-i-think-makes-gemini-3-flash
Gemini 3 Flash 是一个轻量级、高效的模型,专为速度和低延迟优化。它能够以极小的成本提供与 Gemini 3 Pro 相当的性能。该模型的设计带来了前所未有的力量,但也引入了在令牌效率和可靠性方面的特定权衡。本文探讨了该新模型泄露的架构细节。
我们删除了代理的 80% 工具
https://vercel.com/blog/we-removed-80-percent-of-our-agents-tools
Vercel 花了几个月时间构建了一个复杂的内部文本到 SQL 代理,具有专门的工具、大量提示工程和仔细的上下文管理。它有点起作用,但很脆弱、缓慢并且需要不断维护。团队然后删除了大部分内容,将代理简化为一个执行任意 bash 命令的单一工具。它的代理变得更简单,同时表现更好:成功率达到了 100%,而不是 80%。
研究
LLM 编码质量排行榜:你的首选模型得分如何?
https://www.sonarsource.com/the-coding-personalities-of-leading-llms/leaderboard/
有兴趣了解不同 LLM 在编码方面的表现吗?新研究显示,GPT-5.2 High 和 Gemini 3.0 Pro 在结构质量和安全性方面存在权衡。
了解更多关于由最新模型编写的代码的可靠性、安全性和可维护性,使用 Sonar 的 LLM 排行榜——了解 AI 生成代码真正质量的权威资源。
Agent Skills 用于上下文工程
https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering
此仓库包含构建生产级 AI 代理系统的全面代理技能集合。它们分为基础技能、架构技能和操作技能。每个技能都针对高效上下文使用进行了结构化。这些模式适用于任何支持技能或允许自定义指令的代理平台。
OpenTinker
https://github.com/open-tinker/OpenTinker
OpenTinker 是用于基础模型的 RL-as-a-Service 基础设施。它具有编程和执行的分离、环境和训练代码的分离,以及从训练到推理的无缝过渡。该平台使用户能够在不需本地 GPU 资源的情况下执行 RL 训练和推理,通过将客户端编程与服务器端执行分离。它提供了抽象分布式系统复杂性的高级 Python API。
科学智能基准
https://github.com/InternScience/SGI-Bench
SGI-Bench 是一个评估整个研究周期中的科学通用智能的基准,如推理、构思、行动和感知。它涵盖 10 个学科,拥有超过 1000 个由专家策划的任务,灵感来源于主要的开放科学问题。
速读
Cursor 扩展代理钩子
https://cursor.com/blog/hooks-partners
Cursor 已宣布与其代理钩子系统集成的安全和平台供应商的合作关系。这些钩子允许组织观察、修改或阻止代理循环的各个阶段,支持治理、依赖扫描、密钥管理和代理安全等用例。
人工智能的形态
https://www.thealgorithmicbridge.com/p/the-shape-of-artificial-intelligence
在接下来十年里,人工智能的效用将来自理解技术的优势以及它可以在哪些地方增强人类能力。它不会取代人类,至少在短期内不会,因为我们太复杂了。然而,这项技术最终将征服我们认为完全属于我们的领域。这将是第一次我们面临真正的其他性,一种新的存在物种。
Chatterbox Turbo 是最快、最具表现力的文本转语音
https://www.resemble.ai/chatterbox-turbo/
唯一的内置水印开源 TTS。在 GPU 上比实时快 6 倍。用 5 秒音频克隆声音。试用 Resemble AI 的 Chatterbox Turbo。
Alphabet 以 47.5 亿美元现金收购 Intersect
Alphabet 同意以 47.5 亿美元收购能源和数据中心基础设施提供商 Intersect。
Vertex AI Agent Builder 的高级治理功能
Google 宣布了 Vertex AI Agent Builder 的高级治理功能,增强了其 Agent Engine 以管理短期和长期记忆。
2026 年预测
https://robonomics.substack.com/p/2026-predictions
2026 年也可能是 AI 行业首次真正分裂为 AI 基础设施和 AI 应用程序的第一年。