2025-12-25 简讯 : Your Year with ChatGPT

头条

Your Year with ChatGPT

https://help.openai.com/en/articles/6825453-chatgpt-release-notes

OpenAI推出了名为"Your Year with ChatGPT"的个性化年度回顾功能，可供符合条件的特定地区用户使用。该功能受到Spotify Wrapped的启发，突出显示过去一年的个人使用趋势。

Z.AI 发布 GLM-4.7，新的编码开源模型

https://www.testingcatalog.com/z-ai-launches-glm-4-7-new-sota-open-source-model-for-coding

GLM-4.7是Z.AI通用语言模型系列的最新发布版本。这个高端基础模型旨在实现高级推理、编码和多模态工作负载。相比早期版本，这次更新扩展了上下文处理和推理深度。它引入了升级的推理管道和更广泛的多模态支持。

MiniMax M2.1 在 Kilo 上线

https://blog.kilo.ai/p/minimax-m21

MiniMax M2.1 在几个基准测试中领先于 DeepSeek 和 Kimi。它甚至在某些领域赶上了最先进的模型。这个模型速度快且高效。现在对所有 Kilo Code 用户可用。

介绍 Manus Design View

https://manus.im/blog/manus-design-view

Manus Design View 是 Manus agent 的扩展，用于无缝的 AI 设计工作流。它使设计师能够通过简单提示生成概念，使用 Mark Tool 进行精确编辑，以及轻松更改文本。Manus 移动应用允许设计者通过文本或语音输入随时随地进行设计编辑。现在对所有用户开放。

前沿

强化 Atlas 对抗提示注入

https://openai.com/index/hardening-atlas-against-prompt-injection

这篇文章详细介绍了 OpenAI 在保护其 AI 浏览器 Atlas 免受提示注入攻击方面的持续努力——恶意指令嵌入在网络内容中操纵代理行为。虽然缓解技术正在改善，但公司承认提示注入仍然是一个未解决且持续存在的威胁，特别是在代理能力在开放网络上扩展时。

从零开始构建异步编码代理

https://benanderson.work/blog/async-coding-agents/

很容易自己开发异步编码代理。这意味着销售编码代理的公司不能再仅仅依靠在云中运行沙盒代理并连接到 Slack 来区分自己。致力于编码代理的公司可能已经意识到这一点，并尽一切努力培训自己的 SWE 代理和辅助模型来改进他们的工具。

我认为让 Gemini 3 Flash 优秀且快速的原因

https://bdtechtalks.substack.com/p/what-i-think-makes-gemini-3-flash

Gemini 3 Flash 是一个轻量级、高效的模型，专为速度和低延迟优化。它能够以极小的成本提供与 Gemini 3 Pro 相当的性能。该模型的设计带来了前所未有的力量，但也引入了在令牌效率和可靠性方面的特定权衡。本文探讨了该新模型泄露的架构细节。

我们删除了代理的 80% 工具

https://vercel.com/blog/we-removed-80-percent-of-our-agents-tools

Vercel 花了几个月时间构建了一个复杂的内部文本到 SQL 代理，具有专门的工具、大量提示工程和仔细的上下文管理。它有点起作用，但很脆弱、缓慢并且需要不断维护。团队然后删除了大部分内容，将代理简化为一个执行任意 bash 命令的单一工具。它的代理变得更简单，同时表现更好：成功率达到了 100%，而不是 80%。

研究

LLM 编码质量排行榜：你的首选模型得分如何？

https://www.sonarsource.com/the-coding-personalities-of-leading-llms/leaderboard/

有兴趣了解不同 LLM 在编码方面的表现吗？新研究显示，GPT-5.2 High 和 Gemini 3.0 Pro 在结构质量和安全性方面存在权衡。

了解更多关于由最新模型编写的代码的可靠性、安全性和可维护性，使用 Sonar 的 LLM 排行榜——了解 AI 生成代码真正质量的权威资源。

Agent Skills 用于上下文工程

https://github.com/muratcankoylan/Agent-Skills-for-Context-Engineering

此仓库包含构建生产级 AI 代理系统的全面代理技能集合。它们分为基础技能、架构技能和操作技能。每个技能都针对高效上下文使用进行了结构化。这些模式适用于任何支持技能或允许自定义指令的代理平台。

OpenTinker

https://github.com/open-tinker/OpenTinker

OpenTinker 是用于基础模型的 RL-as-a-Service 基础设施。它具有编程和执行的分离、环境和训练代码的分离，以及从训练到推理的无缝过渡。该平台使用户能够在不需本地 GPU 资源的情况下执行 RL 训练和推理，通过将客户端编程与服务器端执行分离。它提供了抽象分布式系统复杂性的高级 Python API。

科学智能基准

https://github.com/InternScience/SGI-Bench

SGI-Bench 是一个评估整个研究周期中的科学通用智能的基准，如推理、构思、行动和感知。它涵盖 10 个学科，拥有超过 1000 个由专家策划的任务，灵感来源于主要的开放科学问题。

2025-12-25 简讯 : Your Year with ChatGPT