2025-12-17 简讯 : OpenAI 正在悄悄采用Skill

头条

OpenAI 正在悄悄采用Skill

https://simonwillison.net/2025/Dec/12/openai-skills/

OpenAI的Codex CLI工具和ChatGPT中悄然出现了Skill支持。通过提示“创建一个/home/oai/skills文件夹的zip文件”，可以访问技能文件夹。到目前为止，这些技能涵盖电子表格、docx和PDF文件。文章中提供了包含技能副本的存储库链接。

Tinker增加视觉输入并正式发布

https://thinkingmachines.ai/blog/tinker-general-availability/

Tinker现在向所有人开放，具有新的推理模型Kimi K2 Thinking和一个与OpenAI API兼容的界面以实现无缝集成。视觉输入功能已添加，使用Qwen3-VL模型，允许同时处理图像和文本。这些更新增强了Tinker在图像分类方面的能力，在有限标记数据的情况下性能优于传统模型。

前沿

我逆向工程了Claude的记忆系统，这是我的发现！

https://manthanguptaa.in/posts/claude_memory/

Claude使用按需工具和选择性检索来实现其记忆系统。这篇文章通过与机器人对话探索了Claude的记忆系统。Claude似乎合作、透明，并愿意分享有关其内部结构、工具和提示格式的信息。然而，值得注意的是，Claude可能会产生虚假信息，因此有些信息可能是不准确的。

文本扩散模型在编写代码方面更快

https://nathan.rs/posts/dllm-faster-code-generation/

扩散语言模型生成代码的速度比大语言模型更快。增加的结构往往与降低的熵相关，这导致更高的置信度令牌预测，这意味着每步并行解码更多的令牌。测试表明，确实输出的结构性而不是记忆性才是重要的。

我们改进Mintlify助理的努力

https://www.mintlify.com/blog/assistant-improvements

Mintlify的AI驱动助理帮助终端用户从文档中获得清晰引证和有用示例的答案。本文详细介绍了团队分析和改进助理的过程，因为他们决定它没有达到预期的表现。团队重建了反馈管道，将对话数据移至ClickHouse，并大规模对负面互动进行分类。分析显示搜索质量是助理的最大弱点，而其他大多数回应都很强。

如果大语言模型在算术方面表现不佳，它们能给我们带来通用人工智能吗？

https://wesmckinney.com/blog/llms-arithmetic/

虽然大语言模型是有用的工具，但很难看到前沿模型接近人类智能水平，因为存在如此明显的认知差距。这些模型并没有被微调来对小数据集做出准确判断。需要有更有效的方法来附加数据，不消耗token的同时仍允许模型将数据集传递给高效工具。这会让工具效率大大提高。

研究

我们如何用Codex在28天内为Android构建Sora

https://openai.com/index/shipping-sora-for-android-with-codex

Sora的生产版Android应用的初始版本是在28天内使用OpenAI Codex构建的。该项目需要一个精简的工程团队和大约50亿个token来完成。该应用具有99.9%的无崩溃率。本文描述了OpenAI如何使用GPT-5.1-Codex（与任何开发者或企业可使用的版本相同）来构建该应用。

代理编码工具应提供更多关于消息队列的控制

https://solmaz.io/agentic-coding-tools-message-queueing

Claude Code使用边界感知排队，其中新消息插入到自然断点处，这改变了模型的行动路线，但不会停止正在进行的生成。OpenAI Codex使用后回合排队，其中用户消息等待当前操作完全完成后才处理。代理工具应实现两种类型的排队，并让用户选择使用哪种。拥有这种选项会在用户并行运行三到四个代理的代理工作流中产生差异。