
头条
OpenAI 正在悄悄采用Skill
https://simonwillison.net/2025/Dec/12/openai-skills/
OpenAI的Codex CLI工具和ChatGPT中悄然出现了Skill支持。通过提示“创建一个/home/oai/skills文件夹的zip文件”,可以访问技能文件夹。到目前为止,这些技能涵盖电子表格、docx和PDF文件。文章中提供了包含技能副本的存储库链接。
Tinker增加视觉输入并正式发布
https://thinkingmachines.ai/blog/tinker-general-availability/
Tinker现在向所有人开放,具有新的推理模型Kimi K2 Thinking和一个与OpenAI API兼容的界面以实现无缝集成。视觉输入功能已添加,使用Qwen3-VL模型,允许同时处理图像和文本。这些更新增强了Tinker在图像分类方面的能力,在有限标记数据的情况下性能优于传统模型。
前沿
我逆向工程了Claude的记忆系统,这是我的发现!
https://manthanguptaa.in/posts/claude_memory/
Claude使用按需工具和选择性检索来实现其记忆系统。这篇文章通过与机器人对话探索了Claude的记忆系统。Claude似乎合作、透明,并愿意分享有关其内部结构、工具和提示格式的信息。然而,值得注意的是,Claude可能会产生虚假信息,因此有些信息可能是不准确的。
文本扩散模型在编写代码方面更快
https://nathan.rs/posts/dllm-faster-code-generation/
扩散语言模型生成代码的速度比大语言模型更快。增加的结构往往与降低的熵相关,这导致更高的置信度令牌预测,这意味着每步并行解码更多的令牌。测试表明,确实输出的结构性而不是记忆性才是重要的。
我们改进Mintlify助理的努力
https://www.mintlify.com/blog/assistant-improvements
Mintlify的AI驱动助理帮助终端用户从文档中获得清晰引证和有用示例的答案。本文详细介绍了团队分析和改进助理的过程,因为他们决定它没有达到预期的表现。团队重建了反馈管道,将对话数据移至ClickHouse,并大规模对负面互动进行分类。分析显示搜索质量是助理的最大弱点,而其他大多数回应都很强。
如果大语言模型在算术方面表现不佳,它们能给我们带来通用人工智能吗?
https://wesmckinney.com/blog/llms-arithmetic/
虽然大语言模型是有用的工具,但很难看到前沿模型接近人类智能水平,因为存在如此明显的认知差距。这些模型并没有被微调来对小数据集做出准确判断。需要有更有效的方法来附加数据,不消耗token的同时仍允许模型将数据集传递给高效工具。这会让工具效率大大提高。
研究
我们如何用Codex在28天内为Android构建Sora
https://openai.com/index/shipping-sora-for-android-with-codex
Sora的生产版Android应用的初始版本是在28天内使用OpenAI Codex构建的。该项目需要一个精简的工程团队和大约50亿个token来完成。该应用具有99.9%的无崩溃率。本文描述了OpenAI如何使用GPT-5.1-Codex(与任何开发者或企业可使用的版本相同)来构建该应用。
代理编码工具应提供更多关于消息队列的控制
https://solmaz.io/agentic-coding-tools-message-queueing
Claude Code使用边界感知排队,其中新消息插入到自然断点处,这改变了模型的行动路线,但不会停止正在进行的生成。OpenAI Codex使用后回合排队,其中用户消息等待当前操作完全完成后才处理。代理工具应实现两种类型的排队,并让用户选择使用哪种。拥有这种选项会在用户并行运行三到四个代理的代理工作流中产生差异。
技能与动态MCP配置对比
https://lucumr.pocoo.org/2025/12/13/skills-vs-mcp/
使用工具最简单的方法是要求代理将其自身工具写为技能。这将工具的大部分控制权留给了用户。每当它损坏或需要修改时,用户只需要求代理调整即可。MCP的动态工具加载可能会成为一种趋势,但可能需要许多协议变更才能引入类似技能的摘要和工具的内置手册。
评估VeO世界模拟器中的Gemini机器人策略
https://veo-robotics.github.io/
Google利用其视频生成模型Veo构建了一个世界模拟器,可以预测机器人算法在新颖环境中无需物理测试的表现。该系统准确排名了八个策略检查点并识别安全漏洞——如机器人撞倒笔记本电脑或过于激进地抓取瓶子——通过1600多次模拟运行,结果与真实世界高度相关。
速读
OpenAI取消新员工薪酬政策中的"归属悬崖"
OpenAI已经结束了要求员工在公司工作至少六个月其股权才能归属的薪酬政策。这一变化旨在鼓励新员工在没有被解雇前无法获得首次股权的担忧下承担风险。OpenAI已于4月将其新员工的归属期从行业标准的12个月缩短至6个月。xAI也在去年夏末进行了类似的更改。
Claude Code的开发体验太好,但这成了问题
https://www.bharath.sh/writing/claude-code-dx#it-feels-like-working-with-an-engineer
Claude Code的能力有了巨大增长。这意味着开发人员需要学习更多内容。Claude Code目前正专注于优化高级用户,同时试图不失去其他人。虽然学习曲线是可以管理的,但每项新功能都会增加负担。风险在于Claude Code变得如此强大以至于你需要学会使用Claude Code才能使用它。
Kimi K2 1T
https://threadreaderapp.com/thread/1943723599971443134.html
新的Kimi K2 1T模型(4位量化)可在2台512GB M3 Ultra上运行,使用mlx-lm和mx.distributed。
ARC-AGI:排行榜未展示的效率故事
https://madebynathan.com/2025/12/13/arc-agi-the-efficiency-story-the-leaderboards-dont-show/
最昂贵的前沿方法可能在一年内变得更便宜。
AI模式、内容和搜索索引
https://dejan.ai/blog/ai-mode-content-search-index/
Google的AI模式似乎从与搜索索引分离的专有内容存储中检索内容。
DeepSeek创始人梁文锋是什么样的人?
https://lmsherlock.substack.com/p/what-kind-of-person-is-deepseeks#footnote-9-179699980
梁文锋是一位以自己的方式创造成功的企业家,是现代受过教育的年轻人通过创业改变自己命运的典型例子。
Google翻译中的Gemini翻译
https://blog.google/products/search/gemini-capabilities-translation-upgrades/
Google正在将Gemini的先进翻译能力整合到Google翻译中,包括用于耳机实时语音对语音翻译的测试版以及用于练习和学习的新语言选项。
MCP编写调用MCP的代码:一路向下都是MCP
https://rouxbot.com/p/mcp-code-mode
本文探讨了如何为任何基于schema的集成构建通用引擎,而无需手动布线。