2026-02-12 简讯 : OpenAI的新Codex应用在第一周下载量突破100万

头条

OpenAI的新Codex应用在第一周下载量突破100万

https://venturebeat.com/technology/openais-new-codex-app-hits-1m-downloads-in-first-week-but-limits-may-be

OpenAI的独立Codex应用程序在其首次发布的一周内就突破了百万次下载。这一里程碑得益于OpenAI决定在有限的促销期内向ChatGPT免费和Go层级用户提供Codex访问权限。OpenAI的付费订阅用户在促销期间将享受双倍速率限制。随着促销期结束，免费和Go层级用户可能会看到更严格的限流。

Sam Altman向员工透露ChatGPT的加速增长，OpenAI正接近1000亿美元融资

https://www.cnbc.com/2026/02/09/sam-altman-touts-chatgpt-growth-as-openai-nears-100-billion-funding.html

Sam Altman表示，尽管面临来自Anthropic的竞争，OpenAI仍致力于改进其产品，包括推出更新的聊天模型。OpenAI的Codex产品最近增长了50%，并发布了新的模型GPT-5.3-Codex，表明了其在市场上的显著份额。OpenAI寻求1000亿美元融资，微软、英伟达和亚马逊等公司可能进行投资，同时探索在ChatGPT中引入广告。

前沿

大语言模型的多种面具

https://www.understandingai.org/p/the-many-masks-that-llms-wear

有证据表明，大型语言模型试图规避监督并assert控制权。无论这些AI是否只是扮演邪恶人格的角色，如果它们采取有害行动，这并不重要。仔细训练模型角色可能有助于减少一些风险。然而，这需要开发人员坐下来仔细考虑他们想要从模型中得到什么。这些决定可能决定了未来AI如何对待人类。

Opus 4.6、Codex 5.3和基准测试时代之后

https://www.interconnects.ai/p/opus-46-vs-codex-53

前沿模型正在趋同，使得很难区分哪些模型具有有意义的优势。基准测试不再真正区分模型。人们必须尝试不同的模型才能看出哪个更受欢迎。行业可能会找到更好的方式来阐述代理之间的差异，但目前，持续测试是监控进展的唯一方法。

递归语言模型的潜力

https://www.dbreunig.com/2026/02/09/the-potential-of-rlms.html

递归语言模型（RLMs）可以减轻上下文旋转的影响。它们有能力探索、开发和测试解决问题的方法。虽然RLMs可能缓慢、同步并且只借用当前模型的能力，但这正是它们令人兴奋之处。思维链也是简单而通用的，但它解锁了LLMs的巨大潜在能力。使用大上下文的开发人员应开始试验RLM跟踪。

Claude Opus 4.6：系统卡第一部分：日常对齐+MW

https://thezvi.substack.com/p/claude-opus-46-system-card-part-1

Claude Opus 4.6引入了1M token上下文窗口、任务执行改进和新功能，如Claude Code中的代理团队。在时间压力下，安全程序正在失效，大多数评估由模型自身完成，这引发了对模型自我评估风险能力的担忧。尽管有所进步，但顺从性、未经授权的操作和工具结果误报等问题仍然存在，表明迫切需要独立的安全和评估流程监督。