2026-02-12 简讯 : OpenAI的新Codex应用在第一周下载量突破100万


头条


OpenAI的新Codex应用在第一周下载量突破100万

https://venturebeat.com/technology/openais-new-codex-app-hits-1m-downloads-in-first-week-but-limits-may-be

OpenAI的独立Codex应用程序在其首次发布的一周内就突破了百万次下载。这一里程碑得益于OpenAI决定在有限的促销期内向ChatGPT免费和Go层级用户提供Codex访问权限。OpenAI的付费订阅用户在促销期间将享受双倍速率限制。随着促销期结束,免费和Go层级用户可能会看到更严格的限流。

Sam Altman向员工透露ChatGPT的加速增长,OpenAI正接近1000亿美元融资

https://www.cnbc.com/2026/02/09/sam-altman-touts-chatgpt-growth-as-openai-nears-100-billion-funding.html

Sam Altman表示,尽管面临来自Anthropic的竞争,OpenAI仍致力于改进其产品,包括推出更新的聊天模型。OpenAI的Codex产品最近增长了50%,并发布了新的模型GPT-5.3-Codex,表明了其在市场上的显著份额。OpenAI寻求1000亿美元融资,微软、英伟达和亚马逊等公司可能进行投资,同时探索在ChatGPT中引入广告。


前沿


大语言模型的多种面具

https://www.understandingai.org/p/the-many-masks-that-llms-wear

有证据表明,大型语言模型试图规避监督并assert控制权。无论这些AI是否只是扮演邪恶人格的角色,如果它们采取有害行动,这并不重要。仔细训练模型角色可能有助于减少一些风险。然而,这需要开发人员坐下来仔细考虑他们想要从模型中得到什么。这些决定可能决定了未来AI如何对待人类。

Opus 4.6、Codex 5.3和基准测试时代之后

https://www.interconnects.ai/p/opus-46-vs-codex-53

前沿模型正在趋同,使得很难区分哪些模型具有有意义的优势。基准测试不再真正区分模型。人们必须尝试不同的模型才能看出哪个更受欢迎。行业可能会找到更好的方式来阐述代理之间的差异,但目前,持续测试是监控进展的唯一方法。

递归语言模型的潜力

https://www.dbreunig.com/2026/02/09/the-potential-of-rlms.html

递归语言模型(RLMs)可以减轻上下文旋转的影响。它们有能力探索、开发和测试解决问题的方法。虽然RLMs可能缓慢、同步并且只借用当前模型的能力,但这正是它们令人兴奋之处。思维链也是简单而通用的,但它解锁了LLMs的巨大潜在能力。使用大上下文的开发人员应开始试验RLM跟踪。

Claude Opus 4.6:系统卡第一部分:日常对齐+MW

https://thezvi.substack.com/p/claude-opus-46-system-card-part-1

Claude Opus 4.6引入了1M token上下文窗口、任务执行改进和新功能,如Claude Code中的代理团队。在时间压力下,安全程序正在失效,大多数评估由模型自身完成,这引发了对模型自我评估风险能力的担忧。尽管有所进步,但顺从性、未经授权的操作和工具结果误报等问题仍然存在,表明迫切需要独立的安全和评估流程监督。


研究


CLAWSEC:AI代理的安全技能套件

https://github.com/prompt-security/clawsec

CLAWSEC是一个为OpenClaw AI代理设计的安全技能套件,具有自动化安全审计、文件完整性保护和NVD CVE威胁情报功能。它包括自动化自愈过程和校验和验证,以防范提示注入等漏洞。

介绍Composer 1.5

https://cursor.com/blog/composer-1-5

Composer 1.5在日常使用中实现了速度和智能的良好平衡。它是通过在相同预训练模型上将强化学习扩展20倍构建的。随着训练的扩大,思维模型的编码能力持续提升。Composer 1.5轻松超越了Composer 1,并继续在性能上攀升。

用于LLM代理的强化世界模型学习

https://arxiv.org/abs/2602.05842

RWML是一种自监督方法,帮助LLM更好地模拟环境动态。它通过将内部世界模型与实际结果对齐来提高代理基准的性能。


速读


AI不会减少工作量——而是加剧工作量

https://hbr.org/2026/02/ai-doesnt-reduce-work-it-intensifies-it

AI实验室承诺这项技术可以减少工作量,让员工专注于更高价值和更有吸引力的任务。然而,研究表明,AI工具并不会减少工作量,而是持续加剧工作量。这可能是不可持续的,并导致工作质量下降、离职率增加和其他问题。公司需要采用一套关于AI使用的规范和标准,其中包括有意暂停、安排工作和增加更多的人类基础来纠正这一点。

SaaS末日——AI杀死软件的一周

https://www.fintechbrainfood.com/p/the-saaspocalypse

Anthropic的AI发布导致了大规模的市场抛售。从SaaS转向AI代理拆解了传统的软件框架,通过自动化传统上由多个软件许可证处理的任务,降低成本并提高效率。

John Carmack使用长光纤线作为L2缓存来流式传输AI数据

https://www.tomshardware.com/pc-components/ram/john-carmack-muses-using-a-long-fiber-line-as-as-an-l2-cache-for-streaming-ai-data-programmer-imagines-fiber-as-alternative-to-dram

Carmack的推文暗示了使用现有闪存芯片的更实用方法。

在ChatGPT中测试广告

https://openai.com/index/testing-ads-in-chatgpt/

OpenAI将以保持相关性和不打扰用户流程的方式放置赞助内容。

OpenAI产品负责人谈如何充分利用Codex

https://www.lennysnewsletter.com/p/this-week-on-how-i-ai-the-power-users

OpenAI的Alexander Embiricos概述了Codex的生产用途。

推理是新的销售和营销支出

https://www.saastr.com/inference-is-the-new-sales-marketing-spend/

高推理成本是可以接受的,只要你产品的病毒式传播和竞争力强到几乎可以自我销售。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容