
头条
Claude Opus 4.5
https://www.anthropic.com/news/claude-opus-4-5
Claude Opus 4.5 是首个在 SWE-bench Verified 测试中得分超 80% 的模型。它在编码、工具使用和推理基准测试中都取得了顶尖成绩。该模型定价为每百万Token 5 美元/25 美元,比之前的 Opus 定价有所降低。它新增了“努力”参数,让开发者可以在速度和性能之间做权衡;具备自动上下文压缩功能,能实现无限长对话;Claude for Chrome 和 Claude for Excel 的使用范围也扩大了。
ChatGPT 推出购物研究功能
https://openai.com/index/chatgpt-shopping-research
正值假期,OpenAI推出了一个交互式产品发现功能,它能搜索网络、询问澄清问题,还能生成个性化的购买指南。用户可以通过标记产品“不感兴趣”或“类似的产品”来实时引导搜索。该系统借助ChatGPT的记忆实现个性化推荐。它由专门针对购物任务训练的GPT - 5迷你模型提供支持。
深度分析
Nano Banana Pro 力推太空船工程
https://angadh.com/inkhaven-23
Nano Banana Pro 能根据论文做出不错的图表。就算是免费版,它也能做出相当不错的演示文稿。这篇文章展示了给该模型输入宇宙飞船工程学论文后会有什么效果。虽然幻灯片里的内容仍需核实,但很明显,这项技术正朝着令人惊艳的方向发展,以后只会越来越好。
成本海啸
https://betterthanrandom.substack.com/p/a-tsunami-of-cogs
人工智能行业正在调整。OpenAI、Anthropic和Cursor正以负利润率补贴需求。谷歌被人工智能热潮打了个措手不及,花了一段时间才重整旗鼓,不过现在它强势回归了。它资金充裕,更有能力打负利润率这场仗。要是挑战者不想被成本的海啸淹没,就得做出改变。
通用大语言模型(LLM)记忆并不存在
https://fastpaca.com/blog/memory-isnt-one-thing
语义记忆负责记录偏好、长期经历和融洽关系。工作记忆负责记录文件路径、变量名和即时错误日志。语义记忆在跨会话个性化方面表现出色,但在处理任务执行状态时效果不佳。要把语义记忆和工作记忆当作有不同需求的独立系统。
工程
Claude 开发者平台推出高级工具使用功能
https://www.anthropic.com/engineering/advanced-tool-use
Anthropic为开发者推出了三项测试版功能。“工具搜索工具”可按需查找工具,无需提前加载所有定义,能减少85%的Toekn消耗。“编程式工具调用”能让Claude通过Python代码编排多个工具,而非单独调用API,可减少37%的令牌使用。“工具使用示例”能提供JSON模式之外的具体使用模式,处理复杂参数的准确率从72%提升至90%。
组建以人工智能为核心的工程团队
https://developers.openai.com/codex/guides/build-ai-native-engineering-team/
AI编码智能体正在革新软件开发流程,能处理从规划、原型设计到实施和运维分诊等任务,让工程师专注于架构和产品设计。现在,这些智能体可以进行长达数小时的推理,在规划、设计、开发、测试、代码审查和部署等环节都能发挥作用。采用编码智能体处理明确任务的团队,无需大幅改变现有工作流程,就能更快交付成果,提高效率。
其他
认真对待参差不齐的状况
https://helentoner.substack.com/p/taking-jaggedness-seriously
人工智能能力提升不均衡的情况会持续下去。因为有些任务有明确、可验证的奖励,可用于强化学习,但大多数实际工作没有。大多数工作需要从不同系统和人际关系中收集并整合信息。围绕人工智能现有最强能力重新设计工作流程的机构,将比那些等待业内所承诺的“全能远程员工”的机构更有优势。
Meta超大型新数据中心:人工智能与激进会计手段相遇
https://www.wsj.com/tech/meta-ai-data-center-finances-d3a6b464
Meta正举债建设一座价值270亿美元的数据中心。这座数据中心和相关债务都不会计入其资产负债表。从2029年开始,Meta将租赁该数据中心,最长可达20年。初始租期为4年,之后每4年可续租。这种租赁结构能让Meta确认的租赁负债和相关资产降至最低。
人工智能真的在吞噬世界吗?
https://philippdubach.com/2025/11/23/is-ai-really-eating-the-world/
目前的证据表明正在走向商品化,因为价值正向上游流动,而非流向模型供应商。
大语言模型(LLM)扩展的惨痛教训
https://www.sawyerhood.com/blog/llm-extension
我们从简单的系统提示,发展到复杂的客户端 - 服务器协议,现在又绕了回来。
阿尔特曼称,他们终于有了一款人工智能硬件原型。
https://www.theverge.com/news/827607/openai-hardware-prototype-chatgpt-jony-ive-sam-altman
OpenAI的首款硬件设备可能在两年内推出。
超火的国产编程应用
https://www.businessinsider.com/chinese-vibe-coding-app-lingguang-ant-group-china-viral-2025-11
蚂蚁集团的灵犀代码协作应用在六天内下载量突破200万(达到首个100万下载量的速度比ChatGPT或Sora还快)。
在埃尔德什问题网站上,人工智能辅助现已成为常规操作
https://mathstodon.xyz/@tao/115591487350860999
顶尖数学家正用人工智能来推导证明和解决问题。
亚马逊($AMZN)旗下的 AWS 今年夏天遭遇 AI 算力短缺问题
https://threadreaderapp.com/thread/1992908857870520450.html
AWS Bedrock 达到了关键容量限制,导致一些客户转投谷歌云等竞争对手。