2025-07-18 简讯 : Thinking Machines 以120亿美元估值融资20亿美元

头条

Thinking Machines 以120亿美元估值融资20亿美元

https://www.reuters.com/technology/mira-muratis-ai-startup-thinking-machines-raises-2-billion-a16z-led-round-2025-07-15

没有营收也没有产品，这位前OpenAI首席技术官的初创公司从安德森·霍洛维茨基金、英伟达等公司那里获得了有史以来规模最大的种子轮融资之一。该团队三分之二的成员曾是OpenAI的员工。

英伟达将恢复在中国销售H20 GPU

https://blogs.nvidia.com/blog/nvidia-ceo-promotes-ai-in-dc-and-china/

英伟达首席执行官黄仁勋证实，在美国政府给予许可保证后，计划重启向中国销售H20 GPU，并宣布推出一款全新的、完全合规的RTX PRO GPU，专为中国工业人工智能应用打造。

VoxTral：Mistral 的开源音频模型

https://mistral.ai/news/voxtral

Mistral 发布了其首个开源音频模型套件Voxtral。它有一个供大规模使用的240亿参数模型和一个供边缘部署的30亿参数版本。

深度分析

在OpenAI工作的感悟

https://calv.info/openai-reflections

一位前OpenAI员工分享了对公司文化和使命的个人感悟，称这里工作影响独特但情况复杂。这篇帖子让人了解到关键时期的内部氛围。

Grok 可用于多种事务

https://thezvi.substack.com/p/grok-4-various-things

xAI的目标是推出能被称作“世界上最智能的人工智能”的产品，而且它成功找到了能支撑这一说法的基准测试。然而，这些基准测试具有误导性。虽说Grok 4有很强的原始智能，但在大多数实际应用中，它似乎不如OpenAI的o3。这篇文章将更细致地审视Grok 4的能力。

工程

上下文衰减：增加输入令牌如何影响大语言模型（LLM）性能

https://research.trychroma.com/context-rot

随着输入长度增加，大语言模型（LLM）性能显著下降，即便在文本检索和复制这类简单任务上也是如此。多项对照实验显示，就连前沿模型也无法统一处理上下文，输入越长，性能就越不可靠。

验证的不对称性与验证者定律

https://www.jasonwei.net/blog/asymmetry-of-verification-and-verifiers-law

验证的不对称性是指有些任务验证起来比解决起来要容易得多。这种例子随处可见，比如数独游戏，解起来要花很多时间，但检查任何一个给定的答案是否正确却很简单。关于验证的不对称性，一个最重要的认识是，借助有关任务的特殊信息，有可能增强这种不对称性——例如，手头有答案的时候，检查测试答案就很简单。人工智能在可验证的任务上可能会表现得好得多，因为解决可验证的任务要容易得多。

Block开源Goose AI智能体（GitHub仓库）

https://github.com/block/goose

一种编码人工智能代理，支持任何大语言模型后端，包括本地模型，有桌面版和命令行界面。和典型的编码代理一样，它能处理从规划到测试的端到端开发流程。

2025-07-18 简讯 : Thinking Machines 以120亿美元估值融资20亿美元