
头条
OpenAI发布O3-PRO
o3-pro 是 o3 的渐进式升级版本。OpenAI 已将 o3 在科学、编程和商业任务方面的价格下调 80%。o3-pro 今日面向 Pro 和 Team 用户推出,取代 o1-pro。
Mistra推出首个AI推理模型
https://mistral.ai/news/magistral
在过去两周一系列发布成果的基础上,米斯特拉尔推出了开源推理模型Magistral。它在主要基准测试中落后于专有模型,但号称输出速度快10倍,多语言能力更强。
Meta计划向Scale AI投资150亿美元打造“超级智能”实验室
这笔交易将使Meta获得这家数据标注初创公司49%的股份,并让联合创始人王溢(Alexandr Wang)来领导一个新的“超级智能”实验室,目标是超越OpenAI、Anthropic和谷歌。这笔巨额投资是在Llama 4发布表现平平之后进行的,但尚不清楚除了备受追捧的人工智能研究人才外,这笔投资是否还包括能更多获取Scale为其他人工智能实验室创建的训练数据。
深度分析
Cursor的实际工程:为100倍增长而构建
https://newsletter.pragmaticengineer.com/p/cursor
Cursor联合创始人苏莱赫·阿西夫透露,这家成立两年的初创公司如何在服务器上不存储任何代码的情况下,每秒处理100多万次查询,还利用默克尔树进行安全索引。该团队在宕机期间通过切换数据库(数小时内从Yugabyte到PostgreSQL再到Turbopuffer)挺过了100倍的业务增长,并打造了基于Rust的调度器Anyrun来管理数千块GPU。
大语言模型中的推测解码
https://links.tldrnewsletter.com/DOW4tN
Perplexity运用推测解码来加速其Sonar模型,利用轻量级草稿模型提出多个由更大语言模型(LLMs)验证的词元。
通过专家模型集成共识迈向自适应临床人工智能
https://arxiv.org/abs/2505.23075
尽管大语言模型(LLMs)在临床上的应用日益广泛,但目前的方法严重依赖单一模型架构。共识机制是一种全新框架,可克服过时风险以及对单一模型系统的过度依赖。该机制模仿临床分诊和多学科临床决策,采用一组专业医疗专家智能体,在保持强大适应性的同时,助力提升临床决策水平。
工程
混合芯片集群助力高效大规模人工智能训练
https://arxiv.org/abs/2505.17548
上海的研究人员推出了DiTorch和DiComm,它们能统一英伟达、AMD等多种芯片架构的编程,让人们可以用手头任何硬件训练大规模模型。他们的框架能智能地将内存需求大的流水线阶段分配给内存更大的硬件,在1024块规格差异很大的芯片上训练1000亿参数模型时,效率提高了116%。这意味着那些没有数千块相同前沿GPU的实验室,也能把老旧、便宜或受出口管制的芯片组合成高效的“超级异构”集群,开展前沿人工智能训练。
强化预训练
https://arxiv.org/abs/2506.08007
强化预训练(RPT)是大型语言模型(LLMs)和强化学习(RL)的一种新的扩展范式。它提供了一种可扩展的方法,能利用大量文本数据用于通用强化学习。RPT显著提高了大型模型预测下一个词元的准确率。它还为进一步的强化微调提供了强大的预训练基础。
JAVELINGUARD:用于大语言模型(LLM)安全的低成本Transformer架构
https://www.arxiv.org/abs/2506.07330
标枪卫士(JavelinGuard)是一套低成本、高性能的模型架构,旨在检测大语言模型(LLM)交互中的恶意意图。每种架构在速度、可解释性和资源需求方面都有独特的权衡。这些架构针对生产部署进行了专门优化。本文对这些架构展开探索,在九个不同的对抗性数据集上对其进行基准测试,并将它们与领先的开源护栏模型和仅解码器的大型语言模型进行比较。
用更少词元实现高效多模态推理(GitHub 仓库)
https://github.com/visresearch/LLaVA-STF/tree/main
LLaVA-STF 通过合并相邻标记来压缩视觉标记序列,并添加了一个多块标记融合模块,可减少 75% 的标记。
其他
山姆·奥特曼勾勒通向超级智能之路
https://blog.samaltman.com/the-gentle-singularity
在一篇罕见的博文中,山姆·奥特曼宣称,我们已经越过了像GPT-4和o3这类在很多方面已超越人类的系统的 “事件视界”。他预测,到2025年智能体将从事真正的认知工作,2026年将有新奇的科学见解出现,到2027年实用机器人会问世。他将未来十年描绘成一个通过人工智能加速研究实现科学突破呈指数级增长的时期 。
在人工智能应用时代,“工作”意味着什么
https://a16z.com/revenue-benchmarks-ai-apps/
人工智能初创公司发展迅速,平均每家企业在第一年的年度经常性收入(ARR)就超过200万美元。面向消费者的初创公司也越来越受欢迎,年度经常性收入达到420万美元,超过了企业对企业(B2B)的公司。普通公司和顶尖公司之间的差距正在扩大,这凸显了加快速度和创新的必要性。
用由大语言模型(LLM)驱动的音频生成技术重塑文本转语音(TTS)
https://www.bland.ai/blogs/new-tts-announcement
布兰德人工智能公司重新构想了文本转语音(TTS)技术,利用大语言模型直接从文本预测音频,提升了表现力和上下文理解能力。这个新系统借助双声道对话数据集和专用音频分词器,实现精准且细腻的语音生成。它支持风格转换、音效整合和多语言适配等先进功能,为富有表现力的合成语音设定了新标准。
尽管存在人工智能竞争,OpenAI仍达成前所未有的交易,选择谷歌云
https://links.tldrnewsletter.com/qcvzW7
OpenAI的计算需求大增,现向其最大的搜索竞争对手寻求额外算力,这是它在微软之外的首个重要云合作伙伴 。
OpenAI宣布其最强推理模型O3降价80%
https://links.tldrnewsletter.com/s1mlmw
对于寻求先进推理能力的开发者来说,o3现在是一个更易获取的选择。
月度另类数据报告:OpenAI、谷歌、Meta、英伟达、亚马逊、微软、Anthropic
https://www.uncoveralpha.com/p/monthly-alternative-data-report-openai
本文总结了来自不同另类数据供应商和研究报告的一些极有价值的见解,涵盖人工智能、半导体、广告技术和云行业。
OpenAI的开源模型推迟了。
https://techcrunch.com/2025/06/10/openais-open-model-is-delayed/
OpenAI的开放模型将在6月之后的某个时间发布。
EVALS现在支持工具使用
https://threadreaderapp.com/thread/1932169029147557924.html
OpenAI用户现在在完成评估运行时可以使用工具和结构化输出,并能根据传入的参数和返回的响应来评估工具调用情况。