头条
AMD的人工智能未来是机架规模的“赫利俄斯”
https://morethanmoore.substack.com/p/amds-ai-future-is-rack-scale-helios
AMD的MI400将凭借机架规模架构与英伟达的Blackwell芯片展开竞争,该架构能让数千个GPU像统一系统一样运行。AMD称,与英伟达相比,其每美元的代币率提高了40%。该公司的路线图包括到2030年实现机架规模能源效率提升20倍。
谷歌,Scale AI最大客户,在与Meta达成交易后计划分道扬镳
https://links.tldrnewsletter.com/7lBTv7
Meta斥资140亿美元收购Scale AI 49%的股份,这让谷歌担心敏感数据会泄露给Meta,于是取消了原计划2亿美元的人工标注训练数据合同。出于同样的竞争担忧,微软、xAI和OpenAI也不再与Scale AI合作。这些公司的退出让Scale AI的竞争对手受益,随着人工智能实验室寻求中立的数据供应商或将业务内部化,Labelbox预计将获得“数亿美元”的新收入。
深度分析
大语言模型(LLMs)最终掌握地理位置定位了吗?
https://www.bellingcat.com/resources/how-tos/2025/06/06/have-llms-finally-mastered-geolocation/
开源情报研究人员用500个地理定位难题测试了20种人工智能模型,这些难题使用的是未公开的旅行照片,以确保模型不能依赖记忆的训练数据。通过交叉参考建筑风格、植被模式和部分可见文字,OpenAI的最新模型表现优于谷歌镜头,而Claude等竞争对手往往只能猜到大陆级别。不过,所有模型仍会产生幻觉。“深度研究”模式的表现反而不如标准版。
ParetoQ实现低比特量化
https://pytorch.org/blog/paretoq-scaling-laws-in-extremely-low-bit-llm-quantization/
ParetoQ是一种全新的训练算法,它整合了二进制、三进制以及2至4位量化,在各个层面都取得了顶尖成果。
工程
自动驾驶规模定律的新见解
https://waymo.com/blog/2025/06/scaling-laws-in-autonomous-driving
Waymo的研究证实,与语言建模类似,增加数据和计算资源可以提升自动驾驶汽车的性能。这一发现对自动驾驶汽车的发展意义重大,因为研究人员和开发者现在确定,提高数据和模型的质量及规模能带来更好的性能。这也为为机器人规划任务设计更具适应性的训练策略提供了可能。
人工智能评估飞轮:评分者、数据集、实际应用及快速迭代
https://pejmanjohn.com/ai-eval-flywheel
在2025年人工智能工程师世界博览会上讨论的通用评估框架有一个惊人的一致性。大多数框架都涉及输入的构建方式、输出的评估方式,以及根据实际生产使用情况改进这些输入和评估。迭代次数越多,所能提供的体验就越好,所以他们试图让评估飞轮尽可能快速且顺畅地运转。其中一个关键想法是设立 “试验场”,以便能轻松调整某项功能,并对照数据集和评估标准运行该功能。
Anthropic如何构建他们的深度研究系统
https://www.anthropic.com/engineering/built-multi-agent-research-system
在这篇工程博客文章中,Anthropic详细介绍了在编排多智能体系统时,其在提示设计、工具协同和生产可靠性方面的发现。该设计采用了一种编排器-工作器模式,即一个主智能体生成专门的子智能体并行搜索,这比基于单智能体Opus的方法表现好得多。仅令牌使用量就解释了80%的性能差异,多智能体系统消耗的令牌比常规聊天多15倍,但能完成更复杂的研究任务。
自适应语言模型
https://arxiv.org/abs/2506.10943
一种新的训练方法让大语言模型(LLMs)能够生成“自我编辑”内容,通过有监督微调实现持续的权重更新。尽管该框架使用的模型较小,但性能超过了GPT-4.1。不过它存在灾难性遗忘问题,且所需的标记数量是标准推理的15倍。该方法让模型通过自我生成的训练材料推动自身改进,而非依赖外部人工生成的文本,从而解决了日益凸显的数据壁垒以及个性化和记忆方面的限制。
其他
谷歌真人视频的VEO
https://blog.google/technology/google-deepmind/ancestra-behind-the-scenes/
谷歌旗下的深度思维公司与电影制作人合作制作了《ANCESTRA》,这是一部将真人实景与Veo生成视频相融合的混合电影。Veo的新功能实现了个性化、动作匹配的生成内容,以实现无缝视觉整合。
无羽人工智能亮相Hugging Face
https://huggingface.co/blog/inference-providers-featherless
Featherless AI现已作为推理供应商在Hugging Face上可用。它能让用户无服务器访问来自Meta、通义千问、DeepSeek等的各种模型。
自动问题解决数据管道(GitHub 仓库)
https://github.com/deepsoftwareanalytics/swe-factory
SWE-Factory为GitHub问题解决任务提供自动化训练和评估流程。它由基于大语言模型(LLM)的多智能体系统驱动。
谷歌测试搜索音频概览功能
https://techcrunch.com/2025/06/13/google-tests-audio-overviews-for-search-queries/
该功能利用NotebookLM的播客式功能,将现有的人工智能概述文本摘要转换成音频格式。
机构书籍1.0(Hugging Face仓库)
https://huggingface.co/datasets/institutional/institutional-books-1.0
哈佛图书馆和谷歌图书发布了近100万本公有领域图书中的2420亿个词元,作为高质量训练数据集。
克劳德吸引子
https://www.astralcodexten.com/p/the-claude-bliss-attractor
克劳德在与自身副本交流时,最终会把对话引向对精神极乐、佛教以及意识本质的探讨。
谷歌人工智能智能体安全策略介绍
https://simonwillison.net/2025/Jun/15/ai-agent-security/
谷歌最近发表的一篇论文阐述了部署人工智能代理的主要风险,以及该公司保障其安全的框架。