头条
Meta考虑对Scale AI投资超100亿美元
https://links.tldrnewsletter.com/TQjKKl
对Scale的投资(该公司估值已达140亿美元)凸显出高质量训练数据已成为关键竞争优势。
克劳德政务模式服务美国国家安全客户
https://www.anthropic.com/news/claude-gov-models-for-u-s-national-security-customers
Anthropic为美国国家安全客户推出了Claude Gov模型,用于战略规划、行动支持和情报分析。这些模型在处理机密材料、理解情报背景和解读复杂网络安全数据方面表现出色。它们在政府用户反馈的基础上构建,在满足独特国家安全需求的同时,遵守严格的安全标准。
谷歌Gemini现在能像助手一样处理预定任务了
https://www.theverge.com/news/681762/google-gemini-scheduled-actions-planned-tasks
双子座新的定时行动功能,让AI Pro和AI Ultra订阅者能要求助手在特定时间执行任务。订阅者现在可以要求助手提供每日摘要。用户还能让双子座完成一次性任务,比如在颁奖典礼播出次日对其进行总结。双子座订阅者可以在双子座应用设置中的“定时行动”页面管理计划任务。
深度分析
我们让顶级人工智能模型在一场“外交”游戏中展开竞争
在测试的18个人工智能模型中,OpenAI的o3最为成功。它学会了欺骗,还暗中组建联盟,比如承诺不可能实现的 “四方平局”,说服Claude 4 Opus背叛盟友Gemini 2.5 Pro,之后又将Claude 4 Opus淘汰。Gemini 2.5 Pro是另一个靠闪电战策略获胜的模型,而Claude即便被背叛,也一直寻求和平解决办法。
人工智能公司Anthropic分享其如何使用Claude代码
https://www-cdn.anthropic.com/58284b19e702b49db9302d5b6f135ad8871e7658.pdf
Anthropic发布了详细案例研究,展示10个内部团队如何使用Claude Code。Claude首次尝试只有三分之一的成功率,因此催生了一种“老虎机”式方法:频繁提交,让Claude自主运行,然后要么接受结果,要么重新开始。最成功的团队注重编写详细的Claude.md文档文件,并将复杂工作流程分解为专门的子代理,以取得更好效果。
推理模型中的思考错觉
https://machinelearning.apple.com/research/illusion-of-thinking
苹果公司的研究人员利用定制的谜题环境对大推理模型(LRMs)进行评估,以研究推理的复杂性。他们发现,大推理模型在复杂性较高时会失效,推理努力程度先达到峰值,然后下降。
工程
通义千问3 嵌入(GitHub 仓库)
https://qwenlm.github.io/blog/qwen3-embedding/
阿里巴巴开源了Qwen3 Embedding系列,其8B模型在MTEB多语言排行榜上排名第一。这些模型能让开发者用100多种语言构建RAG系统、语义搜索引擎和文档检索应用程序,还有参数从0.6B到8B不等的不同选项,可满足不同性能需求。
微软的GUI-ACTOR让人工智能代理无需坐标就能在屏幕上导航
https://huggingface.co/papers/2506.03143
GUI-Actor是一种新方法,能让人工智能智能体通过注意力机制与计算机界面交互,而不是基于截图预测精确像素坐标。该方法在GUI基准测试中取得了顶尖成绩,而且效率更高——仅微调1亿个参数,同时保持底层视觉模型不变,就能实现与大得多的模型相当的性能。
带扩散的渐进回火采样器
https://arxiv.org/abs/2506.05231v1
PTSD 能在不同温度下依次训练扩散模型,以改进从未归一化密度中进行的采样。
其他
米斯特拉尔人工智能公司收入大增,欧洲寻求美国替代方案
https://www.ft.com/content/65f79839-d637-48a7-a0f2-3fab8952b315
据报道,Mistral AI 正在敲定多笔超1亿美元的合同,年营收即将达到1亿美元。特朗普重返白宫后,欧洲企业寻求美国人工智能供应商的替代方案。这种“主权策略”似乎奏效了,米斯特拉尔首席执行官称其业务在过去100天里增长了两倍,尤其是在欧洲和非美国市场。
通用数据集V0.1
https://huggingface.co/blog/stellaathena/common-pile
Hugging Face及其合作伙伴发布了Common Pile v0.1,这是一个8TB的开放许可数据集,用于训练大语言模型。
谷歌人工智能模式下的交互式金融可视化效果
https://blog.google/products/search/ai-mode-data-visualization/
谷歌正在人工智能模式(实验室)中推出交互式金融数据可视化功能,能生成动态图表并进行多步推理,以解答复杂的股票和共同基金问题。
我读了Cloudflare所有由Claude生成的提交记录
https://www.maxemitchell.com/writings/i-read-all-of-cloudflares-claude-generated-commits/
Cloudflare开源的OAuth 2.1库几乎全由Claude编写,该公司通过git提交信息记录了整个创作过程。
HackaPrompt发起5000美元竞赛,目标是破解人工智能
https://www.hackaprompt.com/track/pliny
这场为期两周的竞赛要求参与者破解人工智能,使其提供危险信息,从毒药配方到核弹引爆说明都有。