
头条
亚马逊推出2分钟短视频NOVA REEL
https://aws.amazon.com/blogs/aws/amazon-nova-reel-1-1-featuring-up-to-2-minutes-multi-shot-videos/
更新后的Nova Reel模型现在支持长达2分钟的多镜头视频,为生成式视频内容提供了更多创意控制和更高效率。
Meta回应Llama 4传闻
https://links.tldrnewsletter.com/ezYigq
Meta的生成式人工智能副总裁否认了关于Llama 4模型在基准测试集上训练的说法,反驳了有关性能分数虚高的指控。
研究
通过测试时训练实现一分钟视频生成
https://test-time-training.github.io/video-dit/
这项研究引入了测试时训练(TTT)层,其隐藏状态表现力强,能克服标准Transformer和Mamba等模型在生成连贯长视频方面的局限。通过将TTT层集成到预训练模型中,研究人员展示了从文本脚本生成连贯一分钟视频的能力。经人类评估,在讲述复杂故事方面,该方法明显优于基线方法。《猫和老鼠》动画是测试平台 。
扩展语音语言模型
https://arxiv.org/abs/2504.02398v1
这项研究发现,通过交错训练从文本模型初始化的语音语言模型,比纯语音模型的扩展效率更高。
基准测试网络智能体能力
https://arxiv.org/abs/2504.01382v1
Online-Mind2Web是针对自主网络智能体的一个现实评估基准。由于基准存在缺陷,当前模型的表现比预期差。
工程
VARGPT(GitHub 仓库)
https://github.com/VARGPT-family/VARGPT-v1.1
单一自回归框架下的双重理解与合成模型。这意味着一个模型既能为图像添加字幕,又能生成图像。
FLEXTOK(GitHub 仓库)
https://github.com/apple/ml-flextok
苹果的开源工作。这是该公司几周前一篇论文的后续成果,那篇论文提出可将图像按可变数量的标记进行标记化处理。这意味着更复杂的图像可以使用更多标记。
自适应梯度裁剪(GitHub 仓库)
https://github.com/bluorion-com/ZClip
ZClip利用基于EMA的梯度范数统计信息,自适应抑制异常梯度,防止损失激增,且无需静态阈值就能提高训练稳定性。
其他
谷歌3月人工智能亮点
https://blog.google/technology/ai/google-ai-updates-march-2025/
谷歌回顾3月重大更新,包括Gemini 2.5 Pro、扩展的AI概述、AI模式,以及其产品的其他功能推出情况。
吉尼克斯人工智能虚拟形象
https://links.tldrnewsletter.com/PKGlgz
Genies推出了一个无代码平台,任何人都能用它创建智能AI虚拟形象,这些形象有独特外貌、个性和行为,可用于名为“Parties”的定制游戏体验。这些AI虚拟形象由大语言模型、行为AI和实时动画技术提供支持,能实现动态互动、游戏玩法和情感反应。
奥特曼称,OpenAI计划在推出GPT-5之前发布O3和O4-Mini
https://decrypt.co/313379/openai-o3-o4-mini-release-before-gpt5
OpenAI将在GPT-5之前发布中间模型o3和o4-mini。这种错开发布是由于GPT-5存在技术复杂性,这样能改进并更好应对预期需求。这一转变发生之际,谷歌的Gemini 2.5 Pro等竞争对手在人工智能领域取得进展。OpenAI刚刚获得了一轮400亿美元的融资。
OpenAI的O3模型运行成本可能比最初预计的要高
Arc Prize基金会修订了OpenAI的o3计算成本估算,表明其比最初预想的要高得多,每个ARC-AGI问题可能高达3万美元。
将多模态搜索引入人工智能模式
https://blog.google/products/search/ai-mode-multimodal-search/
谷歌将其AI模式功能扩展至数百万美国Labs用户,并通过多模态功能对其进行增强。
悟视频模型
https://saiyan-world.github.io/goku/
字节跳动的“悟空”是基于流的视频生成模型,有2B和8B两种参数规模,拥有1.6亿图像和3600万视频对。