2025-04-10 简讯 : 亚马逊推出2分钟短视频NOVA REEL


头条


亚马逊推出2分钟短视频NOVA REEL

https://aws.amazon.com/blogs/aws/amazon-nova-reel-1-1-featuring-up-to-2-minutes-multi-shot-videos/

更新后的Nova Reel模型现在支持长达2分钟的多镜头视频,为生成式视频内容提供了更多创意控制和更高效率。

Meta回应Llama 4传闻

https://links.tldrnewsletter.com/ezYigq

Meta的生成式人工智能副总裁否认了关于Llama 4模型在基准测试集上训练的说法,反驳了有关性能分数虚高的指控。


研究


通过测试时训练实现一分钟视频生成

https://test-time-training.github.io/video-dit/

这项研究引入了测试时训练(TTT)层,其隐藏状态表现力强,能克服标准Transformer和Mamba等模型在生成连贯长视频方面的局限。通过将TTT层集成到预训练模型中,研究人员展示了从文本脚本生成连贯一分钟视频的能力。经人类评估,在讲述复杂故事方面,该方法明显优于基线方法。《猫和老鼠》动画是测试平台 。

扩展语音语言模型

https://arxiv.org/abs/2504.02398v1

这项研究发现,通过交错训练从文本模型初始化的语音语言模型,比纯语音模型的扩展效率更高。

基准测试网络智能体能力

https://arxiv.org/abs/2504.01382v1

Online-Mind2Web是针对自主网络智能体的一个现实评估基准。由于基准存在缺陷,当前模型的表现比预期差。


工程


VARGPT(GitHub 仓库)

https://github.com/VARGPT-family/VARGPT-v1.1

单一自回归框架下的双重理解与合成模型。这意味着一个模型既能为图像添加字幕,又能生成图像。

FLEXTOK(GitHub 仓库)

https://github.com/apple/ml-flextok

苹果的开源工作。这是该公司几周前一篇论文的后续成果,那篇论文提出可将图像按可变数量的标记进行标记化处理。这意味着更复杂的图像可以使用更多标记。

自适应梯度裁剪(GitHub 仓库)

https://github.com/bluorion-com/ZClip

ZClip利用基于EMA的梯度范数统计信息,自适应抑制异常梯度,防止损失激增,且无需静态阈值就能提高训练稳定性。


其他


谷歌3月人工智能亮点

https://blog.google/technology/ai/google-ai-updates-march-2025/

谷歌回顾3月重大更新,包括Gemini 2.5 Pro、扩展的AI概述、AI模式,以及其产品的其他功能推出情况。

吉尼克斯人工智能虚拟形象

https://links.tldrnewsletter.com/PKGlgz

Genies推出了一个无代码平台,任何人都能用它创建智能AI虚拟形象,这些形象有独特外貌、个性和行为,可用于名为“Parties”的定制游戏体验。这些AI虚拟形象由大语言模型、行为AI和实时动画技术提供支持,能实现动态互动、游戏玩法和情感反应。

奥特曼称,OpenAI计划在推出GPT-5之前发布O3和O4-Mini

https://decrypt.co/313379/openai-o3-o4-mini-release-before-gpt5

OpenAI将在GPT-5之前发布中间模型o3和o4-mini。这种错开发布是由于GPT-5存在技术复杂性,这样能改进并更好应对预期需求。这一转变发生之际,谷歌的Gemini 2.5 Pro等竞争对手在人工智能领域取得进展。OpenAI刚刚获得了一轮400亿美元的融资。

OpenAI的O3模型运行成本可能比最初预计的要高

https://techcrunch.com/2025/04/02/openais-o3-model-might-be-costlier-to-run-than-originally-estimated/

Arc Prize基金会修订了OpenAI的o3计算成本估算,表明其比最初预想的要高得多,每个ARC-AGI问题可能高达3万美元。

将多模态搜索引入人工智能模式

https://blog.google/products/search/ai-mode-multimodal-search/

谷歌将其AI模式功能扩展至数百万美国Labs用户,并通过多模态功能对其进行增强。

悟视频模型

https://saiyan-world.github.io/goku/

字节跳动的“悟空”是基于流的视频生成模型,有2B和8B两种参数规模,拥有1.6亿图像和3600万视频对。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容