登录注册写文章

2025-04-10 简讯 : 亚马逊推出2分钟短视频NOVA REEL

2025-04-10 简讯 : 亚马逊推出2分钟短视频NOVA REEL

头条

亚马逊推出2分钟短视频NOVA REEL

https://aws.amazon.com/blogs/aws/amazon-nova-reel-1-1-featuring-up-to-2-minutes-multi-shot-videos/

更新后的Nova Reel模型现在支持长达2分钟的多镜头视频，为生成式视频内容提供了更多创意控制和更高效率。

Meta回应Llama 4传闻

https://links.tldrnewsletter.com/ezYigq

Meta的生成式人工智能副总裁否认了关于Llama 4模型在基准测试集上训练的说法，反驳了有关性能分数虚高的指控。

研究

通过测试时训练实现一分钟视频生成

https://test-time-training.github.io/video-dit/

这项研究引入了测试时训练（TTT）层，其隐藏状态表现力强，能克服标准Transformer和Mamba等模型在生成连贯长视频方面的局限。通过将TTT层集成到预训练模型中，研究人员展示了从文本脚本生成连贯一分钟视频的能力。经人类评估，在讲述复杂故事方面，该方法明显优于基线方法。《猫和老鼠》动画是测试平台。

扩展语音语言模型

https://arxiv.org/abs/2504.02398v1

这项研究发现，通过交错训练从文本模型初始化的语音语言模型，比纯语音模型的扩展效率更高。

基准测试网络智能体能力

https://arxiv.org/abs/2504.01382v1

Online-Mind2Web是针对自主网络智能体的一个现实评估基准。由于基准存在缺陷，当前模型的表现比预期差。

工程

VARGPT（GitHub 仓库）

https://github.com/VARGPT-family/VARGPT-v1.1

单一自回归框架下的双重理解与合成模型。这意味着一个模型既能为图像添加字幕，又能生成图像。

FLEXTOK（GitHub 仓库）

https://github.com/apple/ml-flextok

苹果的开源工作。这是该公司几周前一篇论文的后续成果，那篇论文提出可将图像按可变数量的标记进行标记化处理。这意味着更复杂的图像可以使用更多标记。

自适应梯度裁剪（GitHub 仓库）

https://github.com/bluorion-com/ZClip

ZClip利用基于EMA的梯度范数统计信息，自适应抑制异常梯度，防止损失激增，且无需静态阈值就能提高训练稳定性。

其他

谷歌3月人工智能亮点

https://blog.google/technology/ai/google-ai-updates-march-2025/

谷歌回顾3月重大更新，包括Gemini 2.5 Pro、扩展的AI概述、AI模式，以及其产品的其他功能推出情况。

吉尼克斯人工智能虚拟形象

https://links.tldrnewsletter.com/PKGlgz

Genies推出了一个无代码平台，任何人都能用它创建智能AI虚拟形象，这些形象有独特外貌、个性和行为，可用于名为“Parties”的定制游戏体验。这些AI虚拟形象由大语言模型、行为AI和实时动画技术提供支持，能实现动态互动、游戏玩法和情感反应。

奥特曼称，OpenAI计划在推出GPT-5之前发布O3和O4-Mini

https://decrypt.co/313379/openai-o3-o4-mini-release-before-gpt5

OpenAI将在GPT-5之前发布中间模型o3和o4-mini。这种错开发布是由于GPT-5存在技术复杂性，这样能改进并更好应对预期需求。这一转变发生之际，谷歌的Gemini 2.5 Pro等竞争对手在人工智能领域取得进展。OpenAI刚刚获得了一轮400亿美元的融资。

OpenAI的O3模型运行成本可能比最初预计的要高

https://techcrunch.com/2025/04/02/openais-o3-model-might-be-costlier-to-run-than-originally-estimated/

Arc Prize基金会修订了OpenAI的o3计算成本估算，表明其比最初预想的要高得多，每个ARC-AGI问题可能高达3万美元。

将多模态搜索引入人工智能模式

https://blog.google/products/search/ai-mode-multimodal-search/

谷歌将其AI模式功能扩展至数百万美国Labs用户，并通过多模态功能对其进行增强。

悟视频模型

https://saiyan-world.github.io/goku/

字节跳动的“悟空”是基于流的视频生成模型，有2B和8B两种参数规模，拥有1.6亿图像和3600万视频对。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

2025-04-03 简讯 : 亚马逊推出了Nova Act
头条亚马逊推出了Nova Act[https://labs.amazon.science/blog/nova-a...
数科每日阅读 157评论 0赞 0
2025-02-17 简讯 : AI 短视频《VEO 2》即将登陆 YouTube
头条 AI 短视频《VEO 2》即将登陆 YouTube [https://blog.youtube/news-a...
数科每日阅读 294评论 0赞 0

2024-09-09 简讯 : 阿里新模型 Qwen2-VL，可分析 20 分钟以上的视频
头条阿里新模型 Qwen2-VL，可分析 20 分钟以上的视频[https://venturebeat.com/...
数科每日阅读 340评论 0赞 0
2024-11-27 简讯 : Anthropic 宣布推出模型上下文协议
头条 Anthropic 宣布推出模型上下文协议[https://www.anthropic.com/news/m...
数科每日阅读 174评论 0赞 0
2025-01-13 简讯 : 独立应用Grok在美国iOS系统上发布
头条独立应用Grok在美国iOS系统上发布 [https://www.tomsguide.com/ai/xais...
数科每日阅读 227评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文