
头条
亚马逊推出了Nova Act
https://labs.amazon.science/blog/nova-act
亚马逊推出了Nova Act,这是一款能让智能体在网络浏览器内执行任务的人工智能模型。现已推出研究预览版SDK。该SDK可帮助开发者创建智能体,将复杂的多步骤任务分解为原子命令,并能操控浏览器以提高可靠性,从而执行这些任务。Nova Act旨在拓展智能体的能力,使其不局限于API所能处理的简单任务,提升商业生产力和任务自动化水平。
Runway的新视频模型
https://techcrunch.com/2025/03/31/runway-releases-an-impressive-new-video-generating-ai-model/
Runway发布了其下一代视频模型,该模型在准确遵循提示和生成电影级动态画面方面表现出色。
OpenAI将发布一个开放权重模型
https://links.tldrnewsletter.com/2SRqVP
OpenAI正在为一款具备推理能力的开放权重模型征求反馈。
研究
视频生成忠实度基准
https://arxiv.org/abs/2503.21755
一种用于确定视频生成与给定提示契合程度的基准。它还提出了一些方法,以提升模型生成与用户输入提示相关的质量。
从大语言模型(LLMs)中去除敏感内容
https://arxiv.org/abs/2503.21088v1
这篇论文提出了一种模型合并技术,能在保留常识的同时,有选择地让大语言模型(LLMs)忘掉敏感内容。
扩散模型中的最优步长(GitHub 仓库)
https://github.com/bebebe666/optimalsteps
扩散采样最优步长(OSS)通过动态规划学习高效步长调度,优化扩散模型中的采样。它能在保持几乎全部生成质量的同时,实现10倍加速。
工程
山姆威斯视频分割(GitHub 仓库)
https://github.com/ClaudiaCuttano/SAMWISE
这项工作赋予了SAM 2开放词汇分割功能,还能在长视频中实现更精准的语义追踪。
奥菲斯(GitHub 仓库)
https://github.com/freddyaboulton/orpheus-cpp
奥菲斯是一个文本转语音系统。它安装简单,无需GPU就能运行,和Llama cpp类似。
视频-R1(GitHub 仓库)
https://github.com/tulerfeng/video-r1
Video-R1引入一种基于规则的强化学习(RL)方法,用于视频推理,该方法采用GRPO的时间变体和新数据集。它能在4块H20或5块A100 GPU上高效训练。
其他
快速文本转 3D
https://theericma.github.io/TriplaneTurbo/
使用渐进式渲染蒸馏技术,在没有真实网格的情况下根据文本提示训练3D生成器,能在1.2秒内生成高质量的3D网格,效果优于先前方法。
用于水下场景理解的TIDE
https://hongklin.github.io/TIDE/
一种用于水下场景的文本到图像和密集注释生成方法,可生成具有一致像素级标签的高质量合成数据集。
地球人工智能公司的算法在其他人都忽视的地方发现了关键矿物。
Earth AI利用人工智能驱动的分析,在澳大利亚此前被忽视的地区发现了有开采前景的矿床。与传统方法不同,Earth AI的技术能快速扫描大片区域,以确定铜和钴等矿物的潜在开采地点。这种创新方法凸显了采矿业正转向利用人工智能进行更高效勘探的趋势。
Quora旗下的Poe推出最实惠订阅计划,每月5美元。
https://techcrunch.com/2025/03/25/quoras-poe-now-offers-an-affordable-subscription-plan-for-5-month/
Quora的聊天机器人应用Poe推出了新的订阅计划,每月5美元可获得1万每日积分,每月250美元可获得1250万积分。
英伟达的人工智能助手来了,能优化你的游戏电脑
https://www.theverge.com/news/635155/nvidia-g-assist-ai-assistant-available-download
英伟达的G-Assist项目是为RTX GPU用户打造的真正人工智能助手,可优化游戏设置、测量帧率并控制配件灯光。
据报道,英伟达正在洽谈收购Lepton AI
https://techcrunch.com/2025/03/26/nvidia-is-reportedly-in-talks-to-acquire-lepton-ai/
英伟达正洽谈以数亿美元收购服务器租赁公司Lepton AI。