头条

Stable Audio 2.0

Stability AI 宣布了下一代音乐生成模型。该模型经过适当许可的音乐训练后，可以生成长达 3 分钟的高质量音乐。它还具有音频到音频生成功能。

Opera 允许用户在本地下载和使用 LLM

Opera 推出了一项新功能，允许用户在计算机本地下载并运行大型语言模型，其中包含来自 50 多个系列的 150 多个模型。

AI模型可以在有限的人类输入下相互交谈并传递技能

研究人员开发了一种人工智能网络，其中一个人工智能可以教另一个人工智能使用自然语言处理来执行任务，这是一种以前从未展示过的能力。该系统使用一种名为 S-Bert 的模型，允许人工智能执行通过指令给出的任务，然后将该知识传递给另一个人工智能。这一突破在机器人技术中具有潜在的应用，并可以进一步了解人类的认知功能。

研究

RealKIE：用于企业关键信息提取的五个新颖数据集

从数据集中提取信息对于企业人工智能应用至关重要。这五个新的基准数据集可用于衡量 RAG 应用程序的一般算法性能。

提高Transformer 效率

研究人员开发了 DiJiang，这是一种新方法，可以将现有的 Transformers 转变为更精简、更快的模型，而无需承担再训练的沉重负担。

使用以世界为中心的扩散 Transformer 的自动驾驶

这项研究引入了一种为自动驾驶汽车创建驾驶路径的新方法，该方法将扩散模型和变压器结合在一个名为“以世界为中心的扩散 Transformer”（WcDT）的系统中。

工程

大型物体的 3D 检测 (GitHub Repo))

SeaBird 是一种新的 3D 检测方法，擅长识别传统单目探测器无法识别的大型物体。

人工智能可以识别无法解决的问题吗？ (GitHub Repo)

该项目在视觉语言模型中引入了不可解决问题检测（UPD）的概念，这是一项新测试，旨在了解人工智能是否可以识别何时无法解决问题。

足球中的动作识别r (GitHub Repo)

ASTRA 是一个基于 Transformer 的模型，能够识别足球比赛中的关键时刻并克服动作本地化和数据不平衡等挑战。

杂七杂八

GenAI 泡沫何时破灭？

生成式人工智能可能会令人失望。人们担心该技术缺乏盈利能力、安全问题以及语言模型中固有的幻觉问题。除非像 GPT-5 这样的突破性模型在 2024 年底之前发布，解决关键问题并提供杀手级应用程序，否则围绕生成式 AI 的炒作可能会开始消散。

Worldcoin Foundation 开源 Orb 软件的核心组件

Tools for Humanity 为 Worldcoin Orb 开发了一个安全且强大的计算环境，该环境利用 NVIDIA Jetson 进行处理，并利用 Arm Cortex M4 微控制器实现实时功能。 Orb 运行 Rust 应用程序，并使用 NVIDIA 的 TensorRT 进行神经网络推理。它由一个名为 Orb OS 的、专注于安全的定制 GNU/Linux 发行版提供支持。该系统集成了用于加密的安全元件，并支持后端身份验证的可信执行环境。

驯服世界上最危险技术的全球暗战

本文深入探讨了监管人工智能的复杂国际努力，人工智能被视为现代最有效和最危险的技术之一。

谷歌可能会让 SGE 成为付费功能

据报道，谷歌正在考虑将搜索生成体验（SGE）作为一项付费功能，作为其 Google One AI Premium 订阅的一部分，该功能已通过搜索实验室提供近一年了。

人工智能基础设施解释

以 GPU、专业软件和云服务为基础的人工智能基础设施对于人工智能技术的部署和扩展至关重要。

2024-04-07 简讯 : Stable Audio 2.0