【论文速读】字节跳动音乐生成模型 Seed-Music

file

论文速读：https://arxiv.org/pdf/2409.09214 Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

速读海报

file

研究背景

1．研究问题

这篇文章要解决的问题是如何利用现代生成模型技术来降低音乐创作的门槛，使更多的人能够参与到音乐创作过程中。具体来说，文章提出了一套音乐生成和编辑系统Seed-Music，旨在通过高质量的音乐生成和细粒度的风格控制来支持音乐创作和后期制作。

2．研究难点：该问题的研究难点包括：

音乐信号的高度复杂性，既有短期的旋律连贯性，又有长期的结构的连贯性。
音乐生成的评估难度较大，需要领域专家来评估艺术质量。
生成模型需要大量的标注音乐数据，而这些数据的获取需要专业的音乐知识。
不同用户的需求多样，从新手到专业制作人对音乐创作工具的需求不同。

3．相关工作：该问题的研究相关工作有：

早期的符号音乐生成系统，如基于规则的系统和数据驱动的系统。
基于语言模型的生成方法，如AudioLM和Seed-family模型。
基于扩散模型的生成方法，如Noise2Music和Stable Audio。

研究方法

这篇论文提出了一个统一的框架，结合了自回归语言建模和扩散模型，用于解决高质量音乐生成和编辑的问题。具体来说，

1．音频令牌管道：该管道包括四个构建模块：

-音频分词器：将原始音乐波形转换为低速率离散令牌。

-自回归语言模型（即生成器）：根据用户控制输入生成前缀令牌，并预测目标音频令牌序列。

-令牌扩散模型：根据音频令牌预测vocoder潜在表示。

-声学vocoder：基于vocoder潜在表示合成高质量的44.1kHz立体声音频。

2．符号令牌管道：该管道包括以下步骤：

-根据用户提示，自回归语言模型生成对应的符号令牌。

扩散变换模型生成连续的vocoder潜在表示。

vocoder生成高质量的44.1kHz立体声音频。

3．vocoder潜在管道：该管道包括以下步骤：

训练一个在低潜在帧率下运行的变分自编码器（VAE）和一个扩散变换模型（DiT），将条件输入映射到归一化的连续vocoder潜在表示。

实验设计

1．数据收集

实验使用了多种来源的音乐数据，包括MIDI、ABC记谱、MusicXML等符号数据，以及高质量的音频数据。

2．实验设置：实验分为四个部分：

Lyrics2Song：生成基于用户提供的歌词和音乐风格描述的表演质量音乐。

-Lyrics2Leadsheet2Song：通过符号音乐表示增强可解释性，并生成lead sheet，允许用户在最终渲染前编辑旋律、和弦、乐器和节奏。

MusicEDiT：探索基于扩散的修复系统，允许用户编辑现有音乐音频片段的歌词和旋律。
零样本唱歌声音转换：允许用户根据其自己的声音修改现有音频的音色，最小化参考数据需求。

结果与分析

Lyrics2Song

系统能够生成具有表现力的声乐表演，支持短形式音频片段生成和全长曲目生产。生成的音频展示了引人入胜的旋律和广泛的乐器种类。

2． Lyrics2Leadsheet2Song

系统能够生成具有详细音符级别信息的lead sheet，并从中渲染出高质量的音频混合。

MusicEDiT

系统能够精确修改歌声，同时保留旋律和伴奏轨道，支持英语和普通话的歌词编辑。

4．零样本唱歌声音转换

系统能够在不同场景下执行唱歌声音转换，结果的质量取决于参考声音与目标唱歌信号的相似度。

总体结论

这篇论文介绍了Seed-Music，一套综合的音乐生成和编辑系统，旨在支持多样化的音乐创作工作流程。系统通过高质量的音乐生成和细粒度的风格控制，降低了音乐创作的门槛，使更多的人能够参与到音乐创作过程中。Seed-Music的多样化工具和框架能够满足从新手到专业制作人的各种需求，推动音乐创作的发展。

优点与创新

1．统一的框架

提出了一个结合自回归语言建模和扩散模型的框架，用于高质量的有控音乐生成。

2．多模态输入支持

系统能够处理包括歌词、风格描述、音频参考、乐谱和语音提示在内的多模态输入，实现细粒度的风格控制。

3．细粒度的音乐编辑工具

提供了交互式工具，允许用户在现有的音乐音频轨道中直接编辑人声歌词、旋律和音色。

4．零样本唱歌声音转换方法

提出了一种新颖的零样本唱歌声音转换方法，仅需用户10秒的唱歌或语音录音即可实现。

5．多种应用场景

系统支持人声和器乐乐器的生成、唱歌声音合成、唱歌声音转换、音乐编辑等多种应用。

6．中间表示的选择

提出了三种中间表示（音频令牌、符号音乐令牌和变分自编码器潜在表示），并根据具体任务选择合适的表示。

7．强化学习优化

通过强化学习方法改进生成输出与控制信号的对齐，提升音乐性。

8．实时流式解码

开发了模型蒸馏和流式解码方案，减少延迟并提供接近实时的体验。

不足与反思

1．领域复杂性

音乐信号高度复杂，包含短期旋律连贯性和长期结构一致性，模型必须同时生成旋律人声、和声和节奏打击乐。

2．评估难度

评估音乐生成模型通常需要领域专业知识来评估艺术质量，量化这些艺术元素具有挑战性。

3．数据复杂性

生成模型需要注释的音乐数据来学习如何根据歌词、流派、乐器和歌曲结构条件化输出，但音乐注释需要专门的领域知识。

4．多样化的用户需求和细分市场

新手创作者的需求与专业制作人的需求大不相同，文本到音乐的系统对初学者可能有变革性影响，但对专业制作人可能提供的价值有限。

5．未来的研究方向

未来的研究将继续探索音乐音频的最佳表示，关注压缩方法、解耦机制以及高层次语义与低层次声学特征之间的权衡。

关键问题及回答

问题1：Seed-Music框架中的三种中间表示（音频令牌、符号令牌和vocoder潜在表示）各自的优势和局限性是什么？

1．音频令牌：
优势：高效地编码了语义信息和声学信息，压缩率高，适合与自回归语言模型结合使用，能够连接不同的模态数据。

局限性：缺乏可解释性，音乐属性（如发音、音色和音高）嵌入在一个高度纠缠的格式中，生成器难以控制特定的音乐元素（如旋律和音色）。

2．符号令牌：

优势：离散且易于转换为与语言模型兼容的格式，具有良好的可解释性，允许创作者直接阅读和修改乐谱。

局限性：缺乏声学细节，系统依赖于渲染器的生成能力来呈现细腻的声学特性，需要大规模的对齐音频和符号转录数据。

3． vocoder潜在表示：

优势：作为连续的中间表示，捕捉了更多的细微信息，适合与扩散模型结合使用，渲染器可以更轻量级。

局限性：缺乏可解释性，且由于优化了音频重建，可能会编码过多的声学细节，影响生成器的预测任务。

问题2：Seed-Music框架中的Lyrics2Song系统是如何利用音频令牌管道生成高质量声乐表演的？

Lyrics2Song系统通过以下步骤利用音频令牌管道生成高质量声乐表演：

1．音频分词器：将原始音乐波形转换为低速率离散令牌。这些令牌包含了旋律、节奏、和声、音素和乐器音色等关键信息。

2．自回归语言模型（生成器）：根据用户提供的音乐风格描述和歌词生成目标音频令牌序列。生成器处理不同类型的控制信号（如分类信号、浮点信号和歌词信号），并使用教师强制法进行训练。

3．令牌扩散模型：根据音频令牌预测vocoder潜在表示。扩散模型通过逐步去噪的过程，从噪声中生成清晰的v ocoder潜在表示。

4．声学vocoder：从vocoder潜在表示渲染高质量的44.1kHz立体声音频波形。声学vocoder结合了扩散变换器和声学模型，确保生成的音频具有自然的音色和细节。

通过这些步骤，Lyrics2Song系统能够生成具有表现力的声乐表演，支持短形式音频片段生成和全长音轨生产，覆盖了广泛的乐器和流派。

问题3：Seed-Music框架中的MusicEDiT系统是如何实现基于扩散的音乐编辑的？

MusicEDiT系统通过以下步骤实现基于扩散的音乐编辑：

1．数据准备：使用内部音乐信息检索（MIR）模型对现有音乐音频片段进行预处理，提取歌词、旋律和其他音乐特征。

2．扩散变换器模型训练：将预处理后的数据作为条件输入，训练一个扩散变换器模型，使其能够根据条件输入预测和修复音乐片段中的缺失或错误部分。

3．编辑过程：在推理阶段，用户通过修改乐谱或提供新的歌词输入，触发扩散变换器模型进行修复。模型在每一步去噪的过程中，根据用户的输入逐步恢复和优化音乐片段。

4．后处理：生成的音乐片段通过声学vocoder进行渲染，确保最终的音频具有高质量和自然的音色。

通过这种基于扩散的修复方法，MusicEDiT系统能够精确修改现有音乐音频片段的歌词和旋律，同时保留旋律和背景音乐，实现高质量的音频编辑。

本文由博客一文多发平台 OpenWrite 发布！

【论文速读】字节跳动音乐生成模型 Seed-Music