【论文速读】字节跳动音乐生成模型 Seed-Music

file

论文速读:https://arxiv.org/pdf/2409.09214 Seed-Music: A Unified Framework for High Quality and Controlled Music Generation

速读海报

file

研究背景

1.研究问题

这篇文章要解决的问题是如何利用现代生成模型技术来降低音乐创作的门槛,使更多的人能够参与到音乐创作过程中。具体来说,文章提出了一套音乐生成和编辑系统Seed-Music,旨在通过高质量的音乐生成和细粒度的风格控制来支持音乐创作和后期制作。

2.研究难点:该问题的研究难点包括:

  • 音乐信号的高度复杂性,既有短期的旋律连贯性,又有长期的结构的连贯性。

  • 音乐生成的评估难度较大,需要领域专家来评估艺术质量。

  • 生成模型需要大量的标注音乐数据,而这些数据的获取需要专业的音乐知识。

  • 不同用户的需求多样,从新手到专业制作人对音乐创作工具的需求不同。

3.相关工作:该问题的研究相关工作有:

  • 早期的符号音乐生成系统,如基于规则的系统和数据驱动的系统。

  • 基于语言模型的生成方法,如AudioLM和Seed-family模型。

  • 基于扩散模型的生成方法,如Noise2Music和Stable Audio。

研究方法

这篇论文提出了一个统一的框架,结合了自回归语言建模和扩散模型,用于解决高质量音乐生成和编辑的问题。具体来说,

1.音频令牌管道:该管道包括四个构建模块:

-音频分词器:将原始音乐波形转换为低速率离散令牌。

-自回归语言模型(即生成器):根据用户控制输入生成前缀令牌,并预测目标音频令牌序列。

-令牌扩散模型:根据音频令牌预测vocoder潜在表示。

-声学vocoder:基于vocoder潜在表示合成高质量的44.1kHz立体声音频。

2.符号令牌管道:该管道包括以下步骤:

-根据用户提示,自回归语言模型生成对应的符号令牌。

扩散变换模型生成连续的vocoder潜在表示。

vocoder生成高质量的44.1kHz立体声音频。

3.vocoder潜在管道:该管道包括以下步骤:

训练一个在低潜在帧率下运行的变分自编码器(VAE)和一个扩散变换模型(DiT),将条件输入映射到归一化的连续vocoder潜在表示。

实验设计

1.数据收集

实验使用了多种来源的音乐数据,包括MIDI、ABC记谱、MusicXML等符号数据,以及高质量的音频数据。

2.实验设置:实验分为四个部分:

  • Lyrics2Song:生成基于用户提供的歌词和音乐风格描述的表演质量音乐。

-Lyrics2Leadsheet2Song:通过符号音乐表示增强可解释性,并生成lead sheet,允许用户在最终渲染前编辑旋律、和弦、乐器和节奏。

  • MusicEDiT:探索基于扩散的修复系统,允许用户编辑现有音乐音频片段的歌词和旋律。

  • 零样本唱歌声音转换:允许用户根据其自己的声音修改现有音频的音色,最小化参考数据需求。

结果与分析

  1. Lyrics2Song

系统能够生成具有表现力的声乐表演,支持短形式音频片段生成和全长曲目生产。生成的音频展示了引人入胜的旋律和广泛的乐器种类。

2. Lyrics2Leadsheet2Song

系统能够生成具有详细音符级别信息的lead sheet,并从中渲染出高质量的音频混合。

  1. MusicEDiT

系统能够精确修改歌声,同时保留旋律和伴奏轨道,支持英语和普通话的歌词编辑。

4.零样本唱歌声音转换

系统能够在不同场景下执行唱歌声音转换,结果的质量取决于参考声音与目标唱歌信号的相似度。

总体结论

这篇论文介绍了Seed-Music,一套综合的音乐生成和编辑系统,旨在支持多样化的音乐创作工作流程。系统通过高质量的音乐生成和细粒度的风格控制,降低了音乐创作的门槛,使更多的人能够参与到音乐创作过程中。Seed-Music的多样化工具和框架能够满足从新手到专业制作人的各种需求,推动音乐创作的发展。

优点与创新

1.统一的框架

提出了一个结合自回归语言建模和扩散模型的框架,用于高质量的有控音乐生成。

2.多模态输入支持

系统能够处理包括歌词、风格描述、音频参考、乐谱和语音提示在内的多模态输入,实现细粒度的风格控制。

3.细粒度的音乐编辑工具

提供了交互式工具,允许用户在现有的音乐音频轨道中直接编辑人声歌词、旋律和音色。

4.零样本唱歌声音转换方法

提出了一种新颖的零样本唱歌声音转换方法,仅需用户10秒的唱歌或语音录音即可实现。

5.多种应用场景

系统支持人声和器乐乐器的生成、唱歌声音合成、唱歌声音转换、音乐编辑等多种应用。

6.中间表示的选择

提出了三种中间表示(音频令牌、符号音乐令牌和变分自编码器潜在表示),并根据具体任务选择合适的表示。

7.强化学习优化

通过强化学习方法改进生成输出与控制信号的对齐,提升音乐性。

8.实时流式解码

开发了模型蒸馏和流式解码方案,减少延迟并提供接近实时的体验。

不足与反思

1.领域复杂性

音乐信号高度复杂,包含短期旋律连贯性和长期结构一致性,模型必须同时生成旋律人声、和声和节奏打击乐。

2.评估难度

评估音乐生成模型通常需要领域专业知识来评估艺术质量,量化这些艺术元素具有挑战性。

3.数据复杂性

生成模型需要注释的音乐数据来学习如何根据歌词、流派、乐器和歌曲结构条件化输出,但音乐注释需要专门的领域知识。

4.多样化的用户需求和细分市场

新手创作者的需求与专业制作人的需求大不相同,文本到音乐的系统对初学者可能有变革性影响,但对专业制作人可能提供的价值有限。

5.未来的研究方向

未来的研究将继续探索音乐音频的最佳表示,关注压缩方法、解耦机制以及高层次语义与低层次声学特征之间的权衡。

关键问题及回答

问题1:Seed-Music框架中的三种中间表示(音频令牌、符号令牌和vocoder潜在表示)各自的优势和局限性是什么?

1.音频令牌:
优势:高效地编码了语义信息和声学信息,压缩率高,适合与自回归语言模型结合使用,能够连接不同的模态数据。

局限性:缺乏可解释性,音乐属性(如发音、音色和音高)嵌入在一个高度纠缠的格式中,生成器难以控制特定的音乐元素(如旋律和音色)。

2.符号令牌:

优势:离散且易于转换为与语言模型兼容的格式,具有良好的可解释性,允许创作者直接阅读和修改乐谱。

局限性:缺乏声学细节,系统依赖于渲染器的生成能力来呈现细腻的声学特性,需要大规模的对齐音频和符号转录数据。

3. vocoder潜在表示:

优势:作为连续的中间表示,捕捉了更多的细微信息,适合与扩散模型结合使用,渲染器可以更轻量级。

局限性:缺乏可解释性,且由于优化了音频重建,可能会编码过多的声学细节,影响生成器的预测任务。

问题2:Seed-Music框架中的Lyrics2Song系统是如何利用音频令牌管道生成高质量声乐表演的?

Lyrics2Song系统通过以下步骤利用音频令牌管道生成高质量声乐表演:

1.音频分词器:将原始音乐波形转换为低速率离散令牌。这些令牌包含了旋律、节奏、和声、音素和乐器音色等关键信息。

2.自回归语言模型(生成器):根据用户提供的音乐风格描述和歌词生成目标音频令牌序列。生成器处理不同类型的控制信号(如分类信号、浮点信号和歌词信号),并使用教师强制法进行训练。

3.令牌扩散模型:根据音频令牌预测vocoder潜在表示。扩散模型通过逐步去噪的过程,从噪声中生成清晰的v ocoder潜在表示。

4.声学vocoder:从vocoder潜在表示渲染高质量的44.1kHz立体声音频波形。声学vocoder结合了扩散变换器和声学模型,确保生成的音频具有自然的音色和细节。

通过这些步骤,Lyrics2Song系统能够生成具有表现力的声乐表演,支持短形式音频片段生成和全长音轨生产,覆盖了广泛的乐器和流派。

问题3:Seed-Music框架中的MusicEDiT系统是如何实现基于扩散的音乐编辑的?

MusicEDiT系统通过以下步骤实现基于扩散的音乐编辑:

1.数据准备:使用内部音乐信息检索(MIR)模型对现有音乐音频片段进行预处理,提取歌词、旋律和其他音乐特征。

2.扩散变换器模型训练:将预处理后的数据作为条件输入,训练一个扩散变换器模型,使其能够根据条件输入预测和修复音乐片段中的缺失或错误部分。

3.编辑过程:在推理阶段,用户通过修改乐谱或提供新的歌词输入,触发扩散变换器模型进行修复。模型在每一步去噪的过程中,根据用户的输入逐步恢复和优化音乐片段。

4.后处理:生成的音乐片段通过声学vocoder进行渲染,确保最终的音频具有高质量和自然的音色。

通过这种基于扩散的修复方法,MusicEDiT系统能够精确修改现有音乐音频片段的歌词和旋律,同时保留旋律和背景音乐,实现高质量的音频编辑。

本文由博客一文多发平台 OpenWrite 发布!

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 228,333评论 6 531
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 98,491评论 3 416
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 176,263评论 0 374
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 62,946评论 1 309
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 71,708评论 6 410
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,186评论 1 324
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,255评论 3 441
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,409评论 0 288
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 48,939评论 1 335
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 40,774评论 3 354
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 42,976评论 1 369
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,518评论 5 359
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,209评论 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 34,641评论 0 26
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 35,872评论 1 286
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 51,650评论 3 391
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 47,958评论 2 373

推荐阅读更多精彩内容