论文笔记 Glow-TTS:A Generative Flow for Text-to-Speech via Monomic Alignment Search

Glow-TTS:A Generative Flow for Text-to-Speech via Monomic Alignment Search     

---Jaehyeon Kim, Sungwon Kim, Jungil Kong, Sungroh Yoon

论文地址:https://arxiv.org/abs/2005.11129

相关代码(官方):https://github.com/jaywalnut310/glow-tts

Demo:https://jaywalnut310.github.io/glow-tts-demo/index.html

摘要

    Glow TTS是一个基于标准化流的并行化语音生成模型。它不像类似FastSpeech一样,需要一个“老师”模型预先学习对齐信息,而是通过单调对齐搜索算法(Monotonic Alignment Seacrch 简称MAS),搜索最优的文本特征与语音特征的对齐信息,而后并行的生成最终的语音特征。Glow TTS能够生成与Tacotron 2音质相当的语音,而且实时率达到了0.025,并且作者证明了,该模型在多人语音合成上,同样适用。另外,作者开源了相关代码。

1 Glow TTS

图1 Glow TTS训练过程(左)与推理过程(右)

    通常,用流来做条件概率密度估计的做法都是将给定条件先合并到流中,然后将数据映射到已知的条件流中。而Glow的做法不同,Glow TTS是将条件信息合并到流的统计信息中去(如高斯分布的均值及标准差),而不是直接合并到流中。

    具体的,音频信息-梅尔谱特征通过解码器网络fdec,生成隐变量z,并且z服从高斯分布Pz;文本信息c通过编码器网络fenc生成隐变量h,然后h通过网络生成高斯分布的均值u和标准差theta。此时,每帧的音频特征都映射成了某个特定的高斯分布,每个字符也都映射成了相应的高斯分布。

    接下来的工作就是寻找两类分布的映射矩阵A,也就是对齐矩阵。那么,怎样才叫做对齐了呢?作者定义,当音频帧j对应的隐变量z_j服从某个字符i对应的高斯分布时,就认为该音频帧与这个字符对应,即N(z_j;u_i,theta_i),也就是A(j)=i。在知道了对齐矩阵A的情况下,就可以计算似然概率了。如公式1所示。

公式1 似然概率计算公式

    有了似然概率公式后,就可以求最大似然概率了,如公式2所示,但是由于公式2中的代求变量有两个,即对齐矩阵A与网络参数theta,直接求是比较复杂的。于是,为了简化,作者用EM算法的思想,直接求取最大似然的下界。如公式3所示。

公式2 最大似然概率计算公式
公式3 最大似然概率计算简化版

    这样,最大似然计算就被简化成了两步计算,(1)在固定网络参数theta时,求解公式4;(2)在固定求得的对齐矩阵A下,求取参数theta。

公式4 固定theta计算A

    那么,如果计算A呢,作者提出了单调对齐搜索算法MAS。

1.1 MAS

图2 MAS算法

    MAS的算法描述如图2所示,其算法步骤表述的其实就是一个动态规划算法。即先计算所有的对齐概率,然后寻找一条最大概率搜索路径。算法的过程用图形表示如图3所示。

图3 MAS算法阐述

    显然,MAS算法是不能并行执行的,它的时间复杂度是O(T_text * T_mel),但是作者也说明了,这个算法耗时不到整个网络计算的开销的2%。所以并不会有太大的计算性能影响。

1.2 帧数预测网络

    由于训练时是有对应的文本和音频特征的,所以可以直接通过求解对齐矩阵A计算每个输入的字符应该对应哪些音频帧,但是在推理时是没有音频信息的,也就没法反算A。所以需要一个字符对应音频特征帧数预测网络来预测每个字符对应的音频帧数,然后得到A,有了A,有了学习得到的网络参数theta,就可以计算输出了。具体的相关公式如公式5所示。

公式5 帧数预测相关公式

    有了帧数预测网络,在推理阶段,就能够将文本信息映射成相应的隐变量z,然后通过解码器网络的逆运算,求出需要生成的语音特征。最后结合声码器(作者用的是WaveGlow),生成语音。

    需要注意的是,训练阶段,帧数预测网络的梯度更新是不影响编码器网络的,如公式5中的sg表示。在图1(a)中也有所体现。

1.3 整体网络架构

1.3.1 编码器结构

    编码器结构如图4所示。

图4 编码器

1.3.2 解码器

    解码器结构如图5所示。

图5 解码器结构

    其中queeze操作如图6所示。

图6 queeze操作

1.3.3 参数设置

    整个网络的参数设置如表1所示。

表1 网络参数

2 实验部分

 2.1 单人数据实验

    单人实验数据使用的是LJSpeech的24小时数据,结果如表2所示及图7所示。

表2 Glow TTS 单人MOS评分
图7 推理时间比较

2.2 多人数据实验

    作者用LibriTTS的245人,约54小时数据训练了模型,其结果如表3所示。

表3 Glow TTS 多人MOS评分

    可见,多人模型的效果有明显的下降。

2.3 其他实验

    作者还做了一些其他实验,例如语速控制、音色转换等,具体参看论文,这里略过。

部分参考文献

Battenberg, E., Skerry-Ryan, R., Mariooryad, S., Stanton,D., Kao, D., Shannon, M., and Bagby, T. Locationrelative attention mechanisms for robust long-form speech synthesis. arXiv preprint arXiv:1910.10288, 2019.

Dinh, L., Krueger, D., and Bengio, Y. Nice: Non-linear independent components estimation. arXiv preprintarXiv:1410.8516, 2014.

Dinh, L., Sohl-Dickstein, J., and Bengio, S. Density estimation using real nvp. arXiv preprint arXiv:1605.08803, 2016.

Durkan, C., Bekasov, A., Murray, I., and Papamakarios, G.Neural spline flflows. In Advances in Neural InformationProcessing Systems, pp. 7509–7520, 2019.

Gibiansky, A., Arik, S., Diamos, G., Miller, J., Peng, K.,Ping, W., Raiman, J., and Zhou, Y. Deep voice 2: Multispeaker neural text-to-speech. In Advances in neuralinformation processing systems, pp. 2962–2970, 2017.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353