语音合成/识别 WaveNet

声明:转载请声明作者,并添加原文链接。

简介

这篇博客主要解读WaveNet 语音识别/合成算法。 这篇论文另辟蹊径, 主要使用dilated casual CNN  而不是LSTM 去实现语音算法, 非常值得学习。 主要内容可以总结如下

1.    WaveNet 通用模型介绍, 不只是针对于语音模型

2.    WaveNet 实验结果介绍

3.    实战tensorflow WaveNet 的实验过程, 实战选择的是 WaveNet ASR. 主要原因是ASR 的标注比较容易判断, 而语音合成text-to-speech很不好判断, 主要通过人工打分。

本文实战代码是 https://github.com/buriburisuri/speech-to-text-wavenet, WaveNet 论文是https://arxiv.org/pdf/1609.03499.pdf

WaveNet 模型

通用WaveNet

Fig. 1 WaveNet 结构图

这里dilated casual convolution 翻译成带洞因果卷积。带洞对应的就是dilated,  就是和普通卷积步长stride 不同,  stride会更大一些, 这样关注的范围 (receptive field)就变大了. casual 对应的就是因果,主要就是不要用未来的输出/结果做当前的输入。  这个方法对比RNN, 好处就是可以并行计算, 提高预测训练速度。 但是这个方法还是有他本身的局限性。 在测试时,需要使用自回归 当前的输出语言当做输入进行下一时刻的计算 (auto regressive) 限制了他的速度。下面这个图, Fig. 2 解释了自回归的特点, 即当前的输出会当做下一时刻的输入进行计算。


Fig.2 WaveNet 动态展示 (https://deepmind.com/blog/wavenet-generative-model-raw-audio/)


Fig. 3 多层带洞卷积 WaveNet


Fig. 3 这里介绍了多层的带洞卷积wavenet. 这样做的目的就是提高感受视野(receptive field). 比如Fig. 3的output, 就是基于16 个Input 产生的, 这样感受视野会远远大于dilation =1 的多层网络。 WaveNet 的文章里用的dilation 是1, 2, 4, …, 512, 1, 2, 4, …, 512, 1, 2, 4, …, 512, 这个相当于有30层带洞卷积, 能关注的视野也就很大了。 具体计算,1,2,4,...512 需要有1024个输入。 那么1024*3/(16*1000), 就能关注192ms的信息了, 对于16kHz 的声音信号。


Fig.4 整体WaveNet 架构


WaveNet的整体结构就如Fig. 4 所示, 其中包含了残差连接,和gated activation unit.这个就是图中的两路, tanh 和sigmoid 的计算。 其他也没什么复杂的啦。

Conditional WaveNet



Gated activation unit


Conditioned  gated activation unit

前面讲的都是WaveNet 的通用属性,还没涉及到text-to-speech 或者speech recognition.  文章这里加了个h, 就是用来加一些依赖关系。 比如添加声音ID, 音乐器械的信息之类的。 对于text-to-speech, h 的信息就应该是 语音/语言特征值了。这里要说下, 由于使用了提前算好的特征值, WaveNet不是端到端的训练。

WaveNet 实验结果

WaveNet 这里的实验结果是主观测试, 判断生成的生意是否听起来自然。打分如下。

1: Bad, 2: Poor, 3: Fair, 4: Good, 5: Excellent

所以也就是算所有人打分的平均值啦。

实战tensorflow WaveNet

使用的代码再次强调 https://github.com/buriburisuri/speech-to-text-wavenet

模型架构

Fig. 5 WaveNet-ASR

这里使用的是MFCC feature. MFCC  如果不了解, 读者可以去学这个课。

https://nlp.stanford.edu/courses/lsa352/lsa352.lec6.6up.pdf

CTC loss 在我以前的博客中有讲解过。

整体的架构 就如Table, Layer 1, 2 就是front layer, 主要是全连接层+bn, 接下来Layer3-10 就是一个block, 这样的block 有 15个。 这些block 的区别就是dilation 不同。 dialtion 会从1, 2, 4, 8, 16 这样改变,重复三次, 就是15个block.

数据集

这个实验使用的数据集是

TED-LIUM https://projets-lium.univ-lemans.fr/ted-lium/release2/https://projets-lium.univ-lemans.fr/ted-lium/release2/

Libir speech http://www.openslr.org/12/http://www.openslr.org/12/

VCTK http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.htmlhttp://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html

这个实验我跑了一会就停止跑了, 需要的计算资源太大了, 跑出结果需要三四天。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容