语音合成学习(一)学习笔记
我们先要弄清楚一个问题:什么是语音,语音是由哪些成分构成的?
语音就是人说的话,它的记录形式是一段一段的波形。
语音有三大关键成分:信息音色和韵律。如果能将语音的成分充分自由地拆解和组合,将是对语音的巨大解放,未来将有无限的想象发展空间。
语音信息是指说话人说了什么内容。
语音的音色是指这段话是谁说的,有一句俗语:未见其人先闻其声。
韵律就是我们说话的方式,说话时我们声音的高低、快慢等。借用某位非著名相声演员的话来说:人人都会说话,为什么你还要花钱来听我说话?
一、介绍
定义
语音合成(text to speech),简称 TTS。将文字转化为语音的一种技术,类似于人类的嘴巴,通过不同的音色说出想表达的内容。将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
合成过程
主要包括:获取输入的文本→语言处理→韵律处理→声学处理→输出音频文件。其中语音识别主要是语言处理、韵律处理、声学处理三个阶段的操作。
- 语言处理
该阶段主要是模拟人类对大自然语言理解的过程,主要工作有输入文本分析、分词、语义分析,目的是让计算机能够尽可能准确理解输入文本的含义并为后面的环节做准备。
- 韵律处理
主要是为合成的语音规划出音高、音长、音强等语音特征,目的是为了让合成的语音能表达确切的语意,使得输出的. 音频文件更符合实际。
- 声学处理
这个阶段主要是把前两个阶段处理结果合成最终的音频文件。
二、应用场景
-
热门研究方向
- 语音转换:说话人转换、语音到歌唱转换、情感转换、口音转换等;
- 歌唱合成:文本到歌唱的转换;
- AI虚拟人:可视化语音合成的技术,现在热门的元宇宙就依赖语音合成技术;
-
应用方向
- 语音交互:机器人领域、智能车;
- 内容生成:有声读物,微信听书等;
- 辅助功能:对障碍人士起到辅助功能,能够让他们发声;
三、技术原理
在语音合成技术中,主要分为语言分析部分和声学系统部分,也称为前端部分和后端部分,语言分析部分主要是根据输入的文字信息进行分析,生成对应的语言学规格书,想好该怎么读;声学系统部分主要是根据语音分析部分提供的语音学规格书,生成对应的音频,实现发声的功能。
文本前端任务
- 文本结构与语种判断
当需要合成的文本输入后,先要判断是什么语种,例如中文,英文,藏语,维语等,再根据对应语种的语法规则,把整段文字切分为单个的句子,并将切分好的句子传到后面的处理模块。
- 文本标准化
在输入需要合成的文本中,有阿拉伯数字或字母,需要转化为文字。根据设置好的规则,使合成文本标准化。例如, “请问您是尾号为8967的机主吗?” “8967”为阿拉伯数字,需要转化为汉字“八九六七”,这样便于进行文字标音等后续的工作;再如,对于数字的读法,刚才的“8967“为什么没有转化为”八千九百六十七“呢?因为在文本标准化的规则中,设定了”尾号为+数字“的格式规则,这种情况下数字按照这种方式播报。这就是文本标准化中设置的规则。
- 文本转音素
在汉语的语音合成中,基本上是以拼音对文字标注的,所以我们需要把文字转化为相对应的拼音,但是有些字是多音字,怎么区分当前是哪个读音,就需要通过分词,词性句法分析,判断当前是哪个读音,并且是几声的音调。
例如,“南京市长 江大桥”为“nan2 jing1 shi4 zhang3 jiang1 da4 qiao2”或者“南京市 长江大桥”“nan2 jing1 shi4 chang2 jiang1 da4 qiao3”。
- 句读韵律预测
人类在语言表达的时候总是附带着语气与感情,TTS合成的音频是为了模仿真实的人声,所以需要对文本进行韵律预测,什么地方需要停顿,停顿多久,哪个字或者词语需要重读,哪个词需要轻读等,实现声音的高低曲折,抑扬顿挫。
声学系统处理
声学系统部分目前主要有三种技术实现方式,分别为:波形拼接,参数合成以及端到端的语音合成技术。
- 波形拼接语音合成
通过前期录制大量的音频,尽可能全的覆盖所有的音节音素,基于统计规则的大语料库拼接成对应的文本音频,所以波形拼接技术通过已有库中的音节进行拼接,实现语音合成的功能。一般此技术需要大量的录音,录音量越大,效果越好,一般做的好的音库,录音量在50小时以上。
优点:音质好,情感真实。
缺点:需要的录音量大,覆盖要求高,字间协同过渡生硬,不平滑,不是很自然。
- 参数语音合成技术
参数合成技术主要是通过数学方法对已有录音进行频谱特性参数建模,构建文本序列映射到语音特征的映射关系,生成参数合成器。所以当输入一个文本时,先将文本序列映射出对应的音频特征,再通过声学模型(声码器)将音频特征转化为我们听得懂的声音。
优点:录音量小,可多个音色共同训练,字间协同过渡平滑,自然等。
缺点:音质没有波形拼接的好,机械感强,有杂音等。
- 端到端语音合成技术
端到端语音合成技术是目前比较火的技术,通过神经网络学习的方法,实现直接输入文本或者注音字符 ,中间为黑盒部分,然后输出合成音频,对复杂的语言分析部分得到了极大的简化。所以端到端的语音合成技术,大大降低了对语言学知识的要求,且可以实现多种语言的语音合成,不再受语言学知识的限制。通过端到端合成的音频,效果得到的进一步的优化,声音更加贴近真人。
优点:对语言学知识要求降低,合成的音频拟人化程度更高,效果好,录音量小。
缺点:性能大大降低,合成的音频不能人为调优。
以上主要是对语音合成技术原理的简单介绍,也是目前语音合成主流应用的技术。当前的技术也再迭代更新,像端到端技术目前比较火的wavenet,Tacotron,Tacotron2以及deepvoice3等技术,感兴趣的朋友可以自己了解学习。