来源:调用 腾讯优图API合成的数据 两个实验: 音频数据 单人(女声) 50k的句子 大约50小时+ 多人:4个人,每个人6k的句子,各5个多小时,一共22小时 质量: 比较流畅,不是很生硬 文本数据 aishell 部分文本数据 AISHELL数据集是一个语音识别的数据集合,涉及多个领域,保证音素平衡 PS: 文本各个长度也要覆盖,保证泛化能力 进一步 只用一个人的语音合成,保证泛化能力的话,最好有20小时以上的音频数据 多人合成,减少每个人音频的需求量大大减少,生成的质量也有一定的损失 百度语音(已经收集部分,质量比腾讯优图优图差一点) 科大讯飞(正在写,每天限制500次,时间长) 保证质量需要一两小时(不确定?),百度的Deep Voice 2/3 在英文合成只用了平均每个人半个小时