2018年1月,一档“创新中国”节目登录荧屏。整档节目配音是通过人工智能技术合成,再现已逝世的原央视著名播音员李易老师的“声音”。
记得第一次看到这个视频,听到视频里的声音,是不是很神奇?后来请教公司技术大牛,原来这款AI产品背后,是语音合成TTS技术发挥着作用。语音合成TTS(即Text-To-Speech,从文本到语音),是计算机将文本转化为声音朗读出来,它好比人的嘴巴,不过不是真人在说话而已。
语音合成TTS离我们生活有多远?很近,TTS其实已经潜移默化的运用到大家的生活场景,比如苹果手机里的智能助手siri,高德地图里的郭德纲/志玲姐姐迷之导航,亦或每天手机里接到的“旁友,(香 烟、 外币)贷款要伐?”等嘘寒问暖的电话。
TTS作为笔者日常审核业务合同时,常常蹦跶出现的英文单词,自然引起笔者的格外关注,今天就聊聊我对TTS的理解:
一、目前TTS的主流实现方式
第一种,“拼接法”,即从预先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等。为了追求合成语音的连贯性,也常常使用双音子(从一个音素的中央到下一个音素的中央)作为单位。如果使用法律人熟悉的例子,就像咱们国家刑法里有款“变造货币罪”,就是将真币采用挖补、剪贴、揭层、拼凑、涂改等方法进行加工处理,改变货币的真实形状增加纸币的数量。虽然也是造假,但底层模子(声音/纸币)还是“真的”,只是拼接成你想要的东西。拼接法的优点是声音真度高,但成本大,活儿累人,比如上面李易老师的声音再现视频。
第二种,“参数法”,基于参数的语音合成系统。它其实是一个文本抽象成语音学特征,再用统计学模型学习出来语音学特征和其声学特征的对应关系后,再从预测出来的声学特征还原成波形( waveform )的过程。核心是个预测问题,有若干统计模型可以解决,目前主流是用神经网络用来预测。然后用声码器 (vocoder) 生成波形,实现特征到 waveform 这最后一步。
这种技术比起第一种“拼接法”,难度提升了不少level。还是拿刑法罪名类比,有些类似“伪造货币”行为,即“仿照货币的形状、色彩、图案等特征,使用各种方法非法制造出外观上足以乱真的假货币”。本质上,基于参数合成的语音根本不是真正人声,但是听上去很像。当然参数法也有明显缺点,因为受制于发声算法,会有音损,一听往往能辨认出是冒牌货。
现在还有第三种,就是由Google的Deepmind研究出的最新成果wavenet,一种原始音频波形深度生成模型,能够模拟任一一种人类声音,最后出来的音质细节十分丰富,基本达到了与原始语音类似的音质水准(所谓语音质量比传统技术提高50%,就是这个意思)。这种技术活儿让我想到了最近热映的《无双》,同样是造假币,主角最后找到原材料,加工合成的底板,与真币已经分不出真假。随着深度学习不断发展,算力和声码器难题的不断解决,未来的TTS语音合成技术也会达到这一地步。
二、AI公司的法务为啥要去了解TTS技术呢?
除了自身好奇以外,对于从事NLP领域的科技公司,TTS技术无疑是产品主线中常常会遇到的技术。无论是采购第三方的TTS技术服务,还是销售自身TTS技术,TTS里的评判标准都会成为验收条款里最重要的组成部分。
TTS的评判标准:
(1)主观测试(自然度),以MOS为主。MOS(Mean Opinion Scores),专家级评测(主观):1-5分,5分最好。ABX,普通用户评测(主观),让用户来试听两个TTS系统,进行对比,看哪个好。每次主观测评应该有区分,比如:这次着重听多音字,下次主要听语气词等。(2)客观测试,对合成系统产生的声学参数进行评估,一般是计算欧式距离等(RMSE、LSD)。对合成系统工程上的测试:实时率(合成耗时/语音时长)、首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时崩溃率(crash)等。
三、Wavenet除了生成语言,还能生成什么?
由于WaveNet能够用来模拟任何一种音频信号,尝试用WaveNet生成音乐也将很好玩。比如当我们采用一个古典钢琴曲数据集来训练WaveNet时,它将生成一曲美妙乐章。
WaveNets将为TTS带来无数可能,大体上来讲,有生成音乐和模拟音频两类。事实上,直接运用深度神经网络一个时间步长一个时间步长地生成音乐,这种方法适用于所有16kHZ音频,这将是非常令人惊喜的。
一个”彩蛋“
2016年,索尼的工程师利用Flow Machines软件对13000首流行歌曲进行分析后,由人工智能技术生成出一首新的旋律,然后由作曲家Benoit Carre进行总结并谱曲,他并没有改变这首“新歌”的旋律,而只是负责改造成不同的风格流派。
而第一首人工智能创作的歌曲被命名为“Daddys Car”,经过配乐后颇具披头士的风格。
至少,我刷新了几遍,已能边听边哼哼了~