2018-10-19 高德地图里的志玲姐姐声音,是真的咩?

2018年1月,一档“创新中国”节目登录荧屏。整档节目配音是通过人工智能技术合成,再现已逝世的原央视著名播音员李易老师的“声音”。



人工智能合成逝者声音,李易原音“再现”_腾讯视频


记得第一次看到这个视频,听到视频里的声音,是不是很神奇?后来请教公司技术大牛,原来这款AI产品背后,是语音合成TTS技术发挥着作用。语音合成TTS(即Text-To-Speech,从文本到语音),是计算机将文本转化为声音朗读出来,它好比人的嘴巴,不过不是真人在说话而已

语音合成TTS离我们生活有多远?很近,TTS其实已经潜移默化的运用到大家的生活场景,比如苹果手机里的智能助手siri,高德地图里的郭德纲/志玲姐姐迷之导航,亦或每天手机里接到的“旁友,香 烟、 外币贷款要伐?”等嘘寒问暖的电话。

TTS作为笔者日常审核业务合同时,常常蹦跶出现的英文单词,自然引起笔者的格外关注,今天就聊聊我对TTS的理解:

一、目前TTS的主流实现方式

第一种,“拼接法”,即从预先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等。为了追求合成语音的连贯性,也常常使用双音子(从一个音素的中央到下一个音素的中央)作为单位。如果使用法律人熟悉的例子,就像咱们国家刑法里有款“变造货币罪”,就是将真币采用挖补、剪贴、揭层、拼凑、涂改等方法进行加工处理,改变货币的真实形状增加纸币的数量。虽然也是造假,但底层模子(声音/纸币)还是“真的”,只是拼接成你想要的东西。拼接法的优点是声音真度高,但成本大,活儿累人,比如上面李易老师的声音再现视频。

第二种,“参数法”,基于参数的语音合成系统。它其实是一个文本抽象成语音学特征,再用统计学模型学习出来语音学特征和其声学特征的对应关系后,再从预测出来的声学特征还原成波形( waveform )的过程。核心是个预测问题,有若干统计模型可以解决,目前主流是用神经网络用来预测。然后用声码器 (vocoder) 生成波形,实现特征到 waveform 这最后一步。

这种技术比起第一种“拼接法”,难度提升了不少level。还是拿刑法罪名类比,有些类似“伪造货币”行为,即“仿照货币的形状、色彩、图案等特征,使用各种方法非法制造出外观上足以乱真的假货币”。本质上,基于参数合成的语音根本不是真正人声,但是听上去很像。当然参数法也有明显缺点,因为受制于发声算法,会有音损,一听往往能辨认出是冒牌货。

现在还有第三种,就是由Google的Deepmind研究出的最新成果wavenet,一种原始音频波形深度生成模型,能够模拟任一一种人类声音,最后出来的音质细节十分丰富,基本达到了与原始语音类似的音质水准(所谓语音质量比传统技术提高50%,就是这个意思)。这种技术活儿让我想到了最近热映的《无双》,同样是造假币,主角最后找到原材料,加工合成的底板,与真币已经分不出真假。随着深度学习不断发展,算力和声码器难题的不断解决,未来的TTS语音合成技术也会达到这一地步。

二、AI公司的法务为啥要去了解TTS技术呢?

除了自身好奇以外,对于从事NLP领域的科技公司,TTS技术无疑是产品主线中常常会遇到的技术。无论是采购第三方的TTS技术服务,还是销售自身TTS技术,TTS里的评判标准都会成为验收条款里最重要的组成部分。

TTS的评判标准:

(1)主观测试(自然度),以MOS为主。MOS(Mean Opinion Scores),专家级评测(主观):1-5分,5分最好。ABX,普通用户评测(主观),让用户来试听两个TTS系统,进行对比,看哪个好。每次主观测评应该有区分,比如:这次着重听多音字,下次主要听语气词等。(2)客观测试,对合成系统产生的声学参数进行评估,一般是计算欧式距离等(RMSE、LSD)。对合成系统工程上的测试:实时率(合成耗时/语音时长)、首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时崩溃率(crash)等。

三、Wavenet除了生成语言,还能生成什么?

由于WaveNet能够用来模拟任何一种音频信号,尝试用WaveNet生成音乐也将很好玩。比如当我们采用一个古典钢琴曲数据集来训练WaveNet时,它将生成一曲美妙乐章。

WaveNets将为TTS带来无数可能,大体上来讲,有生成音乐和模拟音频两类。事实上,直接运用深度神经网络一个时间步长一个时间步长地生成音乐,这种方法适用于所有16kHZ音频,这将是非常令人惊喜的。

一个”彩蛋“

2016年,索尼的工程师利用Flow Machines软件对13000首流行歌曲进行分析后,由人工智能技术生成出一首新的旋律,然后由作曲家Benoit Carre进行总结并谱曲,他并没有改变这首“新歌”的旋律,而只是负责改造成不同的风格流派。

而第一首人工智能创作的歌曲被命名为“Daddys Car”,经过配乐后颇具披头士的风格。


Daddys Car人工智能写的歌_腾讯视频

至少,我刷新了几遍,已能边听边哼哼了~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容