简评:声纹识别可以说是非常酷了 ~
戳链接直接试用:Voice Vector Webpage
每个人都有自己的声音,不同的人会有不同的声音。
有些人是萝莉音,有些人则是铁观音。
有些人的声音听起来很像,有些人则完全不同。
(突然正经)
这个项目基于分类模型的体系结构,利用神经网络,使用 VoxCeleb 数据集来查找单个语音向量(voice vectors),其中包含 1251 名好莱坞明星的 145379 句话语。数据集概况:
- 性别分布:690 名男性;561 名女性
- 年龄分布:20+, 30+, 40+, 50+, 60+(岁)分别为 136, 351, 318, 210, 236
在神经网络训练的每一步,演讲者都是随机的。语音向量与文本无关,这意味着来自同一讲话者的任何一对话语都具有相似的语音向量。矢量距离越近,声音越相似。
使用 t-SNE 进行可视化时,声音有明显地依性别分类的趋势:
不过并没有年龄相关性的表现:
由此也一定程度上解释了,为什么有些人能完美模仿正太音、萝莉音、少女音和御姐音。(一个猜测,不一定对)
好了快回到文首玩玩这个声纹识别吧 ~
Github:andabi/voice-vector
推荐阅读:用 150 行 Python 代码写的量子计算模拟器