VGGish模型及项目简介

VGGish项目简介

来自：http://www.linxiaosen.com/138.html
AudioSet 由Google的声音理解团队于2017年3月发布，旨在为音频事件检测提供常见的大规模评估任务，并为全面的声音事件词汇提供起点。 AudioSet是一个由200万个人标记的10秒YouTube视频音轨组成的数据集，其标签来自600多个音频事件类的本体。

Vggish模型是在YouTube的AudioSet数据预训练得到模型。
Vggish项目地址：https://github.com/tensorflow/models/tree/master/research/audioset/vggish

1 VGGish

在大量的YouTube数据集上训练得到类VGG模型，该模型中生成128维的embedding。最初版本的AudioSet每个数据是128维的embedding，而这128维的embedding就是有上述VGG模型生成的。

我们把这个基于tensorflow 的VGG模型，称为VGGish。VGGish支持从音频波形中提取具有语义的128维embedding特征向量。

image

图1 VGGish网络结构

1.1 VGGish 用法：

作为特征提取器：VGGish模型将音频输入特征转化为具有语义和有意义的128 维high-level的特征向量，而128维high-level特征向量可以作为下游模型的输入。
作为其它模型中的一部分：VGGish可以视为其它模型的较低层的“热启动“部分，其它模型可以在VGGish embedding之上添加更多层。

1.2 VGGish提取特征过程

输入数据为wav音频文件，音频文件的特征提取过程如下：

将音频重采样为16kHz单声道音频；
使用25 ms的Hann时窗，10 ms的帧移对音频进行短时傅里叶变换得到频谱图；
通过将频谱图映射到64阶mel滤波器组中计算mel声谱；
计算 log(mel-spectrum + 0.01)，得到稳定的 mel 声谱，所加的 0.01 的偏置是为了避免对 0 取对数；
然后这些特征被以 0.96s的时长被组帧，并且没有帧的重叠，每一帧都包含 64 个mel 频带，时长 10ms（即总共 96 帧）。

VGGish模型输出数据格式为[nums_frames， 128]，其中nums_frames为帧长，nums_frames=音频时长/0.96。

2 VGGish模型文件

VGGish模型包含8个python脚本文件：

vggish_slim.py: TensorFlow Slim中模型定义。
vggish_params.py：超参数。
vggish_input.py：音频波形转换为所需的输入数据格式。
mel_features.py：音频特征提取。
vggish_postprocess.py：后处理embedding。
vggish_inference_demo.py：显示了如何从任意音频中生成VGGish embedding。
vggish_train_demo.py：显示了如何在VGGish之上添加模型并训练整个模型
vggish_smoke_test.py：VGGish安装成功测试

3 安装

依赖python包：numpy，scipy，resampy，tensorflow，six，pysoundfile。在Ubuntu and Windows 10 with Python 3.6.6, Numpy v1.15.4, SciPy v1.1.0, resampy v0.2.1, TensorFlow v1.3.0, Six v1.11.0 and PySoundFile 0.9.0.环境中通过测试。

VGGish安装需要两个文件：

vggish_model.ckpt（<u>https://storage.googleapis.com/audioset/vggish_model.ckpt</u>）
vggish_pca_params（<u>https://storage.googleapis.com/audioset/vggish_pca_params.npz</u>）

将上述两个文件放在对应的路径中，运行vggish_some_test.py, 出现“Looks Good To Me”则安装完成。

4 数据处理示例

将音频重采样为 16kHz 单声道（vggish_input.py）,如图1所示，此时输出数据格式为[num_samples, 96, 64]，其中num_samples与音频的时长有关。

image

:
使用 25ms 的帧长、10ms 的帧移，以及周期性的 Hann 窗口对语音进行分帧，对每一帧做短时傅里叶变换，然后利用信号幅值计算声谱图，如图2所示。

image

通过将声谱映射到 64 阶 mel 滤波器组中计算 mel 声谱，如图3所示。

image
计算 log(mel-spectrum + 0.01)，得到稳定的 mel 声谱（图4），所加的 0.01 的偏置是为了避免对 0 取对数

image

然后这些特征被以 0.96s的时长被组帧，并且没有帧的重叠，每一帧都包含 64 个 mel 频带，时长 10ms（即总共 96 帧）。这些组帧后的特征数据格式为[nums_frames, 128]特征向量，将输入给下游模型进行进一步训练。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,701评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,649评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,037评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,994评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,018评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,796评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,481评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,370评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,868评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,014评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,153评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,832评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,494评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,039评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,156评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,437评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,131评论 2赞 356

VGGish模型及项目简介

VGGish项目简介

1 VGGish

1.1 VGGish 用法：

1.2 VGGish提取特征过程

2 VGGish模型文件

3 安装

4 数据处理示例

推荐阅读更多精彩内容