VGGish模型及项目简介

VGGish项目简介

来自:http://www.linxiaosen.com/138.html
AudioSet 由Google的声音理解团队于2017年3月发布,旨在为音频事件检测提供常见的大规模评估任务,并为全面的声音事件词汇提供起点。 AudioSet是一个由200万个人标记的10秒YouTube视频音轨组成的数据集,其标签来自600多个音频事件类的本体。

Vggish模型是在YouTube的AudioSet数据预训练得到模型。
Vggish项目地址:https://github.com/tensorflow/models/tree/master/research/audioset/vggish

1 VGGish

在大量的YouTube数据集上训练得到类VGG模型,该模型中生成128维的embedding。最初版本的AudioSet每个数据是128维的embedding,而这128维的embedding就是有上述VGG模型生成的。

我们把这个基于tensorflow 的VGG模型,称为VGGish。VGGish支持从音频波形中提取具有语义的128维embedding特征向量。


image

图1 VGGish网络结构

1.1 VGGish 用法:

  1. 作为特征提取器:VGGish模型将音频输入特征转化为具有语义和有意义的128 维high-level的特征向量,而128维high-level特征向量可以作为下游模型的输入。

  2. 作为其它模型中的一部分:VGGish可以视为其它模型的较低层的“热启动“部分,其它模型可以在VGGish embedding之上添加更多层。

1.2 VGGish提取特征过程

输入数据为wav音频文件,音频文件的特征提取过程如下:

  1. 将音频重采样为16kHz单声道音频;
  2. 使用25 ms的Hann时窗,10 ms的帧移对音频进行短时傅里叶变换得到频谱图;
  3. 通过将频谱图映射到64阶mel滤波器组中计算mel声谱;
  4. 计算 log(mel-spectrum + 0.01),得到稳定的 mel 声谱,所加的 0.01 的偏置是为了避免对 0 取对数;
  5. 然后这些特征被以 0.96s的时长被组帧,并且没有帧的重叠,每一帧都包含 64 个mel 频带,时长 10ms(即总共 96 帧)。

VGGish模型输出数据格式为[nums_frames, 128],其中nums_frames为帧长,nums_frames=音频时长/0.96。

2 VGGish模型文件

VGGish模型包含8个python脚本文件:

  • vggish_slim.py: TensorFlow Slim中模型定义。
  • vggish_params.py:超参数。
  • vggish_input.py:音频波形转换为所需的输入数据格式。
  • mel_features.py:音频特征提取。
  • vggish_postprocess.py:后处理embedding。
  • vggish_inference_demo.py:显示了如何从任意音频中生成VGGish embedding。
  • vggish_train_demo.py:显示了如何在VGGish之上添加模型并训练整个模型
  • vggish_smoke_test.py:VGGish安装成功测试

3 安装

依赖python包:numpy,scipy,resampy,tensorflow,six,pysoundfile。在Ubuntu and Windows 10 with Python 3.6.6, Numpy v1.15.4, SciPy v1.1.0, resampy v0.2.1, TensorFlow v1.3.0, Six v1.11.0 and PySoundFile 0.9.0.环境中通过测试。

VGGish安装需要两个文件:

  1. vggish_model.ckpt(<u>https://storage.googleapis.com/audioset/vggish_model.ckpt</u>)
  2. vggish_pca_params(<u>https://storage.googleapis.com/audioset/vggish_pca_params.npz</u>)

将上述两个文件放在对应的路径中,运行vggish_some_test.py, 出现“Looks Good To Me”则安装完成。

4 数据处理示例

  1. 将音频重采样为 16kHz 单声道(vggish_input.py),如图1所示,此时输出数据格式为[num_samples, 96, 64], 其中num_samples与音频的时长有关。


    image

    :

  2. 使用 25ms 的帧长、10ms 的帧移,以及周期性的 Hann 窗口对语音进行分帧,对每一帧做短时傅里叶变换,然后利用信号幅值计算声谱图,如图2所示。

image
  1. 通过将声谱映射到 64 阶 mel 滤波器组中计算 mel 声谱, 如图3所示。


    image
  2. 计算 log(mel-spectrum + 0.01),得到稳定的 mel 声谱(图4),所加的 0.01 的偏置是为了避免对 0 取对数

image

然后这些特征被以 0.96s的时长被组帧,并且没有帧的重叠,每一帧都包含 64 个 mel 频带,时长 10ms(即总共 96 帧)。这些组帧后的特征数据格式为[nums_frames, 128]特征向量,将输入给下游模型进行进一步训练。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,701评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,649评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,037评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,994评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,018评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,796评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,481评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,370评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,868评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,014评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,153评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,832评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,494评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,039评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,437评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,131评论 2 356

推荐阅读更多精彩内容