使用python_speech_features提取音频文件特征

1. 读取wav文件

使用scipy.io.wavfile

import scipy.io.wavfile as wav
fs, signal = wav.read(filename)

fs是wav文件的采样率,signal是wav文件的内容,filename是要读取的音频文件的路径。我们将signal绘制出来就是下图这个样子。


image.png

2. 使用python_speech_features提取特征

①MFCC:

默认提取的特征维度是13,通常的做法是将该特征进行一阶差分和二阶差分,并将结果进行合并。

from python_speech_features import *
import numpy as np
def get_mfcc(data, fs):
    wav_feature =  mfcc(data, fs)
    d_mfcc_feat = delta(wav_feature, 1)
    d_mfcc_feat2 = delta(wav_feature, 2)
    feature = np.hstack((wav_feature, d_mfcc_feat, d_mfcc_feat2))
    return feature

参数介绍:
内容来源于 金泽夕
https://www.cnblogs.com/zhuimengzhe/p/10223510.html

mfcc:

python_speech_features.base.fbank(signal, samplerate=16000, winlen=0.025, winstep=0.01, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97, winfunc=<function >)
  • signal - 需要用来计算特征的音频信号,应该是一个N*1的数组
  • samplerate - 我们用来工作的信号的采样率
  • winlen - 分析窗口的长度,按秒计,默认0.025s(25ms)
  • winstep - 连续窗口之间的步长,按秒计,默认0.01s(10ms)
  • numcep - 倒频谱返回的数量,默认13
  • nfilt - 滤波器组的滤波器数量,默认26
  • nfft - FFT的大小,默认512
  • lowfreq - 梅尔滤波器的最低边缘,单位赫兹,默认为0
  • highfreq - 梅尔滤波器的最高边缘,单位赫兹,默认为采样率/2
  • preemph - 应用预加重过滤器和预加重过滤器的系数,0表示没有过滤器,默认0.97
  • ceplifter - 将升降器应用于最终的倒谱系数。 0没有升降机。默认值为22。
  • appendEnergy - 如果是true,则将第0个倒谱系数替换为总帧能量的对数。
  • winfunc - 分析窗口应用于每个框架。 默认情况下不应用任何窗口。 你可以在这里使用numpy窗口函数 例如:winfunc=numpy.hamming
    返回: 一个大小为numcep的numpy数组,包含着特征,每一行都包含一个特征向量。

delta:

python_speech_features.base.delta(feat, N)
  • feat - 一个大小为特征数量的numpy数组,每一行都有一个特征向量
  • N - 对于每一帧,计算delta特征根据前后N帧
  • 返回:一个大小为特征数量的numpy数组,包含有delta特征,每一行都有一个delta向量

②logfbank

def get_fbank(data, fs):
    wav_feature = logfbank(data, fs)
    return wav_feature

参数介绍:

python_speech_features.base.logfbank(signal, samplerate=16000, winlen=0.025, winstep=0.01, nfilt=26, nfft=512, lowfreq=0, highfreq=None, preemph=0.97)
  • signal - 需要用来计算特征的音频信号,应该是一个N*1的数组
  • samplerate - 我们用来工作的信号的采样率
  • winlen - 分析窗口的长度,按秒计,默认0.025s(25ms)
  • winstep - 连续窗口之间的步长,按秒计,默认0.01s(10ms)
  • nfilt - 滤波器组的滤波器数量,默认26
  • nfft - FFT的大小,默认512
  • lowfreq - 梅尔滤波器的最低边缘,单位赫兹,默认为0
  • highfreq - 梅尔滤波器的最高边缘,单位赫兹,默认为采样率/2
  • preemph - 应用预加重过滤器和预加重过滤器的系数,0表示没有过滤器,默认0.97
  • 返回: 一个包含特征的大小为nfilt的numpy数组,每一行都有一个特征向量
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容