matlab音频信号处理

首先来认识一下什么是音频信号

通过matlab我们可以直接读入一个音频文件,同时直接绘图
但是此时的横坐标和纵坐标是什么呢?

>> [y,fs] = audioread('5num.wav');
>> plot(y)

不断放大信号:

得到了这样一幅图

image

这时候纵坐标我们可以理解成幅度,但是横坐标其实什么也不是
或者说就是一系列点而已,我们可以对这些点进行一定的组合,比如每160个点作为一组,这就是分帧

那频率呢?
matlab在读取一个音频的时候还会返回一个频率呀,这个频率,也就是那个fs,到底是干嘛的,有什么意义呢?

不妨来计算一下:
我的这段音频是29s,

>> length(y)/fs
ans =
   29.4400

此时用点的个数除以频率fs,得到的就是时间!
这样想,频率的物理意义就是一秒钟振动的次数,8khz就是一秒钟要震动8000次,一个点震动一次,那么235520个点就要震动29.4400s!

同时可以知道这段音频是16位量化的

可是我们老是说量化量化,量化究竟代表什么含义呢?

其实就理解成每一个点用16个bit来表示

那么,235520个点,每一个点都是16位的,相当于一个点就是2byte

那么就是 235520*2 字节
等价于460KB

查看文件大小


正好是460KB!!

现在理解这几个参数的含义了吧

于是上面那幅图我们需要改进一下

>>t = (0:length(y)-1)/fs;
>> plot(t,y);
>> xlabel('时间(.sec)')
>> ylabel('幅度')

这样就能得到每一个时刻对应的幅度了

分帧?

到底什么是分帧呢?

首先需要确定分帧的长度:

比如采样率是11025
语音信号每20ms分成一段

怎么想,一秒钟有11025个点震动,那么20ms内就是大概220个点了,于是帧长为220,帧移默认就是一半110

问:为什么分帧?
答:语音信号是瞬时变化的,但在10~20ms内是相对稳定的,即在一小段内是相对稳定的,分帧就是将语音分成一段一段的。
问:问什么要有帧移呢?
答:帧移后的每一帧信号都有上一帧的成分,防止两帧之间的不连续。语音信号虽然短时可以认为平稳,但是由于人说话并不是间断的,每帧之间都是相关的,加上帧移可以更好地与实际的语音相接近。

如果采样率都是8000hz,并且20ms为一帧
相当于160个点为一个帧

但是调用enframe函数返回的结果又是什么呢?

5885*160的矩阵

每一行,有160列

每一列,有5885行

你想啊,我是每160个点为一个帧,那么总共有多少个帧呢?

这个不难算

那么我可以单独取出其中的一个帧来看


a = X(2000,:);
plot(a)

当然这里只是知道有160个点,但是对应的时间段却是不知道的

也就是说每一行其实就是一个帧的数据了
之所以这张图有点奇怪


横坐标代表第多少帧,纵坐标代表振幅

因为有很多根曲线是重叠的

问题在于分帧之后,如何求自相关系数等
可不可以每一个帧求一次自相关系数呢?

补充一点,调用enframe函数如果不指定第三个参数那么帧之间就不会重叠的

如何求自相关系数?

首先试如何理解自相关系数

比如:

>> A = [1 2 3]
A =
     1     2     3
>> xcorr(A)
ans =
    3.0000    8.0000   14.0000    8.0000    3.0000
>> 

这个口算应该没问题的

就是求出A的自相关系数

但是这个呢?

>> xcorr(A,4)
ans =
  1 至 7 列
         0         0    3.0000    8.0000   14.0000    8.0000    3.0000
  8 至 9 列
         0         0

是不是可以理解成延展了

按照规律来说是没问题的,xcorr(A,4) 相当于两个5列的向量
得到的就是2*5 - 1= 9个

解读代码

先把代码放上来吧,方便你们copy

[y,fs] = audioread('5num.wav');

N = length(y);
t = (1:N-1)/fs;  %生成时间序列
win = hamming(N) %加窗
y = y.*win;
X = enframe(y,160); % 160个点为一帧,就没要重叠了

% 然后就可以查看某个帧了


%%
% 求出自相关
num_frame = length(X);

ms2 = floor(fs/500);
ms20 = floor(fs/50);
F0 = zeros(num_frame,1);
% 直接对每一帧进行循环
for i=1:num_frame
    % 每一帧都可以求出自相关的系数
    r = xcorr(X(i,:), 160);
    r = r(floor(length(r)/2):end);
    [maxi,idx]=max(r(ms2:ms20));
    F0(i) = fs/(ms2+idx-1);
end

figure(1);
plot(F0); %横坐标代表帧
xlabel('帧')
ylabel('基音频率')

% 经过探测我读0时候的基音位于第210帧

%% 选出第210帧的数据
figure(2)
y210 = X(211,:);
subplot(311);
plot(y210);
xlabel('点');
ylabel('振幅');
title('210帧原始信号')
ai = lpc(y210, 10);
est_x=filter([0 -ai(2:end)],1,y210);%估计信号
subplot(312);
plot(est_x);
xlabel('点');
ylabel('振幅');
title('210帧估计信号');
err = y210-est_x;
subplot(313);
plot(err);
xlabel('点');
ylabel('振幅');
title('预测误差');
%%
% 求预测增益

En=zeros(1,160);
for i=1:160
   u=err(i);%取出一样点
   u2=u.*u;%求出能量
   En(i)=sum(u2);%对每一样点累加求和
end
%计算原始能量
En1=zeros(1,160);
for i=1:160
   u=y210(i);%取出一样点
   u2=u.*u;%求出能量
   En1(i)=sum(u2);%对每一样点累加求和
end
CA=zeros(1,160);
for i=1:160
   en1=En1(i);%取出一样点
   en=En(i);
   CA(i)=abs(en1)/abs(en);
end
figure(3);
subplot(311);plot(En1);xlabel('取样点数/个');ylabel('En');title('短时能量');title('E0');
subplot(312);plot(En);xlabel('取样点数/个');ylabel('En');title('短时能量');title('Ep');
subplot(313);plot(CA);xlabel('取样点数/个');ylabel('En');title('短时能量');title('预测增益');

1. 加窗分帧

[y,fs] = audioread('5num.wav');

N = length(y);
t = (1:N-1)/fs;  %生成时间序列
win = hamming(N) %加窗
y = y.*win;
X = enframe(y,160); % 160个点为一帧,就没要重叠了

其实加窗的过程也不是很难理解,就是生成一个函数然后去乘就好了

然后通过enframe函数进行分帧处理

返回的是一个矩阵,行数代表了帧数,列数代表了每一帧有多少个点

2. 求自相关

num_frame = length(X);

ms2 = floor(fs/500);
ms20 = floor(fs/50);
F0 = zeros(num_frame,1);
% 直接对每一帧进行循环
for i=1:num_frame
    % 每一帧都可以求出自相关的系数
    r = xcorr(X(i,:), 160);
    r = r(floor(length(r)/2):end);
    [maxi,idx]=max(r(ms2:ms20));
    F0(i) = fs/(ms2+idx-1);
end

这个过程也不是很难理解

得到的图形是这样子的

横坐标就是每一个帧,纵坐标代表对应的基音频率

其实这个图确实有点奇怪,因为它是倒过来的

我后来仔细想了想,周围没有声音的时候,基音频率反而是最大的

然后又去翻书,发现人的声音基音频率大概也就是200~500hz左右,而且男声本来就低,所以这个图显然是没问题的

而且我总共只读了5个音,0 1 2 3 4

基本正确地反映出来了

然后通过肉眼观察,嗯,我读0的那个帧就是210帧了

3. 通过LPC预测信号,同时计算增益

预测增益的方法就是LPC

增益系数我暂时不太清楚怎么求,就直接抄同学的了

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容

  • 第三章 语音信号特征分析 语音合成音质的好坏,语音识别率的高低,都取决于对语音信号分析的准确度和精度。例如,利用线...
    锅锅Iris阅读 10,204评论 3 8
  • ### YUV颜色空间 视频是由一帧一帧的数据连接而成,而一帧视频数据其实就是一张图片。 yuv是一种图片储存格式...
    天使君阅读 3,274评论 0 4
  • 一、傅立叶变换的由来 关于傅立叶变换,无论是书本还是在网上可以很容易找到关于傅立叶变换的描述,但是大都是些故弄玄虚...
    constant007阅读 4,419评论 1 10
  • 从GSM系统参数开始,信号从输入到输出的各个环节都大致讲一遍,每个模块的技术细节会在后续的博文中作为独立专题逐一讲...
    乡村骑士阅读 6,801评论 0 6
  • 在匆忙中度过,时刻感觉有个声音在指引自己前行,不管有多累有多苦,一切都是成功的垫脚石。 今天有幸看到对脉轮的分享,...
    王泽华wzh阅读 429评论 0 0