1. 声音的存储
通过声音采集器(麦克风)绘制出的实时波形图的电流数据,我们需要对数据进行采样(其实就是按照指定频率做抽样数据)整理,如果不做采样处理,电流实时生成的数据量大的你无法计算(按照电子的传播速度299792.458km/s)
采样的几个特征介绍:
特征 | 介绍 | * |
---|---|---|
采样率 | 每秒对信号的采样次数 | |
采样大小 | 采样大小也叫采样位深,音频的位深度决定动态范围。 我们常见的16Bit(16比特),可以记录大概96分贝的动态范围。那么,您可以大概知道,每一个比特大约可以记录6分贝的声音。同理,20Bit可记录的动态范围大概就是120dB;24Bit就大概是144dB。 |
如果对一个信号每秒进行8次采样,采样点分别对应的能量值分别为a1~a8,如果选择2bit的采样大小,则只能保存8个点中的四个点(2的2次方)。如果采样3bit的采样大小,则8个点都可以保存(2的3次方),采样的数据不一定全部保留下来,可以保留下来的数据个数就是采样大小。 我们要把采样记录下来时,存储8位,就意味着我们只能将振膜位置划分成256份;如果是16位,则可以有65536份……当然,也还可以是个浮点数,不过其本质仍旧是按位决定信息量的。采样深度即每个采样占用的位数,深度越大,采样精度越高,还原效果越好。一般常用音频采取16位(2字节)纪录一个采样。 |
采样率为44.1KHz,采用位宽为16bit,双声道,在1分钟中采集数据的大小为多少?
引入新的概念,数据码率,每秒数据的占位码数(机器码)
数据码率 = 44.1KHz * 16bit * 2 = 1411.2Kbps
转化成常用的字节
每秒数据量1411.2Kbps / 8 = 176KB
每分钟数据大小为176KB / 1024 * 60 ≈ 10.31M
即每分钟的数据大小 = 采样率 * 采样位深 * 通道数 * 60s
单位是bit位,折算成多少兆的时候需要除8再除1024
所以此时,假设是44.1kHz 16bit的双声道采样,意味着每秒有244.1k2byte=176.4kbyte/s=1411.2kbps的数据,以两个字节为一个单元,左右声道交替纪录的整数数组。其它频率、声道、深度依此类推。当然,这仅仅是PCM格式的纪录方法。别的编码形式各有不同,如mp3就记录的是采样经过离散傅立叶变换后的频域信号,并且丢掉了一些高频部分,以此达到压缩的目的;ADPCM则是由于声音信号一般比较平滑,通过纪录一个标准采样(关键采样)后跟随若干个变化量大形式存储……但是最终都是转换为类似PCM中的采样数据交给输出端的。
这里引入了PCM采样数据的概念
PCM
PCM(Pulse-code-modulation)是模拟信号以固定的采样频率转换成数字信号后的表现形式.
PCM数据流
单声道:
每个整数占据2个字节(16-bit),9个采样也就是18字节的数据。每个采样的整数大小最小为 -32768,最大为 32768 。根据采样数据的位置和值画一个图的话,就会得到像播放器上那样的波浪形图。
如果我们将这些数据送入声卡,我们就可以听到声音。当然我们需要告诉声卡这些数据的采样率。若我们告知声卡的采样率大于数据本身的采样率,那么这些数据的播放速度会高于其原始的速度。就是快放的功能。
双声道
每一个frame是一个16-bit的采样点。左右声道的数据交叉存放。
音量控制
现在让我们来看一下一些真实的波形图。最简单的就是正弦波了。
我们将波形的振幅扩大五倍,图形如下:
所以如果要增加PCM数据的音量,只需要将每一个采样的数据乘以一个系数就行了。音量控制就是这么简单,但是要注意两点:
若采样点的数据乘以扩大系数之后的值 小于 -32768 或 大于 32768 (2^16/2),则此处采样的数值只能取 -32768 或 32768
我们将采样点的数据乘以2并不代表将声音的音量扩大了两倍,事实上也的确如此。声音音量的增益系数与音量的关系如图:
修改采样频率
根据定义,Sample Rate表示每秒钟的采样个数,所以若是要改变音频的采样频率,我们只需要对采样点做适当的丢弃或者复制就可以。
比如:原始音频为opus编码,单声道,采样率为48kHz,采样点大小为16-bit。如何得到编码为speex,采样率为16kHz,采样大小为16-bit的音频?
我们需要以下几步:
- 将opus解码为PCM格式数据(叫做PCM1),此时的PCM1的采样率 为48kHz
- 将PCM1的数据中第 3n(n为从0开始的自然数) 个位置的采样点,丢弃3n+1 和3*n+2位置的采样点。得到PCM2,此时的PCM2采样率为48kHz / 3 = 16kHz
- 将PCM2编码为speex数据