音频基础&& 话音编码
人的发音范围
人的发音频率范围:80Hz---3.4kHz
人的说话频率范围:300Hz --- 3kHz
声音三要素及其意义
音强:声音的强弱,响度。取决于声音的幅度。(声波的压力)
音调:取决于声音的频率
音色:是由混入基音的泛音所决定的,高次谐波越丰富,音色越有明亮感和穿透力。
分贝的计算
SPL = 20log10(p(e)/p(ref))
p(e)是待测声压有效值
p(ref)为参考声压(人耳刚刚可以听到的1kHz的声压)
声音质量的度量的两种方法
音质: 声音聆听效果的好坏。
- 声音质量与声音的带宽有关,一般来说频率范围越宽,声音质量越高。
- 声音质量与噪声的强度有关,噪声信号强的声音比噪声信号弱的声音音质要差。
- 信噪比。
- 主观平均判分法。
音频数字化的步骤
用数字表示声音波形,就得到了数字音频,这个过程称为数字化。
- 采样。连续时间的离散化,每隔一段时间采样一次
相等间隔----均匀采样
不相等间隔----非均匀采样
fs>= 2fmax(奈奎斯特采样定理)- 量化。连续幅度的离散化,把信号的幅度划分为小段。
等间隔----线性量化
不等间隔----非线性量化
量化率:每个声音样本的位数(8,16),影响了声音的质量
SQNR = 6.02N + 1.76 (db)- 编码。把量化后的采样值用二进制数码表示出来。
wav文件的基本结构
MIDI 和 wav的区别
MIDI是用于在音乐合成器,乐器和计算机之间交换音乐信息的一种标准。
MIDI是乐器和计算机使用的标准语言。是一套指令的约定,它指示乐器要做什么,怎么做,比如演奏音符,加大音量生成音响效果等。
MIDI优点:生成de文件较小,易于编辑,可以做背景音乐。
合成MIDI的两种算法
- 调频:在载波正弦信号中加入一个设计调频信号的项,使原来的正弦信号发生改变,以此来模拟声音的波形。
- 波形表法:把真实乐器发出的声音以数字的形式记录下来(波形表,一般存储在声卡的存储器中),播放时改变播放速度,从而改变音调周期,生成各种音阶的音符。
待补!!!