重读R.Rabbinner数字语音信号处理—Chap3 Hearing and Auditory Perception

Human Ear

人耳结构^[1]

人耳结构

pinna	耳郭
external cannal	外耳道
tympanic membrane	鼓膜	timˈpanik
malleus/hammer	锤骨/听小骨	malēəs
incus/anvil	砧骨
stapes	镫骨
cochlea	耳蜗

耳蜗^[2]

耳蜗

The basilar(基底膜) membrane vibrates in a frequency-selective manner along its extent and performs a rough(Non-uniform) spectral analysis.
一系列的实验研究了人的听力系统对声学特性比如强度和频率。

Perception of Loudness 对响度的感知

补充知识：

声学中，声音的强度定义为声压。计算分贝值时采用20微帕斯卡为参考值。这一参考值是人类对声音能够感知的阈值下限。声压是场量，因此使用声压计算分贝时使用下述版本的公式：
$L_p = 20 log_{10}(\frac{P_{rms}}{P_{ref}})$
其中 $P_{ref}$ 定义为20微帕。

下图是等响度曲线equal loudness leel contours,是和1000HZ的pure tone对比。低频率需要更高的强度。最下面的线是听觉下限，
等响度曲线^[3]

等响度曲线

上面的图

By convension， 50db声压 1000hz的听起来和60db声压 100hz的差不多，但是实际上 50db 100hz 和 60db 100hz的都说响度为50 phons。
人的听觉系统对100hz—6khz范围内的声压比较铭感，在3khz-4khz处最敏感，几乎大部分的语音都在这个范围内。

Critical Bands临界带宽

基底膜可以看作是一系列的带通滤波器，间隔逐渐变大，但是他们的频率响应有很多的重叠，因为basilar membrane 不能独立的震动。尽管这样，带通滤波器这个概念还是发布了，以及用了一系列方法测量了critical bands（临界带宽），研究表明在500HZ以下带宽是常数，大概是100HZ，然而对500HZ以上，大概是频率的1/5. 经验测出的带宽可以用这个公式表示
$\Delta f_c = 25+75[1+1.4(\frac{f_c}{1000})^2]^{0.69}$
大概0-20khz频率范围内选了25个critical band filters

音高感知 Pitch Perception

大部分音乐和voiced sound在短时内都有一个周期性的结构，用pitch来量化。

1000hz音高为1000mels，这是根据测试来的，受测试这被要求把测试的音高调为对照音高的一半。

为了校准，1000hz为1000mels，1000hz一下，音高和频率几乎是成比例的，对更高的频率来说，音高和频率的非线性可以用下面的公式来变换.
$Pitch In Mels = 1127ln(1+\frac{f}{700})$
音高这个物理现象，被mel-scale量化，和critical bands这个概念也有关。一个临界带宽大约对应于mel-scale的100mel 音高。

voiced speech是准周期的，但是包含着很多frequencies. 虽然这样，许多用纯音获得的结果也和音高有关。pitch period 音高周期用于描述voiced speech的基本周期，即使有些不太精确

Auditory Masking 掩蔽效应

Critical band analysis 可以直观的解释basilar membrane，但是掩蔽效应仍然也影响着basilar membrane的掩蔽效应。 Masking是一个较强的声音掩盖了一个较弱的声音^[4]。

Auditory masking^[4]

Auditory masking

一个强的tone会提高周围tone的门限，所以在speech processing system中不用包括这些被masking的声音。

Masking被在digital speech representation中被广泛应用，对被masking区域可压缩。（果然英语和中文的脑回路是不一样的，感受一下英文逻辑Masking is widely employed in digital representations of speech (and audio) signals by “hiding” errors in the representation in areas where the threshold of hearing is elevated by strong frequency components in the signal）

简短的总结

mel 刻度的1️以10为底的形式，1937年定义，melody的缩写。

$m = 2595 log_{10}(1+ f/700) =1127 ln(1+f/700)$

可以了解一下其他的刻度
中心频率那块概念还不是特别清楚
发现了一本不错的树，韩纪庆的语音信号处理。

Reference

[Inductiveload,anatomy of hummen ear with cochlear frequency(https://commons.wikimedia.org/wiki/File:Anatomy_of _Human_Ear_with_Cochlear_Frequency_Mapping.svg.) ↩
basilar membrane ↩
Loudness And The Fletcher-Munson Curve ↩
Jin Li, Embedded audio coding (EAC) with implicit auditory masking ↩ ↩