[音频压缩]音频编解码 1

目前音频收集的流程

image.png

1 模拟信号 -> 数字信号 (ADC Analog to Digital Conversion)

image.png

每个点的数据都转换为 电子信号 (Binary 2~16bits)

image.png

2 采样(Sample) 范围

  • 一般是 44100HZ
    每两个采样点 间隔 大概是 1000ms / 44100Hz ~ 23us(微秒)

  • 为什么现在的设备不能无限放大,理论上可以1us 一个采样

    • 那是因为 这会导致文件非常大
    • 同时 人耳对音频信号的平均感知能力为 50us长度,或者最高20000hz精度
  • 为什么是44100HZ 而不是 46000HZ
    因为早期的CD最大容纳采样为44100HZ

  • 为什么不是20000hz 正好适配人耳
    因为 奈奎斯特抽样定理

要从抽样信号中无失真地恢复原信号,抽样频率应大于2倍信号最高频率。

奈奎斯特抽样定理 :要从抽样信号中无失真地恢复原信号,抽样频率应大于2倍信号最高频率。 抽样频率小于2倍频谱最高频率时,信号的频谱有混叠。 抽样频率大于2倍频谱最高频率时,信号的频谱无混叠。

3 采样深度精度

例如 ADC过程 将Analog转换为Digital信号 可以取不同的范围区间,例如00-01 或者 00-11

image.png

但是如何才可以准确 保留信号 并且还原的区间

image.png
  • 比特深度 以CD为例,按照16bits
image.png
  • 这个过程 ADC 称为 量化
image.png
  • 将bits分配给每个值 称为 脉冲编码调制(Pulse code modulation)
image.png
  • 但是更高质量音频信号,比特深度范围更大 例如 24~36bits

其实和 视频HDR 10bits和 SDR 8bits差不多

image.png

4 压缩

未压缩的 60s的 LR双省道 16bits 44100hz 大概是10.5MB

原始数据 10.5MB/min

  • MP3 -> 2.4MB/min (有损压缩 Lossy)
    (和视频帧内压缩同理 去掉人耳不擅长听出来的 高频数据)
    (例如去掉音量特别小的数据、音调特别高的)

  • Lossless无压缩编码

    • Flac
    • Alac
      主要通过重复数据压缩编码(熵编码、残差编码)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容