SoX — 音频处理工具里的瑞士军刀

SoX(即 Sound eXchange)是一个跨平台(Windows,Linux,MacOS 等)的命令行实用程序,可以将各种格式的音频文件转换为需要的其他格式。
SoX 还可以对输入的音频文件应用各种效果,也支持在大多数平台上播放录制音频文件。

一、简介

SoX 可以读取写入常见格式的音频文件,并在此过程中选择性的加入一些声音效果。
它可以组合多个输入源及合成音效,在许多系统上也可以作为音频播放器多轨录音机使用。
SoX 工具在大部分 Linux 系统上都可以直接通过软件包管理器安装(如 sudo apt-get install sox),Mac 系统上则可以使用 brew install sox 命令。

SoX 处理音频的基本流程如下:
Input(s) -> Combiner -> Effects -> Output(s)

SoX 工具的所有功能都可以通过一个简单的 sox 命令及相应的选项实现。但它同时提供了 play 命令用于播放音频文件,rec 命令用于录制音频,以及 soxi 命令用于获取音频的文件头中包含的信息。

上述几个命令的基本格式如下:

SYNOPSIS
       sox [global-options] [format-options] infile1
            [[format-options] infile2] ... [format-options] outfile
            [effect [effect-options]] ...

       play [global-options] [format-options] infile1
            [[format-options] infile2] ... [format-options]
            [effect [effect-options]] ...

       rec [global-options] [format-options] outfile
            [effect [effect-options]] ...
       
       soxi [-V[level]] [-T] [-t|-r|-c|-s|-d|-D|-b|-B|-p|-e|-a] infile1 ...

二、基本使用

1. 获取音频文件的元数据

soxisox --i 命令可以通过分析音频文件的文件头,获取其元数据(如通道数采样率编码等)。

$ soxi Faded.wav

Input File     : 'Faded.wav'
Channels       : 2
Sample Rate    : 44100
Precision      : 16-bit
Duration       : 00:03:32.63 = 9376836 samples = 15947 CDDA sectors
File Size      : 37.5M
Bit Rate       : 1.41M
Sample Encoding: 16-bit Signed Integer PCM

soxi 命令跟上某个特定的选项可以只获取该选项对应的信息,如只显示某音频文件 Faded.wav比特率(Bit Rate):

$ soxi -B Faded.wav
1.41M

soxi 命令支持的所有选项及其含义如下:

$ soxi
Usage: soxi [-V[level]] [-T] [-t|-r|-c|-s|-d|-D|-b|-B|-p|-e|-a] infile1 ...

-t  Show detected file-type
-r  Show sample-rate
-c  Show number of channels
-s  Show number of samples (0 if unavailable)
-d  Show duration in hours, minutes and seconds (0 if unavailable)
-D  Show duration in seconds (0 if unavailable)
-b  Show number of bits per sample (0 if not applicable)
-B  Show the bitrate averaged over the whole file (0 if unavailable)
-p  Show estimated sample precision in bits
-e  Show the name of the audio encoding
-a  Show file comments (annotations) if available

With no options, as much information as is available is shown for
each given file.
2. 获取音频的统计信息

可以使用 sox <inputfile> -n stat 命令获取某音频文件的统计信息。示例如下:

$  sox Faded.wav -n stat
Samples read:          18753672
Length (seconds):    212.626667
Scaled by:         2147483647.0
Maximum amplitude:     0.977417
Minimum amplitude:    -0.977478
Midline amplitude:    -0.000031
Mean    norm:          0.229415
Mean    amplitude:    -0.000006
RMS     amplitude:     0.302594
Maximum delta:         1.765564
Minimum delta:         0.000000
Mean    delta:         0.202369
RMS     delta:         0.273320
Rough   frequency:         6339
Volume adjustment:        1.023
3. 播放与录制

playrec 命令提供了最基本的播放和录制功能。
播放:$ play existing-file.wav
录制:$ rec new-file.wav

上述命令等同于 sox 命令的如下形式:
$ sox existing-file.wav −d(播放)和 sox −d new-file.wav(录制)
其中 -d 选项用于指定播放或录制时使用的音频设备,不指定时则表示使用默认设备。

可以这样理解

  • sox existing-file.wav -d 就是从 existing-file.wav 文件中读取其包含的音频数据,再输出到 -d (默认音频设备,扬声器)进行播放;
  • sox -d new-file.wav 就是从 -d (默认音频设备,麦克风)中读取音频数据,再输出(录制)到 new-file.wav 文件中。

其实都遵循了一个基本的格式,即 sox <input> <output> 。而其中的 <input><output> 根据需要既可以为某个具体的音频文件,也可以是某个具体的音频设备


播放或录制的同时,也可以对音频文件应用指定的编辑操作或效果选项,因此在对音频数据应用某效果前,可以先使用 play 命令进行“预览”。

trim 效果可以从音频文件中裁剪提取指定的片段到输出文件。play 命令通过该效果可以直接播放指定片段:
$ play foo.wav trim 10.0 5.0$ play foo.wav trim 10.0 =15.0
播放 foo.wav 文件中 10-15s 之间的音频片段

使用 echo 效果播放 Faded.wav 文件:

$ play Faded.wav echo 0.8 0.88 200.0 0.4

Faded.wav:

 File Size: 37.5M     Bit Rate: 1.41M
  Encoding: Signed PCM
  Channels: 2 @ 16-bit
Samplerate: 44100Hz
Replaygain: off
  Duration: 00:03:32.63

In:12.1% 00:00:25.82 [00:03:06.81] Out:1.14M [-=====|=====-] Hd:2.7 Clip:0
4. 音频格式转换
文件格式类型

对于音频数据格式的描述,主要通过以下 4 种属性:

  • 采样率(sample rate):指声音由模拟信号转换成数字信号的过程中,每秒从连续信号中提取的用于组成离散信号的样本个数。
    音频CD所用的采样率为 44100 Hz,数字音频磁带和许多计算机系统使用 48000 Hz,专业级音频系统通常使用 96000 Hz。

  • 采样大小(sample size 或 Precision):音频采样时用于存储每个样本的数据位数(bits)。如今 16 bit 的采样大小已被广泛使用,24 bit 主要用于专业音频领域。

  • 编码格式(data encoding):即每个音频样本的表示(即“编码”)方式。常用的编码类型包括 floating-point、μ-law、ADPCM、singed-integer PCM、MP3 和 FLAC 等。

  • 通道(channel):即文件中包含的音频通道的数量。其中单声道(mono)和双声道(stereo)是最常见的两种,“环绕声”音频(Surround sound)通常包含六个或更多声道。

此外,音频文件还使用比特率(Bit Rate)表示一个单位时间内编码音频信号占用的存储空间大小, 它的数值一般取决于所有的上述四个参数。
MP3 编码的立体声音乐通常具有 128-196kbps 的比特率, FLAC 编码的立体声音乐通常具有 550-760kbps 的比特率。

我个人是这样想的,,,可以将一段音频数据看成很长很长的一排苹果树,从头走到尾,每隔一段距离停下,摘下满满一筐苹果。。。
筐的大小就是采样大小,停下来采摘的次数就是采样频率,比特率就是把一定数量的苹果“榨成汁”(以特定的格式对音频编码)以后的重量,当然有些榨汁方法会造成一定的损失。

格式转换

形式最简单的 sox 命令即使用两个文件名作为参数,如:
$ sox Faded.wav Faded.mp3 :将 Faded.wav 文件的格式由 wav 转为 mp3

上述命令执行时,SoX 会先从 Faded.wav 文件中读取音频数据,再将其输出到 Faded.mp3 文件中。而 SoX 程序会根据参数中文件名的后缀推断出相应的格式,并在复制音频数据的过程中自动进行转码。

SoX 可以处理 self-describingraw 格式的音频文件。
self-describing 格式(如 WAV、FLAC、MP3)的文件包含一个用于描述信号和编码属性的文件头,而 rawheadless 格式的音频则不包含这些信息。

所以当 raw 格式的音频作为输入文件时,需要在 sox 命令的格式选项里指定其信号和编码属性。

常用的音频格式选项:

选项 描述
-b, --bits BITS 每个编码样本占用的数据位数
-c, --channels CHANNELS 音频文件包含的通道数
-e, --encoding ENCODING 音频文件的编码类型
-r, --rate RATE 音频文件的采样率
-t, --type FILE-TYPE 音频文件的文件类型

上述选项适用于输入或输出文件,主要用于说明 raw(或 headless)文件作为输入时的格式信息,或格式转换时指定输出文件的具体参数。

$ sox −r 48k −e float −b 32 −c 2 input.raw output.wav
将某个特定的 raw 格式的音频文件转换为 wav 格式

$ sox Faded.wav Faded.raw
将音频文件 Faded.wav 转为 raw 格式

$ play -r 44800 -b 16 -e signed-integer -c 2 Faded.raw
播放 raw 格式的音频文件

$ sox Faded.wav -c 1 Faded-mono.wav
Faded.wav 文件转换成单声道(-c 1)后输出

三、音频效果

SoX 工具可以在音频处理的过程中,对输入的音频数据应用众多的效果
可以使用如下命令查看所有效果的帮助信息:

$ sox --help-effect all | less
sox:      SoX v

Effect usage:

allpass frequency width[h|k|q|o]


band [-n] center [width[h|k|q|o]]


bandpass [-c] frequency width[h|k|q|o]


bandreject frequency width[h|k|q|o]


bass gain [frequency(100) [width[s|h|k|q|o]](0.5s)]


bend [-f frame-rate(25)] [-o over-sample(16)] {start,cents,end}

:

也可以直接查看具体某个音频效果的使用方法:

$  sox --help-effect echo
sox:      SoX v

Effect usage:

echo gain-in gain-out delay decay [ delay decay ... ]

以下是一些简单的应用场景。

1. 更改声道数

sox 命令可以更改音频文件中声道的数目,如将单声道音频转换成双声道:
$ sox foo.wav foostereo.wav channels 2$ sox foo.wav -c 2 foostereo.wav

但是上述命令并没有创建一个“真实”的双声道音频,而是将单声道音频复制成完全一致的两个声道再合并到输出文件中。

可以通过 sox 命令的 -M 选项将左右两个声道的单声道音频合并成一个双声道文件:
$ sox -M left.wav right.wav stereo.wav

当然,也可以通过对双声道文件中两个声道的均一化处理,将其输出为单声道音频:
$ sox original.wav mono.wav channels 1$ sox original.wav -c 1 mono.wav

remix

通过 sox 命令的 remix 效果也可以完成对声道数据的提取或融合。

提取双声道音频文件中单个声道的数据并作为单声道音频输出:
$ sox stereo.wav left.wav remix 1 (提取左声道音频)
$ sox stereo.wav right.wav remix 2 (提取右声道音频)

融合双声道文件中两个声道的音频数据并作为单声道音频输出:
$ sox stereo.wav mono.wav remix 1,2
$ sox stereo.wav mono.wav remix 1-2

此外,remix 还可以将输入文件中的多个声道数据分别进行融合。
如使用 -M 选项将两个双声道音频合并,再通过 remix 将合并得到的四个声道两两融合,生成一个只包含两个声道的输出文件。
$ sox -M stereo1.wav stereo2.wav output.wav remix 1,3 2,4

2. 改变音量

sox 命令的 -v 选项可以用来(成倍地)改变音量的大小:
$ sox -v 0.5 foo.wav bar.wav
上述命令将 foo.wav 音频放大 0.5 倍音量后输出至 bar.wav 文件

可以将音量放大功能与 stat 效果结合。
sox foo.wav -n stat -v 命令返回的数字作为放大倍数,将最大化 foo.wav 的音量而不至于出现削波

$ sox foo.wav -n stat -v 2> vc
$ sox -v `cat vc` foo.wav foo-maxed.wav

此外,还有一个选项 --norm 用来归一化音频响度。为了最大化音频的声音强度,可以在处理输入音频时将该选项设置为 -1:
sox --norm=-1 <inputfile> <outputfile>

3. 提取文件的某个部分

sox 命令的 trim 效果可以将输入音频的某一段裁剪出来并提取到输出文件中。

trim 接收两个参数,一个作为裁剪片段的起始位置,另一个作为该片段持续的时间。
可以使用整数+s格式的参数以样本个数作为计量单位,也可以直接使用 ((hh:)mm:)ss(.fs) 形式的时间参数。当参数为纯整数时,单位为秒。

$ sox Input.wav Half1.wav trim 0 30:00 截取输入文件中前 30 分钟的音频
$ sox Input.wav Half2.wav trim 30:00 30:00 截取输入文件中从第 30 分钟开始到第 60 分钟的音频

4. 拼接文件

与前面裁剪提取的操作相反,sox 命令还可以实现对两个或多个音频文件的拼接。

$ sox Half1.wav Half2.wav Full.wav
Half1.wavHalf2.wav 合并至 Full.wav 文件。注意合并前的音频文件需保持一致的类型和采样率等。

5. 合成音频

sox 命令可以通过 synth 效果合成许多标准波形和噪声类型。

$ sox -n sine.wav synth 1.0 sine 1000.0
合成频率为 1000 Hz 长度为 1 秒的正弦波,保存至 sine.wav 文件中。

synth 支持合成的声音类型包括 sinesquaretrianglesawtoothtrapetz (trapezoidal)exp (exponential)whitenoisepinknoisebrownnoise

6. 静音效果

sox 命令可以创建静音状态的音频片段,使用 -n 选项表示没有输入,通过 trim 效果指定需要静音的片段。

$ sox -n -r 48000 silence.wav trim 0.0 0.250
slience.wav 文件中创建一段长度为 250ms 采样率为 48000Hz 的静音片段。

7. 混合音频

sox 命令的 -m 选项可以将两个音频文件混合以后生成输出文件。

$ sox -m sine100.wav sine250.wav sine100-250.wav
sine100.wavsine250.wav 两个音频文件融合以后作为 sine100-250.wav 文件的音频数据。

$ sox -m -v0.5 music.mp3 -v2 speech.wav presentation.wav
将背景音乐(music.mp3)音量降低一半后与放大 2 倍音量的人声数据(speech.wav)融合。

如果不确定融合效果,可以先通过 play 命令使用相同的参数对结果进行“预览”:
$ play -m -v0.5 music.mp3 -v2 speech.wav

PS
与前面的 -M 选项不同,-m 选项倾向于对声道数据的混合,即两个单声道文件通过 -m 混合以后输出仍是单声道数据。输出文件中的单个声道包含了输入的两个声道的特征。

-M 选项更倾向于对音频文件的合并,默认不对声道数据进行混合。所以两个单声道文件通过 -M 合并以后默认输出双声道音频。输出文件中的两个声道分别对应于输入的两个声道(数据没有混合)。除非通过 -c 选项手动指定输出文件的声道数量。

8. 改变播放速度

可以通过 stretch 效果改变音频文件的播放速度,同时不会导致音高的变化。

如以 2x 倍速播放 Faded.wav 文件:
$ play Faded.wav stretch 0.5

也可以通过 speed 效果调节播放速度(相应地音高也会发生变化):
$ play Faded.wav speed 2

此外,可以使用 pitch 效果调节音频片段的音高,以音分(cents)为单位。

$ play Faded.wav pitch 200
Faded.wav 文件中的音频提高 200 音分,即提高 2 个半音的音程(每一个半音的音程等于 100 音分)。

参考资料

SoX
Using Sox
How to process audio files from the command line with SoX

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容

  • SoX 是一款强大音频文件工具箱,是音频操作方面的瑞士军刀, 转码, 播放, 录制,以及查看音频文件格式都很方便,...
    老瓦在霸都阅读 7,261评论 1 1
  • 前言: 记载资料多为网络搜集,侵删。 根据最近接触的整机项目做了一些整机音频相关基础知识的总结,如有不足或表述问题...
    Gawain_Knowknow阅读 8,137评论 0 4
  • 要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采样和量化构成,人耳所能听到的声...
    Viking_Den阅读 10,205评论 1 10
  • 昨天周四,早上起来出操去了,毕竟班主任要来,而且要把没跑步补上,所以出完操就跑了五圈,跑完就回宿舍补觉了,等到了七...
    坚志阅读 156评论 0 0
  • 今天又增加了一个,每天早上看书半小时,这个可少不了你的配合哦。一个月后,三个月后,半年后,一年后,我们会变得大不同...
    桧枫阅读 183评论 0 0