这是可以使用我们的多个免费在线工作站之一(例如 Ubuntu Online、Fedora Online、Windows 在线模拟器或 MAC OS 在线模拟器)在 OnWorks 免费托管服务提供商中运行的命令播放
程序:
您的姓名
SoX - Sound eXchange,音频处理的瑞士军刀
概要
短袜 [全局选项[格式选项] 输入文件1
[[格式选项] 输入文件2] ... [格式选项] 输出文件
[效果 [效果选项]] ...
玩 [全局选项[格式选项] 输入文件1
[[格式选项] 输入文件2] ... [格式选项]
[效果 [效果选项]] ...
rec: [全局选项[格式选项] 输出文件
[效果 [效果选项]] ...
商品描述
介绍
SoX 以最流行的格式读取和写入音频文件,并且可以选择应用效果
给他们。 它可以组合多个输入源,合成音频,并且在许多系统上,
充当通用音频播放器或多轨录音机。 它也有限制
能够将输入拆分为多个输出文件。
所有 SoX 功能都可以使用 短袜 命令。 为了简化演奏和
录制音频,如果 SoX 被调用为 玩, 输出文件自动设置为
默认声音设备,如果调用为 rec:, 默认声音设备用作输入
来源。 此外,该 索西(1) command 提供了一种方便的方式来查询音频
文件头信息。
SoX 的核心是一个名为 libSoX 的库。 那些有兴趣扩展 SoX 或使用
它在其他程序中应参考 libSoX 手册页: 库索克斯(3)。
SoX 是一个命令行音频处理工具,特别适合制作快速、简单的
编辑和批处理。 如果您需要交互式图形音频编辑器,请使用
大胆(1)。
* * *
整个 SoX 处理链可以总结如下:
输入 → 组合器 → 效果 → 输出
但是请注意,在 SoX 命令行上,输出和效果的位置
与刚刚显示的逻辑流程交换。 另请注意,while 相关选项
to 文件放在它们各自的文件名之前,效果相反。
为了展示这在实践中是如何工作的,这里有一些关于 SoX 可能如何工作的示例
用过的。 简单的
sox recital.au 独奏会.wav
将 Sun AU 格式的音频文件转换为 Microsoft WAV 文件,同时
sox recital.au -b 16 recital.wav 通道 1 速率 16k 淡入淡出 3 标准
执行相同的格式转换,但也应用四种效果(缩混为一种
通道、采样率变化、淡入、标准化),并将结果存储在位深度为
16.
sox -r 16k -e 签名 -b 8 -c 1 voice-memo.raw voice-memo.wav
将“原始”(又名“无头”)音频转换为自描述文件格式,
sox 慢.aiff 固定.aiff 速度 1.027
调整音频速度,
sox short.wav long.wav long.wav
连接两个音频文件,和
sox -m 音乐.mp3 语音.wav 混合.flac
将两个音频文件混合在一起。
播放“The Moonbeams/Greatest/*.ogg”bass +3
播放音频文件的集合,同时应用低音增强效果,
播放 -n -c1 合成罪 %-12 罪 %-9 罪 %-5 罪 %-2 淡入淡出 h 0.1 1 0.1
用管风琴声音演奏合成的“小七度”和弦,
rec -c 2 radio.aiff 修剪 0 30:00
录制半小时的立体声音频,以及
play -q take1.aiff & rec -M take1.aiff take1-dub.aiff
(使用 POSIX shell 并且在硬件支持的情况下)在多轨中记录新轨道
记录。 最后,
rec -r 44100 -b 16 -s -p 静音 1 0.50 0.1% 1 10:00 0.1% | \
sox -p song.ogg 沉默 1 0.50 0.1% 1 2.0 0.1% : \
新文件:重新启动
录制音频流,例如 LP/磁带,并在以下位置拆分为多个音频文件
点 2 秒的沉默。 此外,它不会开始记录,直到它检测到
音频正在播放并在看到 10 分钟的静音后停止。
NB 以上只是对 SoX 功能的概述; 详细说明如何
使用 所有 SoX 参数、文件格式和效果可以在本手册的下方找到,在
格式(7),以及 索西(1)。
文件 格式 类型
SoX 可以处理“自描述”和“原始”音频文件。 “自描述”格式
(例如 WAV、FLAC、MP3)具有完整描述信号和编码的标头
后面的音频数据的属性。 `raw' 或 `headerless' 格式不包含
这些信息,因此必须在 SoX 上描述这些信息的音频特性
命令行或从输入文件的那些推断。
以下四个特征用于描述音频数据的格式,使得
它可以用 SoX 处理:
采样率
以每秒采样数为单位的采样率(`Hertz' 或 `Hz')。 数字电话
传统上使用 8000 Hz (8 kHz) 的采样率,但如今,16 甚至
32 kHz 变得越来越普遍。 音频光盘使用 44100 Hz (44.1 kHz)。
数字音频磁带和许多计算机系统使用 48 kHz。 专业音响系统
通常使用 96 kHz。
样本量
用于存储每个样本的位数。 今天,通常使用 16 位。
8 位在计算机音频的早期很流行。 24 位用于
专业音频领域。 也使用其他尺寸。
数据编码
每个音频样本的表示(或“编码”)方式。 一些编码
具有具有不同字节顺序或位顺序的变体。 一些压缩
音频数据,以便存储的音频数据占用更少的空间(即磁盘空间或
传输带宽)比其他格式参数和样本数
会暗示。 常用的编码类型包括浮点、μ-law、ADPCM、
有符号整数 PCM、MP3 和 FLAC。
通道
文件中包含的音频通道数。 一个(`mono')和两个
(`stereo') 被广泛使用。 “环绕声”音频通常包含六个或更多
通道。
术语“比特率”是对编码音频占用的存储量的度量
单位时间内的信号。 它可以取决于以上所有因素,通常表示为
每秒千位 (kbps) 的数量。 A 律电话信号的比特率为 64
kbps。 MP3 编码的立体声音乐通常具有 128-196 kbps 的比特率。 FLAC 编码
立体声音乐的比特率通常为 550-760 kbps。
大多数自描述格式还允许将文本“评论”嵌入到文件中
可用于以某种方式描述音频,例如音乐、标题、作者等。
音频文件注释的一个重要用途是传达“重播增益”信息。 搜狐
支持应用重放增益信息,但不生成它。 请注意,默认情况下,
SoX 将输入文件注释复制到支持注释的输出文件中,因此输出文件可能
如果输入文件中存在重放增益信息,则包含重放增益信息。 在这种情况下,如果
执行除简单格式转换之外的任何操作,然后输出文件重放
增益信息可能不正确,因此应使用以下工具重新计算
支持这个(不是 SoX)。
- 索西(1) 命令可用于显示来自音频文件头的信息。
决定 & 设置 - 文件 格式
SoX 可以使用多种机制来确定或设置格式
音频文件的特征。 视情况而定,个人
可以使用不同的机制来确定或设置特性。
为了确定输入文件的格式,SoX 将使用,按优先顺序和作为
给定或可用的:
1. 命令行格式选项。
2.文件头的内容。
3. 文件扩展名。
要设置输出文件格式,SoX 将使用,按优先顺序和给定或
可供选择:
1. 命令行格式选项。
2. 文件扩展名。
3.输入文件格式特征,或输出支持的最接近的
文件类型。
对于所有文件,如果无法确定文件类型,SoX 将退出并显示错误。 命令-
可能需要添加或更改行格式选项才能解决问题。
播放 & 录音 音频
- 玩 和 rec: 提供命令,以便基本的播放和录音就像
播放现有文件.wav
和
rec 新文件.wav
这两个命令在功能上等价于
sox 现有文件.wav -d
和
sox -d 新文件.wav
当然,可以在命令中添加更多选项和效果(如下所述)
以任何一种形式。
* * *
一些系统提供不止一种类型的(SoX 兼容的)音频驱动程序,例如 ALSA 和 OSS,
或 SUNAU & AO。 系统也可以有多个音频设备(又名“声卡”)。
如果 SoX 内置了多个音频驱动程序,并且 SoX 选择的默认值
当录制或播放不是想要的时,那么 音频驱动器 环境
变量可用于覆盖默认值。 例如(在许多系统上):
设置AUDIODRIVER=oss
玩 ...
- 音频设备 环境变量可用于覆盖默认音频设备,例如
设置 AUDIODEV=/dev/dsp2
玩 ...
sox ...-t oss
or
设置 AUDIODEV=hw:soundwave,1,2
玩 ...
sox ... -t 阿尔萨
请注意,设置环境变量的方式因系统而异 - 对于某些
具体示例,请参见下面的“SOX_OPTS”。
当以音频输出设备不支持的采样率播放文件时,
SoX 将自动调用 率 执行必要的采样率的效果
转换。 为了与旧硬件兼容,默认 率 质量级别设置为
‘低’。 这可以通过明确指定 率 用不同的效果
质量水平,例如
播放...率 -m
或通过使用 --播放率参数 选项(见下文)。
* * *
在某些系统上,SoX 允许在使用时调整音频播放音量 玩。 哪里
支持,这是通过在播放过程中点击“v”和“V”键来实现的。
为了帮助设置合适的录音电平,SoX 包括一个峰值电平表,它可以
被调用(在进行实际录音之前)如下:
记录 -n
应调整录音电平(使用系统提供的混音器程序,而不是 SoX)
所以仪表是 at 最先进的 偶尔 全尺寸,并且永远不会“处于红色”(一个
显示感叹号)。 也可以看看 -S 联络一位教师
准确性
许多压缩音频的文件格式会丢弃一些音频信号信息,同时
这样做。 转换为这种格式然后再次转换回来不会产生
原始音频的精确副本。 电话中使用的许多格式都是这种情况
(例如 A-law、GSM),其中低信号带宽比高音频保真度更重要,
对于便携式音乐播放器(例如 MP3、Vorbis)中使用的许多格式,只要足够
即使需要较大的压缩比,也可以保持保真度
便携播放器实用。
丢弃音频信号信息的格式称为“有损”。 不属于的格式
称为“无损”。 “质量”一词用于衡量原始
使用有损格式时可以再现音频信号。
使用 SoX 进行的音频文件转换是无损的,即在不使用有损的情况下
压缩,当不降低采样率或通道数时,以及当
目标格式中使用的位数不小于源格式中的位数。 例如
从 8 位 PCM 格式转换为 16 位 PCM 格式是无损的,但从
8 位 PCM 格式到(8 位)A 律不是。
注: SoX 在执行之前将所有音频文件转换为内部未压缩格式
任何音频处理。 这意味着操作以有损格式存储的文件
可能会导致音频保真度进一步下降。 例如与
sox long.mp3 short.mp3 修剪 10
SoX 首先解压缩输入的 MP3 文件,然后应用 修剪 效果,最后
通过重新压缩音频创建输出 MP3 文件 - 可能会减少
保真度高于创建输入文件时发生的保真度。 因此,如果什么是
最终需要的是有损压缩的音频,强烈建议执行所有
使用无损文件格式进行音频处理,然后仅在
最后阶段。
注: 使用单个 SoX 调用应用多个效果通常会产生
比使用多个 SoX 调用产生的结果更准确。
抖动
抖动是一种用于最大化存储在特定位置的音频动态范围的技术。
特定位深度。 量化引入的任何失真都通过添加去相关
信号中含有少量白噪声。 在大多数情况下,SoX 可以确定
选定的处理需要抖动,并且将在输出格式化期间添加它,如果
适当。
具体来说,默认情况下,当输出位深度为
小于 24 且符合以下任一条件:
· 位深度减少已使用命令行选项明确指定
· 输出文件格式只支持比输入文件低的位深
格式
· 一种效果在内部处理链中增加了有效位深度
例如,调节音量 第一卷 0.25 需要两个额外的位来
无损存储其结果(因为 0.25 十进制等于 0.01 二进制)。 所以如果输入
文件位深为 16,那么 SoX 的内部表示将在之后使用 18 位
处理这个音量变化。 为了将输出存储在与
输入,抖动用于去除附加位。
使用 -V 选项以查看 SoX 已自动添加的处理内容。 这 -D 选项可能是
给出覆盖自动抖动。 手动调用抖动(例如选择一个
噪声整形曲线),见 抖动 效果。
剪裁
削波是当音频信号电平(或“音量”)超过
所选表示的范围。 在大多数情况下,剪辑是不可取的,因此应该
通过调整(在处理链中)点之前的水平来纠正
它发生。
在 SoX 中,如您所料,在使用 第一卷 or 获得 对...的影响
增加音频音量。 剪裁也可能与许多其他效果一起发生,当
将一种格式转换为另一种格式,即使只是播放音频。
播放音频文件通常涉及重采样,模拟组件的处理可以
引入一个小的 DC 偏移和/或放大,所有这些都会产生失真,如果
音频信号电平最初太接近剪切点。
由于这些原因,通常要确保音频文件的信号电平具有一定的
`headroom',即它不超过低于最大可能水平的特定水平
对于给定的表示。 一些标准机构推荐高达 9dB 的余量,
但在大多数情况下,3dB(≈ 70% 线性)就足够了。 请注意,这种智慧似乎已经
迷失在现代音乐制作中; 事实上,现在很多CD、MP3等都是在水平上掌握的
以上 0dBFS 即音频在交付时被剪辑。
SoX的 统计 和 统计 效果可以帮助确定音频文件中的信号电平。
- 获得 or 第一卷 效果可用于防止剪裁,例如
sox 暗沉.wav 明亮.wav 增益 -6 高音 +6
保证高音提升不会削波。
如果在处理过程中的任何时候发生剪辑,SoX 将显示一条警告消息
那个效果。
参见 -G 和 获得 和 规范 影响。
输入 文件 技术与
SoX 的输入组合器可以配置(见下面的选项)来组合多个文件使用
以下任何一种方法:`concatenate'、`sequence'、`mix'、`mix-power'、`merge'或
‘乘’。 默认方法是`sequence' 玩,和`连接' rec: 和 短袜.
对于除‘sequence’以外的所有方法,多个输入文件必须具有相同的采样
速度。 如有必要,可以使用单独的 SoX 调用进行采样率调整
在合并之前。
如果选择了“concatenate”组合方法(通常,这将是默认的)然后
输入文件也必须具有相同数量的通道。 每个输入的音频
将按照给定的顺序连接以形成输出文件。
“序列”组合方法是自动选择的 玩。 它类似于
`concatenate' 将每个输入文件的音频串行发送到输出文件。
但是,这里的输出文件可能会在相应的转换时关闭并重新打开
输入文件之间。 这可能正是发送不同类型音频时所需要的
到输出设备,但当输出是普通文件时通常没有用。
如果选择了“mix”或“mix-power”组合方法,则两个或更多输入
必须给出文件并将它们混合在一起以形成输出文件。 的数量
每个输入文件中的通道不必相同,但如果它们不同,SoX 将发出警告
not 并且输出文件中的某些通道不会包含来自每个输入文件的音频。 一种
混合音频文件不能在不参考原始输入文件的情况下解混。
如果选择了“合并”组合方法,则必须给出两个或多个输入文件,并且
将合并在一起形成输出文件。 每个输入中的通道数
文件不必相同。 合并的音频文件包含来自所有
输入文件。 使用 SoX 的多次调用可以取消合并 混合
影响。 例如,可以合并两个单声道文件以形成一个立体声文件。 首先
第二个单声道文件将成为立体声文件的左右声道。
`multiply'组合方法将对应通道的样本值相乘
(被视为区间 -1 到 +1 中的数字)。 如果输入中的通道数
文件不一样,丢失的通道被认为包含所有零。
在组合输入文件时,SoX 应用任何指定的效果(包括,例如,
第一卷 音量调节效果)合并音频后。 然而,它经常
能够单独设置(即“平衡”)输入的音量,之前有用
合并发生。
对于所有组合方法,可以使用 -v
可以为一个或多个输入文件提供的选项(如下)。 如果它仅用于
一些输入文件然后其他的没有音量调整。 在一些
情况下,可能会应用自动音量调整(见下文)。
- -V 选项(如下)可用于显示已调整的输入文件音量
选择(手动或自动)。
混合输入文件时需要注意一些特殊事项:
与其他方法不同,“混合”组合有可能导致剪辑中的
如果不进行平衡,则合并器。 在这种情况下,如果没有手动调节音量
给定,SoX 将尝试通过自动调整
每个输入信号的音量(幅度)乘以 ¹/n,其中 n 是输入的数量
文件。 如果这导致音频太安静或不平衡,则输入
可以如上所述手动设置文件卷。 使用 规范 对混合的影响是
另一种选择。
如果混合音频在某些点看起来足够响亮但在其他点上太安静,那么动态范围
应该应用压缩来纠正这个问题 - 请参阅 压缩扩展 效果。
使用“mix-power”组合方法,混合体积大约等于
输入信号之一。 这是通过使用 ¹/√n 的因子而不是
¹/n。 请注意,此平衡因子并不能保证不会发生削波,但
剪辑的数量通常很少,因此产生的失真通常是
难以察觉。
输出 档
SoX 的默认行为是将一个或多个输入文件写入单个
输出文件。
可以通过在效果中指定伪效果“newfile”来更改此行为
列表。 SoX 然后将进入多输出模式。
在多输出模式下,当效果在 `newfile' 之前时创建一个新文件
表明他们已经完成。 然后启动“newfile”之后列出的效果链并
其输出将保存到新文件中。
在多输出模式下,一个唯一的数字会自动附加到所有输出的末尾
文件名。 如果文件名有扩展名,则在扩展名之前插入数字
延期。 可以通过在文件名中的任何位置放置 %n 来自定义此行为
应该替换数字的地方。 一个可选的数字可以放在 % 之后
指示数字的最小固定宽度。
多输出模式不是很有用,除非效果会停止效果链
early 在 `newfile' 之前指定。 如果在效果之前到达文件末尾
链停止本身然后不会创建新文件,因为它会是空的。
以下是将输入文件的前 60 秒拆分为两个 30 秒的示例
第二个文件并忽略其余文件。
sox song.wav 铃声%1n.wav 修剪 0 30 : 新文件 : 修剪 0 30
停止 短袜
通常 SoX 会在读取完所有内容后自动完成处理并退出
输入文件中的可用音频数据。
如果需要,可以通过向进程发送中断信号来提前终止
(通常通过按下键盘中断键,通常是 Ctrl-C)。 这是一个
在某些情况下自然需要,例如使用 SoX 进行录音时。 笔记
当使用 SoX 播放多个文件时,Ctrl-C 的行为略有不同:按
它曾经导致 SoX 跳到下一个文件; 快速连续按两次会导致
SoX 退出。
提前停止处理的另一种选择是使用具有时间段或
样本计数以确定停止点。 修剪效果就是一个例子。 一次
所有效果链都停止了,那么 SoX 也将停止。
文件名
文件名可以是简单的文件名、绝对或相对路径名或 URL(输入文件
只要)。 请注意,URL 支持要求 wget的(1) 可用。
注意:为 SoX 提供与 SoX 效果名称相同的输入或输出文件名将
不起作用,因为 SoX 会将其视为效果规范。 唯一的解决方法
是为了避免这样的文件名。 这通常不难,因为大多数音频文件名
有一个文件名“扩展名”,而效果名称没有。
Special 档名
在某些情况下可以使用以下特殊文件名代替正常的文件名
命令行上的文件名:
- SoX 可以通过使用特殊文件名“-”用于简单的管道操作
如果用作输入文件名,将导致 SoX 将从中读取音频数据
“标准输入”(stdin),如果用作输出文件名,将导致 SoX
将音频数据发送到“标准输出”(stdout)。 请注意,在使用此
输出文件的选项,有时当将它用于输入文件时,
文件类型(见 -t 下面)也必须给出。
"|程序 [选项] ..."
这可以用来代替输入文件名来指定给定程序的
标准输出 (stdout) 用作输入文件。 不像 - (上),这可以
用于一个 SoX 命令的多个输入。 例如,如果`genw' 生成单声道
WAV 格式的信号输出到它的标准输出,然后下面的命令使
来自两个生成信号的立体声文件:
sox -M "|genw --imd -" "|genw --thd -" out.wav
对于无头(原始)音频, -t (也许还有其他格式选项)将需要
给定,在输入命令之前。
"通配符文件名"
指定文件名“globbing”(通配符匹配)应该由 SoX 执行
而不是由外壳。 这允许将一组文件选项应用于
一组文件。 例如,如果当前目录包含三个‘vox’
文件、file1.vox、file2.vox 和 file3.vox,然后
播放 --rate 6k *.vox
将被`shell'(在大多数环境中)扩展为
播放 --rate 6k file1.vox file2.vox file3.vox
它将仅将第一个 vox 文件视为具有 6k 的采样率。 和
播放 --rate 6k "*.vox"
给定的采样率选项将应用于所有三个 vox 文件。
-p, --sox-管
这可以用来代替输出文件名来指定 SoX 命令
应该用作另一个 SoX 命令的输入管道。 例如,命令:
播放 "|sox -n -p synth 2" "|sox -n -p synth 2 tremolo 10" stat
连续播放两个“文件”,每个文件都有不同的效果。
-p 实际上是`的别名-t 短袜 -'.
-d, - 默认设备
这可以用来代替输入或输出文件名来指定
将使用默认音频设备(如果已内置到 SoX 中)。 这很像
调用 rec: or 玩 (如上所述)。
-n, - 空值
这可以用来代替输入或输出文件名来指定一个 `null
文件”将被使用。 请注意,这里的“空文件”是指特定于 SoX 的
机制,与任何具有相似名称的操作系统机制无关。
使用空文件输入音频相当于使用普通的音频文件
包含无限量的沉默,因此通常没有用,除非
与指定有限时间长度的效果一起使用(例如 修剪 or 合成器).
使用空文件输出音频相当于丢弃音频,很有用
主要是产生关于音频的信息而不是影响的效果
它(例如 噪音专业 or 统计).
与空文件关联的采样率默认为 48 kHz,但与
普通文件,如果需要,可以使用命令行格式选项覆盖
(见下文)。
支持 文件 & 音频 设备 类型
参见 格式(7) 支持的文件格式和音频设备的列表和说明
驱动程序。
配置
全球覆盖 可选项
这些选项可以在第一个效果之前的任何时候在命令行中指定
名称。
- SOX_OPTS 环境变量可用于提供替代默认值
SoX 的全局选项。 例如:
SOX_OPTS="--buffer 20000 --play-rate-arg -hs --temp /mnt/temp"
请注意,设置 SOX_OPTS 可能会对
调用 SoX 的脚本或其他程序。 SOX_OPTS 可能最好用于事物(例如
如在给定的示例中)反映了运行 SoX 的环境。 启用
诸如 --无破坏 使用 shell 别名可以更好地处理默认值,因为
shell 别名不会影响脚本等中的操作。
确保脚本不受 SOX_OPTS 影响的一种方法是在
脚本的开始,但这当然失去了 SOX_OPTS 携带一些的好处
系统范围的默认选项。 另一种方法是显式调用 SoX
默认选项值,例如
SOX_OPTS="-V --no-clobber"
...
sox -V2 --clobber $输入 $输出 ...
请注意,设置环境变量的方式因系统而异。 这里有一些
例子:
Unix bash:
出口 SOX_OPTS="-V --no-clobber"
Unix csh:
setenv SOX_OPTS "-V --no-clobber"
MS-DOS/MS-Windows:
设置 SOX_OPTS=-V --no-clobber
MS-Windows GUI:通过控制面板:系统:高级:环境变量
Mac OS X GUI:请参阅 Apple 的技术问答 QA1067 文档。
- 缓冲 字节, --输入缓冲区 字节
设置用于处理音频的缓冲区的大小(以字节为单位)(默认为 8192)。
- 缓冲 适用于输入、效果和输出处理; --输入缓冲区 适用
仅用于输入处理(对其覆盖 - 缓冲 如果两者都给出)。
请注意,较大的值 - 缓冲 会导致 SoX 响应变慢
请求终止或跳过当前输入文件。
--破坏者
在覆盖与给定名称相同的现有文件之前不要提示
对于输出文件。 这是默认行为。
- 结合 串联|合并|混合|混合动力|乘|序列
选择输入文件组合方式; 对于其中一些,简短的选择是
可供选择: -m 选择“混合”, -M 选择“合并”,然后 -T 选择“乘法”。
参见 输入 文件 技术与 以上是对不同组合的描述
方法。
-D, --无抖动
禁用自动抖动 - 请参阅上面的“抖动”。 为什么这可能的一个例子
偶尔有用的是,如果文件已从 16 位转换为 24 位
打算对其进行一些处理,但实际上之后不需要处理
所有和原来的16位文件都丢失了,那么严格来说,没有抖动
如果将文件转换回 16 位,则需要。 另见 统计 效果如何
确定文件中音频的实际位深。
--效果文件 文件名
使用 FILENAME 获取所有效果及其参数。 该文件被解析为
这些值是在命令行上指定的。 可以使用新行代替
特别的 : 用于分隔效果链的标记。 为方便起见,此类标记位于
文件的结尾通常会被忽略; 如果你想指定一个空的最后
效果链,使用显式 : 在文件的最后一行单独显示。 这个
选项会导致丢弃在命令行上指定的任何效果。
-G, - 警卫
自动调用 获得 防止剪裁的效果。 例如
sox -G infile -b 16 outfile rate 44100 抖动 -s
是的简写
sox infile -b 16 outfile 增益 -h 速率 44100 增益 -rh 抖动 -s
参见 -V, - 规范, 和 获得 效果。
-h, - 帮帮我
显示版本号和使用信息。
--帮助效果 您的姓名
显示指定效果的使用信息。 名字 所有 可以用来显示
对所有效果的使用。
--帮助格式 您的姓名
显示有关指定文件格式的信息。 名字 所有 可以用来显示
所有格式的信息。
- 一世, - 信息
仅当作为第一个参数给出 短袜,表现得像 索西(1)。
-m|-M 相当于 - 结合 混合 和 - 结合 合并。
- 魔法
如果 SoX 是用可选的 `libmagic' 库构建的,那么这个选项可以是
以使其能够用于帮助检测音频文件类型。
--多线程 | --单线程
默认情况下,SoX 是“单线程”的。 如果 --多线程 给出了选项
但是 SoX 将处理音频通道中的大多数多通道效果
在超线程/多核架构上并行。 这可能会减少处理
时间,尽管有时可能需要将此选项与
比默认值更大的缓冲区大小以从多线程中获得任何好处
处理(例如 131072;见 - 缓冲 以上)。
--无破坏
在覆盖与给定的名称相同的现有文件之前提示
输出文件。
注: 无意覆盖文件比您想象的要容易,因为
例如,如果您不小心输入
sox 文件 1 文件 2 效果 1 效果 2 ...
当你真正的意思是
播放文件 1 文件 2 效果 1 效果 2 ...
然后,如果没有此选项,file2 将被覆盖。 因此,使用此选项是
受到推崇的。 SOX_OPTS(上图),“shell”别名、脚本或批处理文件可能是一个
永久启用它的适当方式。
- 规范[=分贝级]
自动调用 获得 防止剪裁和标准化的效果
声音的。 例如
sox --norm infile -b 16 outfile rate 44100 抖动 -s
是的简写
sox infile -b 16 outfile 增益 -h 速率 44100 增益 -nh 抖动 -s
或者,音频可以标准化为低于 0 dBFS 的给定电平(通常):
sox --norm=-3 输入文件输出文件
参见 -V, -G, 和 获得 效果。
--播放率参数 ARG
选择在自动调用“速率”效果时要使用的质量选项
在播放音频时。 此选项通常通过 SOX_OPTS 环境
变量(见上文)。
- 阴谋 图形|八度|折扣
如果没有设置为 折扣 (默认如果 - 阴谋 没有给出),在可以的模式下运行
与 gnuplot 程序或 GNU Octave 程序结合使用,以帮助
随着许多基于传递函数的选择和配置
效果。 对于支持所选绘图程序的第一个给定效果,
SoX 将输出命令绘制效果的传递函数,然后退出
没有实际处理任何音频。 例如
sox --plot 八度输入文件 -n highpass 1320 > highpass.plt
八度高通.plt
-q, --没有显示进度
当 SoX 不会这样做时,以安静模式运行。 这是相反的
-S 选项。
-R 以“可重复”模式运行。 提供此选项后,在适用的情况下,SoX 将
在输出文件中嵌入一个固定的时间戳(例如 AIFF格式) 并将“种子”伪
随机数生成器(例如 抖动) 具有固定数量,从而确保
具有相同输入和相同参数的连续 SoX 调用产生
相同的输出。
--重播增益 跟踪时|专辑|折扣
选择是否对输入文件应用重放增益调整。 默认的
is 折扣 短袜 和 rec:, 专辑 玩 其中(至少)前两个输入文件
被标记为相同的艺术家和专辑名称,并且 跟踪时 玩 除此以外。
-S, --显示进度
显示输入文件格式/头信息,以及处理进度作为输入
文件完成百分比、已用时间和剩余时间(如果已知;显示在
括号),以及写入输出文件的样本数。 还显示了一个
峰值电平表,以及是否发生削波的指示。 峰值电平表
最多显示两个通道,并针对数字音频进行了如下校准(右
通道显示):
dB 消防处 屏 显: dB 消防处 屏 显:
-25 - -11 ====
-23 = -9 ===-
-21 =- -7 =====
-19 == -5 ======-
-17 =- -3 =====
-15 === -1 =====!
-13 ===-
以 dB 为单位的三秒峰值保持值将显示在右侧
如果低于 6dB。
使用 SoX 播放或录制音频时,默认情况下启用此选项。
-T 相当于 - 结合 乘.
--温度 目录
指定应在给定的文件中创建任何临时文件 目录。 这
如果默认设置存在权限或可用空间问题,则可能很有用
地点。 在这种情况下,使用`--温度 .'(使用当前目录)通常是
很好的解决方案。
- 版
显示 SoX 的版本号并退出。
-V[水平]
设置详细程度。 这对于查看任何自动效果如何特别有用
已被 SoX 调用。
SoX 根据以下详细信息在控制台 (stderr) 上显示消息
级别:
0 根本不显示任何消息; 使用退出状态来确定是否有错误
已经发生了。
1 仅显示错误消息。 如果 SoX 无法完成,则会生成这些
请求的命令。
2 还会显示警告消息。 如果 SoX 可以完成,则会生成这些
请求的命令,但不完全按照请求的命令
参数,或者是否发生剪裁。
3 还显示了 SoX 处理阶段的描述。 有用的看
SoX 究竟是如何处理您的音频的。
4及以上
还显示了帮助调试 SoX 的消息。
默认情况下,详细级别设置为 2(显示错误和警告)。 每个
的发生 -V 选项将详细级别增加 1。或者,
详细级别可以通过在后面立即指定来设置为绝对数字
这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 -V,例如 -V0 将其设置为 0。
输入 文件 可选项
这些选项仅适用于输入文件,并且可能仅在输入文件名之前
命令行。
--忽略长度
覆盖音频文件标题中给出的(不正确的)音频长度。 如果这
给出选项然后 SoX 将继续读取音频,直到它到达结束
输入文件。
-v, - 体积 因子
用于组合多个输入文件时,此选项可调整
在命令行上跟随它的文件的体积是 因子。 这
允许它与其他输入文件“平衡”。 这是一个线性
(振幅)调整,因此小于 1 的数字会降低音量和数字
大于 1 增加它。 如果给出负数,那么除了
音量调节,音频信号将被反转。
另见 规范, 第一卷及 获得 效果,见 输入 文件 平衡 以上。
输入 & 输出 文件 格式 可选项
这些选项适用于名称紧跟在其前面的输入或输出文件
命令行,主要用于处理无头文件格式或
指定与输入文件格式不同的输出文件格式。
-b BITS, --位 BITS
每个编码中的位数(也称为位深或有时是字长)
样本。 不适用于 MP3 或 GSM 等复杂编码。 没有必要
使用具有固定位数的编码,例如 A/μ-law、ADPCM。
对于输入文件,此选项最常见的用途是通知 SoX
“原始”(“无头”)音频文件中每个样本的位数。 例如
sox -r 16k -e 签名 -b 8 input.raw output.wav
将特定的“原始”文件转换为自描述的“WAV”文件。
对于输出文件,可以使用此选项(也许与 -e) 来设置
输出编码大小。 默认情况下(即如果未给出此选项),输出
编码大小将(假设输出文件类型支持)设置为
输入编码大小。 例如
sox 输入.cdda -b 24 输出.wav
将原始 CD 数字音频(16 位,有符号整数)转换为 24 位(有符号整数)
“WAV”文件。
-1/-2/-3/-4/-8
每个编码样本中的字节数。 已弃用的别名 -b 8, -b 16, -b
24, -b 32, -b 64 。
-c 通道, --频道 通道
音频文件中的音频通道数。 这可以是任何大于
零。
对于输入文件,此选项最常见的用途是通知 SoX
“原始”(“无头”)音频文件中的通道数。 有时,它可能是
将此选项与“标题”文件一起使用很有用,以便覆盖
(可能不正确)标头中的值 - 请注意,这仅支持
某些文件类型。 例子:
sox -r 48k -e float -b 32 -c 2 输入.原始输出.wav
将特定的“原始”文件转换为自描述的“WAV”文件。
播放 -c 1 音乐.wav
将文件数据解释为属于单个通道,而不管是什么
在文件头中指明。 请注意,如果文件实际上有两个
通道,这将导致文件以半速播放。
对于输出文件,此选项提供了一种速记,用于指定
通道 应调用 effect 以更改(如有必要)的数量
音频信号中的通道数给定。 比如下面两个
命令是等效的:
sox input.wav -c 1 输出.wav bass -b 24
sox input.wav output.wav bass -b 24 声道 1
尽管第二种形式更灵活,因为它允许对效果进行排序
任意地。
-e 编码, -编码 编码
音频编码类型。 有时需要支持多个文件类型
一种编码类型。 例如,使用 raw、WAV 或 AU(但不是,例如,使用
MP3 或 FLAC)。 可用的编码类型如下:
有符号整数
PCM 数据存储为有符号(“二进制补码”)整数。 常与
16 或 24 位编码大小。 值 0 表示最小信号
功率。
无符号整数
PCM 数据存储为无符号整数。 通常与 8 位编码一起使用
尺寸。 值 0 表示最大信号功率。
浮点
PCM 数据存储为 IEEE 753 单精度(32 位)或双精度
(64 位)浮点(“实数”)数。 值 0 表示最小值
信号功率。
一条法律 对数编码的国际电话标准为每 8 位
样本。 它的精度大约相当于 13 位 PCM,并且是
有时用反向位序编码(见 -X 选项)。
u律, 穆律
北美电话标准对数编码为 8 位/
样本。 又名μ律。 它的精度相当于大约 14 位 PCM
并且有时使用相反的位顺序进行编码(请参阅 -X 选项)。
冲-adpcm
OKI(又名 VOX、Dialogic 或 Intel)4 位 ADPCM; 它有一个精度
相当于大约 12 位 PCM。 ADPCM 是一种音频压缩形式
在音频质量和编码/解码速度之间有很好的折衷。
ima-adpcm
IMA(又名 DVI)4 位 ADPCM; 它的精度大致相当于
13 位 PCM。
毫秒-adpcm
微软 4 位 ADPCM; 它的精度相当于大约 14 位 PCM。
GSM全速率
GSM目前用于世界上绝大多数的数字无线
电话。 它使用多种具有不同比特率的音频格式
和相关的语音质量。 SoX 支持 GSM 的原始 13kbps
“全速率”音频格式。 使用 GSM 通常是 CPU 密集型的
音频。
编码名称可以在没有歧义的情况下缩写; 例如
`unsigned-integer' 可以用 `un' 给出,但不能用 `u'(与 `u-law' 有歧义)。
对于输入文件,此选项最常见的用途是通知 SoX
“原始”(“无头”)音频文件的编码(参见 -b 和 -c
以上)。
对于输出文件,可以使用此选项(也许与 -b) 来设置
输出编码类型 例如
sox 输入.cdda -e 浮点输出1.wav
sox 输入.cdda -b 64 -e 浮点输出2.wav
将原始 CD 数字音频(16 位,有符号整数)转换为浮点“WAV”文件
(分别为单精度和双精度)。
默认情况下(即如果未给出此选项),输出编码类型将
(前提是输出文件类型支持)设置为输入编码
类型。
-s/-u/-f/-A/-U/-o/-i/-a/-g
用于指定编码类型的已弃用别名 有符号整数, 未签名-
整数, 浮点, 一条法律, 穆律, 冲-adpcm, ima-adpcm, 毫秒-adpcm, GSM-全-
率 分别(见 -e 以上)。
--无全局变量
指定文件名“globbing”(通配符匹配)不应由
以下文件名上的 SoX。 例如,如果当前目录包含
两个文件 `five-seconds.wav' 和 `five*.wav',然后
播放 --no-glob "五*.wav"
可用于仅播放单个文件`five*.wav'。
-r, - 速度 率[k]
以赫兹(或 kHz,如果附加了“k”)为单位给出文件的采样率。
对于输入文件,此选项最常见的用途是通知 SoX
“原始”(“无头”)音频文件的采样率(参见 -b 和 -c
以上)。 有时,将此选项与“带头”文件一起使用可能很有用,
为了覆盖标题中的(可能不正确)值 - 请注意
这仅支持某些文件类型。 例如,如果录制了音频
来自播放一点的源的采样率为 48k,比如 1.5%,
太慢了,然后
sox -r 48720 输入.wav 输出.wav
通过仅更改文件头来有效地纠正速度(但另请参阅
速度 此问题的更常用解决方案的效果)。
对于输出文件,此选项提供了一种速记,用于指定 率
应调用 effect 以更改(如有必要)采样率
音频信号到给定值。 比如下面两条命令是
当量:
sox 输入.wav -r 48k 输出.wav bass -b 24
sox input.wav output.wav bass -b 24 速率 48k
虽然第二种形式更灵活,因为它允许 率 提供的选项,以及
允许任意排序效果。
-t, - 类型 文件类型
给出音频文件的类型。 对于输入和输出文件,此选项是
通常用于通知 SoX“无头”音频文件的类型(例如原始、mp3)
其中无法从给定的文件扩展名确定实际/所需类型。
例如:
另一个命令 | sox -t mp3 - output.wav
sox input.wav -t 原始输出.bin
它还可用于覆盖输入文件扩展名所隐含的类型,
但是如果用一个有标题的类型覆盖,SoX 将退出一个适当的
如果这样的标头实际上不存在,则会出现错误消息。
参见 格式(7) 获取支持的文件类型列表。
-L, --字节序 小
-B, --字节序 大
-x, --字节序 交换
这些选项分别指定音频数据的字节顺序是否为
`little endian'、`big endian',或与 SoX 所在系统的相反
正在使用。 字节序仅适用于编码为浮点数的数据,或编码为
16 位或更多位的有符号或无符号整数。 经常需要指定
无头文件的这些选项之一,有时需要(否则)
自描述文件。 对于输入,可以忽略给定的字节序设置选项
标头包含特定字节序标识符的文件,或用于输出文件
那实际上是一个音频设备。
注: 与其他格式特征不同,字节序(字节、半字节和位
输入文件的排序)不会自动用于输出文件; 因此对于
例如,当以下在 little-endian 系统上运行时:
sox -B 音频.s16 修剪.s16 修剪 2
trimmed.s16 将被创建为小端;
sox -B 音频.s16 -B 修剪.s16 修剪 2
必须用于在输出文件中保留大端顺序。
- -V 选项可用于检查选定的排序。
-N, --反向半字节
指定样本的半字节顺序(即一个字节的两半)
应该反过来; 有时对基于 ADPCM 的格式很有用。
注: 另见 NB 部分 -x 以上。
-X, --反向位
指定应该反转样本的位顺序; 有时有用
有一些(主要是无头的)格式。
注: 另见 NB 部分 -x 以上。
输出 文件 格式 可选项
这些选项仅适用于输出文件,并且可以仅在输出文件名之前
命令行。
- 添加评论 文字
在输出文件标题中附加注释(如果适用)。
- 评论 文字
指定要存储在输出文件标题中的注释文本(如果适用)。
如果此选项(或 --评论文件) 没有给出。
要指定不应在输出文件中存储注释,请使用 - 评论 "" .
--评论文件 文件名
指定一个包含注释文本的文件以存储在输出文件头中
(如果适用)。
-C, - 压缩 因子
可变压缩输出文件格式的压缩因子。 如果这
未给出选项,则将应用默认压缩因子。 压缩
factor 对于不同的压缩文件格式有不同的解释。 见
使用此选项的文件格式的描述 格式(7) 更多
信息。
影响
除了转换、播放和录制音频文件外,SoX 还可用于调用
音频“效果”的数量。 可以通过在后面指定一个来应用多种效果
另一个在 SoX 命令行的末尾,形成一个“效果链”。 注意
实时应用多种效果(即播放音频时)可能需要
高性能计算机。 停止其他应用程序可能会缓解性能问题
如果它们发生。
一些 SoX 效果主要用于单个乐器或
‘声音’。 为方便起见, 混合 效果和全局 SoX 选项 -M 可用于
从多轨录音中分离然后重新组合轨道。
多 效果 链条
单个效果链由一个或多个效果组成。 来自输入的音频运行
通过链直到到达输入文件的末尾或在
链请求终止链。
SoX 支持在输入音频上运行多个效果链。 在这种情况下,当一个
链表示处理完音频,然后通过下一个发送音频数据
效果链。 这一直持续到不再存在效果链或输入有
到达文件末尾。
通过放置一个效果链来终止 : (冒号)在效果之后。 任何以下
效果是新效果链的一部分。
将停止链的效果作为第一个效果放在
链。 这是因为任何被左侧效果缓冲的样本
终止效果将被丢弃。 丢弃的样本量与
- 缓冲 选项,并且相对于采样率应该保持较小,如果
终止效果不能是第一个。 可以找到有关停止效果的更多信息
,在 停止 短袜 部分。
有一些伪效果有助于使用多个效果链。 这些包括
新文件 这将在移动到下一个效果之前开始写入新的输出文件
链和 重新开始 这将移回第一个效果链。 伪效应必须是
指定为链中的第一个效果和链中的唯一效果(它们必须具有
a : 在指定之前和之后)。
以下是多个效果链的示例。 它会将输入文件拆分为
多个 30 秒长的文件。 每个输出文件名在
它的名称记录在 输出 档 部分。
sox infile.wav output.wav trim 0 30:新文件:重新启动
相当常见 符号 和 参数
在下面的描述中,括号 [ ] 用于表示参数
可选,大括号 { } 表示那些可选和可重复的,以及角度
括号 < > 表示那些可重复但不是可选的。 在适用的情况下,
可选参数的默认值显示在括号 ( ) 中。
以下参数与多种效果一起使用并具有相同的含义:
中心[k]
参见 频率.
频率[k]
以 Hz 为单位的频率,或者,如果附加了“k”,则为 kHz。
获得 以 dB 为单位的功率增益。 零没有增益; 小于零给出衰减。
宽度[h|k|o|q]
用于指定滤波器的带宽。 许多不同的方法来
指定宽度可用(虽然不是所有效果都适用)。 其中一个
可以附加显示的字符以选择所需的方法,如下所示:
付款方式 笔记
h Hz
k 千赫
o 八度
q Q 因子 见 [2]
对于每个使用此参数的效果,默认方法(即如果没有字符
附加)是它在效果的第一行中首先列出的
描述。
要查看 SoX 是否支持可选效果,请输入 短袜 -h 并在下面寻找它的名字
列表:'效果'。
支持 效果
注意:可以在随附的“README”文件中找到效果的分类列表。
全部通过 频率[k] 宽度[h|k|o|q]
应用具有中心频率(以 Hz 为单位)的两极全通滤波器 频率及
过滤器宽度 宽度. 全通滤波器将音频的频率更改为相位
关系而不改变其频率与幅度的关系。 过滤器
在[1]中有详细描述。
这种效果支持 - 阴谋 全局选项。
带 [-n] 中心[k[宽度[h|k|o|q]]
应用带通滤波器。 频率响应以对数方式下降
中心 频率。 这 宽度 参数给出下降的斜率。 这
频率在 中心 + 宽度 和 中心 - 宽度 将是原来的一半
幅度。 带 默认为面向音调音频的模式,即语音,
唱歌,或器乐。 这 -n (对于噪音)选项使用交替模式
用于无音调的音频(例如打击乐)。 警告: -n 引入功率增益
滤波器中大约 11dB,所以要注意输出削波。 带 引入噪音
滤波器的形状,即在 中心 频率和解决
它。
这种效果支持 - 阴谋 全局选项。
参见 辛克 对于具有更陡肩的带通滤波器。
带通|带阻 [-c] 频率[k] 宽度[h|k|o|q]
应用具有中心频率的两极巴特沃斯带通或带阻滤波器
频率, 和 (3dB-point) 带宽 宽度。 该 -c 选项仅适用于
带通 并选择一个恒定的裙边增益(峰值增益 = Q)而不是默认值:
恒定 0dB 峰值增益。 滤波器以每倍频程 6dB(每十倍频程 20dB)的速度衰减
并在 [1] 中详细描述。
这些影响支持 - 阴谋 全局选项。
参见 辛克 对于具有更陡肩的带通滤波器。
带阻 频率[k] 宽度[h|k|o|q]
应用带阻滤波器。 见说明 带通 效果为
细节。
低音|三重 获得 [频率[k[宽度[s|h|k|o|q]]]
使用增强或削减音频的低音(较低)或高音(较高)频率
具有与标准高保真音响相似的响应的双极搁架滤波器
音调控制。 这也称为搁置均衡 (EQ)。
获得 给出 0 Hz 处的增益(对于 低音),或以 ∼22 kHz 和
奈奎斯特频率(对于 三重)。 它的有用范围大约是 -20(对于一个大的
削减)至+20(大幅提升)。 提防 剪裁 当使用正 获得.
如果需要,可以使用以下可选参数微调过滤器:
频率 设置滤波器的中心频率,因此可用于扩展或
降低要提升或削减的频率范围。 默认值为 100 Hz(对于
低音) 或 3 kHz(用于 三重).
宽度 确定过滤器的架子过渡的陡峭程度。 除了
上面描述的常见宽度指定方法,“斜率”(默认值,或者如果
附加`s') 可能用过了。 “斜率”的有用范围约为 0.3,对于
缓坡,到 1(最大值),陡坡; 默认值为 0.5。
过滤器在 [1] 中有详细描述。
这些影响支持 - 阴谋 全局选项。
参见 均衡器 达到峰值均衡效果。
弯曲 [-f 帧速率(25)][-o 过采样(16)]{ 延迟,仙,为期 }
在指定时间按指定量改变音高。 每个给定的三元组:
延迟,仙,为期 指定一个弯曲。 延迟 是之后的时间量
音频流的开始,或前一个弯曲的结束,开始
弯曲音高; 仙 是美分数(100 美分 = 1 个半音),其中
弯曲音高,和 为期 音高将持续的时间长度
是。
弯音算法利用离散傅立叶变换 (DFT)
特定的帧率和过采样率。 这 -f 和 -o 可以使用参数
调整这些参数,从而控制音高变化的平滑度。
例如,产生一个初始音,然后弯曲 XNUMX 次,产生 XNUMX
总共不同的音符:
play -n synth 2.5 sin 667 增益 1 \
bend .35,180,.25 .15,740,.53 0,-520,.3
请注意,此示例中产生的剪辑是有意的; 去除
它,使用 获得 -5 代替 获得 1.
参见 沥青.
双二阶 b0 b1 b2 a0 a1 a2
应用具有给定系数的双二阶 IIR 滤波器。 其中 b* 和 a* 是
分别为分子和分母系数。
参见 http://en.wikipedia.org/wiki/Digital_biquad_filter (其中 a0 = 1)。
这种效果支持 - 阴谋 全局选项。
通道 通道
调用一个简单的算法将音频信号中的通道数更改为
给定的数字 通道:如果减少通道数或
如果增加通道数,则重复。
- 通道 如果 SoX 的 -c 选项指定一个数字
与输入文件的通道不同的通道。 或者,如果这
效果是明确给出的,那么 SoX 的 -c 不需要给出选项。 例如,
以下两个命令是等效的:
sox input.wav -c 1 输出.wav bass -b 24
sox input.wav output.wav bass -b 24 声道 1
尽管第二种形式更灵活,因为它允许对效果进行排序
任意地。
参见 混合 用于允许任意混合/选择通道的效果。
合唱 增益 收益 <延迟 衰变 速度 深度 -s|-t>
为音频添加合唱效果。 这可以使单个人声听起来像
合唱,但也可以应用于乐器。
合唱类似于具有短延迟的回声效果,但带有回声的延迟
是恒定的,带有合唱,它使用正弦或三角调制变化。
调制深度定义了调制延迟之前或之前播放的范围
延迟之后。 因此延迟的声音听起来会变慢或变快,那就是
围绕原始声音调整的延迟声音,就像在一些人声的合唱中一样
稍微偏离关键。 有关合唱效果的更多讨论,请参见 [3]。
每个四元组参数延迟/衰减/速度/深度以毫秒为单位给出延迟
和衰减(相对于增益)以 Hz 为单位的调制速度使用深度
毫秒。 调制是正弦 (-s) 或三角形 (-t)。 获得-
out 是输出的音量。
典型的延迟在 40ms 到 60ms 左右; 调制速度最好在0.25Hz附近
调制深度约为 2ms。 例如,单个延迟:
弹吉他 1.wav 合唱 0.7 0.9 55 0.4 0.25 2 -t
原始样本的两个延迟:
弹吉他1.wav 合唱 0.6 0.9 50 0.4 0.25 2 -t \
60 0.32 0.4 1.3 -s
更饱满的合唱(带有三个额外的延迟):
弹吉他1.wav 合唱 0.5 0.9 50 0.4 0.25 2 -t \
60 0.32 0.4 2.3 -t 40 0.3 0.3 1.3 -s
压缩扩展 Attack1,衰变1{,Attack2,衰变2}
[软拐点分贝:]分贝1[,输出分贝1]{,分贝2,输出分贝2}
[获得 [初始音量分贝 [延迟]]]
压扩(压缩或扩展)音频的动态范围。
- 攻击 和 衰变 参数(以秒为单位)决定了
输入信号的瞬时电平被平均以确定其音量;
攻击是指音量增加,衰减是指减少。 对于大多数
情况下,起音时间(对越来越响的音乐的反应)应该是
比衰减时间短,因为人耳对突然响亮的声音更敏感
音乐而不是突然的轻音乐。 超过一对的攻击/衰减参数
被指定,每个输入通道被单独压扩,对数
必须与输入通道的数量一致。 典型值为 0.3,0.8 秒。
第二个参数是压扩器传递函数上的点列表
以相对于最大可能信号幅度的 dB 为单位指定。 输入
值必须严格按递增顺序排列,但传递函数不
必须单调上升。 如果省略,则值为 输出分贝1 默认为
相同的值 分贝1; 低于 分贝1 没有被压扩(但可能有增益
适用于他们)。 要点 0,0 是假设的,但可能会被覆盖(通过 0,输出分贝).
如果列表前面有一个 软拐点分贝 值,然后是相邻的点
传递函数 meet 上的线段将按给定的数量四舍五入。
传递函数的典型值为 6:-70,-60,-20.
第三个(可选)参数是以 dB 为单位的额外增益,以完全应用
点在传递函数上,并允许轻松调整整体增益。
第四个(可选)参数是为每个通道假定的初始电平
当压缩开始时。 这允许用户最初提供标称水平,
因此,例如,非常大的增益不会应用于初始信号电平
在压扩动作开始运行之前:很可能在
在这种情况下,输出将被严重削波,而压扩器增益
适当地调整自己。 典型值(对于最初安静的音频)是
-90 D b。
第五个(可选)参数是以秒为单位的延迟。 输入信号被分析
立即控制压扩器,但在被馈送到
音量调节器。 指定大约等于攻击/衰减时间的延迟
允许压扩器以“预测”而不是“预测”方式有效运行
反应模式。 典型值为 0.2 秒。
* * *
下面的例子可以用来制作一首既安静又安静的音乐
适合在嘈杂环境中聆听的响亮段落,例如移动
车辆:
sox asz.wav asz-car.wav 压缩包 0.3,1 6:-70,-60,-20 -5 -90 0.2
传递函数 (`6:-70,...') 表示非常柔和的声音(低于 -70dB)将
保持不变。 这将阻止压扩器提高音量
“无声”段落,例如动作之间。 但是,声音范围在 -60dB 到
0dB(最大音量)将被提升,使原来的 60dB 动态范围
音乐将被 3 比 1 压缩到 20dB 的范围内,该范围足以欣赏
音乐但足够狭窄以避开道路噪音。 '6:' 选择 6dB
软膝压扩。 需要 -5 (dB) 输出增益以避免削波(
数字不准确,是通过实验得出的)。 -90 (dB) 为
对于以接近静音开始的剪辑,初始音量将正常工作,并且
0.2(秒)的延迟会导致压扩器反应更多一点
快速到突然的音量变化。
在下一个示例中,当噪声为
低于信号的电平:
播放 infile 压缩扩展 .1,.2 -inf,-50.1,-inf,-50,-50 0 -90 .1
这是另一个噪声门,这次是当噪声高于
信号(使其在某些方面类似于静噪):
播放 infile 压缩扩展 .1,.1 -45.1,-45,-inf,0,-inf 45 -90 .1
这种效果支持 - 阴谋 全局选项(用于传递函数)。
参见 扩容 用于多频带压扩效果。
对比 [增强量(75)]
与压缩相比,此效果修改音频信号以使其听起来
更响亮。 增强量 控制增强的数量,是一个数字
在 0-100 的范围内。 注意 增强量 = 0 仍然给出显着的
对比度增强。
另见 压缩扩展 和 扩容 影响。
直流移位 转移 [限幅增益]
对音频应用 DC 偏移。 这对于去除 DC 偏移很有用(导致
可能是由于录音链中的硬件问题)来自音频。 效果
DC 偏移量减少了净空,从而减少了音量。 这 统计 or 统计 效果可以
用于确定信号是否具有 DC 偏移。
给定的 直流移位 value 是 ±2 范围内的浮点数,即
表示音频的移动量(在±1范围内)。
可选 限幅增益 也可以指定。 它的价值应该小得多
小于 1(例如 0.05 或 0.02)并且仅用于峰值以防止削波。
* * *
消除直流偏移(尽管延迟很短)的另一种方法是
使用 高通 频率为 10Hz 的滤波器效果,如图所示
下面的例子:
sox -n dc.wav 合成器 5 sin %0 50
sox dc.wav fixed.wav 高通 10
深沉 应用光盘 (IEC 60908) 去加重(高音衰减搁架滤波器)。
在 1980 年代初期发行的一些 CD 的母带制作中应用了预加重。
其中包括许多古典音乐专辑,以及现在广受欢迎的
The Beatles、Pink Floyd 等人的专辑。 预加重应该在
播放设备中的去加重滤波器的播放时间。 然而,并非所有
现代 CD 播放器有这个过滤器,很少有 PC CD 驱动器有它; 玩预
没有正确去加重滤波器的强调音频会导致音频
听起来很刺耳,与它的创作者的意图相去甚远。
随着 深沉 效果,可以对音频应用必要的去加重
从预强调的 CD 中提取,然后刻录去
强调音频到新 CD(然后可以在任何 CD 播放器上正确播放),或
只需在 PC 上播放正确去加重的音频文件即可。 例如:
sox track1.wav track1-deemph.wav deemph
然后将 track1-deemph.wav 刻录到 CD,或
播放 track1-deemph.wav
或者干脆
播放 track1.wav 深度
去加重滤波器实现为双二阶; 其最大偏差
理想的响应仅为 0.06dB(高达 20kHz)。
这种效果支持 - 阴谋 全局选项。
另见 低音 和 三重 搁置均衡效应。
延迟 {长度}
延迟一个或多个音频通道。 长度 可以指定时间,或者,如果附加
一个`s',一些样本。 不要同时指定时间和样本延迟
相同的命令。 例如, 延迟 1.5 0 0.5 将第一个通道延迟 1.5
秒,第三个频道 0.5 秒,并离开第二个频道(以及任何
可能存在的其他通道)未延迟。 以下(一长)命令
播放提示音:
播放 -n 合成器 -j 3 sin %3 sin %-2 sin %-5 sin %-9 \
sin %-14 sin %-21 淡入淡出 h .01 2 1.5 延迟 \
1.3 1 .76 .54 .27 混音 - 淡入淡出 h 0 2.7 2.5 norm -1
这是一个吉他和弦:
play -n 合成器 pl G2 pl B2 pl D3 pl G3 pl D4 pl G4 \
延迟 0 .05 .1 .15 .2 .25 混音 - 淡入淡出 0 4 .1 标准 -1
抖动 [-S|-s|-f 过滤[-a[-p 精确]
对音频应用抖动。 抖动故意添加少量噪音
到信号以掩盖可听量化效应,如果
输出样本大小小于 24 位。 没有选项,这种效果会增加
三角 (TPDF) 白噪声。 噪声整形(仅适用于某些采样率)可以
被选中 -s。 随着 -f 选项,可以选择一个特定的
以下列表中的噪声整形滤波器:lipshitz、f-weighted、modified-e-
加权、改进电子加权、gesemann、shibata、低 shibata、高 shibata。 笔记
大多数滤波器类型仅适用于 44100Hz 采样率。 过滤器
类型的区别在于以下属性:噪音的可听性,水平
(听不见,但在某些情况下,否则会出现问题)塑造高频
噪音和处理速度。
参见 http://sox.sourceforge.net/SoX/NoiseShaping 对于不同噪声的图表 -
塑造曲线。
- -S 选项选择稍微“倾斜”的 TPDF,偏向更高的频率。
它可以在任何采样率下使用,但低于 ≈22k,纯 TPDF 可能更好,
及以上 ≈ 37k,噪声整形可能更好。
- -a 选项启用一种模式,其中抖动(和噪声整形,如果适用)
仅在需要时自动启用。 最可能的用途是当
对已经抖动的文件应用淡入或淡出,以便重新抖动
仅适用于褪色的部分。 然而,自动抖动并不是万无一失的,所以
应仔细检查淡入淡出是否有任何噪声调制; 如果发生这种情况,
然后要么重新抖动整个文件,要么使用 修剪, 褪色, 并连接起来。
- -p 选项允许覆盖目标精度。
如果 SoX 全局选项 -R 没有给出选项,则伪随机数
用于生成白噪声的生成器将被“重新播种”,即生成的
调用之间的噪音会有所不同。
此效果后不应跟随影响音频的任何其他效果。
另请参阅上面的“抖动”部分。
下采样 [因素(2)]
通过整数因子对信号进行下采样:仅每个中的第一个 因素
样本被保留,其他被丢弃。
不应用抽取滤波器。 如果输入不是适当的带宽限制
基带信号,会出现混叠。 这可能是可取的,例如,对于频率
翻译。
有关抗锯齿的一般重采样效果,请参见 率要了解在年少时习得第二语言的各种好处的完整摘要,请参考: 上采样.
耳垢 使音频更易于在耳机上收听。 将“提示”添加到 44.1kHz 立体声(即
音频 CD 格式)音频,以便在耳机上收听立体声图像时
从你的头部内部(耳机的标准)移动到外部和前面
听者(扬声器的标准)。
回音 增益 收益 <延迟 衰变>
为音频添加回声。 回声是反射声,可以自然发生
在群山之间(有时是大型建筑物)说话或喊叫时; 数字的
回声效果模仿这种行为,通常用于帮助填充声音
单个乐器或人声。 原始信号之间的时间差
反射是“延迟”(时间),反射信号的响度
是'衰变'。 多个回声可以有不同的延迟和衰减。
每个给 延迟 衰变 对给出以毫秒为单位的延迟和衰减(相对
进入)那个回声。 增益是输出的音量。 例如:这
听起来好像乐器数量是实际数量的两倍
玩:
播放lead.aiff echo 0.8 0.88 60 0.4
如果延迟很短,那么听起来就像一个(金属)机器人在播放音乐:
播放lead.aiff echo 0.8 0.88 6 0.4
更长的延迟听起来像是在山上的露天音乐会:
播放lead.aiff echo 0.8 0.9 1000 0.3
又是一座山,并且:
播放lead.aiff echo 0.8 0.9 1000 0.3 1800 0.25
回声 增益 收益 <延迟 衰变>
将一系列回声添加到音频中。 每个 延迟 衰变 对给出延迟
毫秒和该回声的衰减(相对于增益)。 增益是
输出量。
和回声效果一样,回声代表‘ECHO in Sequel’,即第一个回声
接受输入,第二个输入和第一个回声,第三个输入和
第一个和第二个回声,......等等。 应注意使用许多
回声; 单个回声与单个回声具有相同的效果。
样本将在对称回声中反弹两次:
播放 Lead.aiff 回声 0.8 0.7 700 0.25 700 0.3
样本将在非对称回声中反弹两次:
播放 Lead.aiff 回声 0.8 0.7 700 0.25 900 0.3
样本听起来就像在车库里演奏一样:
播放 Lead.aiff 回声 0.8 0.7 40 0.25 63 0.3
均衡器 频率[k] 宽度[q|o|h|k] 获得
应用两极峰值均衡 (EQ) 滤波器。 有了这个滤波器,信号-
可以增加或减少选定频率及其附近的电平,同时
(与带通和带阻滤波器不同)在所有其他频率上是
不变。
频率 以Hz为单位给出滤波器的中心频率, 宽度,带宽,和
获得 以 dB 为单位的所需增益或衰减。 提防 剪裁 当使用一个
积极 获得.
为了产生复杂的均衡曲线,这个效果可以给出几个
次,每个都有不同的中心频率。
过滤器在 [1] 中有详细描述。
这种效果支持 - 阴谋 全局选项。
参见 低音 和 三重 搁置均衡效应。
褪色 [类型] 渐入长度 [停止时间 [淡出长度]]
将淡入淡出效果应用于音频的开头、结尾或两者。
可选 类型 可以指定选择渐变曲线的形状: q
四分之一的正弦波, h 对于半个正弦波, t 对于线性(`三角形')斜率,
l 对于对数,和 p 为倒抛物线。 默认为对数。
淡入从第一个样本开始,并将信号电平从 0 斜升至满
音量超过 渐入长度 秒。 如果不需要淡入,则指定 0 秒。
对于淡出,音频将被截断 停止时间 并且信号电平将
从全音量开始下降到 0 淡出长度 前几秒
停止时间。 如果 淡出长度 未指定,它默认为与相同的值
渐入长度. 不执行淡出,如果 停止时间 未指定。 如果
文件长度可以从输入文件头和长度变化中确定
效果不生效,那么 0 可以指定为 停止时间 表示
在输入音频流结束时结束的淡出的常见情况。
可以在时间段或样本计数中指定所有时间。 指定
时间段使用 hh:mm:ss.frac 格式。 要指定使用样本计数,
指定样本数并将字母“s”附加到样本数(对于
例如“8000s”)。
另见 拼接 效果。
冷杉 [coefs 文件|系数]
使用具有给定 FIR 滤波器系数的 SoX 的 FFT 卷积引擎。 如果单
给出参数然后将其视为包含过滤器的文件的名称
系数(空格分隔;可能包含“#”注释)。 如果给定
文件名是‘-’,或者如果没有给出参数,那么系数从
“标准输入”(stdin); 否则,可以在命令上给出系数
线。 例子:
sox infile outfile 冷杉 0.0195 -0.082 0.234 0.891 -0.145 0.043
sox infile outfile fir coefs.txt
与 coefs.txt 包含
# HP 过滤器
#频率=10000
1.2311233052619888-01
-4.4777096106211783e-01
5.1031563346705155-01
-6.6502926320995331e-02
...
这种效果支持 - 阴谋 全局选项。
镶边 [延迟 深度 雨 宽度 速度 塑造 相 插曲]
对音频应用镶边效果。 详细描述见[3]
翻边。
所有参数都是可选的(从右到左)。
范围 默认 描述
延迟 0 - 30 0 以毫秒为单位的基本延迟。
深度 0 - 10 2 添加了以毫秒为单位的扫描延迟。
雨 -95 - 95 0 百分比再生(延迟
信号反馈)。
宽度 0 - 100 71 混合延迟信号的百分比
与原始。
速度 0.1 - 10 0.5 每秒扫描 (Hz)。
塑造 sin 扫描波形: 正弦|三角形.
相 0 - 100 25 扫波百分比相移
用于多声道(例如立体声)
法兰; 0 = 100 = 同相开启
每个频道。
插曲 lin 数字延迟线插值:
线性|二次的.
获得 [-e|-B|-b|-r[-n[-l|-h[增益分贝]
对音频信号应用放大或衰减,或者在某些情况下,对某些
其频道。 请注意,使用任何 -e, -B, -b, -r或 -n 需要临时
用于存储要处理的音频的文件空间,因此可能不适合用于
“流式”音频。
没有其他选择, 增益分贝 用于调整信号功率电平
给定的 dB 数:正放大(注意削波),负衰减。
使用其他选项时, 增益分贝 (逻辑上)应用放大或衰减
由于这些选项的处理后。
鉴于 -e 选项,多声道文件的音频声道电平为
“均衡”,即增益应用于除最高通道之外的所有通道
峰值电平,这样所有通道都达到相同的峰值电平(但是,也没有
给予 -n,音频未“标准化”)。
- -B (balance) 选项类似于 -e,但与 -B, 使用 RMS 电平
而不是峰值水平。 -B 可用于纠正由以下原因引起的立体声不平衡
一个不完美的唱片转盘唱头。 注意,不像 -e, -B 可能会导致一些
剪裁。
-b 类似于 -B 但有剪裁保护,即如果有必要防止
在平衡的同时进行削波,衰减适用于所有通道。 但是请注意,
与 -n, -B 和 -b 是同义词。
- -r 选项与之前的调用结合使用 获得 与 -h
选项 - 详情见下文。
- -n 选项将音频标准化为 0dB FSD; 它经常与
负面的 增益分贝 使音频标准化到给定级别的效果
低于 0dB。 例如,
sox infile outfile 增益 -n
归一化为 0dB,并且
sox infile outfile 增益 -n -3
归一化为 -3dB。
- -l option 调用一个简单的限制器,例如
sox infile outfile 增益 -l 6
将应用 6dB 的增益但从不削波。 请注意,限制超过几个 dB
不推荐偶尔(在一段音频中),因为它会导致听得见
失真。 见 压缩扩展 效果更强大的限制器。
- -h 选项用于应用增益以为后续处理提供净空。
例如,
sox infile outfile 增益 -h bass +6
在低音增强效果之前将应用 6dB 的衰减,从而确保
它不会剪辑。 当然,对于低音,有多少净空是显而易见的
需要,但对于其他效果(例如速率、抖动),它并不总是那么清晰。
使用的另一个优点 获得 -h 而不是明确的衰减,是如果
余量不会被后续效果使用,它可以被回收 获得 -r,
例如:
sox infile outfile 增益 -h bass +6 速率 44100 增益 -r
上述效果链保证永远不会剪辑或放大; 它会减弱,如果
防止剪裁所必需的,但仅限于这样做所需要的程度。
输出格式(抖动和位深度减少)也需要净空(这
不能“回收”),例如
sox infile outfile 增益 -h bass +6 速率 44100 增益 -rh 抖动
在这里,第二 获得 调用,尽可能多地回收净空
前面的效果,但保留了后续所需的空间
加工。 SoX 全局选项 -G 可以给出自动调用 获得 -h
和 获得 -r.
另见 规范 和 第一卷 影响。
高通|低通 [-1|-2] 频率[k] [宽度[q|o|h|k]]
应用 3dB 点的高通或低通滤波器 频率. 过滤器可以
无论是单极(与 -1),或双极(默认,或 -2). 宽度
仅适用于双极滤波器; 默认值为 Q = 0.707 并给出
巴特沃斯回应。 滤波器以每极点每倍频程 6dB 的速度滚降(每倍频程为 20dB
每十年极点)。 双极滤波器在 [1] 中有详细描述。
这些影响支持 - 阴谋 全局选项。
参见 辛克 用于具有更陡峭滚降的滤波器。
希尔伯特 [-n 水龙头]
应用奇数抽头希尔伯特变换滤波器,将信号相移 90 度。
这用于许多矩阵编码方案和分析信号生成。 这
过程通常写成乘法 i (或 j),虚数单位。
奇数抽头希尔伯特变换滤波器具有带通特性,衰减
最低和最高频率。 它的带宽可以通过数量来控制
过滤器抽头,可以指定 -n. 默认情况下,点击次数为
选择截止频率约为 75 Hz。
这种效果支持 - 阴谋 全局选项。
拉德斯帕 模块 [插入[论点...]
应用 LADSPA [5](Linux Audio Developer's Simple Plugin API)插件。 尽管
名称,LADSPA 不是特定于 Linux 的,并且可以使用多种效果作为
LADSPA 插件,例如 cmt [6](计算机音乐工具包)和 Steve Harris 的
插件集合 [7]。 第一个参数是插件模块,第二个参数是名称
插件(一个模块可以包含多个插件)和任何其他参数
用于插件的控制端口。 默认提供缺少的参数
如果可能的话。 只有最多一个音频输入和一个音频输出的插件
可以使用端口。 如果找到,环境变量 LADSPA_PATH 将用作
插件的搜索路径。
响度 [获得 [参考]]
响度控制 - 类似于 获得 效果,但提供均衡
人类听觉系统。 看 http://en.wikipedia.org/wiki/Loudness 详细的
响度的描述。 增益由给定的调整 获得 参数(通常
负)并且信号根据 ISO 226 均衡,参考电平为
65dB,虽然是另一种选择 参考 如果原始音频具有
被均衡为其他一些最佳水平。 如果 a,则使用 -10dB 的默认增益
获得 未给出值。
另见 获得 效果。
低通 [-1|-2] 频率[k] [宽度[q|o|h|k]]
应用低通滤波器。 见说明 高通 效果详情。
扩容 "Attack1,衰变1{,Attack2,衰变2}
[软拐点分贝:]分贝1[,输出分贝1]{,分贝2,输出分贝2}
[获得 [初始音量分贝 [延迟]]]" {交叉频率[k] "攻击 1,..."}
多频段压扩器与单频段压扩器类似,但音频是
首先使用 Linkwitz-Riley 交叉滤波器划分频段,并单独使用
可指定的压扩器在每个频段上运行。 见 压缩扩展 对定义的影响
其参数。 压缩参数在双引号和
该频段的交叉频率由下式给出 交叉频率; 这些可以重复
创建多个乐队。
例如,以下(一个长)命令显示了多频带压扩是如何进行的
通常用于 FM 收音机:
播放 track1.wav gain -3 sinc 8000- 29 100 mcompand \
"0.005,0.1 -47,-40,-34,-34,-17,-33" 100 \
"0.003,0.05 -47,-40,-34,-34,-17,-33" 400 \
"0.000625,0.0125 -47,-40,-34,-34,-15,-33" 1600 \
"0.0001,0.025 -47,-40,-34,-34,-31,-31,-0,-30" 6400 \
"0,0.025 -38,-31,-28,-28,-0,-25" \
增益 15 高通 22 高通 22 sinc -n 255 -b 16 -17500 \
增益 9 低通 -1 17801
音频文件以模拟的 FM 收音机声音(或广播信号
如果最后的低通滤波器被跳过)。 注意管道是
设置为美式 75us 预加重。
参见 压缩扩展 用于单波段压扩效果。
噪音专业 [配置文件]
计算用于降噪的音频配置文件。 看说明
的 吵闹的 效果详情。
吵闹的 [配置文件 [量]]
通过分析和过滤减少音频信号中的噪声。 这种效果是
在消除持续的背景噪音(如嘶嘶声或嗡嗡声)方面效果适中。
要使用它,首先运行 SoX 噪音专业 对一段音频的影响
理想情况下会包含静音但实际上包含噪音 - 这些部分是
通常出现在录音的开头或结尾。 噪音专业 将会写
输出噪声曲线 配置文件, 或者如果没有 配置文件 或者如果“-”是
给。 例如
sox Speech.wav -n trim 0 1.5 noiseprof Speech.noise-profile
要真正消除噪音,请再次运行 SoX,这次使用 吵闹的 影响;
吵闹的 将根据噪声配置文件(由
噪音专业),来自 配置文件, 或者从 stdin 如果没有 配置文件 或者如果给出了“-”。
例如
sox Speech.wavcleaned.wav 噪声化语音.noise-profile 0.3
应去除多少噪声由下式指定 量-a 0 到 1 之间的数字
默认值为 0.5。 更高的数字会消除更多的噪音,但会呈现更大的
去除音频信号中有用成分的可能性。 更换前
带有降噪版本的原始录音,尝试不同的 量
为您的音频找到最佳值的值; 使用耳机检查您是否
对结果感到满意,特别注意安静的部分
音频。
在大多数系统上,两个阶段 - 分析和减少 - 可以使用
管道,例如
sox noise.wav -n trim 0 1 noiseprof | 播放noise.wav 噪音
规范 [分贝级]
标准化音频。 规范 只是一个别名 获得 -n; 看到 获得 效果为
细节。
哎呀 异相立体声效果。 将立体声混合到双单声道,其中每个单声道
包含左右立体声声道之间的差异。 这是
有时被称为“卡拉 OK”效果,因为它通常具有消除大部分
或录音中的所有人声。 它相当于 混合 1,2i 1,2i.
过载 [获得(20)颜色(20)]]
非线性失真。 这 颜色 参数控制偶次谐波的量
过驱动输出中的内容。
垫 { 长度[@位置]}
在开头、结尾或任何指定点用静音填充音频
通过音频。 两个都 长度 和 位置 可以指定时间,或者,如果附加
带有一个“s”,表示一些样本。 长度 是插入的静音量和
位置 在输入音频流中插入它的位置。 任何数字
可以指定长度和位置的数量,前提是指定的位置是
不低于前一个。 位置 第一个和最后一个是可选的
指定的长度,如果省略则对应于开头和结尾
音频分别。 例如, 垫 1.5 1.5 添加 1.5 秒的静音填充
在音频的每一端,同时 垫 4000秒@3:00 插入 4000 个静音样本 3
分钟进入音频。 如果只在音频结束时需要静音,请指定
结束位置或在开始时指定零长度焊盘。
参见 延迟 对于可以在音频开头添加静音的效果
逐个通道的基础。
移相器 增益 收益 延迟 衰变 速度 [-s|-t]
为音频添加相位效果。 有关分相的详细说明,请参见 [3]。
delay/decay/speed 给出以毫秒为单位的延迟和衰减(相对于增益-
in) 以 Hz 为单位的调制速度。 调制是正弦 (-s) -
更适合多个仪器,或三角形(-t) - 给出单个乐器
更清晰的相位效果。 衰减应小于 0.5 以避免反馈,并且
通常不低于0.1。 增益是输出的音量。
例如:
播放 snare.flac 移相器 0.8 0.74 3 0.4 0.5 -t
温柔:
播放 snare.flac 移相器 0.9 0.85 4 0.23 1.3 -s
流行的声音:
播放 snare.flac 移相器 0.89 0.85 1 0.24 2 -t
更严重:
播放 snare.flac 移相器 0.6 0.66 3 0.6 2 -t
沥青 [-q] 转移 [段 [搜索、 [交叠]]]
更改音频音高(但不是速度)。
转移 给出音高变化为正或负“分”(即一个的 100
半音)。 见 速度 对其他参数的描述效果。
另见 弯曲, 速度及 速度 影响。
率 [-q|-l|-m|-h|-v] [覆盖选项] 率[k]
将音频采样率(即对音频重新采样)更改为任何给定的 率 (甚至
如果输出文件格式支持,则为非整数)使用质量级别
定义如下:
品质保证 乐队- 雷杰 dB Typical 使用 VHDL 语言编写
宽度
-q 快速 n/a ≈30 @ 播放
Fs/4 古代硬件
-l 旧的低 80% 100 播放
硬件
-m 中 95% 100 音频播放
-h 高 95% 125 16 位母带
(与抖动一起使用)
-v 非常高 95% 175 24 位母带
哪里 带宽 是保留的音频频带的百分比
和 雷杰 dB 是噪声抑制水平。 提高重采样水平
质量以增加处理音频的时间为代价。 如果
没有给出质量选项,使用的质量级别为“高”(但请参阅“播放和
上面关于播放的录制音频)。
“快速”算法使用三次插值; 所有其他人使用频带限制
插值。 默认情况下,所有算法都具有“线性”相位响应; 为了
“中”、“高”和“非常高”,相位响应是可配置的(见下文)。
- 率 如果 SoX 的 -r 选项指定一个速率
与输入文件的不同。 或者,如果给出这种效果
明确地,那么 SoX 的 -r 不需要给出选项。 比如下面两个
命令是等效的:
sox 输入.wav -r 48k 输出.wav bass -b 24
sox input.wav output.wav bass -b 24 速率 48k
尽管第二个命令更灵活,因为它允许 率 提供的选项,
并允许任意排序效果。
* * *
警告:技术上的详细讨论如下。
上述简单的质量选择提供了满足以下条件的设置
绝大多数重采样任务的需求。 然而,有时,它可能是
需要微调重采样器的滤波器响应; 这可以使用
覆盖 选项,详见下表:
-M/-I/-L 相位响应 = 最小/中间/线性
-s 陡峭滤波器(带宽 = 99%)
-a 允许通带以上的混叠/成像
-b 74-99.7 任何带宽 %
-p 0-100 任何相位响应(0 = 最小值,25 = 中间,
50 = 线性,100 = 最大值)
NB Override 选项不能与“快速”或“低”质量算法一起使用。
所有重采样器都使用有时会产生“回声”(又名“振铃”)的过滤器
带有瞬态信号的人工制品,例如“手指按扣”或
其他高冲击性的声音。 这样的文物更容易引起人们的注意
人耳,如果它们发生在瞬态(“前回声”)之前而不是发生在瞬态之后
它(`后回声')。 请注意,任何此类人工制品的频率与
原始和新采样率中较小的一个,但如果这至少是
44.1kHz,则人工制品将超出人类听觉范围。
相位响应设置可用于控制任何瞬态分布
“前”和“后”之间的回声:在最小相位下,没有前回声,但有
最长的后回声; 对于线性相位,前后回声的数量相等(在
信号术语,但不是可听术语); 中间阶段设置试图
通过选择较小长度(和级别)的预回声和一个
中等长度的后回声。
使用以下选项选择最小、中间或线性相位响应 -M, -I或 -L
选项; 可以使用创建自定义相位响应 -p 选项。 注意相
“线性”和“最大值”(大于 50)之间的响应很少有用。
重采样器的带宽设置决定了
原始信号(上采样时的原始采样率,或新的
下采样时的采样率)在转换过程中被保留。 术语`通过-
频带'用于指直到带宽点的所有频率(例如,对于
44.1kHz采样率,95%重采样带宽,通带代表
频率从 0Hz (DC) 到大约 21kHz)。 增加重采样器的带宽
导致转换速度变慢,并可能增加瞬态回声伪影(反之亦然)
反之亦然)。
- -s “陡峭过滤器”选项将重采样带宽从默认的 95% 更改为
(基于 3dB 点),达到 99%。 这 -b 选项允许将带宽设置为
74-99.7% 范围内的任何值,但请注意带宽值大于 99%
不推荐用于正常使用,因为它们会导致过度的瞬态回声。
如果 -a 选项,则允许在通带之上的混叠/成像。
例如,采样率为 44.1kHz,重采样带宽为 95%,这
意味着 21kHz 以上的频率内容可能会失真; 然而,由于这是
高于通带(即高于感兴趣/可听度的最高频率),
这可能不是问题。 减少了允许混叠/成像的好处
处理时间,并减少(几乎一半)瞬态回声伪影。 注意
如果给出此选项,则允许的最小带宽为 -b 增加到
85%。
例子:
sox input.wav -b 16 output.wav 速率 -s -a 44100 抖动 -s
默认(高)质量重采样; 覆盖:陡峭的过滤器,允许混叠; 到
44.1kHz 采样率; 噪声形抖动到 16 位 WAV 文件。
sox input.wav -b 24 output.aiff 率 -v -I -b 90 48k
非常高质量的重采样; 覆盖:中间相位,带宽 90%; 到 48k
采样率; 将输出存储到 24 位 AIFF 文件。
* * *
- 沥青 和 速度 效果使用 率 其核心作用。
混合 [-a|-m|-p]超出规格>
超出规格 = 符合规格{,符合规格} | 0
符合规格 = [仁酱][-[in-chan2]][体积规格]
体积规格 = p|i|v[体积]
选择输入音频通道并将其混合到输出音频通道中。 每个输出
通道依次由给定的 超出规格: 贡献输入列表
通道和音量规格。
请注意,此效果作用于音频 通道 在 SoX 效应中
加工链; 它不应该与 -m 全局选项(其中
多 档 在进入效果链之前混合组合)。
An 超出规格 包含逗号分隔的输入通道编号和连字符分隔
通道号范围; 或者, 0 可能会被给予创建一个静默输出
渠道。 例如,
sox input.wav output.wav 混音 6 7 8 0
创建一个具有四个通道的输出文件,其中通道 1、2 和 3 是
输入文件中的通道 6、7 和 8,通道 4 是静音的。 然而
sox input.wav output.wav 混音 1-3,7 3
创建一个(有点奇怪的)立体声输出文件,其中左声道是一个混音-
输入通道 1、2、3 和 7 的向下,右通道是输入的副本
频道3。
如果指定了通道范围,则左侧和右侧的通道编号
连字符的数量是可选的,默认为 1 和输入通道的数量
分别。 因此
sox input.wav output.wav 混音 -
将所有输入通道混合为单声道。
默认情况下,当一个输出通道从多个 (n) 输入通道混合时,每个
输入通道将按 ¹/n 的系数进行缩放。 可以设置自定义混合音量
通过跟随给定的输入通道或输入通道范围 体积规格
(体积规格)。 这是其中一封信 p, i或 v,接下来是
卷号,其含义取决于给定的字母并定义为
如下:
博客 音量 数 笔记
p 功率调整 dB 0 = 无变化
我以 dB 为单位调整功率为“p”,但反转
音频
v 电压倍增器 1 = 无变化,0.5 ≈ 6dB
衰减,2 ≈ 6dB
增益,-1 = 反转
如果 超出规格 包括至少一个 体积规格 那么,默认情况下,¹/n 缩放不是
应用于相同规格外的任何其他通道(尽管可能在其他规格中)
眼镜)。 但是,可以使用 -a(自动)选项来保留自动
在这种情况下缩放。 例如,
sox input.wav output.wav 混音 1,2 3,4v0.8
导致通道级乘数为 0.5,0.5 1,0.8,而
sox 输入.wav 输出.wav 混音 -a 1,2 3,4v0.8
导致通道级乘数为 0.5,0.5 0.5,0.8。
-m(手动)选项禁用所有自动音量调整,因此
sox input.wav output.wav 混音 -m 1,2 3,4v0.8
导致通道级乘数为 1,1 1,0.8。
卷号是可选的,省略它对应于没有卷变化;
然而,唯一有用的情况是与 i。 对于
例如,如果 输入法.wav 是立体声,那么
sox input.wav output.wav 混音 1,2i
是单声道等价物 哎呀 效果。
如果 -p 选项,则任何自动 ¹/n 缩放被替换为 ¹/√n
(`power') 缩放; 这提供了更响亮的混音,但可能偶尔会剪辑。
* * *
一种使用 混合 效果是将一个音频文件拆分成一组文件,每个文件
包含组成通道之一(为了执行后续
在各个音频通道上进行处理)。 有多个频道的地方
涉及到,像下面这样的脚本(Bourne shell script)很有用:
#!/ bin / sh的
chans=`soxi -c "$1"`
而 [ $chans -ge 1 ]; 做
chans0=`printf %02i $chans` # 2 位数字因此最多 99 chans
out=`echo "$1"|sed "s/\(.*\)\.\(.*\)/\1-$chans0.\2/"`
sox "$1" "$out" remix $chans
chans=`expr $chans - 1`
完成
如果一个文件 输入法.wav 包含六个音频通道,脚本将
产生六个输出文件: 输入-01.wav, 输入-02.wav,..., 输入-06.wav.
另见 交换 效果。
重复 [数 (1)]
重复整个音频 数 次,或一次,如果 数 没有给出。 需要
用于存储要重复的音频的临时文件空间。 注意重复一次
产生两个副本:原始音频和重复的音频。
混响 [-w|--只湿[混响 (50%) [高频阻尼 (50%)
[房间规模 (100%) [立体深度 (100%)
[预延迟 (0 毫秒) [湿增益 (0dB)]]]]]]]
使用“freeverb”算法为音频添加混响。 回响
对于太小或包含如此多的音乐厅,有时需要这种效果
不少人认为,大厅的自然混响减弱了。 应用小
对(干)单声道信号的立体声混响量通常会使它听起来更
自然。 有关混响的详细说明,请参见 [3]。
请注意,此效果会增加音频的音量和长度,因此
防止在这些域中进行剪辑,典型的调用可能是:
播放 dry.wav 增益 -3 pad 0 3 混响
- -w 可以选择仅选择“湿”信号,从而允许它
进一步处理,独立于“干”信号。 例如
play -m voice.wav "|sox voice.wav -p reverse reverb -w reverse"
用于反向混响效果。
反转
完全反转音频。 需要临时文件空间来存储音频
被颠倒。
RIAA 应用 RIAA 黑胶播放均衡。 采样率必须是以下之一:44.1,
48、88.2、96 kHz。
这种效果支持 - 阴谋 全局选项。
沉默 [-l] 上期 [为期 门槛[d|%]
[低于期 为期 门槛[d|%]]
从音频的开头、中间或结尾移除静音。 “沉默”是
由指定的阈值决定。
- 上期 值用于指示是否应在
音频的开头。 零值表示不应从
开始。 当指定一个非零 上期,它会修剪音频直到
它发现非沉默。 通常,当从音频的开头修剪静音时,
上期 将是 1 但它可以增加到更高的值来修剪所有音频
达到特定数量的非沉默期。 例如,如果您有一个音频
包含两首歌曲的文件,每首歌曲前都包含 2 秒的静音,您
可以指定一个 上期 2 以去除静默期和第一个
歌曲。
在规划婴儿食品行业的工艺要求时,安全性和可靠性是工艺设计中最重要的方面。 上期 非零,您还必须指定一个 为期 和 门槛.
时间长度 指示在非静音之前必须检测到的时间量
停止修剪音频。 通过增加持续时间,噪声突发可以被视为
沉默和修剪。
阈 用于指示您应该将什么样本值视为静音。 为了
数字音频,值 0 可能没问题,但对于从模拟录制的音频,您可能
希望增加该值以考虑背景噪音。
当有选择地从音频的末尾修剪静音时,您指定一个 以下-
期 数数。 在这种情况下, 低于期 意味着在静音后删除所有音频
被检测到。 通常,这将是一个值 1,但可以增加以跳过
在需要的沉默期间。 例如,如果您有一首带有 2
中间静默几秒,最后静默 2 秒,你可以在下面设置——
period 设置为 2 以跳过音频中间的静音。
对于 低于期, 为期 指定之前必须存在的一段静默期
不再复制音频。 通过指定更高的持续时间,沉默是
想要的可以留在音频中。 例如,如果您有一首预期
中间静默 1 秒,最后静默 2 秒,持续时间
2 秒的时间可用于跳过中间的静音。
不幸的是,您必须知道音频结束时的静音长度
文件以可靠地消除静音。 解决方法是使用 沉默 影响
与 反转 影响。 通过首先反转音频,您可以使用
上期 从看起来像前面的地方可靠地修剪所有音频
文件。 然后再次反转文件以恢复正常。
要从文件中间删除静音,请指定 低于期 那是
消极的。 然后将该值视为正值,也用于
表示效果应该按照指定的方式重新开始处理 上期,
使其适用于消除音频中间的静音时段。
选项 -l 表示 低于期 为期 应保留音频长度
在每个沉默期开始时完好无损。 例如,如果你想
删除单词之间的长停顿但不想完全删除停顿。
- 期间 计数以样本为单位。 时间长度 计数可能采用以下格式
hh:mm:ss.frac,或准确的样本数。 阈 数字可能有后缀
- d 表示该值以分贝为单位,或 % 表示百分比
样本值的最大值(0% 指定纯数字静音)。
以下示例显示了如何使用此效果来开始录制
不包含通常发生在`按下
录制按钮'和表演开始:
rec: 参数 文件名 其他效果 沉默 1 5 2%
辛克 [-a 至|-b 测试[-p 相|-M|-I|-L[-t 待定|-n 水龙头[频率HP][-频率LP [-t 待定|-n
轻拍]]
应用 sinc kaiser 窗口低通、高通、带通或带阻滤波器
到信号。 这 频率HP 和 频率LP 参数给出了 6dB 的频率
可以单独调用的高通和低通滤波器的点,或
一起。 如果两者都给出,那么 频率HP 少于 频率LP 创建带通
过滤, 频率HP 比...更棒 频率LP 创建带阻滤波器。 例如,
调用
新3K
正弦 -4k
3k-4k
4k-3k
分别创建高通、低通、带通和带阻滤波器。
120dB 的默认阻带衰减可以被覆盖 -a;
或者,可以直接给出 kaiser-window `beta' 参数 -b.
总带宽的 5% 的默认过渡带宽可以被覆盖 -t
(和 待定 赫兹); 或者,可以直接给出滤波器抽头的数量
- -n.
如果两者 频率HP 和 频率LP 给定,那么一个 -t or -n 左侧给出的选项
频率适用于两个频率; 这些选项之一提供给
频率权仅适用于 频率LP.
- -p, -M, -I及 -L 选项控制滤波器的相位响应; 见 率
效果详情。
这种效果支持 - 阴谋 全局选项。
频谱 [选项]
创建音频的频谱图; 音频未经修改地通过 SoX
加工链。 这个效果是可选的 - 类型 短袜 - 帮帮我 并检查列表
支持的效果,看看它是否已包含在内。
频谱图在便携式网络图形 (PNG) 文件中呈现,并显示
X 轴表示时间,Y 轴表示频率,Z 轴表示音频信号幅度
轴。 Z 轴值由颜色(或可选强度)表示
XY 平面中的像素。 如果音频信号包含多个通道,则
这些显示从上到下从通道 1(即左侧
立体声音频通道)。
例如,如果 `my.wav' 是一个立体声文件,那么
sox my.wav -n 频谱图
整个文件的频谱图将在文件“spectrogram.png”中创建。
但更多时候,需要分析一小部分音频; 例如
-
sox my.wav -n remix 2 修剪 20 30 频谱图
频谱图仅显示来自第二(右)通道的信息,以及
三十秒的音频从二十秒开始。分析一个小
频域的一部分, 率 可以使用效果,例如
sox my.wav -n rate 6k 频谱图
允许对高达 3kHz(采样率的一半)的频率进行详细分析,即
人类听觉系统最敏感的地方。 和
sox my.wav -n trim 0 10 频谱图 -x 600 -y 200 -z 100
给定的选项控制频谱图的 X、Y 和 Z 轴的大小(在此
在这种情况下,生成的图像的频谱图区域的大小将为 600 x 200 像素
Z 轴范围将为 100 dB)。 请注意,生成的图像包括轴
图例等,因此将比指定的频谱图大小稍大。
在这个例子中:
sox -n -n synth 6 tri 10k:14k 频谱图 -z 100 -w kaiser
选择具有高动态范围的分析“窗口”以最好地显示
扫描三角波的频谱图。 对于一个 smilar 示例,附加以下内容
到“chime”命令的描述中 延迟 效果(上):
速率 2k 频谱图 -X 200 -Z -10 -w kaiser
选项也可用于控制外观(颜色设置、亮度、
对比度等)和频谱图的文件名; 例如与
sox my.wav -n 频谱图 -m -l -o print.png
创建了适合在“黑白”打印机上打印的光谱图。
选项:
-x NUM 更改频谱图的(最大)宽度(X 轴)的默认值
800 像素的值到 100 到 200000 之间的给定数字。另见 -X
和 -d.
-X NUM X轴像素/秒; 默认值是自动计算的以适合给定的或
X 轴大小的已知音频持续时间,否则为 100。 如果给出
与 -d,此选项影响频谱图的宽度;
否则,它会影响频谱图的持续时间。 NUM 可以从 1
(低时间分辨率)到 5000(高时间分辨率)并且不需要是
整数。 SoX 可能会稍微调整给定的数字
处理量化原因; 如果是这样,SoX 将报告实际数字
使用(当 SoX 全局选项时可见 -V 有效)。 也可以看看 -x 和
-d.
-y NUM 以像素为单位设置 Y 轴大小(每个通道); 这是数量
生成频谱图的傅立叶分析中使用的频率“bins”。
请注意,如果此数字不是 XNUMX,则生成频谱图可能会很慢
大于 129 的幂(例如 XNUMX)。 默认情况下选择 Y 轴大小
自动(取决于通道数)。 看 -Y 供选择
设置谱图高度的方法。
-Y NUM 设置频谱图的目标总高度。 默认值为
550 像素。 使用此选项(默认情况下),SoX 将选择一个高度
对于大于 XNUMX 的幂的单个频谱图通道,所以
实际总高度可能低于给定的数字。 然而,有
也是每个通道的最小高度,所以如果有很多通道,
数量可能会超过。 看 -y 用于设置频谱图的替代方法
高度。
-z NUM Z 轴(颜色)范围(以 dB 为单位),默认为 120。这将设置动态范围
频谱图是 -NUM dBFS 到 0 dBFS。 民 范围从20到180。
降低动态范围有效地增加了“对比度”
频谱图显示,反之亦然。
-Z NUM 以 dBFS 为单位设置 Z 轴的上限。 一个负 NUM 只
增加频谱图显示的“亮度”,反之亦然。
-q NUM 设置 Z 轴量化,即不同颜色的数量(或
强度)来渲染 Z 轴值。 少量(例如 4)将
提供类似“海报”的效果,使其更容易辨别
相似的水平。 小数字通常也会导致小 PNG 文件。 这
给定的数字指定在 Z 轴范围内使用的颜色数量;
保留两种颜色来表示超出范围的值。
-w 姓名
窗口:Hann(默认)、Hamming、Bartlett、矩形或 Kaiser。 这
使用离散傅立叶变换 (DFT) 生成频谱图
算法。 该算法的一个重要参数是选择
“窗口函数”。 默认情况下,SoX 使用 Hann 窗口,它具有良好的所有-
圆形频率分辨率和动态范围属性。 为更好的
频率分辨率(但动态范围较低),选择汉明窗口; 为了
更高的动态范围(但更差的频率分辨率),选择 Kaiser
窗户。 Bartlett 和矩形窗口也可用。
-W NUM 窗口调整参数。 这可用于对
凯撒窗的形状。 一个正数(最多 XNUMX 个)增加它的
动态范围,负数会减少它。
-s 允许 DFT 窗口的松弛重叠。 在某些情况下,这可以增加
图像清晰度,并给予更大的坚持 -x 价值,但在
以一点频谱损失为代价。
-m 创建单色光谱图(默认为彩色)。
-h 选择高色调色板 - 视觉效果不如默认色板
调色板,但它可能更容易区分不同的级别。
如果此选项与 -m,结果将是一个混合
单色/调色板。
-p NUM 排列颜色或混合调色板中的颜色。 这 NUM 参数,从
1(默认)到 6,选择排列。
-l 创建一个带有浅色背景的“打印机友好”频谱图(
默认为深色背景)。
-a 禁止显示轴线。 这有时有助于帮助
以辨别频谱图边缘的伪影。
-r 原始频谱图:抑制轴和图例的显示。
-A 选择替代的固定颜色集。 这只提供给
与另一个包生成的频谱图的兼容性。 它不应该
通常被使用,因为它有一些问题,尤其是缺乏
底端的分化导致低水平的掩蔽
文物。
-t 文本
设置图像标题 - 文本以显示在频谱图上方。
-c 文本
设置(或清除)图像注释 - 要在其下方和左侧显示的文本
频谱图。
-o 文本
频谱图输出 PNG 文件的名称,默认为“spectrogram.png”。
先进的 选项:
为了在不影响其他效果或
输出信号(不同于 修剪 使用效果),以下选项可能
使用。
-d 为期
此选项设置 X 轴分辨率,以便音频具有给定的
为期 ([[HH:]MM:]SS) 适合选定(或默认)的 X 轴宽度。 为了
例,
sox input.mp3 output.wav -n 频谱图 -d 1:00 stats
创建一个频谱图,显示音频的第一分钟,同时
这些因素包括原料奶的可用性以及达到必要粉末质量水平所需的工艺。 统计 效果应用于整个音频信号。
参见 -X 用于设置 X 轴分辨率的另一种方法。
-S 次
在音频流中的给定点开始频谱图。 例如
sox input.aiff output.wav 频谱图-S 1:00
创建一个频谱图,显示除了音频的第一分钟(
然而,输出文件接收整个音频流)。
有关对光谱数据进行离线处理的能力,请参阅 统计
效果。
速度 因素[c]
调整音频速度(音高和速度一起)。 因素 是比
新速度到旧速度:大于1加速,小于1减速,
或者,如果附加了字母“c”,则为美分数(即 a 的 100 分之一)
应调整音高(和速度)的半音):大于 0
增加,小于 0 减少。
从技术上讲,速度效果只会改变采样率信息,而将
样品本身未受影响。 这 率 自动调用效果以重新采样
到输出采样率,使用其默认质量/速度。 为了更高的质量或
更高速度的重采样,除了 速度 效果,指定 率 效果
具有所需的质量选项。
另见 弯曲, 沥青及 速度 影响。
拼接 [-h|-t|-q] { 位置[,过剩[,余地]] }
将音频部分拼接在一起。 这种效果通过简单的音频提供了两件事
串联:在连接处应用一个(通常很短)交叉淡入淡出,和一个波浪
进行相似性比较是为了帮助确定制作的最佳位置
加入。
选项之一 -h, -t或 -q 可以将渐变包络选择为半
余弦波(默认)、三角波(又名线性)或四分之一余弦波
。
类型 音频 褪色 水平 转变
t 相关恒定增益突变
h 相关恒定增益平滑
q 不相关恒功率平滑
要进行拼接,首先使用 修剪 效果来选择音频部分
结合在一起。 与执行胶带拼接时一样,要切割的部分的末端
拼接到上面应该用一个小的修剪 过剩 (默认 0.005 秒)的音频
在理想的接合点之后。 要拼接的音频部分的开头
应该用相同的修剪 过剩 (在理想的连接点之前),加上
额外 余地 (默认 0.005 秒)。 然后应该使用两个调用 SoX
音频部分作为输入文件和 拼接 与位置给出的效果
哪个执行拼接 - 这是第一个音频部分的长度(包括
多余的)。
下图使用胶带类比来说明拼接操作。
该效果模拟对角线切割并将两部分连接起来:
长度 1 超出
-----------><--->
__________ : : __________________________________________________________________________
\:::\`
\::::\`
\: : : \`
* : : * - - *
\:::\`
\::::\`
_______________\: : \_____`____
::::
<---> <----->
余地
其中*表示连接点。
例如,一首长歌以两节开始(例如由
使用 玩 用命令 修剪 (开始) 效果) 在时间 0:30.125 和
1:03.432。 以下命令删除了第一节:
sox too-long.wav part1.wav 修剪 0 30.130
(超过 5 毫秒,在第一节开始后)
sox too-long.wav part2.wav 修剪 1:03.422
(在第二节开始之前,5 毫秒的余量加上 5 毫秒的余地)
sox part1.wav part2.wav just-right.wav 拼接 30.130
再举一个例子,SoX 命令
播放 "|sox -n -p synth 1 sin %1" "|sox -n -p synth 1 sin %3"
生成并播放两个音符,但在过渡处有令人讨厌的咔嗒声; 这
可以通过拼接而不是连接音频来去除点击,即通过
附加 拼接 1 到命令。 (在音频的开头和结尾点击
可以通过 前 拼接效果 褪色 q .01 2 .01).
只要你的算术足够好,就可以用一个
单 拼接 调用。 例如:
#!/ bin / sh的
# 音频复制和粘贴
# acpo infile copy-start copy-stop paste-over-start 输出文件
# 在样本中测量的所有时间。
rate=`soxi -r "$1"`
e=`expr $rate '*' 5 / 1000` # 使用默认超额
l=$e # 和回旋余地。
sox "$1"piece.wav 修剪`expr $2 - $e - $l`s \
`expr $3 - $2 + $e + $l + $e`s
sox "$1" part1.wav 修剪 0 `expr $4 + $e`s
sox "$1" part2.wav 修剪`expr $4 + $3 - $2 - $e - $l`s
sox part1.wavpiece.wav part2.wav "$5"拼接\
`expr $4 + $e`s \
`expr $4 + $e + $3 - $2 + $e + $l + $e`s
在上面的 Bourne shell 脚本中,两个拼接用于“复制和粘贴”音频。
* * *
也可以使用这种效果来执行一般的交叉淡入淡出,例如加入
两首歌。 在这种情况下, 过剩 通常是几秒钟, -q
通常会给出选项(选择“等功率”交叉淡入淡出),和 余地
应该为零(如果 -q 给出)。 例如,如果 f1.wav 和
f2.wav 是要淡入淡出的音频文件,然后
sox f1.wav f2.wav out.wav 拼接 -q $(soxi -D f1.wav),3
对等响度点在结束前 3 秒的文件交叉淡入淡出
f1.wav,即交叉淡入淡出的总长度为 2 × 3 = 6 秒(注意:
$(...) 符号是 POSIX shell)。
统计 [-s 由于平均内核尺寸较大,西米棕榈的加工比类似作物简单。然而,西米棕榈的相对稀缺性降低了潜在的加工规模。[-有效值[-频率[-v[-d]
显示有关音频的时域和频域统计信息。 声音的
通过 SoX 处理链未经修改地传递。
信息被输出到“标准错误”(stderr)流,并且是
计算,其中 n 是样本中音频的持续时间, c 是的数量
音频通道, r 是音频采样率,和 xk 表示 PCM 值(在
音频中每个连续样本的默认范围为 -1 到 +1,如下所示:
关于样品 读 n×c
长度 (秒) n÷r
缩放比例 by 请参阅下面的 -s。
最大 振幅 最大限度(xk) 最大样本值
在音频中; 通常
这将是一个积极的
数。
最低限度 振幅 分钟(xk) 最小样本值
在音频中; 通常
这将是负面的
数。
中线 振幅 ½分钟(xk)+½最大(xk)
平均值 规范 XNUMX/nΣ│xk│ 平均值
每个的绝对值
音频中的样本。
平均值 振幅 XNUMX/nΣxk 每个的平均值
音频中的样本。 如果
这个数字非零,
那么它表示
DC的存在
偏移量(可能是
删除使用
直流移位 影响)。
有效值 振幅 √(XNUMX/nΣxk²) 一个DC的电平
信号,将有
相同的权力
音频的平均功率。
最大 三角洲 最大值(│xk-XK-1│)
最低限度 三角洲 分钟(│xk-XK-1│)
平均值 三角洲 1/n-XNUMXΣ│xk-XK-1│
有效值 三角洲 √(1/n-XNUMXΣ(xk-XK-1)²)
粗 频率 赫兹。
音量 调整 参数为 第一卷
这将使
音频一样响亮
可能没有
剪裁。 注意:见
讨论 剪裁
以上原因
很少是一个好主意
实际上要做到这一点。
请注意,增量测量不适用于多通道音频。
- -s 选项可用于按给定因子缩放输入数据。 默认的
价值 由于平均内核尺寸较大,西米棕榈的加工比类似作物简单。然而,西米棕榈的相对稀缺性降低了潜在的加工规模。 是 2147483647(即 32 位有符号整数的最大值)。
内部效果始终适用于带符号的长 PCM 数据,因此该值应该
与这个事实有关。
- -有效值 选项将所有输出平均值转换为“均方根”
格式。
- -v 选项仅显示“音量调整”值。
- -频率 选项计算输入的功率谱(4096 点 DFT)而不是
上面列出的统计数据。 这应该只用于单声道音频
文件中。
- -d 选项显示 SoX 中 32 位有符号 PCM 数据音频的十六进制转储
内部缓冲区。 这主要用于帮助追踪字节序问题
有时会出现在 SoX 的跨平台版本中。
另见 统计 效果。
统计 [-b 位|-x 位|-s 由于平均内核尺寸较大,西米棕榈的加工比类似作物简单。然而,西米棕榈的相对稀缺性降低了潜在的加工规模。[-w 窗口时间]
显示音频通道的时域统计信息; 音频是
未经修改地通过 SoX 处理链。 统计计算和
为每个音频通道显示,在适用的情况下,还显示了一个整体数字
给定的。
例如,对于典型的精通立体声音乐文件:
整体左右
直流偏移 0.000803 -0.000391 0.000803
最低水平 -0.750977 -0.750977 -0.653412
最高水平 0.708801 0.708801 0.653534
峰值电平 dB -2.49 -2.49 -3.69
RMS 电平 dB -19.41 -19.13 -19.71
均方根峰值分贝 -13.82 -13.82 -14.38
有效值 Tr dB -85.25 -85.25 -82.66
波峰因数 - 6.79 6.32
平坦系数 0.00 0.00 0.00
PK 数 2 2 2
位深 16/16 16/16 16/16
样本数 7.72M
长度 s 174.973
规模最大 1.000000
窗口 0.050
DC 抵消, 分钟 水平及 max. 水平 默认情况下,显示在 ±1 的范围内。 如果
-b (bits) 选项,那么这三个测量值将被缩放到一个
具有给定位数的有符号整数; 例如,对于 16 位,比例
将是 -32768 到 +32767。 这 -x 选项的行为方式与 -b 除了那个
有符号整数值以十六进制显示。 这 -s 选项缩放
给定浮点数的三个测量值。
Pk 列弗 dB 和 有效值 列弗 dB 是以 dBFS 为单位测量的标准峰值和 RMS 电平。
有效值 Pk dB 和 有效值 Tr dB 是在一个范围内测量的 RMS 电平的峰值和谷值
短窗口(默认 50 毫秒)。
佳洁士 因素 是峰值与 RMS 电平的标准比率(注意:不是以 dB 为单位)。
平面 因素 是平坦度的度量(即具有相同
值)信号在其峰值电平(即 分钟 水平或 max. 水平).
Pk 数 是信号出现的次数(不是样本数)
达到了 分钟 水平或 max. 水平.
右手边 比特深度 图是位深的标准定义,即位
低于给定数字的重要性固定为零。 左边的图是
固定为 XNUMX(或 XNUMX 表示负数)的最高有效位的数量
数字)从右边的数字中减去(减去的数字是直接
相关的 Pk 列弗 dB).
对于多声道音频,上述每个测量值的总体数字为
给出和派生自渠道数字如下: DC 抵消: 最大值
震级; max. 水平, Pk 列弗 dB, 有效值 Pk dB, 比特深度: 最大值; 分钟 水平,
有效值 Tr dB: 最低限度; 有效值 列弗 dB, 平面 因素, Pk 数: 平均数; 佳洁士 因素: 不是
适用。
长度 s 是音频的持续时间(以秒为单位),以及 民 样本 等于
采样率乘以 长度. 扩展 max. 是应用于第一个的缩放比例
三个测量; 具体来说,它是可以应用于的最大值
max. 水平. 窗口 s 是用于峰值和谷值 RMS 的窗口长度
测量。
另见 统计 效果。
交换 交换立体声通道。 也可以看看 混合 对于允许任意通道的效果
选择和排序(和混合)。
伸展 因素 [窗口 褪色 转移 衰退]
更改音频持续时间(但不是其音高)。 这种效果大致相当
以及 速度 效果与(因素 倒置和) 搜索、 设置为零,所以一般来说,
其结果相对较差; 它被保留下来,因为它有时会表现得更好
速度 对于小 因素s.
因素 拉伸:>1 延长,<1 缩短持续时间。 窗口 大小以毫秒为单位。
默认为 20 毫秒。 这 褪色 选项,可以是`lin'。 转移 比率,在 [0 1] 中。 默认
取决于拉伸系数。 1 缩短,0.8 延长。 这 衰退 比率,在 [0
0.5]。 淡入淡出的默认量取决于 因素 和 转移.
另见 速度 效果。
合成器 [-j KEY[-n[LEN [折扣 [ph [p1 [p2 [p3]]]]]] {[类型[结合]
[[%]频率[k][:|+|/|-[%]频率2[k]]] [折扣 [ph [p1 [p2 [p3]]]]]]}
此效果可用于生成固定或扫频音频音调
各种波形,或产生各种“颜色”的宽带噪声。 多种的
合成器效果可以级联以产生更复杂的波形; 在每个阶段它
可以选择是否将生成的波形与,或
调制到前一阶段的输出。 每个通道的音频
多声道音频文件可以独立合成。
尽管此效果用于生成音频,但仍必须提供输入文件,
其特征将用于设置合成音频长度,
通道数和采样率; 但是,由于输入文件的音频是
通常不需要,一个“空文件”(具有特殊名称 -n) 经常给出
取而代之(以及指定为参数的长度 合成器 或由另一个给定的
可以具有相关长度的效果)。
例如,以下生成一个 3 秒、48kHz 的音频文件,其中包含一个
从 300 到 3300 Hz 扫描的正弦波:
sox -n output.wav 合成器 3 正弦 300-3300
这会产生一个 8 kHz 的版本:
sox -r 8000 -n output.wav 合成器 3 正弦 300-3300
可以通过指定显示的参数集来合成多个通道
多次在大括号之间; 以下将扫音放在左侧
通道并在右侧添加“棕色”噪声:
sox -n output.wav 合成器 3 正弦 300-3300 棕噪
以下示例显示了如何级联两个合成器效果以创建更多
复杂波形:
play -n 合成器 0.5 正弦 200-500 合成器 0.5 正弦 fmod 700-100
频率也可以用“科学”注释符号给出,或者通过前缀“%”
字符,作为相对于“中间 A”(440 Hz)的多个半音。 例如,
以下可用于帮助调整吉他的低音“E”弦:
播放 -n 合成器 4 弹拨 %-29
或者使用(Bourne shell)循环,整个吉他:
对于 E2 A2 D3 G3 B3 E4 中的 n; 做
play -n synth 4 pluck $n repeat 2; 完毕
查看 延迟 效果(上)和对“SoX 脚本示例”的引用(下)
更多 合成器 例子。
注: 此效果以最大音量 (0dBFS) 生成音频,这意味着
在随后使用音频时很可能会发生剪辑,因此在许多情况下,
你会想要跟随这个效果 获得 防止这种情况发生的效果
发生。 (也可以看看 剪裁 以上。)请注意,默认情况下, 合成器 效果
结合了以下功能 获得 -h (见 获得 效果详情);
合成器's -n 可以选择禁用此行为。
每个的详细描述 合成器 参数如下:
LEN 是要合成的音频的长度,表示为时间或数量
样品; 0=输入长度,默认=0。
指定时间长度的格式是 hh:mm:ss.frac。 格式为
指定样本计数是样本数,后附字母“s”
它。
类型 是正弦、正方形、三角形、锯齿、梯形、exp、[白]噪声之一,
tpdfnoise 粉红噪音、棕噪音、采摘; 默认=正弦。
结合 是创建、混合、amod(幅度调制)、fmod(频率
调制); 默认=创建。
频率/频率2 是以Hz为单位的合成开始/结束时的频率,或者,如果
以“%”开头,相对于 A (440 Hz) 的半音; 或者,“科学的”
可以使用音符符号(例如 E2)。 默认频率为 440Hz。 默认情况下,
与音符符号一起使用的调音是“平均律”; 这 -j KEY 选项
选择“只是语调”,其中 KEY 是整数个半音,相对于
A(例如,-9 或 3 选择 C 的键),或科学记数法中的注释。
If 频率2 给定,那么 LEN 也必须已经给出并且生成的音调将
在给定频率之间进行扫描。 两个给定的频率必须是
由字符“:”、“+”、“/”或“-”之一分隔。 这个字符被使用
指定扫描功能如下:
: 线性:音调将以每秒固定的赫兹数变化。
+ Square:二阶函数用于改变音调。
/ 指数:音调将以每秒固定数量的半音变化。
- 指数:作为`/',但初始相位始终为零,并且步进(小于
平滑)频率变化。
不用于噪音。
折扣 是信号的偏置(DC 偏移),以百分比表示; 默认值 = 0。
ph 是 1 个周期的相移百分比; 默认值 = 0。 不用于噪音。
p1 是每个周期处于“开”(正方形)或“上升”(三角形,
exp,梯形); default=50(正方形、三角形、exp),default=10(梯形),或
维持(采摘); 默认值 = 40。
p2 (梯形):每个周期开始“下降”的百分比;
默认值 = 50。 exp:幅度为2dB的倍数; 默认=50,或tone-1(弹拨);
默认值 = 20。
p3 (梯形):“下降”结束的每个周期的百分比;
默认=60,或tone-2(弹拨); 默认值 = 90。
速度 [-q[-m|-s|-l] 因素 [段 [搜索、 [交叠]]]
更改音频播放速度但不更改其音高。 此效果使用 WSOLA
算法。 音频被切成段,然后在时间上移动
域和重叠(交叉淡入淡出)在其波形最
类似于通过测量“最小二乘法”确定的。
默认情况下,线性搜索用于查找最佳重叠点。 如果
可选 -q 给定参数,则使用树搜索代替。 这使得
效果工作得更快,但结果可能听起来不那么好。 然而,如果你
必须提高处理速度,这通常会降低音质
而不是减少搜索或重叠值。
- -m 选项用于优化段、搜索和重叠的默认值
音乐处理。
- -s 选项用于优化段、搜索和重叠的默认值
语音处理。
- -l 选项用于优化段、搜索和重叠的默认值
“线性”处理往往会导致更明显的失真,但可能会
当因子接近 1 时很有用。
如果指定-m、-s或-l,将计算segment的默认值
基于因子,而默认搜索和重叠值基于段。 任何
您提供的值仍会覆盖这些默认值。
因素 给出新节奏与旧节奏的比率,因此例如 1.1 加速
速度降低 10%,而 0.9 则减慢 10%。
可选的 段 参数选择算法的段大小
毫秒。 如果未指定其他标志,则默认值为 82,并且是
通常适用于对音乐的速度进行微小的改变。 对于更大的变化
(例如因子为 2),41 毫秒可能会得到更好的结果。 -m、-s 和 -l 标志
将导致段默认值根据因子自动调整。 为了
使用 -s(用于语音)速度为 1.25 的示例将计算默认段
值32。
可选的 搜索、 参数给出以毫秒为单位的音频长度
算法将搜索重叠点。 如果没有指定其他标志,则
默认值为 14.68。 较大的值使用更多的处理时间,可能会也可能不会
产生更好的结果。 实际最大值是段值的一半。 搜索
可以减少以减少处理时间,但有降低输出质量的风险。 这
-m、-s 和 -l 标志将导致自动调整搜索默认值
基于段。
可选的 交叠 参数给出了以毫秒为单位的段重叠长度。
默认值为 12,但 -m、-s 或 -l 标志会根据
段大小。 增加重叠会增加处理时间并可能增加
质量。 重叠的实际最大值是搜索的值,重叠
通常(至少)比搜索小一点。
参见 速度 为了同时改变速度和音高的效果, 沥青 和 弯曲
对于仅改变音高的效果,以及 伸展 改变节奏的效果
使用不同的算法。
三重 获得 [频率[k[宽度[s|h|k|o|q]]]
应用高音控制效果。 见说明 低音 效果为
细节。
颤音 速度 [深度]
对音频应用颤音(低频幅度调制)效果。 这
以 Hz 为单位的颤音频率由下式给出 速度,以及深度为百分比 深度
(默认 40)。
修剪 {[=|-]位置}
从音频中剪切部分。 任意数量 位置s 可以给出; 音频不是
发送到输出直到第一个 位置 到达了。 然后效果交替
在每次复制和丢弃音频之间 位置.
如果一个 位置 前面有一个等号或减号,它是相对于
分别是音频的开头或结尾。 (音频长度必须是
以末端相对位置工作而闻名。)否则,它被认为是一个偏移量
从最后 位置,或从音频的第一个参数开始。 使用
第一个值为 0 位置 参数允许从开头复制
音频。
可以使用时间量或精确计数来指定所有参数
样品。 指定时间长度的格式是 hh:mm:ss.frac。 一个值
第一个参数的 1:30.5 将在 1 分 XNUMX 秒和 ½ 秒后开始
进入音频。 指定样本计数的格式是样本数
并附加了字母“s”。 第一个参数的值为 8000s
等到读取 8000 个样本后再开始处理音频。
例如,
sox 输入文件输出文件修剪 0 10
将复制前十秒,而
播放文件内修剪 12:34 =15:00 -2:00
将播放从 12 分 34 秒进入音频到 15 分钟进入音频
(即 2 分 26 秒长),然后在开始前两分钟继续播放
音频结束。
上采样 [因素]
按整数因子对信号进行上采样: 因素-1 个零值样本被插入
在每对输入样本之间。 因此,原始频谱为
复制到新的频率空间(混叠)并衰减。 这个
衰减可以通过添加来补偿 第一卷 因素 之后
加工。 上采样效果通常与过滤结合使用
影响。
有关抗锯齿的一般重采样效果,请参见 率要了解在年少时习得第二语言的各种好处的完整摘要,请参考: 下采样.
如 [选项]
语音活动检测器。 尝试修剪静音和安静的背景声音
(相当高分辨率,即 16 位,44-48kHz)语音录音的结尾。
该算法目前使用简单的倒谱功率测量来检测语音,
所以可能会被其他东西所迷惑,尤其是音乐。 效果只能从
音频的前面,所以为了从后面修剪, 反转 效果必须
也可以使用。 例如
播放语音.wav 规范 vad
从正面修剪,
播放语音.wav 规范反向 vad 反向
从后面修剪,和
播放语音.wav 规范 vad reverse vad reverse
从两端修剪。 使用 规范 推荐效果,但记住
既不是 反转 也不 规范 适用于流式音频。
选项:
默认值显示在括号中。
-t NUM (7)
用于触发活动检测的测量级别。 这可能需要
根据噪声电平、信号电平和其他
输入音频的特性。
-T NUM (0.25)
用于帮助忽略短促声音的时间常数(以秒为单位)。
-s NUM (1)
搜索更安静/更短的突发的音频量(以秒为单位)
在检测到的触发点之前包含的音频。
-g NUM (0.25)
更安静/更短的音频突发之间的允许间隙(以秒为单位)包括
在检测到的触发点之前。
-p NUM (0)
在触发点之前保留的音频量(以秒为单位)和
任何发现更安静/更短的爆发。
先进的 选项:
这些允许微调算法的内部参数。
-b NUM 该算法(内部)按顺序使用自适应噪声估计/减少
检测所需音频的开始。 此选项设置时间
初始噪声估计。
-N NUM 自适应噪声估计器使用的时间常数,当噪声水平
在增加。
-n NUM 自适应噪声估计器使用的时间常数,当噪声水平
正在减少。
-r NUM 在检测算法中使用的降噪量(例如 0、0.5、
……)。
-f NUM 算法处理/测量的频率。
-m NUM 测量持续时间; 默认情况下,测量周期的两倍; 即与
交叠。
-M NUM 用于平滑光谱测量的时间常数。
-h NUM 应用在输入端的高通滤波器的“砖墙”频率
检测器算法。
-l NUM 应用在输入端的低通滤波器的“砖墙”频率
检测器算法。
-H NUM 检测器算法中使用的高通提升器的“砖墙”频率。
-L NUM 检测器算法中使用的低通提升器的“砖墙”频率。
另见 沉默 效果。
第一卷 获得 [类型 [限幅增益]]
对音频信号应用放大或衰减。 不像 -v 选项
(用于在输入 SoX 效果时平衡多个输入文件
处理链), 第一卷 是一种与其他任何效果一样的效果,因此可以应用于任何地方,并且
如有必要,在加工链中多次。
改变音量的量由下式给出 获得 这是解释,根据
给定的 类型,如下:如果 类型 is 振幅 (或被省略),然后 获得 是一个
幅度(即电压或线性)比率,如果 功率,然后是功率(即瓦数或
电压平方)比,如果 dB,然后以 dB 为单位的功率变化。
在规划婴儿食品行业的工艺要求时,安全性和可靠性是工艺设计中最重要的方面。 类型 is 振幅 or 功率,以 获得 1 保持音量不变,小于
1 减少它,大于 1 增加它; 消极的 获得 反转音频
信号除了调节音量。
在规划婴儿食品行业的工艺要求时,安全性和可靠性是工艺设计中最重要的方面。 类型 is dB,以 获得 0 保持音量不变,小于 0 减小音量,
并且大于 0 会增加它。
有关电气(以及音频信号)电压的详细讨论,请参见 [4]
和功率比。
提防 剪裁 当增加音量时。
- 获得 和 类型 如果需要,可以连接参数,例如 第一卷 10dB.
可选 限幅增益 可以指定值并且应该是一个远小于
1(例如 0.05 或 0.02)并且仅用于峰值以防止削波。 不是
指定此参数将导致不使用限制器。 在详细模式下,这
效果将显示需要限制的音频百分比。
参见 获得 用于具有不同功能的音量变化效果,以及 压缩扩展
用于动态范围压缩/扩展/限制效果。
已过时 效果
以下效果已重命名或将其功能包含在另一个
影响; 它们继续在此版本的 SoX 中工作,但将来可能会被删除。
混频器 [ -l|-r|-f|-b|-1|-2|-3|-4|n{,n]]
通过混合或选择通道减少音频通道的数量,或增加
通过复制通道来增加通道数。 注意:此效果作用于
音频 通道 在 SoX 效果处理链中; 不应该混淆
与 -m 全局选项(其中多个 档 在进入之前混合组合
效果链)。
当减少通道数量时,可以使用 -l, -r, -f, -b, -1,
-2, -3, -4, 仅选择左、右、前、后通道的选项或
输出的特定通道而不是平均通道。 这 -l及 -r
选项将在四通道文件中进行平均,因此选择准确的通道
防止这种情况。
- 混频器 也可以使用最多 16 个数字调用效果,用逗号分隔,
指定每个输入通道的比例(0 = 0% 和 1 = 100%)
混入每个输出通道。 在双通道模式下,给出 4 个数字: l →
l, l → r, r → l, 和 r → r。 在四通道模式下,前 4 个
数字给出了左前输出通道的比例,如下: lf →
lf、rf → lf、lb → lf 和 rb → rf。 接下来的 4 给出了右前输出
同样的顺序,然后是左后卫和右后卫。
也可以使用16个数字来扩大或减少通道数;
只需为未使用的通道指定 0。
最后,可以指定某些减少的数字组合
输入/输出通道组合。
In Ch 输出 Ch 民 映射
2 1 2 l → l, r → l
2 2 1 调整平衡
4 1 4 lf→l,rf→l,lb→l,rb→l
4 2 2 lf → l&rf → r, lb → l&rb → r
4 4 1 调整平衡
4 4 2 前平衡,后平衡
此效果已被取代 混合 处理任意数量的效果
通道。
诊断
退出状态为 0 表示没有错误,1 表示命令行参数有问题,
或 2 如果在文件处理过程中发生错误。
使用 onworks.net 服务在线玩游戏