Questo è il comando sox che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici postazioni di lavoro online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
SoX - Sound eXchange, il coltellino svizzero della manipolazione audio
SINOSSI
sox [opzioni-globali] [opzioni-formato] infile1
[[opzioni-formato] infile2] ... [opzioni-formato] file di uscita
[effetto [effetto-opzioni]]...
PLAY [opzioni-globali] [opzioni-formato] infile1
[[opzioni-formato] infile2] ... [opzioni-formato]
[effetto [effetto-opzioni]]...
rec [opzioni-globali] [opzioni-formato] file di uscita
[effetto [effetto-opzioni]]...
DESCRIZIONE
Introduzione
SoX legge e scrive file audio nei formati più diffusi e può opzionalmente applicare effetti
a loro. Può combinare più sorgenti di ingresso, sintetizzare l'audio e, su molti sistemi,
fungere da riproduttore audio generico o registratore audio multitraccia. Ha anche limitato
capacità di dividere l'input in più file di output.
Tutte le funzionalità SoX sono disponibili utilizzando solo il sox comando. Per semplificare il gioco e
registrazione audio, se SoX viene invocato come PLAY, il file di output viene impostato automaticamente per essere il
dispositivo audio predefinito e, se invocato come rec, il dispositivo audio predefinito viene utilizzato come ingresso
fonte. Inoltre, il soxi(1) il comando fornisce un modo conveniente per interrogare semplicemente l'audio
informazioni sull'intestazione del file.
Il cuore di SoX è una libreria chiamata libSoX. Coloro che sono interessati ad estendere SoX o utilizzare
in altri programmi dovrebbe fare riferimento alla pagina di manuale di libSoX: libsox(3).
SoX è uno strumento di elaborazione audio da riga di comando, particolarmente adatto per rendere veloce, semplice
modifiche e all'elaborazione batch. Se hai bisogno di un editor audio grafico interattivo, usa
audacia(1).
* * *
La catena di elaborazione SoX complessiva può essere riassunta come segue:
Input(i) → Combinatore → Effetti → Output(i)
Si noti tuttavia che sulla riga di comando di SoX, le posizioni degli Output e degli Effetti
vengono scambiati rispetto al flusso logico appena mostrato. Si noti inoltre che mentre le opzioni pertinenti
ai file vengono posizionati prima del rispettivo nome file, per gli effetti è vero il contrario.
Per mostrare come funziona in pratica, ecco una selezione di esempi di come potrebbe essere SoX
Usato. Il semplice
sox recital.au recital.wav
traduce un file audio in formato Sun AU in un file Microsoft WAV, mentre
sox recital.au -b 16 canali recital.wav 1 tasso 16k dissolvenza 3 norma
esegue la stessa traduzione in formato, ma applica anche quattro effetti (down-mix a uno
canale, cambio frequenza di campionamento, dissolvenza in apertura, normalizzazione) e memorizza il risultato a una profondità di bit di
16
sox -r 16k -e firmato -b 8 -c 1 voice-memo.raw voice-memo.wav
converte l'audio "raw" (noto anche come "headerless") in un formato di file autodescrittivo,
sox slow.aiff fixed.aiff velocità 1.027
regola la velocità dell'audio,
sox short.wav long.wav long.wav
concatena due file audio e
sox -m musica.mp3 voce.wav misto.flac
mescola insieme due file audio.
suona il basso "The Moonbeams/Greatest/*.ogg" +3
riproduce una raccolta di file audio applicando un effetto di potenziamento dei bassi,
play -n -c1 synth sin %-12 sin %-9 sin %-5 sin %-2 dissolvenza h 0.1 1 0.1
suona un accordo sintetizzato di "La settima minore" con un suono di organo a canne,
rec -c 2 trim radio.aiff 0 30:00
registra mezz'ora di audio stereo e
play -q take1.aiff & rec -M take1.aiff take1-dub.aiff
(con POSIX shell e dove supportato dall'hardware) registra una nuova traccia in un multitraccia
registrazione. Finalmente,
rec -r 44100 -b 16 -s -p silenzio 1 0.50 0.1% 1 10:00 0.1% | \
sox -p song.ogg silenzio 1 0.50 0.1% 1 2.0 0.1% : \
nuovo file: riavvia
registra un flusso di audio come LP/cassetta e si divide in più file audio su
punti con 2 secondi di silenzio. Inoltre, non avvia la registrazione finché non rileva
l'audio è in riproduzione e si interrompe dopo 10 minuti di silenzio.
NB Quanto sopra è solo una panoramica delle capacità di SoX; spiegazioni dettagliate su come
uso contro tutti i I parametri SoX, i formati di file e gli effetti possono essere trovati di seguito in questo manuale, in
formato sox(7) e in soxi(1).
Compila il Formato Tipi
SoX può funzionare con file audio "autodescrittivi" e "raw". formati "autodescrittivi"
(ad es. WAV, FLAC, MP3) hanno un'intestazione che descrive completamente il segnale e la codifica
attributi dei dati audio che seguono. I formati "raw" o "headerless" non contengono
queste informazioni, quindi le caratteristiche audio di queste devono essere descritte sul SoX
riga di comando o desunte da quelle del file di input.
Le seguenti quattro caratteristiche vengono utilizzate per descrivere il formato dei dati audio in modo tale che
può essere elaborato con SoX:
frequenza di campionamento
La frequenza di campionamento in campioni al secondo ("Hertz" o "Hz"). Telefonia digitale
utilizza tradizionalmente una frequenza di campionamento di 8000 Hz (8 kHz), sebbene oggigiorno, 16 e persino
32 kHz stanno diventando più comuni. I Compact Disc audio utilizzano 44100 Hz (44.1 kHz).
Digital Audio Tape e molti sistemi informatici utilizzano 48 kHz. Sistemi audio professionali
spesso usano 96 kHz.
misura di prova
Il numero di bit utilizzati per memorizzare ciascun campione. Oggi si usa comunemente 16 bit.
L'8-bit era popolare agli albori dell'audio per computer. 24-bit è usato nel
arena audio professionale. Vengono utilizzate anche altre dimensioni.
codifica dei dati
Il modo in cui ogni campione audio è rappresentato (o "codificato"). Alcune codifiche
avere varianti con ordinamenti di byte o ordinamenti di bit diversi. Alcuni comprimono il
dati audio in modo che i dati audio memorizzati occupino meno spazio (cioè spazio su disco o
larghezza di banda di trasmissione) rispetto agli altri parametri di formato e al numero di campioni
implicherebbe. I tipi di codifica comunemente usati includono virgola mobile, μ-law, ADPCM,
intero con segno PCM, MP3 e FLAC.
canali
Il numero di canali audio contenuti nel file. Uno (`mono') e due
(`stereo') sono ampiamente utilizzati. L'audio del "suono surround" in genere contiene sei o più
canali.
Il termine "bit-rate" è una misura della quantità di memoria occupata da un audio codificato
segnale nell'unità di tempo. Può dipendere da tutto quanto sopra ed è tipicamente indicato come
un numero di kilobit al secondo (kbps). Un segnale di telefonia A-law ha un bit rate di 64
kbps. La musica stereo codificata in MP3 ha in genere una velocità in bit di 128-196 kbps. Con codifica FLAC
la musica stereo ha in genere una velocità in bit di 550-760 kbps.
La maggior parte dei formati autodescrittivi consente anche di incorporare "commenti" testuali nel file che
può essere usato per descrivere l'audio in qualche modo, ad esempio per la musica, il titolo, l'autore, ecc.
Un uso importante dei commenti ai file audio è quello di trasmettere le informazioni di "Replay Gain". SoX
supporta l'applicazione delle informazioni Replay Gain, ma non la genera. Si noti che per impostazione predefinita,
SoX copia i commenti dei file di input in file di output che supportano i commenti, quindi i file di output potrebbero
contenere informazioni Replay Gain se alcune erano presenti nel file di input. In questo caso, se
è stato eseguito qualcosa di diverso da una semplice conversione di formato, quindi il file di output Replay
È probabile che le informazioni di guadagno siano errate e quindi dovrebbero essere ricalcolate utilizzando uno strumento che
supporta questo (non SoX).
. soxi(1) Il comando può essere utilizzato per visualizzare le informazioni dalle intestazioni dei file audio.
Determinazione & Configurazione . Compila il Formato
Ci sono diversi meccanismi disponibili per SoX da utilizzare per determinare o impostare il formato
caratteristiche di un file audio. A seconda delle circostanze, individuo
le caratteristiche possono essere determinate o impostate utilizzando meccanismi diversi.
Per determinare il formato di un file di input, SoX utilizzerà, in ordine di precedenza e come
dato o disponibile:
1. Opzioni di formato della riga di comando.
2. Il contenuto dell'intestazione del file.
3. L'estensione del nome del file.
Per impostare il formato del file di output, SoX utilizzerà, in ordine di precedenza e come indicato o
disponibile:
1. Opzioni di formato della riga di comando.
2. L'estensione del nome del file.
3. Le caratteristiche del formato del file di input o il più vicino supportato dall'output
tipo di file.
Per tutti i file, SoX uscirà con un errore se non è possibile determinare il tipo di file. Comando-
potrebbe essere necessario aggiungere o modificare le opzioni del formato della linea per risolvere il problema.
Giocare & Registrazione audio
. PLAY e rec vengono forniti i comandi in modo che la riproduzione e la registrazione di base siano semplici come
riproduci file-esistente.wav
e
rec nuovo-file.wav
Questi due comandi sono funzionalmente equivalenti a
sox file-esistente.wav -d
e
sox -d nuovo-file.wav
Naturalmente, ai comandi possono essere aggiunti ulteriori opzioni ed effetti (come descritto di seguito)
in entrambe le forme.
* * *
Alcuni sistemi forniscono più di un tipo di driver audio (compatibile con SoX), ad esempio ALSA e OSS,
o SUNAU & AO. I sistemi possono anche avere più di un dispositivo audio (noto anche come `scheda audio').
Se più di un driver audio è stato integrato in SoX e l'impostazione predefinita è stata selezionata da SoX
quando la registrazione o la riproduzione non è quella desiderata, allora il DRIVER AUDIO Industria XNUMX
variabile può essere utilizzata per sovrascrivere il valore predefinito. Ad esempio (su molti sistemi):
impostare AUDIODRIVER=oss
giocare a ...
. AUDIODEV la variabile d'ambiente può essere utilizzata per sovrascrivere il dispositivo audio predefinito, ad es
imposta AUDIODEV=/dev/dsp2
giocare a ...
sox... -t oss
or
imposta AUDIODEV=hw:soundwave,1,2
giocare a ...
sox... -t alsa
Nota che il modo di impostare le variabili d'ambiente varia da sistema a sistema - per alcuni
esempi specifici, vedere `SOX_OPTS' di seguito.
Quando si riproduce un file con una frequenza di campionamento non supportata dal dispositivo di uscita audio,
SoX invocherà automaticamente il tasso effetto per eseguire la frequenza di campionamento necessaria
conversione. Per compatibilità con il vecchio hardware, l'impostazione predefinita tasso il livello di qualità è impostato su
"basso". Questo può essere modificato specificando esplicitamente il tasso effetto con un diverso
livello di qualità, ad es
riproduci ... valuta -m
o utilizzando il --play-rate-arg opzione (vedi sotto).
* * *
Su alcuni sistemi, SoX consente di regolare il volume di riproduzione audio durante l'utilizzo PLAY. Dove
supportato, questo si ottiene toccando i tasti `v' e `V' durante la riproduzione.
Per aiutare con l'impostazione di un livello di registrazione adeguato, SoX include un misuratore del livello di picco che può
essere invocato (prima di effettuare la registrazione vera e propria) come segue:
rec -n
Il livello di registrazione dovrebbe essere regolato (usando il programma mixer fornito dal sistema, non SoX)
in modo che il metro sia at maggior parte di tanto in tanto a fondo scala, e mai "in rosso" (an
viene visualizzato un punto esclamativo). Guarda anche -S qua sotto.
Precisione
Molti formati di file che comprimono l'audio eliminano alcune delle informazioni sul segnale audio mentre
così facendo. La conversione in un tale formato e la successiva riconversione non produrranno
copia esatta dell'audio originale. Questo è il caso di molti formati utilizzati nella telefonia
(ad es. A-law, GSM) dove la larghezza di banda del segnale bassa è più importante dell'alta fedeltà audio,
e per molti formati utilizzati nei lettori musicali portatili (ad es. MP3, Vorbis) ove adeguato
la fedeltà può essere mantenuta anche con i grandi rapporti di compressione che sono necessari per realizzare
lettori portatili pratici.
I formati che scartano le informazioni sul segnale audio sono chiamati "con perdita". Formati che non lo sono
chiamato "senza perdite". Il termine "qualità" è usato come misura di quanto strettamente l'originale
il segnale audio può essere riprodotto quando si utilizza un formato con perdita.
La conversione di file audio con SoX è senza perdita quando può essere, cioè quando non si usa con perdita
compressione, quando non si riduce la frequenza di campionamento o il numero di canali e quando
il numero di bit utilizzati nel formato di destinazione non è inferiore a quello del formato di origine. Per esempio
la conversione da un formato PCM a 8 bit a un formato PCM a 16 bit è senza perdita di dati ma la conversione da
un formato PCM da 8 bit a legge A (8 bit) non lo è.
NB SoX converte tutti i file audio in un formato interno non compresso prima dell'esecuzione
qualsiasi elaborazione audio. Ciò significa che manipolare un file archiviato in un formato con perdita di dati
può causare ulteriori perdite di fedeltà audio. Ad esempio con
sox long.mp3 short.mp3 taglia 10
SoX prima decomprime il file MP3 di input, quindi applica il tagliare effetto, e infine
crea il file MP3 di output ricomprimendo l'audio - con una possibile riduzione di
fedeltà superiore a quella verificatasi al momento della creazione del file di input. Quindi, se cos'è
in definitiva si desidera un audio compresso con perdita di qualità, si consiglia vivamente di eseguire tutto
elaborazione audio utilizzando formati di file senza perdita di dati e quindi convertire nel formato con perdita solo su
la fase finale.
NB L'applicazione di più effetti con una singola invocazione SoX, in generale, produrrà
risultati più accurati rispetto a quelli prodotti utilizzando più invocazioni SoX.
dithering
Il dithering è una tecnica utilizzata per massimizzare la gamma dinamica dell'audio memorizzato a
particolare profondità di bit. Qualsiasi distorsione introdotta dalla quantizzazione è decorrelata aggiungendo
una piccola quantità di rumore bianco al segnale. Nella maggior parte dei casi, SoX può determinare se il
l'elaborazione selezionata richiede il dither e lo aggiungerà durante la formattazione dell'output se
appropriato.
In particolare, per impostazione predefinita, SoX aggiunge automaticamente il dither TPDF quando la profondità di bit dell'output è
meno di 24 e si verifica una delle seguenti condizioni:
· la riduzione della profondità di bit è stata specificata esplicitamente utilizzando un'opzione della riga di comando
· il formato del file di output supporta solo profondità di bit inferiori a quella del file di input
formato
· un effetto ha aumentato la profondità di bit effettiva all'interno della catena di elaborazione interna
Ad esempio, regolando il volume con vol 0.25 richiede due bit aggiuntivi in cui
memorizzare i suoi risultati senza perdita di dati (poiché 0.25 decimale equivale a 0.01 binario). Quindi se l'input
la profondità di bit del file è 16, quindi la rappresentazione interna di SoX utilizzerà 18 bit dopo
elaborare questa variazione di volume. Per memorizzare l'uscita alla stessa profondità del
input, il dithering viene utilizzato per rimuovere i bit aggiuntivi.
Usa il -V opzione per vedere quale elaborazione SoX ha aggiunto automaticamente. Il -D l'opzione potrebbe essere
dato per ignorare il dithering automatico. Per invocare il dithering manualmente (es. per selezionare a
curva di modellamento del rumore), vedere la tremare effetto.
Ritaglio
Il clipping è una distorsione che si verifica quando il livello di un segnale audio (o "volume") supera il
gamma della rappresentazione scelta. Nella maggior parte dei casi, il clipping è indesiderabile e quindi dovrebbe
essere corretto regolando il livello prima del punto (nella catena di lavorazione) in cui
capita.
In SoX, potrebbe verificarsi il clipping, come ci si potrebbe aspettare, quando si utilizza il vol or guadagno effetti a
aumentare il volume dell'audio. Il ritaglio potrebbe verificarsi anche con molti altri effetti, quando
convertire un formato in un altro e anche durante la semplice riproduzione dell'audio.
La riproduzione di un file audio spesso comporta il ricampionamento e l'elaborazione da parte di componenti analogici può
introdurre un piccolo offset DC e/o amplificazione, che può produrre distorsione se
il livello del segnale audio era inizialmente troppo vicino al punto di clipping.
Per questi motivi, è normale assicurarsi che il livello del segnale di un file audio abbia qualche
"headroom", cioè non supera un particolare livello al di sotto del livello massimo possibile
per la rappresentazione data. Alcuni organismi di standard raccomandano fino a 9dB di headroom,
ma nella maggior parte dei casi, 3dB (≈ 70% lineare) sono sufficienti. Nota che questa saggezza sembra essere stata
perso nella produzione musicale moderna; infatti, molti CD, MP3, ecc. sono ora masterizzati a livelli
sopra 0dBFS, ovvero l'audio viene troncato come consegnato.
SoX's stat e stats gli effetti possono aiutare a determinare il livello del segnale in un file audio.
. guadagno or vol l'effetto può essere utilizzato per prevenire il clipping, ad es
sox dull.wav bright.wav gain -6 alti +6
garantisce che l'aumento degli alti non venga tagliato.
Se si verifica un clipping in qualsiasi momento durante l'elaborazione, SoX visualizzerà un messaggio di avviso per
quell'effetto.
Vedi anche -G e la guadagno e norma effetti.
Ingresso Compila il La combinazione di
Il combinatore di input di SoX può essere configurato (vedi OPZIONI sotto) per combinare più file usando
uno dei seguenti metodi: `concatenate', `sequence', `mix', `mix-power', `merge', o
`moltiplicare'. Il metodo predefinito è `sequenza' per PLAY, e `concatena' per rec e sox.
Per tutti i metodi diversi da `sequenza', più file di input devono avere lo stesso campionamento
Vota. Se necessario, è possibile utilizzare invocazioni SoX separate per effettuare regolazioni della frequenza di campionamento
prima della combinazione.
Se è selezionato il metodo di combinazione "concatenazione" (di solito, questo sarà per impostazione predefinita), allora
anche i file di input devono avere lo stesso numero di canali. L'audio da ogni ingresso
verranno concatenati nell'ordine dato per formare il file di output.
Il metodo di combinazione `sequenza' viene selezionato automaticamente per PLAY. È simile a
`concatenare' in quanto l'audio da ciascun file di input viene inviato in serie al file di output.
Tuttavia, qui il file di output può essere chiuso e riaperto alla transizione corrispondente
tra i file di input. Questo potrebbe essere proprio ciò che è necessario quando si inviano diversi tipi di audio
a un dispositivo di output, ma generalmente non è utile quando l'output è un file normale.
Se viene selezionato il metodo di combinazione `mix' o `mix-power' allora due o più input
i file devono essere forniti e verranno mescolati insieme per formare il file di output. Il numero di
i canali in ogni file di input non devono essere gli stessi, ma SoX emetterà un avviso se lo sono
not e alcuni canali nel file di output non conterranno l'audio di tutti i file di input. UN
il file audio misto non può essere annullato senza riferimento ai file di input originali.
Se viene selezionato il metodo di combinazione "Unisci", devono essere forniti due o più file di input e
verranno uniti insieme per formare il file di output. Il numero di canali in ogni ingresso
il file non deve essere lo stesso. Un file audio unito comprende tutti i canali di tutti
i file di input. L'un-merging è possibile utilizzando più invocazioni di SoX con il remix
effetto. Ad esempio, due file mono potrebbero essere uniti per formare un file stereo. Il primo
e il secondo file mono diventerebbe i canali sinistro e destro del file stereo.
Il metodo di combinazione "moltiplica" moltiplica i valori campione dei canali corrispondenti
(trattati come numeri nell'intervallo da -1 a +1). Se il numero di canali in ingresso
file non è lo stesso, si considera che i canali mancanti contengano tutti zero.
Quando si combinano i file di input, SoX applica gli effetti specificati (incluso, ad esempio, il
vol effetto di regolazione del volume) dopo che l'audio è stato combinato. Tuttavia, è spesso
utile per poter impostare il volume di (ovvero `bilanciare') gli ingressi singolarmente, prima
avviene la combinazione.
Per tutti i metodi di combinazione, le regolazioni del volume del file di input possono essere effettuate manualmente utilizzando il -v
opzione (sotto) che può essere data per uno o più file di input. Se è dato solo per
alcuni dei file di input, gli altri non ricevono alcuna regolazione del volume. In qualche
circostanze, possono essere applicate regolazioni automatiche del volume (vedi sotto).
. -V l'opzione (sotto) può essere utilizzata per mostrare le regolazioni del volume del file di input che sono state
selezionato (manualmente o automaticamente).
Ci sono alcune considerazioni speciali da fare quando si mescolano i file di input:
A differenza degli altri metodi, la combinazione "mix" ha il potenziale di causare il clipping nel
combinatore se non viene eseguito alcun bilanciamento. In questo caso, se le regolazioni manuali del volume non lo sono
dato, SoX cercherà di garantire che il clipping non si verifichi regolando automaticamente il
volume (ampiezza) di ciascun segnale in ingresso di un fattore ¹/n, dove n è il numero di ingressi
File. Se ciò risulta in un audio troppo basso o altrimenti sbilanciato, l'ingresso
i volumi dei file possono essere impostati manualmente come descritto sopra. Usando il norma l'effetto sul mix è
un'altra alternativa.
Se l'audio misto sembra abbastanza alto in alcuni punti ma troppo basso in altri, allora la gamma dinamica
la compressione dovrebbe essere applicata per correggere questo problema - vedere il compagna effetto.
Con il metodo della mietitrebbia "mix-power", il volume misto è approssimativamente uguale a quello di
uno dei segnali di ingresso. Ciò si ottiene bilanciando utilizzando un fattore di ¹/√n invece di
¹/n. Si noti che questo fattore di bilanciamento non garantisce che non si verifichi il clipping, ma
il numero di clip sarà solitamente basso e la distorsione risultante è generalmente
impercettibile.
Uscita File
Il comportamento predefinito di SoX è prendere uno o più file di input e scriverli su un singolo
file di uscita.
Questo comportamento può essere modificato specificando lo pseudo-effetto `newfile' all'interno degli effetti
elenco. SoX entrerà quindi in modalità di output multiplo.
In modalità di output multiplo, viene creato un nuovo file quando gli effetti prima del "nuovo file"
indicare che sono finiti. Viene quindi avviata la catena di effetti elencata dopo "nuovo file" e
il suo output viene salvato nel nuovo file.
In modalità di output multiplo, un numero univoco verrà automaticamente aggiunto alla fine di tutto
nomi di file. Se il nome del file ha un'estensione, il numero viene inserito prima del
estensione. Questo comportamento può essere personalizzato inserendo %n ovunque nel nome del file
dove il numero deve essere sostituito. È possibile inserire un numero opzionale dopo il % a
indicare una larghezza fissa minima per il numero.
La modalità di uscita multipla non è molto utile a meno che un effetto non fermi la catena di effetti
early è specificato prima di "newfile". Se viene raggiunta la fine del file prima degli effetti
chain si ferma, quindi non verrà creato alcun nuovo file poiché sarebbe vuoto.
Quello che segue è un esempio di suddivisione dei primi 60 secondi di un file di input in due 30
secondi file e ignorando il resto.
sox song.wav suoneria%1n.wav trim 0 30 : newfile : trim 0 30
Sosta SoX
Di solito SoX completerà la sua elaborazione e uscirà automaticamente una volta letto tutto
dati audio disponibili dai file di input.
Se lo si desidera, può essere terminato prima inviando un segnale di interruzione al processo
(di solito premendo il tasto di interruzione della tastiera che normalmente è Ctrl-C). Questo è un
requisito naturale in alcune circostanze, ad esempio quando si utilizza SoX per effettuare una registrazione. Nota
che quando si utilizza SoX per riprodurre più file, Ctrl-C si comporta in modo leggermente diverso: premendo
una volta fa sì che SoX salti al file successivo; premendolo due volte in rapida successione provoca
SoX per uscire.
Un'altra opzione per interrompere l'elaborazione in anticipo è utilizzare un effetto che ha un periodo di tempo o
conteggio dei campioni per determinare il punto di arresto. L'effetto trim ne è un esempio. Una volta
tutte le catene di effetti si sono fermate, quindi anche SoX si fermerà.
NOMI DI FILE
I nomi dei file possono essere semplici nomi di file, nomi di percorsi assoluti o relativi o URL (file di input
soltanto). Nota che il supporto URL lo richiede wget(1) è disponibile.
Nota: dare a SoX un nome di file di input o output che è lo stesso di un nome di effetto SoX lo farà
non funziona poiché SoX lo tratterà come una specifica dell'effetto. L'unica soluzione a questo
è quello di evitare tali nomi di file. Questo in genere non è difficile poiché la maggior parte dei nomi di file audio
hanno un'estensione del nome di file, mentre i nomi degli effetti no.
Special I nomi dei file
I seguenti nomi di file speciali possono essere usati in determinate circostanze al posto di un normale
nome file sulla riga di comando:
- SoX può essere utilizzato in semplici operazioni di pipeline utilizzando il nome file speciale `-'
che, se usato come nome di file di input, farà sì che SoX leggerà i dati audio da
`standard input' (stdin) e che, se usato come nome del file di output, causerà SoX
invierà i dati audio allo "standard output" (stdout). Nota che quando usi questo
opzione per il file di output e, talvolta, quando lo si utilizza per un file di input, il
tipo di file (vedi -t sotto) deve anche essere indicato.
"|Programma [Opzioni]..."
Questo può essere usato al posto del nome di un file di input per specificare il programma del dato
lo standard output (stdout) può essere utilizzato come file di input. a differenza di - (sopra), questo può essere
utilizzato per diversi input a un comando SoX. Ad esempio, se `genw' genera mono
Segnali formattati WAV alla sua uscita standard, quindi il seguente comando fa a
file stereo da due segnali generati:
sox -M "|genw --imd -" "|genw --thd -" out.wav
Per l'audio senza intestazione (grezzo), -t (e forse altre opzioni di formato) dovranno essere
dato, prima del comando di input.
"nome-file con caratteri jolly"
Specifica che il nome del file `globbing' (corrispondenza con caratteri jolly) deve essere eseguito da SoX
invece che dal guscio. Ciò consente di applicare un singolo set di opzioni di file a
un gruppo di file. Ad esempio, se la directory corrente contiene tre `vox'
file, file1.vox, file2.vox e file3.vox, quindi
riproduci --rate 6k *.vox
sarà espanso dalla `shell' (nella maggior parte degli ambienti) in
riproduci --rate 6k file1.vox file2.vox file3.vox
che tratterà solo il primo file vox come avente una frequenza di campionamento di 6k. Insieme a
riproduci --valuta 6k "*.vox"
l'opzione di frequenza di campionamento data verrà applicata a tutti e tre i file vox.
-p, --sox-pipa
Questo può essere usato al posto di un nome di file di output per specificare che il comando SoX
dovrebbe essere usato come nella pipe di input a un altro comando SoX. Ad esempio, il comando:
play "|sox -n -p synth 2" "|sox -n -p synth 2 tremolo 10" stat
riproduce due "file" in successione, ciascuno con effetti diversi.
-p è infatti un alias per `-t sox -'.
-d, --dispositivo predefinito
Questo può essere usato al posto di un nome di file di input o output per specificare che il
deve essere utilizzato il dispositivo audio predefinito (se uno è stato integrato in SoX). Questo è simile
invocare rec or PLAY (come descritto sopra).
-n, --nullo
Questo può essere usato al posto di un nome di file di input o di output per specificare che un `null
file' deve essere utilizzato. Nota che qui, "file nullo" si riferisce a un SoX specifico
meccanismo e non è correlato a nessun meccanismo del sistema operativo con un nome simile.
L'utilizzo di un file null per l'ingresso dell'audio equivale all'utilizzo di un normale file audio che
contiene una quantità infinita di silenzio, e come tale non è generalmente utile a meno che
usato con un effetto che specifica una lunghezza di tempo finita (come tagliare or synth).
L'utilizzo di un file null per l'output dell'audio equivale a scartare l'audio ed è utile
principalmente con effetti che producono informazioni sull'audio invece di influenzare
esso (come noiseprof or stat).
La frequenza di campionamento associata a un file null è di default 48 kHz, ma, come con a
file normale, questo può essere sovrascritto se lo si desidera utilizzando le opzioni di formato della riga di comando
(vedi sotto).
Supporto Compila il & audio Dispositivo Tipi
See formato sox(7) per un elenco e una descrizione dei formati di file supportati e del dispositivo audio
autisti.
VERSIONI
Global Opzioni
Queste opzioni possono essere specificate sulla riga di comando in qualsiasi momento prima del primo effetto
nome.
. SOX_OPTS la variabile di ambiente può essere utilizzata per fornire valori predefiniti alternativi per
Le opzioni globali di SoX. Per esempio:
SOX_OPTS="--buffer 20000 --play-rate-arg -hs --temp /mnt/temp"
Si noti che l'impostazione di SOX_OPTS può potenzialmente creare modifiche indesiderate nel comportamento di
script o altri programmi che invocano SoX. SOX_OPTS potrebbe essere usato al meglio per cose (come
come nell'esempio fornito) che riflettono l'ambiente in cui viene eseguito SoX. Abilitare
opzioni come --no-clobber come impostazione predefinita potrebbe essere gestita meglio utilizzando un alias di shell poiché
un alias di shell non influenzerà il funzionamento negli script, ecc.
Un modo per garantire che uno script non possa essere influenzato da SOX_OPTS è cancellare SOX_OPTS al
all'inizio dello script, ma questo ovviamente perde il vantaggio di SOX_OPTS che trasporta alcuni
opzioni predefinite a livello di sistema. Un approccio alternativo consiste nell'invocare esplicitamente SoX con
valori di opzione predefiniti, ad es
SOX_OPTS="-V --no-clobber"
...
sox -V2 --clobber $ingresso $uscita ...
Nota che il modo per impostare le variabili di ambiente varia da sistema a sistema. Qui ce ne sono alcuni
esempi:
Bash Unix:
export SOX_OPTS="-V --no-clobber"
Unix:
setenv SOX_OPTS "-V --no-clobber"
MS-DOS/MS-Windows:
imposta SOX_OPTS=-V --no-clobber
GUI di MS-Windows: tramite Pannello di controllo: Sistema: Avanzato: Variabili d'ambiente
GUI di Mac OS X: fare riferimento al documento QA1067 di domande e risposte tecniche di Apple.
--respingente BYTE, --buffer di input BYTE
Imposta la dimensione in byte dei buffer utilizzati per l'elaborazione dell'audio (predefinito 8192).
--respingente si applica all'elaborazione di input, effetti e output; --buffer di input si applica
solo all'elaborazione dell'input (per la quale sovrascrive --respingente se entrambi sono dati).
Tieni presente che grandi valori per --respingente farà sì che SoX diventi lento a rispondere
alle richieste di terminare o saltare il file di input corrente.
--clobber
Non chiedere prima di sovrascrivere un file esistente con lo stesso nome di quello dato
per il file di output. Questo è il comportamento predefinito.
--combina concatenare|unire|scelta|potenza mista|moltiplicare|sequenza
Seleziona il metodo di combinazione del file di input; per alcuni di questi, le opzioni brevi sono
disponibile: -m seleziona "miscela", -M seleziona "unisci", e -T seleziona "moltiplica".
See Ingresso Compila il La combinazione di sopra per una descrizione delle diverse combinazioni
metodi.
-D, --nessun dithering
Disabilitare il dithering automatico - vedere 'Dithering' sopra. Un esempio del perché questo potrebbe
occasionalmente può essere utile se un file è stato convertito da 16 a 24 bit con il
intenzione di fare qualche elaborazione su di esso, ma in realtà non è necessaria alcuna elaborazione dopo
tutto e il file originale a 16 bit è andato perso, quindi, a rigor di termini, niente dither
è necessario se si riconverte il file a 16 bit. Vedi anche il stats effetto per come
per determinare la profondità di bit effettiva dell'audio all'interno di un file.
--file-effetti NOME DEL FILE
Usa FILENAME per ottenere tutti gli effetti e i loro argomenti. Il file viene analizzato come se
i valori sono stati specificati sulla riga di comando. Una nuova linea può essere utilizzata al posto di
lo speciale : marker per separare le catene di effetti. Per comodità, tali marcatori a
la fine del file viene normalmente ignorata; se vuoi specificare un ultimo vuoto
catena di effetti, usa un'esplicita : da solo nell'ultima riga del file. Questo
L'opzione fa sì che tutti gli effetti specificati sulla riga di comando vengano scartati.
-G, --guardia
Invoca automaticamente il guadagno effetto per proteggersi dal clipping. Per esempio
sox -G infile -b 16 outfile rate 44100 dither -s
è una scorciatoia per
sox infile -b 16 outfile gain -h rate 44100 gain -rh dithering -s
Vedi anche -V, --norma, e la guadagno effetto.
-h, --Aiuto
Mostra il numero di versione e le informazioni sull'utilizzo.
--effetto-aiuto NOME
Mostra le informazioni sull'utilizzo dell'effetto specificato. Il nome contro tutti i può essere usato per mostrare
utilizzo a tutti gli effetti.
--formato-aiuto NOME
Mostra informazioni sul formato file specificato. Il nome contro tutti i può essere usato per mostrare
informazioni su tutti i formati.
--io, --Informazioni
Solo se dato come primo parametro a sox, comportati come soxi(1).
-m|-M Equivalente a --combina scelta e --combina unire, Rispettivamente.
--Magia
Se SoX è stato creato con la libreria opzionale `libmagic', questa opzione può essere
dato per consentirne l'uso nell'aiutare a rilevare i tipi di file audio.
--multi-thread | --a thread singolo
Per impostazione predefinita, SoX è "a thread singolo". Se la --multi-thread l'opzione è data
tuttavia, SoX elaborerà i canali audio per la maggior parte degli effetti multicanale in
parallelo su architetture hyper-threading/multi-core. Ciò può ridurre l'elaborazione
tempo, anche se a volte potrebbe essere necessario utilizzare questa opzione in combinazione con a
dimensione del buffer maggiore di quella predefinita per ottenere qualsiasi vantaggio dal multi-threading
elaborazione (es. 131072; cfr --respingente sopra).
--no-clobber
Richiedi prima di sovrascrivere un file esistente con lo stesso nome di quello dato per il
file di uscita.
NB Sovrascrivere involontariamente un file è più facile di quanto si possa pensare, perché
esempio, se inserisci accidentalmente
sox file1 file2 effetto1 effetto2 ...
quando quello che volevi dire veramente era
riproduci file1 file2 effetto1 effetto2 ...
quindi, senza questa opzione, file2 verrà sovrascritto. Quindi, l'utilizzo di questa opzione è
consigliato. SOX_OPTS (sopra), un alias, uno script o un file batch `shell' può essere un
modo appropriato per abilitarlo in modo permanente.
--norma[=livello dB]
Invoca automaticamente il guadagno effetto per proteggersi dal clipping e per normalizzare il
Audio. Per esempio
sox --norm infile -b 16 outfile rate 44100 dither -s
è una scorciatoia per
sox infile -b 16 outfile guadagno -h tasso 44100 guadagno -nh dither -s
Facoltativamente, l'audio può essere normalizzato a un dato livello (di solito) inferiore a 0 dBFS:
sox --norm=-3 fileinfileout
Vedi anche -V, -G, e la guadagno effetto.
--play-rate-arg ARG
Seleziona un'opzione di qualità da utilizzare quando l'effetto "tasso" viene invocato automaticamente
durante la riproduzione dell'audio. Questa opzione è in genere impostata tramite il SOX_OPTS Industria XNUMX
variabile (vedi sopra).
--complotto gnplot|ottava|MENO
Se non è impostato su MENO (l'impostazione predefinita se --complotto non è dato), eseguire in una modalità che può essere
utilizzato, insieme al programma gnuplot o al programma GNU Octave, per assistere
con la selezione e la configurazione di molte delle funzioni di trasferimento basate
effetti. Per il primo effetto dato che supporta il programma di plottaggio selezionato,
SoX emetterà comandi per tracciare la funzione di trasferimento dell'effetto, quindi uscirà
senza effettivamente elaborare alcun audio. Per esempio
sox --plot octave input-file -n passa-alto 1320 > passa-alto.plt
ottava passa-alto.plt
-q, --no-show-progress
Esegui in modalità silenziosa quando SoX non lo farebbe altrimenti. Questo è l'opposto di
-S opzione.
-R Esegui in modalità "ripetibile". Quando viene data questa opzione, ove applicabile, SoX lo farà
incorporare un timestamp fisso nel file di output (es AIFF) e "seminerà" pseudo
generatori di numeri casuali (es tremare) con un numero fisso, garantendo così che
successive invocazioni SoX con gli stessi input e gli stessi parametri producono il
stessa uscita.
--replay-guadagno pista|album|MENO
Selezionare se applicare o meno la regolazione del guadagno di riproduzione ai file di input. Il predefinito
is MENO da sox e rec, album da PLAY dove (almeno) i primi due file di input
sono contrassegnati con gli stessi nomi di artista e album e pista da PLAY altrimenti.
-S, --mostra-progresso
Visualizza le informazioni sul formato/intestazione del file di input e l'avanzamento dell'elaborazione come input
percentuale di file completati, tempo trascorso e tempo rimanente (se noto; mostrato in
parentesi) e il numero di campioni scritti nel file di output. Viene anche mostrato un
misuratore del livello di picco e un'indicazione se si è verificato il clipping. Il misuratore del livello di picco
mostra fino a due canali ed è calibrato per l'audio digitale come segue (destra
canale mostrato):
dB FSD Display dB FSD Display
-25 - -11 ====
-23 = -9 ====-
-21 =- -7 =====
-19 == -5 =====-
-17 ==- -3 ======
-15 === -1 =====!
-13 ===-
Un valore di picco di tre secondi di margine in dB verrà mostrato a destra del
metro se questo è inferiore a 6dB.
Questa opzione è abilitata per impostazione predefinita quando si utilizza SoX per riprodurre o registrare l'audio.
-T Equivalente a --combina moltiplicare.
--temp DIRECTORY
Specifica che tutti i file temporanei devono essere creati nel dato DIRECTORY. Questo
può essere utile se ci sono problemi di autorizzazione o di spazio libero con l'impostazione predefinita
Posizione. In questo caso, usando `--temp .' (per usare la directory corrente) è spesso a
buona soluzione.
--versione
Mostra il numero di versione di SoX ed esci.
-V[ livello]
Imposta la verbosità. Ciò è particolarmente utile per vedere come gli effetti automatici
sono stati invocati da SoX.
SoX visualizza i messaggi sulla console (stderr) secondo la seguente verbosità
livelli:
0 Non vengono visualizzati messaggi; utilizzare lo stato di uscita per determinare se un errore
è successo.
1 Vengono visualizzati solo i messaggi di errore. Questi vengono generati se SoX non può essere completato
i comandi richiesti.
2 Vengono visualizzati anche i messaggi di avviso. Questi vengono generati se SoX può essere completato
i comandi richiesti, ma non esattamente secondo il comando richiesto
parametri o se si verifica il clipping.
3 Vengono anche mostrate le descrizioni delle fasi di elaborazione di SoX. Utile per vedere
esattamente come SoX sta elaborando il tuo audio.
4 e versioni successive
Vengono mostrati anche messaggi per aiutare con il debug di SoX.
Per impostazione predefinita, il livello di verbosità è impostato su 2 (mostra errori e avvisi). Ogni
occorrenza del -V l'opzione aumenta il livello di verbosità di 1. In alternativa, l'opzione
livello di verbosità può essere impostato su un numero assoluto specificandolo subito dopo
, il -V, per esempio -V0 lo imposta a 0.
Ingresso Compila il Opzioni
Queste opzioni si applicano solo ai file di input e possono precedere solo i nomi dei file di input sul
riga di comando.
--ignora-lunghezza
Sostituisci una lunghezza audio (errata) fornita nell'intestazione di un file audio. Se questo
viene data l'opzione, quindi SoX continuerà a leggere l'audio fino a raggiungere la fine del
file di input.
-v, --volume FATTORE
Destinata all'uso quando si combinano più file di input, questa opzione regola il
volume del file che lo segue sulla riga di comando di un fattore di FATTORE. Questo
gli permette di essere "bilanciato" rispetto agli altri file di input. Questo è un lineare
(ampiezza), quindi un numero inferiore a 1 diminuisce il volume e un numero
maggiore di 1 lo aumenta. Se viene fornito un numero negativo, oltre a
regolazione del volume, il segnale audio verrà invertito.
Vedi anche il norma, vole guadagno effetti, e vedi Ingresso Compila il Bilanciamento sopra.
Ingresso & Uscita Compila il Formato Opzioni
Queste opzioni si applicano al file di input o di output il cui nome precedono immediatamente
riga di comando e vengono utilizzati principalmente quando si lavora con formati di file senza intestazione o quando
specificando un formato per il file di output diverso da quello del file di input.
-b BITS, --bit BITS
Il numero di bit (alias profondità di bit o talvolta lunghezza di parola) in ogni codificato
campione. Non applicabile a codifiche complesse come MP3 o GSM. Non necessario
con codifiche che hanno un numero fisso di bit, es. A/μ-law, ADPCM.
Per un file di input, l'uso più comune di questa opzione è informare SoX del
numero di bit per campione in un file audio `raw' (`headerless'). Per esempio
sox -r 16k -e firmato -b 8 input.raw output.wav
converte un particolare file "raw" in un file "WAV" autodescrittivo.
Per un file di output, questa opzione può essere utilizzata (forse insieme a -e) per impostare il
dimensione di codifica dell'output. Per impostazione predefinita (cioè se questa opzione non è data), l'output
la dimensione della codifica (a condizione che sia supportata dal tipo di file di output) sarà impostata su
la dimensione di codifica dell'input. Per esempio
sox input.cdda -b 24 output.wav
converte l'audio digitale del CD grezzo (16 bit, numero intero con segno) in un 24 bit (intero con segno)
file "WAV".
-1/-2/-3/-4/-8
Il numero di byte in ogni campione codificato. Alias deprecati per -b 8, -b 16, -b
24, -b 32, -b 64 rispettivamente.
-c CANALI, --canali CANALI
Il numero di canali audio nel file audio. Questo può essere qualsiasi numero maggiore di
zero.
Per un file di input, l'uso più comune di questa opzione è informare SoX del
numero di canali in un file audio `raw' (`headerless'). A volte può essere
utile usare questa opzione con un file `headed', in modo da sovrascrivere il
(presumibilmente errato) nell'intestazione - nota che questo è supportato solo con
determinati tipi di file. Esempi:
sox -r 48k -e float -b 32 -c 2 input.raw output.wav
converte un particolare file "raw" in un file "WAV" autodescrittivo.
riproduci -c 1 musica.wav
interpreta i dati del file come appartenenti a un singolo canale indipendentemente da cosa sia
indicato nell'intestazione del file. Nota che se il file ne ha effettivamente due
canali, questo risulterà nella riproduzione del file a velocità dimezzata.
Per un file di output, questa opzione fornisce una scorciatoia per specificare che il
canali effetto dovrebbe essere invocato al fine di modificare (se necessario) il numero di
canali nel segnale audio al numero indicato. Ad esempio, i seguenti due
i comandi sono equivalenti:
sox input.wav -c 1 output.wav bass -b 24
sox input.wav output.wav bass -b 24 canali 1
sebbene la seconda forma sia più flessibile in quanto consente di ordinare gli effetti
arbitrariamente.
-e CODIFICA, - codifica CODIFICA
Il tipo di codifica audio. A volte necessario con tipi di file che supportano più di
un tipo di codifica. Ad esempio, con raw, WAV o AU (ma non, ad esempio, con
MP3 o FLAC). I tipi di codifica disponibili sono i seguenti:
intero con segno
Dati PCM memorizzati come interi con segno ("complemento a due"). Comunemente usato con
una dimensione di codifica a 16 o 24 bit. Un valore di 0 rappresenta il segnale minimo
energia.
intero senza segno
Dati PCM archiviati come interi senza segno. Comunemente utilizzato con una codifica a 8 bit
dimensione. Un valore di 0 rappresenta la potenza massima del segnale.
virgola mobile
Dati PCM archiviati come precisione singola IEEE 753 (32 bit) o precisione doppia
(64 bit) numeri a virgola mobile ("reali"). Un valore di 0 rappresenta il minimo
potenza del segnale.
una legge Standard di telefonia internazionale per la codifica logaritmica a 8 bit per
campione. Ha una precisione equivalente a circa 13 bit PCM ed è
a volte codificato con ordinamento dei bit invertito (vedi il -X opzione).
u-legge, mu-legge
Standard di telefonia nordamericano per la codifica logaritmica a 8 bit per
campione. Aka μ-law. Ha una precisione equivalente a circa 14 bit PCM
ed è talvolta codificato con l'ordinamento dei bit invertito (vedi il -X opzione).
oki-adpcm
OKI (noto anche come VOX, Dialogic o Intel) ADPCM a 4 bit; ha una precisione
equivalente a circa 12 bit PCM. ADPCM è una forma di compressione audio che
ha un buon compromesso tra qualità audio e velocità di codifica/decodifica.
ima-adpcm
IMA (noto anche come DVI) ADPCM a 4 bit; ha una precisione equivalente a circa
PCM a 13 bit.
ms-adpcm
Microsoft ADPCM a 4 bit; ha una precisione equivalente a circa 14 bit PCM.
gsm-tariffa intera
Il GSM è attualmente utilizzato per la stragrande maggioranza del wireless digitale del mondo
chiamate telefoniche. Utilizza diversi formati audio con diversi bit-rate
e la relativa qualità del parlato. SoX supporta i 13kbps originali del GSM
Formato audio "Full Rate". Di solito è impegnativo per la CPU lavorare con il GSM
audio.
I nomi di codifica possono essere abbreviati laddove ciò non sarebbe ambiguo; per esempio
`unsigned-integer' può essere dato come `un', ma non come `u' (ambiguo con `u-law').
Per un file di input, l'uso più comune di questa opzione è informare SoX del
codifica di un file audio `raw' (`headerless') (vedi gli esempi in -b e -c
sopra).
Per un file di output, questa opzione può essere utilizzata (forse insieme a -b) per impostare il
tipo di codifica dell'output Ad esempio
sox input.cdda -e float output1.wav
sox input.cdda -b 64 -e float output2.wav
convertire l'audio digitale del CD grezzo (16 bit, intero con segno) in file `WAV' a virgola mobile
(rispettivamente a precisione singola e doppia).
Per impostazione predefinita (cioè se questa opzione non è data), il tipo di codifica dell'output sarà
(a condizione che sia supportato dal tipo di file di output) essere impostato sulla codifica di input
tipo.
-s/-u/-f/-A/-U/-o/-i/-a/-g
Alias deprecati per specificare i tipi di codifica intero con segno, non firmato-
numero intero, virgola mobile, una legge, mu-legge, oki-adpcm, ima-adpcm, ms-adpcm, gsm-pieno-
tasso rispettivamente (vedi -e sopra).
--no-glob
Specifica che il nome del file `globbing' (corrispondenza con caratteri jolly) non deve essere eseguito da
SoX sul seguente nome file. Ad esempio, se la directory corrente contiene i
due file `cinque-secondi.wav' e `cinque*.wav', quindi
riproduci --no-glob "cinque*.wav"
può essere usato per riprodurre solo il singolo file `five*.wav'.
-R, --Vota RATE[k]
Fornisce la frequenza di campionamento in Hz (o kHz se aggiunta a `k') del file.
Per un file di input, l'uso più comune di questa opzione è informare SoX del
frequenza di campionamento di un file audio `raw' (`headerless') (vedi gli esempi in -b e -c
sopra). Occasionalmente può essere utile usare questa opzione con un file "headed",
per sovrascrivere il valore (presumibilmente errato) nell'intestazione - nota che
questo è supportato solo con alcuni tipi di file. Ad esempio, se l'audio è stato registrato
con una frequenza di campionamento di diciamo 48k da una sorgente che ha riprodotto un po', diciamo 1.5%,
troppo lentamente, allora
sox -r 48720 input.wav output.wav
corregge efficacemente la velocità cambiando solo l'intestazione del file (ma vedi anche il
velocità effetto per la soluzione più comune a questo problema).
Per un file di output, questa opzione fornisce una scorciatoia per specificare che il tasso
effetto dovrebbe essere invocato al fine di modificare (se necessario) la frequenza di campionamento del
segnale audio al valore dato. Ad esempio, i seguenti due comandi sono
equivalente:
sox input.wav -r 48k output.wav bassi -b 24
sox input.wav output.wav bass -b 24 velocità 48k
sebbene la seconda forma sia più flessibile in quanto consente tasso opzioni da dare, e
consente di ordinare arbitrariamente gli effetti.
-t, --genere TIPO DI FILE
Fornisce il tipo di file audio. Per entrambi i file di input e output, questa opzione è
comunemente usato per informare SoX del tipo di file audio "senza intestazione" (es. raw, mp3)
dove il tipo effettivo/desiderato non può essere determinato da una data estensione di file.
Per esempio:
un altro comando | sox -t mp3 - output.wav
sox input.wav -t output grezzo.bin
Può anche essere usato per sovrascrivere il tipo implicito nell'estensione di un file di input,
ma se si esegue l'override con un tipo che ha un'intestazione, SoX uscirà con un'appropriata
messaggio di errore se tale intestazione non è effettivamente presente.
See formato sox(7) per un elenco dei tipi di file supportati.
-L, --endian piccolo
-B, --endian big
-x, --endian swap
Queste opzioni specificano se l'ordine dei byte dei dati audio è, rispettivamente,
`little endian', `big endian', o l'opposto di quello del sistema su cui SoX
viene usato. Endianness si applica solo ai dati codificati come virgola mobile o come
interi con segno o senza segno di 16 o più bit. Spesso è necessario specificare
una di queste opzioni per i file senza intestazione e talvolta necessaria per (altrimenti)
file autodescrittivi. Una data opzione di impostazione endian può essere ignorata per un input
file la cui intestazione contiene un identificatore di endianness specifico, o per un file di output
questo è in realtà un dispositivo audio.
NB A differenza di altre caratteristiche del formato, l'endianness (byte, nibble e bit
ordinamento) del file di input non viene utilizzato automaticamente per il file di output; quindi per
esempio, quando viene eseguito quanto segue su un sistema little-endian:
sox -B audio.s16 tagliato.s16 tagliato 2
trimmed.s16 verrà creato come little-endian;
sox -B audio.s16 -B tagliato.s16 trim 2
deve essere utilizzato per preservare il big-endianness nel file di output.
. -V l'opzione può essere utilizzata per controllare gli ordini selezionati.
-N, --stuzzichini al contrario
Specifica che l'ordinamento del nibble (cioè le 2 metà di un byte) dei campioni
dovrebbe essere invertito; a volte utile con i formati basati su ADPCM.
NB Vedi anche NB nella sezione su -x sopra.
-X, --bit-inverso
Specifica che l'ordinamento dei bit dei campioni deve essere invertito; a volte utile
con alcuni formati (per lo più senza intestazione).
NB Vedi anche NB nella sezione su -x sopra.
Uscita Compila il Formato Opzioni
Queste opzioni si applicano solo al file di output e possono precedere solo il nome del file di output su
la riga di comando.
--Aggiungi un commento TESTO
Aggiungi un commento nell'intestazione del file di output (dove applicabile).
--commento TESTO
Specificare il testo del commento da memorizzare nell'intestazione del file di output (dove applicabile).
SoX fornirà un commento predefinito se questa opzione (o --file-commento) non è dato.
Per specificare che nessun commento deve essere memorizzato nel file di output, utilizzare --commento "" .
--file-commento NOME DEL FILE
Specifica un file contenente il testo del commento da memorizzare nell'intestazione del file di output
(ove applicabile).
-C, --compressione FATTORE
Il fattore di compressione per la compressione variabile dei formati di file di output. Se questo
opzione non viene fornita, verrà applicato un fattore di compressione predefinito. La compressione
fattore viene interpretato in modo diverso per i diversi formati di file di compressione. Vedi il
descrizione dei formati di file che utilizzano questa opzione in formato sox(7) per di più
informazioni.
EFFETTI
Oltre a convertire, riprodurre e registrare file audio, SoX può essere utilizzato per invocare a
numero di "effetti" audio. È possibile applicare più effetti specificandoli uno dopo
un altro alla fine della riga di comando di SoX, formando una "catena di effetti". Notare che
è probabile che l'applicazione di più effetti in tempo reale (ad esempio durante la riproduzione dell'audio) richieda a
computer ad alte prestazioni. L'arresto di altre applicazioni può alleviare i problemi di prestazioni
dovrebbero verificarsi.
Alcuni degli effetti SoX sono principalmente destinati ad essere applicati a un singolo strumento o
"voce". Per facilitare questo, il remix effetto e l'opzione SoX globale -M può essere utilizzato per
isolare e poi ricombinare le tracce da una registrazione multitraccia.
multiplo effetti Catene
Una singola catena di effetti è composta da uno o più effetti. L'audio dall'ingresso funziona
attraverso la catena fino a raggiungere la fine del file di input o un effetto nel
la catena richiede di terminare la catena.
SoX supporta l'esecuzione di più catene di effetti sull'audio in ingresso. In questo caso, quando uno
catena indica che l'elaborazione dell'audio è terminata, i dati audio vengono quindi inviati al successivo
catena degli effetti Questo continua fino a quando non esistono più catene di effetti o l'input ha
raggiunto la fine del file.
Una catena di effetti viene terminata ponendo a : (due punti) dopo un effetto. Qualsiasi seguito
gli effetti fanno parte di una nuova catena di effetti.
È importante posizionare l'effetto che fermerà la catena come primo effetto nel
catena. Questo perché tutti i campioni che sono tamponati da effetti a sinistra di
l'effetto di terminazione sarà scartato. La quantità di campioni scartati è correlata al
--respingente opzione e dovrebbe essere mantenuto piccolo, rispetto alla frequenza di campionamento, se il
l'effetto di cessazione non può essere il primo. Ulteriori informazioni sugli effetti di arresto possono essere trovate
nella Sosta SoX .
Ci sono alcuni pseudo-effetti che aiutano a usare più catene di effetti. Questi includono
nuovo file che inizierà a scrivere su un nuovo file di output prima di passare agli effetti successivi
catena e nuovo inizio che tornerà alla prima catena di effetti. Gli pseudo-effetti devono essere
specificati come primo effetto in una catena e come unico effetto in una catena (devono avere
a : prima e dopo che sono specificati).
Quello che segue è un esempio di catene di effetti multipli. Dividerà il file di input in
più file di 30 secondi di lunghezza. Ogni nome del file di output avrà un numero univoco in
il suo nome come documentato nel Uscita File .
sox infile.wav output.wav trim 0 30 : nuovo file : riavvia
Uncommon notazione E altre ancora… Scheda Sintetica
Nelle descrizioni che seguono, le parentesi [ ] vengono utilizzate per indicare i parametri che sono
facoltativo, parentesi graffe { } per indicare quelli che sono sia opzionali che ripetibili, e angolo
parentesi < > per indicare quelle ripetibili ma non facoltative. Ove applicabile,
i valori predefiniti per i parametri opzionali sono mostrati tra parentesi ( ).
I seguenti parametri vengono utilizzati con e hanno lo stesso significato per diversi effetti:
centro[k]
See frequenza.
frequenza[k]
Una frequenza in Hz o, se aggiunta a `k', kHz.
guadagno Un guadagno di potenza in dB. Zero non dà alcun guadagno; meno di zero dà un'attenuazione.
larghezza[h|k|o|q]
Utilizzato per specificare la larghezza di banda di un filtro. Una serie di metodi diversi per
specificare la larghezza sono disponibili (anche se non tutti per ogni effetto). Uno di
i caratteri mostrati possono essere aggiunti per selezionare il metodo desiderato come segue:
Metodo Note
h Hz
k kHz
o Ottave
q Fattore Q Vedi [2]
Per ogni effetto che usa questo parametro, il metodo predefinito (cioè se nessun carattere
viene aggiunto) è quello che è elencato per primo nella prima riga dell'effetto
descrizione.
Per vedere se SoX supporta un effetto opzionale, inserisci sox -h e cerca il suo nome sotto
l'elenco: "EFFETTI".
Supporto effetti
Nota: un elenco categorizzato degli effetti può essere trovato nel file 'README' allegato.
tutto passa frequenza[k] larghezza[h|k|o|q]
Applicare un filtro passante bipolare con frequenza centrale (in Hz) frequenzae
larghezza del filtro larghezza. Un filtro passatutto cambia la frequenza dell'audio in fase
relazione senza modificarne la frequenza in relazione all'ampiezza. Il filtro
è descritto in dettaglio in [1].
Questo effetto supporta il --complotto opzione globale.
gruppo musicale [-n] centro[k] [larghezza[h|k|o|q]]
Applicare un filtro passa banda. La risposta in frequenza scende logaritmicamente intorno al
centro frequenza. Il larghezza parametro fornisce la pendenza della caduta. Il
frequenze a centro + larghezza e centro - larghezza saranno la metà del loro originale
ampiezze. gruppo musicale l'impostazione predefinita è una modalità orientata all'audio intonato, ovvero voce,
canto o musica strumentale. Il -n (per il rumore) l'opzione utilizza la modalità alternativa
per audio non intonato (ad es. percussioni). Attenzione: -n introduce un guadagno di potenza di
circa 11dB nel filtro, quindi attenzione al clipping in uscita. gruppo musicale introduce rumore in
la forma del filtro, vale a dire con un picco al centro frequenza e ambientazione
esso.
Questo effetto supporta il --complotto opzione globale.
Vedi anche sic per un filtro passa-banda con spalle più ripide.
passa-banda|rifiuto di banda [-c] frequenza[k] larghezza[h|k|o|q]
Applicare un filtro passa-banda Butterworth a due poli o un filtro band-reject con frequenza centrale
frequenza, e (3dB-punto) larghezza di banda larghezza. -c l'opzione si applica solo a
passa-banda e seleziona un guadagno gonna costante (guadagno di picco = Q) invece del valore predefinito:
guadagno di picco costante di 0dB. I filtri escono a 6dB per ottava (20dB per decennio)
e sono descritti in dettaglio in [1].
Questi effetti supportano il --complotto opzione globale.
Vedi anche sic per un filtro passa-banda con spalle più ripide.
rifiuto di banda frequenza[k] larghezza[h|k|o|q]
Applicare un filtro di rifiuto della banda. Vedi la descrizione del passa-banda effetto per
dettagli.
basso|triplo guadagno [frequenza[k] [larghezza[s|h|k|o|q]]]
Aumenta o taglia le frequenze dei bassi (più basse) o degli alti (più alte) dell'audio usando a
filtro shelving a due poli con una risposta simile a quella di un hi-fi standard
controlli di tono. Questo è anche noto come equalizzazione scaffale (EQ).
guadagno fornisce il guadagno a 0 Hz (per basso), o qualunque sia il minore tra 22 kHz e
la frequenza di Nyquist (per triplo). La sua gamma utile è di circa -20 (per un grande
cut) a +20 (per una grande spinta). Diffidare di Ritaglio quando si usa un positivo guadagno.
Se lo si desidera, il filtro può essere messo a punto utilizzando i seguenti parametri opzionali:
frequenza imposta la frequenza centrale del filtro e quindi può essere utilizzato per estendere o
ridurre la gamma di frequenze da enfatizzare o tagliare. Il valore predefinito è 100 Hz (per
basso) o 3 kHz (per triplo).
larghezza determina quanto è ripida la transizione dello scaffale del filtro. In aggiunta a
metodi comuni di specifica della larghezza descritti sopra, `slope' (il valore predefinito, o if
aggiunto con `s') può essere usato. L'intervallo utile di `pendenza' è di circa 0.3, per a
leggera pendenza, a 1 (il massimo), per una forte pendenza; il valore predefinito è 0.5.
I filtri sono descritti in dettaglio in [1].
Questi effetti supportano il --complotto opzione globale.
Vedi anche equalizzatore per un effetto di equalizzazione del picco.
piegare [-f frequenza dei fotogrammi(25)] [-o sovracampionamento(16)] { ritardo,centesimi,durata }
Modifica il tono di importi specificati in orari specificati. Ogni dato triplo:
ritardo,centesimi,durata specifica una curva. ritardo è la quantità di tempo dopo il
inizio del flusso audio, o la fine della curva precedente, da cui iniziare
piegando il passo; centesimi è il numero di cent (100 cent = 1 semitono) per cui
per piegare il passo, e durata il periodo di tempo durante il quale sarà il tono
sono.
L'algoritmo di pitch-bending utilizza la trasformata discreta di Fourier (DFT) a a
frame rate particolare e frequenza di sovracampionamento. Il -f e -o parametri possono essere utilizzati
per regolare questi parametri e quindi controllare l'uniformità dei cambiamenti di intonazione.
Ad esempio, viene generato un tono iniziale, quindi piegato tre volte, ottenendo quattro
diverse note in totale:
play -n synth 2.5 sin 667 guadagno 1 \
bend .35,180,.25 .15,740,.53 0,-520,.3
Si noti che il ritaglio prodotto in questo esempio è intenzionale; rimuovere
esso, utilizzare guadagno -5 al posto di guadagno 1.
Vedi anche intonazione.
biquadrile b0 b1 b2 a0 a1 a2
Applicare un filtro IIR biquadrato con i coefficienti indicati. Dove b* e a* sono i
rispettivamente coefficiente numeratore e denominatore.
See http://en.wikipedia.org/wiki/Digital_biquad_filter (dove a0 = 1).
Questo effetto supporta il --complotto opzione globale.
canali CANALI
Invocare un semplice algoritmo per modificare il numero di canali nel segnale audio in
il numero dato CANALI: miscelazione se si diminuisce il numero di canali o
duplicazione se si aumenta il numero di canali.
. canali l'effetto viene invocato automaticamente se SoX's -c opzione specifica un numero
di canali diverso da quello dei file di input. In alternativa, se questo
l'effetto è dato esplicitamente, quindi SoX's -c l'opzione non deve essere data. Per esempio,
i seguenti due comandi sono equivalenti:
sox input.wav -c 1 output.wav bass -b 24
sox input.wav output.wav bass -b 24 canali 1
sebbene la seconda forma sia più flessibile in quanto consente di ordinare gli effetti
arbitrariamente.
Vedi anche remix per un effetto che consente di miscelare/selezionare i canali arbitrariamente.
coro guadagno guadagno <ritardo decadimento velocità profondità -s|-t>
Aggiungi un effetto coro all'audio. Questo può rendere un singolo suono vocale come un
coro, ma può essere applicato anche alla strumentazione.
Chorus assomiglia a un effetto eco con un breve ritardo, ma mentre con echo il ritardo
è costante, con chorus, è variato mediante modulazione sinusoidale o triangolare.
La profondità di modulazione definisce l'intervallo in cui viene riprodotto il ritardo modulato prima o
dopo il ritardo. Quindi il suono ritardato suonerà più lento o più veloce, questo è il
suono ritardato intonato a quello originale, come in un ritornello dove ci sono alcune voci
leggermente fuori chiave. Vedere [3] per ulteriori discussioni sull'effetto chorus.
Ogni parametro a quattro tuple ritardo/decadimento/velocità/profondità fornisce il ritardo in millisecondi
e il decadimento (relativo al gain-in) con una velocità di modulazione in Hz usando la profondità in
millisecondi. La modulazione è sinusoidale (-s) o triangolare (-t). Guadagno-
out è il volume dell'output.
Un tipico ritardo è compreso tra 40 ms e 60 ms; la velocità di modulazione è migliore vicino a 0.25Hz
e la profondità di modulazione di circa 2 ms. Ad esempio, un singolo ritardo:
suonare la chitarra1.wav ritornello 0.7 0.9 55 0.4 0.25 2 -t
Due ritardi dei campioni originali:
suonare la chitarra1.wav ritornello 0.6 0.9 50 0.4 0.25 2 -t \
60 0.32 0.4 1.3 -s
Un ritornello dal suono più pieno (con tre ritardi aggiuntivi):
suonare la chitarra1.wav ritornello 0.5 0.9 50 0.4 0.25 2 -t \
60 0.32 0.4 2.3 -t 40 0.3 0.3 1.3 -s
compagna attack1,decadimento1{,attack2,decadimento2}
[soft-ginocchio-dB:]in-dB1[,fuori-dB1]{,in-dB2,fuori-dB2}
[guadagno [volume-iniziale-dB [ritardo]]]
Compand (comprimere o espandere) la gamma dinamica dell'audio.
. attacco e decadimento parametri (in secondi) determinano il tempo durante il quale il
il livello istantaneo del segnale in ingresso viene mediato per determinarne il volume;
gli attacchi si riferiscono ad aumenti di volume ei decadimenti si riferiscono a diminuzioni. Per la maggior parte
situazioni, il tempo di attacco (risposta alla musica che diventa più forte) dovrebbe essere
più breve del tempo di decadimento perché l'orecchio umano è più sensibile ai rumori improvvisi
musica che musica soft improvvisa. Dove più di una coppia di parametri di attacco/decadimento
sono specificati, ogni canale di ingresso è companded separatamente e il numero di coppie
deve concordare con il numero di canali di ingresso. I valori tipici sono 0.3,0.8 secondi.
Il secondo parametro è un elenco di punti sulla funzione di trasferimento del compander
specificato in dB rispetto all'ampiezza massima del segnale possibile. L'ingresso
i valori devono essere in ordine strettamente crescente ma la funzione di trasferimento no
devono essere in aumento monotono. Se omesso, il valore di fuori-dB1 il valore predefinito è
stesso valore di in-dB1; livelli inferiori in-dB1 non sono companded (ma possono avere guadagno
ad essi applicato). Il punto 0,0 è presunto ma può essere sovrascritto (da 0,fuori dBn).
Se la lista è preceduta da a soft-ginocchio-dB valore, quindi i punti in cui adiacente
i segmenti di linea sulla funzione di trasferimento si incontrano saranno arrotondati per l'importo indicato.
I valori tipici per la funzione di trasferimento sono 6:-70,-60,-20.
Il terzo parametro (opzionale) è un guadagno aggiuntivo in dB da applicare del tutto
punti sulla funzione di trasferimento e consente una facile regolazione del guadagno complessivo.
Il quarto parametro (opzionale) è un livello iniziale da assumere per ogni canale
quando inizia il companding. Ciò consente all'utente di fornire inizialmente un livello nominale,
in modo che, per esempio, non venga applicato un guadagno molto grande ai livelli iniziali del segnale
prima che l'azione di compattazione abbia cominciato ad operare: è molto probabile che in
un tale evento, l'uscita verrebbe gravemente ridotta mentre il guadagno del compander
si regola correttamente. Un valore tipico (per l'audio inizialmente basso) è
all'90 ottobre dB.
Il quinto parametro (opzionale) è un ritardo in secondi. Il segnale in ingresso viene analizzato
immediatamente per controllare il compander, ma è ritardato prima di essere alimentato al
regolatore di volume. Specificare un ritardo approssimativamente uguale ai tempi di attacco/decadimento
permette al compander di operare efficacemente in modo 'predittivo' piuttosto che a
modalità reattiva. Un valore tipico è 0.2 secondi.
* * *
L'esempio seguente potrebbe essere utilizzato per creare un brano musicale sia con quiete che con
passaggi rumorosi adatti per l'ascolto in un ambiente rumoroso come un movimento
veicolo:
sox asz.wav asz-car.wav compand 0.3,1 6:-70,-60,-20 -5 -90 0.2
La funzione di trasferimento (`6:-70,...') dice che i suoni molto deboli (sotto -70dB) lo faranno
rimane invariato. Questo fermerà il compander dall'aumentare il volume su
passaggi "silenziosi" come tra i movimenti. Tuttavia, i suoni nell'intervallo da -60dB a
0dB (volume massimo) verrà potenziato in modo che la gamma dinamica di 60dB dell'originale
la musica verrà compressa 3 a 1 in una gamma di 20 dB, che è abbastanza ampia da poter essere apprezzata
la musica ma abbastanza stretto da aggirare il rumore della strada. Il `6:' seleziona 6dB
companding soft-knee. Il guadagno di uscita di -5 (dB) è necessario per evitare il clipping (il
numero è inesatto ed è stato derivato dalla sperimentazione). Il -90 (dB) per il
volume iniziale funzionerà bene per una clip che inizia con quasi silenzio, e il
un ritardo di 0.2 (secondi) ha l'effetto di far reagire un po' di più il compander
rapidamente a variazioni di volume improvvise.
Nel prossimo esempio, compand viene utilizzato come noise-gate per quando il rumore è a
un livello inferiore al segnale:
riproduci infile compand .1,.2 -inf,-50.1,-inf,-50,-50 0 -90 .1
Ecco un altro noise-gate, questa volta per quando il rumore è a un livello più alto di
il segnale (rendendolo, per certi versi, simile allo squelch):
riproduci infile compand .1,.1 -45.1,-45,-inf,0,-inf 45 -90 .1
Questo effetto supporta il --complotto opzione globale (per la funzione di trasferimento).
Vedi anche mcompand per un effetto companding multibanda.
contrasto [importo-miglioramento(75)]
Paragonabile alla compressione, questo effetto modifica un segnale audio per farlo suonare
più forte. importo-miglioramento controlla la quantità del miglioramento ed è un numero
nell'intervallo 0-100. Notare che importo-miglioramento = 0 dà ancora un significativo
miglioramento del contrasto.
Vedi anche il compagna e mcompand effetti.
dcshift spostamento [limite di guadagno]
Applicare uno spostamento DC all'audio. Questo può essere utile per rimuovere un offset DC (causato
forse da un problema hardware nella catena di registrazione) dall'audio. L'effetto
di un offset DC viene ridotto l'headroom e quindi il volume. Il stat or stats l'effetto può
essere utilizzato per determinare se un segnale ha un offset DC.
Il dato dcshift value è un numero in virgola mobile nell'intervallo ±2 che
indica la quantità di spostamento dell'audio (che è nell'intervallo di ±1).
un optional limite di guadagno può anche essere specificato. Dovrebbe avere un valore molto inferiore
superiore a 1 (es. 0.05 o 0.02) e viene utilizzato solo sui picchi per evitare il clipping.
* * *
Un approccio alternativo alla rimozione di un offset CC (sebbene con un breve ritardo) è quello di
Usa il alto passaggio effetto filtro ad una frequenza diciamo di 10Hz, come illustrato nella
seguente esempio:
sox -n dc.wav sintetizzatore 5 sin %0 50
sox dc.wav fixed.wav passa-alto 10
profondo Applicare la de-enfasi del Compact Disc (IEC 60908) (un filtro shelving per l'attenuazione degli alti).
La pre-enfasi è stata applicata nel mastering di alcuni CD usciti nei primi anni '1980.
Questi includevano molti album di musica classica, così come le edizioni ora ricercate di
album di The Beatles, Pink Floyd e altri. La pre-enfasi dovrebbe essere rimossa a
tempo di riproduzione da un filtro di de-enfasi nel dispositivo di riproduzione. Tuttavia, non tutto
i lettori CD moderni hanno questo filtro e pochissime unità CD per PC lo hanno; giocando pre-
l'audio enfatizzato senza il corretto filtro di de-enfasi produce un audio che
suona duro ed è lontano da ciò che i suoi creatori intendevano.
Grazie alla profondo effetto, è possibile applicare la necessaria de-enfasi all'audio
che è stato estratto da un CD pre-enfatizzato, quindi masterizzare il de-
audio enfatizzato su un nuovo CD (che verrà quindi riprodotto correttamente su qualsiasi lettore CD), oppure
riprodurre semplicemente i file audio correttamente de-enfatizzati sul PC. Per esempio:
sox track1.wav track1-deemph.wav deepmph
e poi masterizza track1-deemph.wav su CD, oppure
riproduci traccia1-deemph.wav
o semplicemente
riproduci traccia1.wav deep
Il filtro di de-enfasi è implementato come biquad; la sua deviazione massima da
la risposta ideale è solo 0.06 dB (fino a 20 kHz).
Questo effetto supporta il --complotto opzione globale.
Vedi anche il basso e triplo effetti di equalizzazione scaffalature.
ritardo {lunghezza}
Ritarda uno o più canali audio. lunghezza può specificare un'ora o, se aggiunto con
una `s', un numero di campioni. Non specificare sia i tempi che i ritardi dei campioni nel
stesso comando. Per esempio, ritardo 1.5 0 0.5 ritarda il primo canale di 1.5
secondi, il terzo canale di 0.5 secondi e lascia il secondo canale (e qualsiasi
altri canali eventualmente presenti) senza ritardo. Il seguente (un lungo) comando
riproduce un suono di campanello:
riproduci -n synth -j 3 sin %3 sin %-2 sin %-5 sin %-9 \
sin %-14 sin %-21 dissolvenza h .01 2 1.5 ritardo \
1.3 1 .76 .54 .27 remix - dissolvenza h 0 2.7 2.5 norma -1
e questo suona un accordo di chitarra:
riproduci -n synth pl G2 pl B2 pl D3 pl G3 pl D4 pl G4 \
ritardo 0 .05 .1 .15 .2 .25 remix - dissolvenza 0 4 .1 norma -1
tremare [-S|-s|-f filtro] [-a] [-p precisione]
Applicare il dithering all'audio. Il dithering aggiunge deliberatamente una piccola quantità di rumore
al segnale per mascherare gli effetti di quantizzazione udibili che possono verificarsi se il
la dimensione del campione di output è inferiore a 24 bit. Senza opzioni, questo effetto si aggiungerà
rumore bianco triangolare (TPDF). Il noise-shaping (solo per determinate frequenze di campionamento) può
essere selezionato con -s. Con il -f opzione, è possibile selezionare un particolare
filtro di modellamento del rumore dal seguente elenco: Lipshitz, f-weighted, modificato-e-
ponderato, ponderato-e migliorato, gesemann, shibata, low-shibata, high-shibata. Nota
che la maggior parte dei tipi di filtri sono disponibili solo con una frequenza di campionamento di 44100Hz. Il filtro
tipi si distinguono per le seguenti proprietà: udibilità del rumore, livello di
(non udibile, ma in alcune circostanze, altrimenti problematico) a forma di alta frequenza
rumore e velocità di elaborazione.
See http://sox.sourceforge.net/SoX/NoiseShaping per i grafici dei diversi rumori-
modellare le curve.
. -S l'opzione seleziona un TPDF leggermente "inclinato", sbilanciato verso frequenze più alte.
Può essere utilizzato a qualsiasi frequenza di campionamento, ma al di sotto di ≈22k, il TPDF normale è probabilmente migliore,
e sopra ≈ 37k, la forma del rumore è probabilmente migliore.
. -a l'opzione abilita una modalità in cui il dithering (e la modellatura del rumore se applicabile) sono
abilitato automaticamente solo quando necessario. L'uso più probabile per questo è quando
applicare la dissolvenza in entrata o in uscita a un file già retinato, in modo che il redithering
si applica solo alle parti sbiadite. Tuttavia, il dithering automatico non è infallibile, quindi
le dissolvenze devono essere attentamente controllate per eventuali modulazioni di rumore; se ciò si verifica,
quindi ridisegna l'intero file o usa tagliare, dissolvenzae concatenare.
. -p L'opzione consente di ignorare la precisione del target.
Se l'opzione globale SoX -R opzione non è data, allora il numero pseudo-casuale
il generatore utilizzato per generare il rumore bianco sarà `reseedato', cioè il generato
il rumore sarà diverso tra le invocazioni.
Questo effetto non dovrebbe essere seguito da nessun altro effetto che influisca sull'audio.
Vedi anche la sezione 'Dithering' sopra.
Downsample [fattore(2)]
Sottocampionare il segnale di un fattore intero: solo il primo di ciascuno fattore
i campioni vengono conservati, gli altri vengono scartati.
Non viene applicato alcun filtro di decimazione. Se l'ingresso non è adeguatamente limitato in banda
segnale in banda base, si verificherà l'aliasing. Questo può essere desiderabile, ad esempio, per la frequenza
traduzione.
Per un effetto di ricampionamento generale con anti-aliasing, vedere tasso. Vedi anche sovracampionare.
cerume Facilita l'ascolto dell'audio in cuffia. Aggiunge "spunti" allo stereo a 44.1 kHz (ad es
formato CD audio) audio in modo che quando si ascolta in cuffia l'immagine stereo sia
spostato dall'interno della testa (standard per le cuffie) all'esterno e davanti a
l'ascoltatore (standard per gli altoparlanti).
eco guadagno guadagno <ritardo decadimento>
Aggiungi l'eco all'audio. Gli echi sono suoni riflessi e possono verificarsi in modo naturale
tra le montagne (e talvolta i grandi edifici) quando si parla o si grida; digitale
gli effetti eco emulano questo comportamento e sono spesso usati per aiutare a riempire il suono
di un singolo strumento o vocale. La differenza di tempo tra il segnale originale
e la riflessione è il "ritardo" (tempo), e il volume del segnale riflesso
è il "decadimento". Echi multipli possono avere ritardi e decadimenti diversi.
ogni dato ritardo decadimento coppia dà il ritardo in millisecondi e il decadimento (relativo
per guadagnare) di quell'eco. Gain-out è il volume dell'uscita. Ad esempio: questo
farà sembrare che ci siano il doppio degli strumenti in realtà
giocando:
riproduci lead.aiff echo 0.8 0.88 60 0.4
Se il ritardo è molto breve, suona come un robot (metallico) che riproduce musica:
riproduci lead.aiff echo 0.8 0.88 6 0.4
Un ritardo più lungo suonerà come un concerto all'aperto in montagna:
riproduci lead.aiff echo 0.8 0.9 1000 0.3
Una montagna in più e:
riproduci lead.aiff eco 0.8 0.9 1000 0.3 1800 0.25
echos guadagno guadagno <ritardo decadimento>
Aggiungi una sequenza di echi all'audio. Ogni ritardo decadimento la coppia dà il ritardo in
millisecondi e il decadimento (relativo al gain-in) di quell'eco. Il guadagno è il
volume dell'uscita.
Come l'effetto eco, gli echi stanno per "ECHO in Sequel", ovvero i primi echi
prende l'input, il secondo l'input e il primo fa eco, il terzo l'input e
il primo e il secondo echeggiano, ... e così via. Bisogna fare attenzione usando molti
echi; un singolo eco ha lo stesso effetto di un singolo eco.
Il campione verrà rimbalzato due volte in echi simmetrici:
riproduci echi lead.aiff 0.8 0.7 700 0.25 700 0.3
Il campione verrà rimbalzato due volte in echi asimmetrici:
riproduci echi lead.aiff 0.8 0.7 700 0.25 900 0.3
Il campione suonerà come se fosse suonato in un garage:
riproduci echi lead.aiff 0.8 0.7 40 0.25 63 0.3
equalizzatore frequenza[k] larghezza[q|o|h|k] guadagno
Applicare un filtro di equalizzazione del picco (EQ) a due poli. Con questo filtro, il segnale-
livello in corrispondenza e intorno a una frequenza selezionata può essere aumentato o diminuito, mentre
(a differenza dei filtri passa-banda e band-reject) che a tutte le altre frequenze è
invariato.
frequenza fornisce la frequenza centrale del filtro in Hz, larghezza, la larghezza di banda, e
guadagno il guadagno o l'attenuazione richiesti in dB. Diffidare di Ritaglio quando si utilizza a
positivo guadagno.
Al fine di produrre curve di equalizzazione complesse, questo effetto può essere dato diversi
volte, ciascuna con una frequenza centrale diversa.
Il filtro è descritto in dettaglio in [1].
Questo effetto supporta il --complotto opzione globale.
Vedi anche basso e triplo per gli effetti di equalizzazione dello scaffale.
dissolvenza [Digitare] dissolvenza in lunghezza [tempo di stop [lunghezza della dissolvenza in uscita]]
Applica un effetto dissolvenza all'inizio, alla fine o a entrambi l'audio.
un optional Digitare può essere specificato per selezionare la forma della curva di dissolvenza: q da
quarto d'onda sinusoidale, h per mezza onda sinusoidale, t per pendenza lineare ("triangolare"),
l per logaritmico, e p per parabola rovesciata. L'impostazione predefinita è logaritmica.
Un fade-in inizia dal primo campione e aumenta il livello del segnale da 0 a pieno
volume sopra dissolvenza in lunghezza secondi. Specificare 0 secondi se non si desidera la dissolvenza in entrata.
Per le dissolvenze in chiusura, l'audio verrà troncato a tempo di stop e il livello del segnale sarà
essere aumentato dal volume massimo fino a 0 a partire da lunghezza della dissolvenza in uscita secondi prima del
tempo di stop. Se lunghezza della dissolvenza in uscita non è specificato, il valore predefinito è lo stesso di
dissolvenza in lunghezza. Non viene eseguita alcuna dissolvenza in chiusura se tempo di stop non è specificato. Se la
la lunghezza del file può essere determinata dall'intestazione del file di input e dalla modifica della lunghezza
gli effetti non sono in vigore, quindi 0 può essere specificato per tempo di stop per indicare il
caso usuale di una dissolvenza in uscita che termina alla fine del flusso audio in ingresso.
Tutti i tempi possono essere specificati in periodi di tempo o conteggi dei campioni. Specificare
i periodi di tempo utilizzano il formato hh:mm:ss.frac. Per specificare utilizzando i conteggi dei campioni,
specificare il numero di campioni e aggiungere la lettera `s' al conteggio dei campioni (per
esempio '8000').
Vedi anche il giunzione effetto.
abete [file-coefs|coef]
Utilizzare il motore di convoluzione FFT di SoX con determinati coefficienti di filtro FIR. Se un singolo
viene fornito un argomento, quindi questo viene trattato come il nome di un file contenente il filtro
coefficienti (separati da spazi; può contenere commenti `#'). Se il dato
il nome del file è `-', o se non viene fornito alcun argomento, i coefficienti vengono letti da
lo `standard input' (stdin); in caso contrario, i coefficienti possono essere dati al comando
linea. Esempi:
sox infile outfile abete 0.0195 -0.082 0.234 0.891 -0.145 0.043
sox file di ingresso file di uscita fir coefs.txt
con coefs.txt contenente
# Filtro HP
#freq=10000
1.2311233052619888e-01 mila
-4.4777096106211783e-01
5.1031563346705155e-01 mila
-6.6502926320995331e-02
...
Questo effetto supporta il --complotto opzione globale.
flangiare [ritardo profondità mescolare larghezza velocità forma fase interazione]
Applicare un effetto di flangiatura all'audio. Vedere [3] per una descrizione dettagliata di
flangiatura.
Tutti i parametri sono opzionali (da destra a sinistra).
Escursione Predefinito Descrizione
ritardo 0 - 30 0 Ritardo base in millisecondi.
profondità 0 - 10 2 Aggiunto ritardo di scansione in millisecondi.
mescolare -95 - 95 0 Rigenerazione percentuale (ritardata
feedback di segnale).
larghezza 0 - 100 71 Percentuale di segnale ritardato misto
con originale.
velocità 0.1 - 10 0.5 Scansioni al secondo (Hz).
forma peccato Forma d'onda spazzata: loro|triangolo.
fase 0 - 100 25 Sfasamento percentuale onda spazzata
per multicanale (es. stereo)
flangia; 0 = 100 = stessa fase accesa
ogni canale.
interazione lin Interpolazione della linea di ritardo digitale:
lineare|quadratico.
guadagno [-e|-B|-b|-r] [-n] [-l|-h] [guadagno-dB]
Applicare amplificazione o attenuazione al segnale audio o, in alcuni casi, ad alcuni
dei suoi canali. Si noti che l'uso di uno qualsiasi dei -e, -B, -b, -r, o -n richiede temporaneo
spazio file per memorizzare l'audio da elaborare, quindi potrebbe non essere adatto per l'uso con
audio "in streaming".
Senza altre opzioni, guadagno-dB viene utilizzato per regolare il livello di potenza del segnale tramite il
dato numero di dB: il positivo amplifica (attenzione al clipping), il negativo attenua.
Con altre opzioni, il guadagno-dB l'amplificazione o l'attenuazione è (logicamente) applicata
dopo l'elaborazione a causa di tali opzioni.
dato che -e opzione, i livelli dei canali audio di un file multicanale sono
`equalizzato', ovvero il guadagno viene applicato a tutti i canali diversi da quello con il più alto
livello di picco, in modo tale che tutti i canali raggiungano lo stesso livello di picco (ma, senza anche
dando -n, l'audio non è `normalizzato').
. -B (bilanciamento) è simile a -e, ma con -B, viene utilizzato il livello RMS
invece del livello di picco. -B potrebbe essere utilizzato per correggere lo squilibrio stereo causato da
una testina per giradischi imperfetta. Nota che a differenza -e, -B potrebbe causare alcuni
ritaglio.
-b è simile -B ma ha una protezione contro il clipping, cioè se necessario per prevenire
clipping durante il bilanciamento, l'attenuazione viene applicata a tutti i canali. Nota, tuttavia,
che in combinazione con -n, -B e -b sono sinonimi.
. -r opzione viene utilizzata in combinazione con una precedente invocazione di guadagno con la -h
opzione - vedi sotto per i dettagli.
. -n l'opzione normalizza l'audio a 0dB FSD; è spesso usato in combinazione con
un negativo guadagno-dB per l'effetto che l'audio è normalizzato a un dato livello
sotto 0dB. Per esempio,
sox infile outfile guadagno -n
normalizza a 0dB, e
sox file di ingresso file di uscita guadagno -n -3
normalizza a -3dB.
. -l opzione invoca un semplice limitatore, ad es
sox infile outfile guadagno -l 6
applicherà 6dB di guadagno ma mai clip. Nota che limitando più di qualche dB in più
che occasionalmente (in un brano audio) non è raccomandato in quanto può causare rumori udibili
distorsione. Vedi il compagna effetto per un limitatore più capace.
. -h l'opzione viene utilizzata per applicare il guadagno per fornire spazio per l'elaborazione successiva.
Ad esempio, con
sox infile outfile guadagno -h basso +6
6dB di attenuazione verranno applicati prima dell'effetto di potenziamento dei bassi, garantendo così
che non si taglierà. Naturalmente, con il basso, è ovvio quanto headroom avrà
essere necessario, ma con altri effetti (ad es. rate, dither) non è sempre così chiaro.
Un altro vantaggio dell'uso guadagno -h piuttosto che un'esplicita attenuazione, è che se
l'headroom non viene utilizzato dagli effetti successivi, può essere recuperato con guadagno -r,
per esempio:
sox infile outfile guadagno -h basso +6 tasso 44100 guadagno -r
La catena di effetti di cui sopra garantisce di non tagliare né amplificare; si attenua se
necessario per evitare il clipping, ma solo per quanto è necessario per farlo.
Anche la formattazione dell'output (dithering e riduzione della profondità di bit) richiede headroom (che
non può essere `reclamato'), ad es
sox infile outfile guadagno -h basso +6 tasso 44100 guadagno -rh dither
Ecco, il secondo guadagno invocazione, reclama quanto più margine possibile da
gli effetti precedenti, ma mantiene tutto lo spazio necessario per i successivi
in lavorazione. L'opzione globale SoX -G può essere dato per invocare automaticamente guadagno -h
e guadagno -r.
Vedi anche il norma e vol effetti.
alto passaggio|passabasso [-1|-2] frequenza[k] [larghezza[q|o|h|k]]
Applicare un filtro passa alto o passa basso con punto 3dB frequenza. Il filtro può essere
o unipolare (con -1), o bipolare (predefinito, o con -2). larghezza
si applica solo ai filtri bipolari; il valore predefinito è Q = 0.707 e dà a
Risposta di Butterworth. I filtri escono a 6dB per polo per ottava (20dB per
polo per decennio). I filtri bipolari sono descritti in dettaglio in [1].
Questi effetti supportano il --complotto opzione globale.
Vedi anche sic per filtri con un roll-off più ripido.
ilberto [-n rubinetti]
Applicare un filtro di trasformazione di Hilbert a tocco dispari, sfasando il segnale di 90 gradi.
Questo è usato in molti schemi di codifica a matrice e per la generazione di segnali analitici. Il
processo è spesso scritto come una moltiplicazione per i (o j), l'unità immaginaria.
Un filtro di trasformata di Hilbert a tocco dispari ha una caratteristica passa-banda, attenuando il
frequenze più basse e più alte. La sua larghezza di banda può essere controllata dal numero di
rubinetti filtro, che possono essere specificati con -n. Per impostazione predefinita, il numero di tocchi è
scelto per una frequenza di taglio di circa 75 Hz.
Questo effetto supporta il --complotto opzione globale.
ladspa modulo [plug-in] [argomento...]
Applicare un plug-in LADSPA [5] (Linux Audio Developer's Simple Plugin API). Nonostante il
nome, LADSPA non è specifico per Linux ed è disponibile un'ampia gamma di effetti come
Plugin LADSPA, come cmt [6] (il Computer Music Toolkit) e Steve Harris's
raccolta di plugin [7]. Il primo argomento è il modulo plugin, il secondo il nome
del plugin (un modulo può contenere più di un plugin) e qualsiasi altro argomento
sono per le porte di controllo del plugin. Gli argomenti mancanti vengono forniti per impostazione predefinita
valori se possibile. Solo plugin con al massimo un ingresso audio e un'uscita audio
la porta può essere utilizzata. Se trovata, la variabile d'ambiente LADSPA_PATH verrà utilizzata come
percorso di ricerca per i plugin.
rumorosità [guadagno [riferimento]]
Controllo del volume - simile al guadagno effetto, ma fornisce l'equalizzazione per il
sistema uditivo umano. Vedere http://en.wikipedia.org/wiki/Loudness per un dettaglio
descrizione del volume. Il guadagno è regolato dal dato guadagno parametro (di solito
negativo) e il segnale equalizzato secondo ISO 226 rispetto a un livello di riferimento di
65dB, anche se un'alternativa riferimento livello può essere dato se l'audio originale ha
stato pareggiato per qualche altro livello ottimale. Viene utilizzato un guadagno predefinito di -10dB se a
guadagno valore non è dato.
Vedi anche il guadagno effetto.
passabasso [-1|-2] frequenza[k] [larghezza[q|o|h|k]]
Applicare un filtro passa basso. Vedi la descrizione del alto passaggio effetto per i dettagli.
mcompand "attack1,decadimento1{,attack2,decadimento2}
[soft-ginocchio-dB:]in-dB1[,fuori-dB1]{,in-dB2,fuori-dB2}
[guadagno [volume-iniziale-dB [ritardo]]]" {frequenza di crossover[k] "attacco1,..."}
Il compander multibanda è simile al compander a banda singola ma l'audio è
prima diviso in bande utilizzando filtri cross-over Linkwitz-Riley e separatamente
compander specificabile eseguito su ciascuna banda. Vedi il compagna effetto per la definizione
dei suoi parametri. I parametri di Compand sono specificati tra virgolette e il
la frequenza di crossover per quella banda è data da frequenza di crossover; questi possono essere ripetuti
per creare più bande.
Ad esempio, il seguente comando (un lungo) mostra come è il companding multi-banda
tipicamente utilizzato nella radio FM:
riproduci traccia1.wav gain -3 sinc 8000- 29 100 mcompand \
"0.005,0.1 -47,-40,-34,-34,-17,-33" 100 \
"0.003,0.05 -47,-40,-34,-34,-17,-33" 400 \
"0.000625,0.0125 -47,-40,-34,-34,-15,-33" 1600 \
"0.0001,0.025 -47,-40,-34,-34,-31,-31,-0,-30" 6400 \
"0,0.025 -38,-31,-28,-28,-0,-25" \
guadagno 15 passa-alto 22 passa-alto 22 sinc -n 255 -b 16 -17500 \
guadagno 9 passabasso -1 17801
Il file audio viene riprodotto con un suono radio FM simulato (o segnale di trasmissione
condizione se il filtro passa basso alla fine viene saltato). Si noti che la pipeline è
impostato con pre-enfasi in stile americano 75us.
Vedi anche compagna per un effetto di companding a banda singola.
noiseprof [file-profilo]
Calcola un profilo dell'audio da utilizzare nella riduzione del rumore. Vedi la descrizione
di rumoroso effetto per i dettagli.
rumoroso [file-profilo [quantità]]
Riduci il rumore nel segnale audio mediante la profilazione e il filtraggio. Questo effetto è
moderatamente efficace nel rimuovere rumori di sottofondo consistenti come sibili o ronzii.
Per usarlo, esegui prima SoX con il noiseprof effetto su una sezione di audio che
idealmente conterrebbe silenzio ma in realtà contiene rumore - tali sezioni sono
generalmente si trova all'inizio o alla fine di una registrazione. noiseprof scriverò
un profilo di rumore per file-profilo, o su stdout se no file-profilo o se `-' è
dato. Per esempio
sox discorso.wav -n trim 0 1.5 noiseprof discorso.profilo-rumore
Per rimuovere effettivamente il rumore, esegui di nuovo SoX, questa volta con il rumoroso effetto;
rumoroso ridurrà il rumore secondo un profilo di rumore (che è stato generato da
noiseprof), a partire dal file-profilo, o da stdin se no file-profilo o se viene fornito "-".
Per esempio
sox speech.wav clean.wav noisered speech.noise-profile 0.3
La quantità di rumore da rimuovere è specificata da quantità-a numero compreso tra 0 e 1
con un valore predefinito di 0.5. I numeri più alti rimuoveranno più rumore ma presenteranno un maggiore
probabilità di rimuovere i componenti desiderati del segnale audio. Prima di sostituire un
registrazione originale con una versione con riduzione del rumore, sperimenta con diversi quantità
valori per trovare quello ottimale per il tuo audio; usa le cuffie per controllare che tu sia
soddisfatto dei risultati, prestando particolare attenzione alle sezioni più tranquille del
audio.
Sulla maggior parte dei sistemi, le due fasi - profilatura e riduzione - possono essere combinate utilizzando a
tubo, ad es
sox noisy.wav -n trim 0 1 noiseprof | riproduci noise.wav noisered
norma [livello dB]
Normalizza l'audio. norma è solo un alias per guadagno -n; vedere il guadagno effetto per
dettagli.
oops Effetto stereo fuori fase. Mixa da stereo a twin-mono dove ogni canale mono
contiene la differenza tra i canali stereo sinistro e destro. Questo è
a volte noto come effetto "karaoke" poiché spesso ha l'effetto di rimuovere la maggior parte
o tutte le voci di una registrazione. È equivalente a remix 1,2 1,2.
overdrive [guadagno(20) [colore(20)]]
Distorsione non lineare. Il colore il parametro controlla la quantità di armoniche pari
contenuto nell'output sovradimensionato.
sentiero { lunghezza[@posizione]}
Riempi l'audio con il silenzio, all'inizio, alla fine o in qualsiasi punto specificato
attraverso l'audio. Entrambi lunghezza e posizione può specificare un'ora o, se aggiunta
con una `s', un numero di campioni. lunghezza è la quantità di silenzio da inserire e
posizione la posizione nel flusso audio in ingresso in cui inserirlo. Qualsiasi numero
di lunghezze e posizioni possono essere specificate, a condizione che una posizione specificata sia
non meno del precedente. posizione è facoltativo per il primo e l'ultimo
lunghezze specificate e se omesse corrispondono all'inizio e alla fine del
audio rispettivamente. Per esempio, sentiero 1.5 1.5 aggiunge 1.5 secondi di riempimento del silenzio
a ciascuna estremità dell'audio, mentre sentiero 4000 @ 3:00 inserisce 4000 campioni di silenzio 3
minuti nell'audio. Se si desidera il silenzio solo alla fine dell'audio, specificare
la posizione finale o specificare un pad di lunghezza zero all'inizio.
Vedi anche ritardo per un effetto che può aggiungere silenzio all'inizio dell'audio acceso
base canale per canale.
Phaser guadagno guadagno ritardo decadimento velocità [-s|-t]
Aggiungi un effetto di phasing all'audio. Vedere [3] per una descrizione dettagliata delle fasi.
delay/decay/speed fornisce il ritardo in millisecondi e il decadimento (relativo al guadagno-
in) con una velocità di modulazione in Hz. La modulazione è sinusoidale (-s) -
preferibile per più strumenti, o triangolare (-t) - fornisce singoli strumenti
un effetto di fase più acuto. Il decadimento dovrebbe essere inferiore a 0.5 per evitare feedback, e
di solito non inferiore a 0.1. Gain-out è il volume dell'uscita.
Per esempio:
suona rullante.flac phaser 0.8 0.74 3 0.4 0.5 -t
più gentile:
suona rullante.flac phaser 0.9 0.85 4 0.23 1.3 -s
Un suono popolare:
suona rullante.flac phaser 0.89 0.85 1 0.24 2 -t
Più severo:
suona rullante.flac phaser 0.6 0.66 3 0.6 2 -t
intonazione [-q] spostamento [segmento [Ricerca [sovrapposizione]]]
Cambia il tono dell'audio (ma non il tempo).
spostamento dà il pitch shift come `cents' positivi o negativi (cioè centesimi di a
semitono). Vedi il tempo effetto per una descrizione degli altri parametri.
Vedi anche il piegare, velocitàe tempo effetti.
tasso [-q|-l|-m|-h|-v] [override-opzioni] RATE[k]
Cambia la frequenza di campionamento audio (cioè ricampiona l'audio) a qualsiasi dato RATE (anche
non intero se supportato dal formato del file di output) utilizzando un livello di qualità
definito come segue:
Qualità Gruppo musicale- Rej dB Tipico Usa il
larghezza
-q veloce n/a ≈30 @ riproduzione attiva
Fs/4 hardware antico
-l basso 80% 100 riproduzione su vecchio
hardware
-m medio 95% 100 riproduzione audio
-h alto 95% 125 mastering a 16 bit
(usare con retinatura)
-v molto alto 95% 175 mastering a 24 bit
where Larghezza di banda è la percentuale della banda di frequenza audio che viene preservata
e Rej dB è il livello di reiezione del rumore. Aumentare i livelli di ricampionamento
la qualità va a scapito di una maggiore quantità di tempo per elaborare l'audio. Se
non viene data alcuna opzione di qualità, il livello di qualità utilizzato è "alto" (ma vedi "Riproduzione e
Registrazione audio' sopra per quanto riguarda la riproduzione).
L'algoritmo `rapido' utilizza l'interpolazione cubica; tutti gli altri usano la banda limitata
interpolazione. Per impostazione predefinita, tutti gli algoritmi hanno una risposta di fase "lineare"; per
`medio', `alto' e `molto alto', la risposta di fase è configurabile (vedi sotto).
. tasso l'effetto viene invocato automaticamente se SoX's -r opzione specifica un tasso che
è diverso da quello dei file di input. In alternativa, se viene dato questo effetto
esplicitamente, quindi SoX's -r l'opzione non deve essere data. Ad esempio, i seguenti due
i comandi sono equivalenti:
sox input.wav -r 48k output.wav bassi -b 24
sox input.wav output.wav bass -b 24 velocità 48k
sebbene il secondo comando sia più flessibile in quanto consente tasso opzioni da offrire,
e consente di ordinare arbitrariamente gli effetti.
* * *
Attenzione: segue una discussione tecnicamente dettagliata.
La semplice selezione della qualità sopra descritta fornisce impostazioni che soddisfano i
esigenze della stragrande maggioranza delle attività di ricampionamento. A volte, tuttavia, può essere
desiderabile mettere a punto la risposta del filtro del ricampionatore; questo può essere ottenuto usando
Override Opzioni, come dettagliato nella tabella seguente:
-M/-I/-L Risposta di fase = minima/intermedia/lineare
-s Filtro ripido (larghezza di banda = 99%)
-a Consenti aliasing/imaging sopra la banda passante
-b 74-99.7 Qualsiasi larghezza di banda %
-p 0-100 Qualsiasi risposta di fase (0 = minima, 25 = intermedia,
50 = lineare, 100 = massimo)
NB Le opzioni di override non possono essere utilizzate con gli algoritmi di qualità "veloce" o "bassa".
Tutti i ricampionatori utilizzano filtri che a volte possono creare "eco" (noti anche come "squillo")
artefatti con segnali transitori come quelli che si verificano con lo "schianto delle dita" o
altri suoni altamente percussivi. Tali artefatti sono molto più evidenti per il
orecchio umano se si verificano prima del transitorio ("pre-eco") rispetto a se si verificano dopo
it (`post-eco'). Si noti che la frequenza di tali artefatti è correlata al
più piccola delle frequenze di campionamento originali e nuove ma che se questo è almeno
44.1 kHz, quindi gli artefatti rimarranno al di fuori della portata dell'udito umano.
Un'impostazione della risposta di fase può essere utilizzata per controllare la distribuzione di qualsiasi transitorio
eco tra `pre' e `post': con fase minima, non c'è pre-eco ma il
post-eco più lungo; con fase lineare, pre e post eco sono in egual misura (in
termini di segnale, ma non termini di udibilità); l'impostazione della fase intermedia tenta di
trovare il miglior compromesso selezionando una piccola lunghezza (e livello) di pre-eco e a
post-eco di media lunghezza.
La risposta di fase minima, intermedia o lineare viene selezionata utilizzando il -M, -I, o -L
opzione; è possibile creare una risposta di fase personalizzata con il -p opzione. Nota che fase
le risposte tra "lineare" e "massimo" (maggiori di 50) sono raramente utili.
L'impostazione della larghezza di banda di un ricampionatore determina quanta parte del contenuto di frequenza di
il segnale originale (rispetto alla frequenza di campionamento originale durante l'up-sampling, o il nuovo
frequenza di campionamento durante il down-sampling) viene preservata durante la conversione. Il termine `passa-
band' è usato per riferirsi a tutte le frequenze fino al punto di larghezza di banda (ad esempio per
Frequenza di campionamento di 44.1 kHz e larghezza di banda di ricampionamento del 95%, la banda passante rappresenta
frequenze da 0Hz (DC) a circa 21kHz). Aumentare la larghezza di banda del ricampionatore
comporta una conversione più lenta e può aumentare gli artefatti dell'eco transitori (e viceversa)
viceversa).
. -s L'opzione "filtro ripido" cambia la larghezza di banda del ricampionamento dal valore predefinito 95%
(basato sul punto 3dB), al 99%. Il -b opzione consente di impostare la larghezza di banda su
qualsiasi valore nell'intervallo 74-99.7%, ma si noti che i valori di larghezza di banda maggiori del 99%
non sono consigliati per l'uso normale in quanto possono causare un'eco transitoria eccessiva.
Se l' -a viene data l'opzione, quindi è consentito l'aliasing/imaging al di sopra della banda passante.
Ad esempio, con una frequenza di campionamento di 44.1 kHz e una larghezza di banda di ricampionamento del 95%, questo
significa che il contenuto di frequenza superiore a 21kHz può essere distorto; tuttavia, poiché questo è
al di sopra della banda passante (cioè al di sopra della massima frequenza di interesse/udibilità),
questo potrebbe non essere un problema. I vantaggi di consentire l'aliasing/l'imaging sono ridotti
tempo di elaborazione e ridotto (di quasi la metà) gli artefatti dell'eco transitorio. Notare che
se questa opzione è data, allora la larghezza di banda minima consentita con -b aumenta a
85%.
Esempi:
sox input.wav -b 16 output.wav rate -s -a 44100 dithering -s
ricampionamento di qualità (alta) predefinito; sostituzioni: filtro ripido, consenti l'aliasing; a
frequenza di campionamento 44.1 kHz; dithering a forma di rumore su file WAV a 16 bit.
sox input.wav -b 24 output.aiff rate -v -I -b 90 48k
ricampionamento di altissima qualità; override: fase intermedia, larghezza di banda 90%; a 48k
frequenza di campionamento; memorizzare l'output in un file AIFF a 24 bit.
* * *
. intonazione e velocità gli effetti usano il tasso effetto alla loro base.
remix [-a|-m|-p]fuori specifica>
fuori specifica = conforme alle specifiche{,conforme alle specifiche} | 0
conforme alle specifiche = [in-chan][-[in-chan2]][spec.vol]
spec.vol = p|i|v[volume]
Seleziona e mixa i canali audio in ingresso nei canali audio in uscita. Ogni uscita
il canale è specificato, a sua volta, da un dato fuori specifica: un elenco degli input che hanno contribuito
canali e specifiche di volume.
Nota che questo effetto agisce sull'audio canali all'interno degli effetti SoX
catena di trasformazione; non va confuso con -m opzione globale (dove
multiplo file sono mix-combinati prima di entrare nella catena degli effetti).
An fuori specifica contiene numeri di canale di input separati da virgole e delimitati da trattini
intervalli di numeri di canale; in alternativa, 0 può essere dato per creare un output silenzioso
canale. Per esempio,
sox input.wav output.wav remix 6 7 8 0
crea un file di output con quattro canali, dove i canali 1, 2 e 3 sono copie di
canali 6, 7 e 8 nel file di input e il canale 4 è silenzioso. Invece
sox input.wav output.wav remix 1-3,7 3
crea un file di output stereo (un po' bizzarro) in cui il canale sinistro è un mix-
in basso dei canali di ingresso 1, 2, 3 e 7 e il canale destro è una copia dell'ingresso
canale 3.
Dove è specificato un intervallo di canali, i numeri dei canali a sinistra e a destra
del trattino sono opzionali e per impostazione predefinita sono 1 e il numero di canali di ingresso
rispettivamente. così
sox input.wav output.wav remix -
esegue un missaggio di tutti i canali di ingresso in mono.
Per impostazione predefinita, dove un canale di uscita viene mixato da più (n) canali di ingresso, ciascuno
il canale di ingresso verrà ridimensionato di un fattore ¹/n. È possibile impostare volumi di miscelazione personalizzati
seguendo un dato canale di ingresso o un intervallo di canali di ingresso con a spec.vol
(specifica del volume). Questa è una delle lettere p, i, o v, Seguito da un
numero di volume, il cui significato dipende dalla lettera data ed è definito come
segue:
Lettera Volume numero Note
p regolazione della potenza in dB 0 = nessuna variazione
i la potenza si regola in dB Come `p', ma invertire il
Audio
v moltiplicatore di tensione 1 = nessuna variazione, 0.5 ≈ 6dB
attenuazione, 2 ≈ 6dB
guadagno, -1 = invertito
Se uno fuori specifica include almeno uno spec.vol quindi, per impostazione predefinita, il ridimensionamento ¹/n non lo è
applicato a qualsiasi altro canale nella stessa out-spec (sebbene possa essere in altri out-
Specifiche). L'opzione -a (automatica) tuttavia, può essere data per mantenere l'automatico
ridimensionamento in questo caso. Per esempio,
sox input.wav output.wav remix 1,2 3,4v0.8
si traduce in moltiplicatori a livello di canale di 0.5,0.5 1,0.8, mentre
sox input.wav output.wav remix -a 1,2 3,4v0.8
si traduce in moltiplicatori a livello di canale di 0.5,0.5 0.5,0.8.
L'opzione -m (manuale) disabilita tutte le regolazioni automatiche del volume, quindi
sox input.wav output.wav remix -m 1,2 3,4v0.8
si traduce in moltiplicatori a livello di canale di 1,1 1,0.8.
Il numero del volume è facoltativo e ometterlo non corrisponde a nessuna variazione di volume;
tuttavia, l'unico caso in cui ciò è utile è in combinazione con i. For
esempio, if ingresso.wav è stereo, allora
sox input.wav output.wav remix 1,2i
è un mono equivalente di oops effetto.
Se l' -p viene data l'opzione, quindi qualsiasi ridimensionamento automatico ¹/n viene sostituito da ¹/√n
(`potenza') ridimensionamento; questo dà un mix più forte ma che potrebbe occasionalmente clip.
* * *
Un uso del remix l'effetto è quello di dividere un file audio in un insieme di file, ciascuno
contenente uno dei canali costitutivi (per eseguire successivi
elaborazione sui singoli canali audio). Dove ci sono più di pochi canali
coinvolti, uno script come il seguente (script Bourne shell) è utile:
#!/bin/sh
chans=`soxi -c "$1"`
while [ $chans -ge 1 ]; fare
chans0=`printf %02i $chans` # 2 cifre quindi fino a 99 chans
out=`echo "$1"|sed "s/\(.*\)\.\(.*\)/\1-$chans0.\2/"`
sox "$1" "$out" remixa $chans
chans=`espr $ chans - 1`
fatto
Se un file ingresso.wav contenente sei canali audio sono stati dati, lo script sarebbe
produrre sei file di output: ingresso-01.wav, ingresso-02.wav, ..., ingresso-06.wav.
Vedi anche il swap effetto.
ripetere [contare (1)]
Ripeti l'intero audio contare volte, o una volta se contare non è dato. Richiede
spazio file temporaneo per memorizzare l'audio da ripetere. Nota che ripetere una volta
produce due copie: l'audio originale e l'audio ripetuto.
riverbero [-w|--solo bagnato] [riverbero (50%) [Smorzamento HF (50%)
[scala della stanza (100%) [stereo-profondità (100%)
[pre-ritardo (0 ms) [guadagno bagnato (0dB)]]]]]]
Aggiungi riverbero all'audio usando l'algoritmo `freeverb'. Un riverbero
l'effetto è talvolta desiderabile per le sale da concerto che sono troppo piccole o contengono così
molte persone che il riverbero naturale della sala è diminuito. Applicando un piccolo
la quantità di riverbero stereo su un segnale mono (dry) di solito lo farà suonare di più
naturale. Vedere [3] per una descrizione dettagliata del riverbero.
Nota che questo effetto aumenta sia il volume che la lunghezza dell'audio, quindi per
impedire il clipping in questi domini, una tipica invocazione potrebbe essere:
suona dry.wav gain -3 pad 0 3 riverbero
. -w può essere data l'opzione per selezionare solo il segnale "bagnato", consentendo così di essere
processato ulteriormente, indipendentemente dal segnale "dry". Per esempio
play -m voice.wav "|sox voice.wav -p reverse riverbero -w reverse"
per un effetto di riverbero inverso.
invertire
Inverti completamente l'audio. Richiede spazio file temporaneo per memorizzare l'audio
essere invertito.
ria Applicare l'equalizzazione della riproduzione del vinile RIAA. La frequenza di campionamento deve essere una delle seguenti: 44.1,
48, 88.2, 96 chilocicli.
Questo effetto supporta il --complotto opzione globale.
silenzio [-l] sopra-periodi [durata soglia[d|%]
[sotto-periodi durata soglia[d|%]]
Rimuove il silenzio dall'inizio, dalla metà o dalla fine dell'audio. "Silenzio" è
determinato da una determinata soglia.
. sopra-periodi viene utilizzato per indicare se l'audio deve essere tagliato a
inizio dell'audio. Un valore pari a zero indica che nessun silenzio deve essere tagliato da
l'inizio. Quando si specifica un valore diverso da zero sopra-periodi, taglia l'audio fino a
trova il non silenzio. Normalmente, quando si taglia il silenzio dall'inizio dell'audio il
sopra-periodi sarà 1 ma può essere aumentato a valori più alti per tagliare tutto l'audio
fino a un determinato numero di periodi di non silenzio. Ad esempio, se avessi un audio
file con due canzoni che contenevano ciascuna 2 secondi di silenzio prima della canzone, tu
potrebbe specificare an sopra-periodo di 2 per eliminare sia i periodi di silenzio che il primo
canzone.
Quando sopra-periodi è diverso da zero, devi anche specificare a durata e soglia.
Durata indicazioni la quantità di tempo che il non silenzio deve essere rilevato prima che esso
interrompe il taglio dell'audio. Aumentando la durata, la raffica di rumore può essere trattata come
silenzio e tagliata.
Soglia viene utilizzato per indicare quale valore di esempio si dovrebbe trattare come silenzio. Per
audio digitale, un valore di 0 può andare bene, ma per l'audio registrato da analogico, potresti
desidera aumentare il valore per tenere conto del rumore di fondo.
Quando facoltativamente si taglia il silenzio dalla fine dell'audio, si specifica a sotto-
periodi contare. In questo caso, sotto-periodo significa rimuovere tutto l'audio dopo il silenzio
viene rilevato. Normalmente, questo sarà un valore 1 di ma può essere aumentato per saltare
nei periodi di silenzio desiderati. Ad esempio, se hai una canzone con 2
secondi di silenzio nel mezzo e 2 secondi alla fine, potresti impostare sotto-
periodo a un valore di 2 per saltare il silenzio nel mezzo dell'audio.
Da sotto-periodi, durata specifica un periodo di silenzio che deve esistere prima
l'audio non viene più copiato. Specificando una durata maggiore, silenzio cioè
desiderato può essere lasciato nell'audio. Ad esempio, se hai una canzone con un'attesa
1 secondo di silenzio nel mezzo e 2 secondi di silenzio alla fine, una durata
di 2 secondi potrebbe essere utilizzato per saltare il silenzio centrale.
Sfortunatamente, devi conoscere la durata del silenzio alla fine del tuo audio
file per tagliare il silenzio in modo affidabile. Una soluzione è usare il silenzio effetto in
combinazione con il invertire effetto. Invertendo prima l'audio, puoi usare il
sopra-periodi per tagliare in modo affidabile tutto l'audio da quella che sembra la parte anteriore del
file. Quindi invertire nuovamente il file per tornare alla normalità.
Per rimuovere il silenzio al centro di un file, specifica a sotto-periodi cioè
negativo. Questo valore viene quindi trattato come un valore positivo e viene utilizzato anche per
indicare che l'effetto deve riavviare l'elaborazione come specificato da sopra-periodi,
rendendolo adatto per rimuovere i periodi di silenzio nel mezzo dell'audio.
L'opzione -l indica che sotto-periodi durata la lunghezza dell'audio dovrebbe essere lasciata
intatto all'inizio di ogni periodo di silenzio. Ad esempio, se vuoi
rimuovere lunghe pause tra le parole ma non rimuovere completamente le pause.
. periodo i conteggi sono in unità di campioni. Durata i conteggi possono essere nel formato di
hh:mm:ss.frac, o il conteggio esatto dei campioni. Soglia i numeri possono essere suffissi
con d per indicare che il valore è in decibel, oppure % per indicare una percentuale di
valore massimo del valore del campione (0% specifica il puro silenzio digitale).
L'esempio seguente mostra come utilizzare questo effetto per avviare una registrazione che
non contiene il ritardo all'inizio che di solito si verifica tra `premere il
pulsante di registrazione' e l'inizio della performance:
rec parametri Nome del file altri-effetti silenzio 1 5 2%
sic [-a a|-b beta] [-p fase|-M|-I|-L] [-t TBW|-n rubinetti] [freqHP][-freqLP [-t tbw|-n
rubinetti]]
Applicare un filtro passa-basso, passa-alto, passa-banda o rifiuto-banda sinc Kaiser-windowed
al segnale. Il freqHP e freqLP parametri danno le frequenze dei 6dB
punti di un filtro passa-alto e passa-basso che possono essere invocati individualmente, oppure
insieme. Se vengono dati entrambi, allora freqHP meno di freqLP crea un passabanda
filtro, freqHP più grande di freqLP crea un filtro di rifiuto della banda. Ad esempio, il
invocazioni
dal 3k
sin -4k
sic 3k-4k
sic 4k-3k
creare rispettivamente un filtro passa-alto, passa-basso, passa-banda e band-reject.
L'attenuazione della banda di arresto predefinita di 120dB può essere ignorata con -a;
in alternativa, il parametro "beta" di kaiser-window può essere fornito direttamente con -b.
La larghezza di banda di transizione predefinita del 5% della banda totale può essere sostituita con -t
(E TBW in Hertz); in alternativa, il numero di rubinetti filtro può essere indicato direttamente
con -n.
Se entrambi freqHP e freqLP sono dati, quindi a -t or -n opzione data a sinistra di
le frequenze si applicano a entrambe le frequenze; una di queste opzioni date al
il diritto delle frequenze si applica solo a freqLP.
. -p, -M, -Ie -L le opzioni controllano la risposta di fase del filtro; vedere il tasso
effetto per i dettagli.
Questo effetto supporta il --complotto opzione globale.
spettrogramma [Opzioni]
Creare uno spettrogramma dell'audio; l'audio viene passato senza modifiche attraverso il SoX
catena di lavorazione. Questo effetto è facoltativo - digita sox --Aiuto e controlla l'elenco di
effetti supportati per vedere se è stato incluso.
Lo spettrogramma è reso in un file Portable Network Graphic (PNG) e mostra
tempo sull'asse X, frequenza sull'asse Y e ampiezza del segnale audio sull'asse Z
asse. I valori dell'asse Z sono rappresentati dal colore (o facoltativamente dall'intensità) di
i pixel nel piano XY. Se il segnale audio contiene più canali, allora
questi sono mostrati dall'alto verso il basso a partire dal canale 1 (che è il sinistro
canale per l'audio stereo).
Ad esempio, se `my.wav' è un file stereo, allora con
sox my.wav -n spettrogramma
uno spettrogramma dell'intero file verrà creato nel file `spectrogram.png'.
Più spesso, però, è richiesta l'analisi di una porzione più piccola dell'audio; per esempio
con
sox my.wav -n remix 2 trim 20 30 spettrogramma
lo spettrogramma mostra le informazioni solo dal secondo canale (destro) e di
trenta secondi di audio a partire da venti secondi in. Per analizzare un piccolo
porzione del dominio della frequenza, il tasso effetto può essere utilizzato, ad es
spettrogramma sox my.wav -n rate 6k
consente un'analisi dettagliata delle frequenze fino a 3kHz (metà della frequenza di campionamento) cioè
dove il sistema uditivo umano è più sensibile. Insieme a
sox my.wav -n trim 0 10 spettrogramma -x 600 -y 200 -z 100
le opzioni fornite controllano la dimensione degli assi X, Y e Z dello spettrogramma (in questo
caso, l'area dello spettrogramma dell'immagine prodotta avrà una dimensione di 600 x 200 pixel
e l'intervallo dell'asse Z sarà di 100 dB). Si noti che l'immagine prodotta include assi
legende ecc. e quindi sarà leggermente più grande della dimensione dello spettrogramma specificata.
In questo esempio:
sox -n -n synth 6 tri 10k:14k spettrogramma -z 100 -w kaiser
viene selezionata una "finestra" di analisi con alta gamma dinamica per visualizzare al meglio il
spettrogramma di un'onda triangolare spazzata. Per un esempio simile, aggiungi quanto segue
al comando "suono" nella descrizione del ritardo effetto (sopra):
spettrogramma rate 2k -X 200 -Z -10 -w kaiser
Sono disponibili anche opzioni per controllare l'aspetto (set di colori, luminosità,
contrasto, ecc.) e nome del file dello spettrogramma; ad esempio con
sox my.wav -n spettrogramma -m -l -o print.png
viene creato uno spettrogramma adatto alla stampa su una stampante 'in bianco e nero'.
Opzioni:
-x num Modificare la larghezza (massima) (asse X) dello spettrogramma rispetto al suo valore predefinito
valore di 800 pixel a un dato numero compreso tra 100 e 200000. Vedi anche -X
e -d.
-X num Pixel/secondo dell'asse X; l'impostazione predefinita è calcolata automaticamente per adattarsi al dato o
durata audio nota alla dimensione dell'asse X o 100 altrimenti. Se dato in
congiunzione con -d, questa opzione influisce sulla larghezza dello spettrogramma;
in caso contrario, influisce sulla durata dello spettrogramma. num può essere da 1
(bassa risoluzione temporale) a 5000 (alta risoluzione temporale) e non è necessario che sia an
numero intero. SoX può apportare una leggera modifica al numero dato per
motivi di quantificazione dell'elaborazione; in tal caso, SoX riporterà il numero effettivo
utilizzato (visualizzabile quando l'opzione globale SoX -V è in vigore). Guarda anche -x e
-d.
-y num Imposta la dimensione dell'asse Y in pixel (per canale); questo è il numero di
'bin' di frequenza utilizzati nell'analisi di Fourier che produce lo spettrogramma.
NB può essere lento produrre lo spettrogramma se questo numero non è uno
più di una potenza di due (es. 129). Per impostazione predefinita viene scelta la dimensione dell'asse Y
automaticamente (a seconda del numero di canali). Vedere -Y per alternativa
modo di impostare l'altezza dello spettrogramma.
-Y num Imposta l'altezza totale di destinazione dello spettrogramma. Il valore predefinito è
550 pixel. Usando questa opzione (e per impostazione predefinita), SoX sceglierà un'altezza
per i singoli canali dello spettrogramma che è uno in più di una potenza di due, quindi
l'altezza totale effettiva potrebbe essere inferiore al numero indicato. Tuttavia, c'è
è anche un'altezza minima per canale, quindi se ci sono molti canali, il
numero può essere superato. Vedere -y per un modo alternativo di impostare lo spettrogramma
altezza.
-z num Gamma dell'asse Z (colore) in dB, default 120. Imposta la gamma dinamica di
lo spettrogramma per essere -num dBFS a 0 dBFS. In può variare da 20 a 180.
Diminuendo la gamma dinamica si aumenta effettivamente il "contrasto" del
visualizzazione dello spettrogramma e viceversa.
-Z num Imposta il limite superiore dell'asse Z in dBFS. Un negativo num in maniera efficace
aumenta la "luminosità" della visualizzazione dello spettrogramma e viceversa.
-q num Imposta la quantizzazione dell'asse Z, ovvero il numero di colori diversi (o
intensità) in cui eseguire il rendering dei valori dell'asse Z. Un piccolo numero (es. 4) lo farà
danno un effetto simile a un "poster" rendendo più facile distinguere le bande di magnitudine di
livello simile. Anche i numeri piccoli di solito danno luogo a piccoli file PNG. Il
numero fornito specifica il numero di colori da utilizzare all'interno dell'intervallo dell'asse Z;
due colori sono riservati per rappresentare valori fuori intervallo.
-w Nome
Finestra: Hann (predefinito), Hamming, Bartlett, Rettangolare o Kaiser. Il
spettrogramma viene prodotto utilizzando la trasformata discreta di Fourier (DFT)
algoritmo. Un parametro significativo per questo algoritmo è la scelta di
"funzione finestra". Per impostazione predefinita, SoX utilizza la finestra di Hann che ha un buon
proprietà rotonde di risoluzione in frequenza e di gamma dinamica. Per meglio
risoluzione in frequenza (ma gamma dinamica inferiore), selezionare una finestra di Hamming; per
gamma dinamica più alta (ma con una risoluzione in frequenza inferiore), selezionare un Kaiser
finestra. Sono disponibili anche finestre Bartlett e Rettangolari.
-W num Parametro di regolazione della finestra. Questo può essere utilizzato per apportare piccole modifiche a
la forma della finestra Kaiser. Un numero positivo (fino a dieci) aumenta il suo
gamma dinamica, un numero negativo la diminuisce.
-s Consenti sovrapposizione lenta delle finestre DFT. Questo può, in alcuni casi, aumentare
nitidezza dell'immagine e dare maggiore aderenza al -x valore, ma al
spesa di una piccola perdita spettrale.
-m Crea uno spettrogramma monocromatico (l'impostazione predefinita è il colore).
-h Seleziona una tavolozza di colori alta - meno gradevole dal punto di vista visivo rispetto all'impostazione predefinita
tavolozza dei colori, ma può rendere più semplice differenziare i diversi livelli.
Se questa opzione viene utilizzata insieme a -m, il risultato sarà un ibrido
tavolozza monocromatica/colore.
-p num Permuta i colori in una tavolozza di colori o ibrida. Il num parametro, da
Da 1 (predefinito) a 6, seleziona la permutazione.
-l Crea uno spettrogramma "stampabile" con uno sfondo chiaro (il
l'impostazione predefinita ha uno sfondo scuro).
-a Sopprime la visualizzazione delle linee degli assi. Questo a volte è utile per aiutare
per distinguere gli artefatti ai bordi dello spettrogramma.
-r Spettrogramma grezzo: sopprime la visualizzazione di assi e legende.
-A Seleziona un set di colori alternativo e fisso. Questo è previsto solo per
compatibilità con spettrogrammi prodotti da un altro pacchetto. Non dovrebbe
normalmente essere utilizzato in quanto presenta alcuni problemi, non ultimo la mancanza di
differenziazione all'estremità inferiore che si traduce in mascheramento di basso livello
artefatti.
-t testo
Imposta il titolo dell'immagine - testo da visualizzare sopra lo spettrogramma.
-c testo
Imposta (o cancella) il commento dell'immagine - testo da visualizzare sotto ea sinistra di
lo spettrogramma.
-o testo
Nome del file PNG di output dello spettrogramma, predefinito `spectrogram.png'.
Filtri Opzioni:
Per elaborare una sezione più piccola di audio senza influenzare altri effetti o
il segnale di uscita (a differenza di quando il tagliare viene utilizzato l'effetto), le seguenti opzioni possono
essere usato.
-d durata
Questa opzione imposta la risoluzione dell'asse X in modo tale che l'audio con il dato
durata ([[HH:]MM:]SS) si adatta alla larghezza dell'asse X selezionata (o predefinita). Per
esempio,
sox input.mp3 output.wav -n spettrogramma -d 1:00 stats
crea uno spettrogramma che mostra il primo minuto dell'audio, mentre
, il stats l'effetto viene applicato all'intero segnale audio.
Vedi anche -X per un modo alternativo di impostare la risoluzione dell'asse X.
-S tempo
Avvia lo spettrogramma nel punto indicato nel flusso audio. Per esempio
spettrogramma sox input.aiff output.wav -S 1:00
crea uno spettrogramma che mostra tutto tranne il primo minuto dell'audio (il
file di output, tuttavia, riceve l'intero flusso audio).
Per la possibilità di eseguire l'elaborazione off-line dei dati spettrali, vedere il stat
effetto.
velocità fattore[c]
Regola la velocità dell'audio (intonazione e tempo insieme). fattore è il rapporto di
la nuova velocità alla vecchia velocità: maggiore di 1 accelera, meno di 1 rallenta,
oppure, se aggiunto alla lettera `c', il numero di centesimi (es. centesimi di a
semitono) di cui si deve regolare l'intonazione (e il tempo): maggiore di 0
aumenta, meno di 0 diminuisce.
Tecnicamente, l'effetto velocità cambia solo le informazioni sulla frequenza di campionamento, lasciando
campioni stessi intatti. Il tasso l'effetto viene invocato automaticamente per ricampionare
alla frequenza di campionamento in uscita, utilizzando la sua qualità/velocità predefinita. Per una qualità superiore o
ricampionamento a velocità più elevata, oltre al velocità effetto, specificare il tasso effetto
con l'opzione di qualità desiderata.
Vedi anche il piegare, intonazionee tempo effetti.
giunzione [-h|-t|-q] { posizione[,eccesso[,scarroccio]] }
Unire le sezioni audio. Questo effetto fornisce due cose rispetto al semplice audio
concatenazione: all'unione viene applicata una dissolvenza incrociata (di solito breve) e un'onda
il confronto di similarità è fatto per aiutare a determinare il posto migliore in cui fare il
aderire.
Una delle opzioni -h, -t, o -q può essere dato per selezionare l'inviluppo di dissolvenza come metà
onda coseno (predefinita), triangolare (ovvero lineare) o onda quarto di coseno
rispettivamente.
Tipo audio Dissolvenza livello transizioni
t guadagno costante correlato brusco
h guadagno costante correlato smooth
q potenza costante non correlata liscia
Per eseguire una giunzione, utilizzare prima il tagliare effetto per selezionare le sezioni audio da
uniti insieme. Come quando si esegue una giunzione del nastro, la fine della sezione da
impiombato su dovrebbe essere tagliato con un piccolo eccesso (predefinito 0.005 secondi) di audio
dopo il punto di unione ideale. L'inizio della sezione audio da unire
dovrebbe essere tagliato con lo stesso eccesso (prima del punto di giunzione ideale), più an
aggiuntivo scarroccio (predefinito 0.005 secondi). SoX dovrebbe quindi essere invocato con i due
sezioni audio come file di input e il giunzione effetto dato con la posizione a
quale eseguire la giunzione - questa è la lunghezza della prima sezione audio (incluso
l'eccesso).
Il diagramma seguente utilizza l'analogia del nastro per illustrare l'operazione di giunzione.
L'effetto simula i tagli diagonali e unisce i due pezzi:
lunghezza1 eccesso
-----------><--->
_________ : : _________________
\ : : :\ `
\ : : : \ `
\: : : \ `
* : : * - - *
\ : : :\ `
\ : : : \ `
_______________\: : : \_______`____
: : : :
<---> <----->
margine di manovra in eccesso
dove * indica i punti di giunzione.
Ad esempio, una lunga canzone inizia con due versi che iniziano (come determinato ad esempio da
usando il PLAY comando con il tagliare (inizia a) effetto) a volte 0:30.125 e
1:03.432. I seguenti comandi tagliano il primo verso:
sox troppo lungo.wav part1.wav trim 0 30.130
(5 ms in eccesso, dopo l'inizio della prima strofa)
sox troppo lungo.wav part2.wav trim 1:03.422
(5 ms in eccesso più 5 ms di margine, prima che inizi la seconda strofa)
sox part1.wav part2.wav just-right.wav giunzione 30.130
Per un altro esempio, il comando SoX
play "|sox -n -p synth 1 sin %1" "|sox -n -p synth 1 sin %3"
genera e suona due note, ma c'è un brutto clic alla transizione; il
il clic può essere rimosso unendo invece di concatenare l'audio, ad es
aggiungendo giunzione 1 al comando. (Clic all'inizio e alla fine dell'audio
può essere rimosso da precedente l'effetto di giunzione con dissolvenza q .01 2 .01).
A condizione che l'aritmetica sia sufficientemente buona, è possibile eseguire più giunzioni con a
singolo giunzione invocazione. Per esempio:
#!/bin/sh
# Copia e incolla audio sopra
# acpo infile copy-start copia-stop incolla-over-start outfile
# Tutti i tempi misurati in campioni.
rate=`soxi -r "$1"`
e=`expr $rate '*' 5 / 1000` # Usando l'eccesso di default
l=$e # e margine di manovra.
sox "$1" pezzo.wav trim `expr $2 - $e - $l`s \
`espr $3 - $2 + $e + $l + $e`s
sox "$1" part1.wav trim 0 `expr $4 + $e`s
sox "$1" part2.wav trim `espr $4 + $3 - $2 - $e - $l`s
sox part1.wav piece.wav part2.wav "$5" giunzione \
`espr $4 + $e`s \
`espr $4 + $e + $3 - $2 + $e + $l + $e`s
Nello script della shell Bourne sopra, vengono utilizzate due giunzioni per "copiare e incollare" l'audio.
* * *
È anche possibile utilizzare questo effetto per eseguire dissolvenze incrociate generali, ad esempio per unire
due canzoni. In questo caso, eccesso sarebbe tipicamente un numero di secondi, il -q
in genere viene data l'opzione (per selezionare una dissolvenza incrociata di "potenza uguale") e scarroccio
dovrebbe essere zero (che è l'impostazione predefinita se -q viene data). Ad esempio, se f1.wav e
f2.wav sono file audio da dissolvere in modo incrociato, quindi
sox f1.wav f2.wav out.wav giunzione -q $(soxi -D f1.wav),3
dissolvenza incrociata dei file in cui il punto di uguale volume è 3 secondi prima della fine
di f1.wav, ovvero la lunghezza totale della dissolvenza incrociata è 2 × 3 = 6 secondi (Nota: il
La notazione $(...) è POSIX shell).
stat [-s scala] [-rms] [-frequenza] [-v] [-d]
Visualizza informazioni statistiche nel dominio del tempo e della frequenza sull'audio. Audio
viene passato senza modifiche attraverso la catena di elaborazione SoX.
L'informazione viene emessa nel flusso di `errore standard' (stderr) ed è
calcolato, dove n è la durata dell'audio in campioni, c è il numero di
canali audio, r è la frequenza di campionamento audio, e xk rappresenta il valore PCM (nel
intervallo da -1 a +1 per impostazione predefinita) di ciascun campione successivo nell'audio, come segue:
Campioni read n×c
Lunghezza (secondi) n÷r
Scaled by Vedi -s sotto.
Massimo ampiezza max (xk) Il valore massimo del campione
nell'audio; generalmente
questo sarà un aspetto positivo
numero.
Minimo ampiezza minimo (xk) Il valore minimo del campione
nell'audio; generalmente
questo sarà un aspetto negativo
numero.
Linea mediana ampiezza ½ min(xk)+½max(xk)
Significare norma ¹/nΣ│xk│ La media dei
valore assoluto di ciascuno
campione nell'audio.
Significare ampiezza ¹/nΣxk La media di ciascuno
campione nell'audio. Se
questa cifra è diversa da zero,
poi indica il
presenza di una DC
offset (che potrebbe essere
rimosso usando il
dcshift effetto).
RMS ampiezza (¹/nΣxk²) Il livello di un DC
segnale che avrebbe
la stessa potenza di
potenza media dell'audio.
Massimo delta massimo(│xk-xk-1│)
Minimo delta minimo(│xk-xk-1│)
Significare delta ¹/n-1Σ│xk-xk-1│
RMS delta (¹/n-1Σ(xk-xk-1)²)
Grezzo frequenza InHz.
Volume Adattamento Il parametro per il vol
effetto che farebbe
l'audio forte come
possibile senza
ritaglio. Nota: vedere il
discussione su Ritaglio
sopra per i motivi per cui è
raramente è una buona idea
effettivamente per farlo.
Si noti che le misurazioni delta non sono applicabili per l'audio multicanale.
. -s L'opzione può essere utilizzata per ridimensionare i dati di input di un dato fattore. Il predefinito
valore di scala è 2147483647 (ovvero il valore massimo di un intero con segno a 32 bit).
Gli effetti interni funzionano sempre con dati PCM lunghi firmati e quindi il valore dovrebbe
riguardano questo fatto.
. -rms l'opzione convertirà tutti i valori medi di output in "root mean square"
formato.
. -v L'opzione visualizza solo il valore "Regolazione volume".
. -frequenza l'opzione calcola lo spettro di potenza dell'ingresso (4096 punti DFT) invece di
le statistiche sopra elencate. Questo dovrebbe essere usato solo con un audio a canale singolo
file.
. -d l'opzione visualizza un dump esadecimale dell'audio dei dati PCM firmato a 32 bit nei SoX
tampone interno. Questo è principalmente usato per aiutare a rintracciare i problemi endian che
a volte si verificano nelle versioni multipiattaforma di SoX.
Vedi anche il stats effetto.
stats [-b bit|-x bit|-s scala] [-w finestra-tempo]
Visualizzare informazioni statistiche nel dominio del tempo sui canali audio; l'audio è
passato senza modifiche attraverso la catena di elaborazione SoX. Le statistiche sono calcolate e
visualizzato per ciascun canale audio e, ove applicabile, viene anche fornito un dato complessivo
dato.
Ad esempio, per un tipico file musicale stereo ben masterizzato:
Complessivamente Sinistra Destra
Offset CC 0.000803 -0.000391 0.000803
Livello minimo -0.750977 -0.750977 -0.653412
Livello massimo 0.708801 0.708801 0.653534
Pk lev dB -2.49 -2.49 -3.69
Livello efficace dB -19.41 -19.13 -19.71
RMS Pk dB -13.82 -13.82 -14.38
RMS Tr dB -85.25 -85.25 -82.66
Fattore di cresta - 6.79 6.32
Fattore piatto 0.00 0.00 0.00
Conteggio pezzi 2 2 2
Bit-profondità 16/16 16/16 16/16
Numero campioni 7.72 M
Lunghezza s 174.973
Scala max 1.000000
Finestra s 0.050
DC offset, Min livelloe Max livello sono mostrati, per impostazione predefinita, nell'intervallo ±1. Se la
-b (bit) vengono fornite le opzioni, quindi queste tre misurazioni verranno ridimensionate a a
intero con segno con il dato numero di bit; ad esempio, per 16 bit, la scala
sarebbe da -32768 a +32767. Il -x opzione si comporta allo stesso modo di -b salvo che
i valori interi con segno sono visualizzati in esadecimale. Il -s opzione ridimensiona il
tre misurazioni da un dato numero in virgola mobile.
Pk lev dB e RMS lev dB sono il picco standard e il livello RMS misurati in dBFS.
RMS Pk dB e RMS Tr dB sono i valori di picco e minimo per il livello RMS misurati su a
finestra breve (predefinito 50 ms).
cresta fattore è il rapporto standard tra picco e livello RMS (nota: non in dB).
Piatto fattore è una misura della planarità (cioè campioni consecutivi con lo stesso
valore) del segnale ai suoi livelli di picco (cioè sia Min livello, o Max livello).
Pk contare è il numero di occasioni (non il numero di campioni) che il segnale
raggiunto sia Min livello, o Max livello.
La mano destra Profondità di bit la figura è la definizione standard di profondità di bit cioè bit
meno significativo del numero dato sono fissati a zero. La figura di sinistra è
il numero di bit più significativi che sono fissati a zero (o uno per negativo
numeri) sottratto dalla cifra di destra (il numero sottratto è direttamente
correlate a Pk lev dB).
Per l'audio multicanale, una cifra complessiva per ciascuna delle misurazioni di cui sopra è
dato e derivato dalle cifre del canale come segue: DC offset: massimo
grandezza; Max livello, Pk lev dB, RMS Pk dB, Profondità di bit: massimo; Min livello,
RMS Tr dB: minimo; RMS lev dB, Piatto fattore, Pk contare: media; cresta fattore: no
applicabile.
Lunghezza s è la durata in secondi dell'audio, e In campioni è uguale a
frequenza di campionamento moltiplicata per Lunghezza. Scala Max è la scala applicata al primo
tre misurazioni; nello specifico, è il valore massimo applicabile a
Max livello. Finestra s è la lunghezza della finestra utilizzata per il picco e il minimo RMS
misurazioni.
Vedi anche il stat effetto.
swap Scambia i canali stereo. Guarda anche remix per un effetto che consente un canale arbitrario
selezione e ordinamento (e miscelazione).
tratto fattore [finestra dissolvenza spostamento dissolvenza]
Modifica la durata dell'audio (ma non il tono). Questo effetto è sostanzialmente equivalente
ai tempo effetto con (fattore invertito e) Ricerca impostato a zero, quindi in generale,
i suoi risultati sono relativamente scarsi; viene mantenuto in quanto a volte può superare le prestazioni
tempo per le piccole fattores.
fattore di allungamento: >1 allunga, <1 accorcia la durata. finestra la dimensione è in ms.
L'impostazione predefinita è 20 ms. Il dissolvenza opzione, può essere `lin'. spostamento rapporto, in [0 1]. Predefinito
dipende dal fattore di allungamento. 1 per accorciare, 0.8 per allungare. Il dissolvenza rapporto, in [0
0.5]. La quantità di default di una dissolvenza dipende da fattore e spostamento.
Vedi anche il tempo effetto.
synth [-j KEY] [-n] [len [MENO [ph [p1 [p2 [p3]]]]]] {[Digitare] [combinare]
[[%]frequenza[k][:|+|/|-[%]frequenza2[k]]] [MENO [ph [p1 [p2 [p3]]]]]}
Questo effetto può essere utilizzato per generare toni audio a frequenza fissa o a scansione con
varie forme d'onda, o per generare rumore a banda larga di vari "colori". multiplo
gli effetti synth possono essere collegati in cascata per produrre forme d'onda più complesse; in ogni fase è
è possibile scegliere se la forma d'onda generata sarà mescolata con, oppure
modulato sull'uscita della fase precedente. Audio per ogni canale in a
il file audio multicanale può essere sintetizzato indipendentemente.
Sebbene questo effetto venga utilizzato per generare l'audio, è comunque necessario fornire un file di input,
le cui caratteristiche verranno utilizzate per impostare la lunghezza dell'audio sintetizzato, il
numero di canali e frequenza di campionamento; tuttavia, poiché l'audio del file di input è
normalmente non necessario, un `file nullo' (con il nome speciale -n) è spesso dato
invece (e la lunghezza specificata come parametro a synth o da un altro dato
effetto che può avere una lunghezza associata).
Ad esempio, quanto segue produce un file audio di 3 secondi, 48kHz, contenente a
sinusoidale spazzata da 300 a 3300 Hz:
sox -n output.wav synth 3 seno 300-3300
e questo produce una versione a 8 kHz:
sox -r 8000 -n output.wav synth 3 seno 300-3300
È possibile sintetizzare più canali specificando il set di parametri mostrato
tra parentesi graffe più volte; il seguente mette il tono spazzato a sinistra
canale e aggiunge il rumore "marrone" a destra:
sox -n output.wav synth 3 sinusoidale 300-3300 brownnoise
L'esempio seguente mostra come due effetti synth possono essere collegati in cascata per creare un altro
forma d'onda complessa:
play -n synth 0.5 sinusoidale 200-500 synth 0.5 sinusoidale fmod 700-100
Le frequenze possono anche essere date in notazione "scientifica" o, anteponendo un "%"
carattere, come un numero di semitoni relativo al `La centrale' (440 Hz). Per esempio,
quanto segue potrebbe essere usato per aiutare ad accordare la corda "E" bassa di una chitarra:
play -n synth 4 pizzica %-29
o con un loop (Bourne shell), l'intera chitarra:
per n in MI2 LA2 RE3 SOL3 SI3 MI4; fare
play -n synth 4 pizzica $n ripeti 2; fatto
Vedere la ritardo effetto (sopra) e il riferimento a "Esempi di scripting SoX" (sotto)
per maggiori synth esempi.
NB Questo effetto genera l'audio al volume massimo (0dBFS), il che significa che non c'è
è un'alta probabilità di clipping quando si utilizza l'audio successivamente, quindi in molti casi,
vorrai seguire questo effetto con il guadagno effetto per prevenire questo da
accadendo. (Guarda anche Ritaglio sopra.) Si noti che, per impostazione predefinita, il synth effetto
incorpora la funzionalità di guadagno -h (Vedi guadagno effetto per i dettagli);
synth's -n l'opzione può essere data per disabilitare questo comportamento.
Una descrizione dettagliata di ciascuno synth parametro segue:
len è la lunghezza dell'audio da sintetizzare espressa come tempo o come numero di
campioni; 0=lunghezza di input, default=0.
Il formato per specificare le lunghezze nel tempo è hh:mm:ss.frac. Il formato per
specificare il conteggio dei campioni è il numero di campioni con la lettera "s" aggiunta a
esso.
Digitare è uno di seno, quadrato, triangolo, dente di sega, trapezio, exp, [bianco] rumore,
tpdfnoise pinknoise, brownnoise, pluck; default=seno.
combinare è uno di create, mix, amod (modulazione di ampiezza), fmod (frequenza
modulazione); predefinito=crea.
frequenza/frequenza2 sono le frequenze di inizio/fine sintesi in Hz o, se
preceduto da `%', semitoni relativi al LA (440 Hz); in alternativa, "scientifico"
si può usare la notazione delle note (es. Mi2). La frequenza predefinita è 440Hz. Per impostazione predefinita,
l'accordatura usata con le notazioni di nota è "temperamento equabile"; il -j KEY opzione
seleziona "solo intonazione", dove KEY è un numero intero di semitoni relativo a
A (quindi, ad esempio, -9 o 3 seleziona la tonalità di C), o una nota in notazione scientifica.
If frequenza2 è dato, allora len deve anche essere stato dato e il tono generato lo farà
essere spazzato tra le frequenze date. Le due frequenze date devono essere
separato da uno dei caratteri `:', `+', `/' o `-'. Questo carattere è usato
per specificare la funzione di scansione come segue:
: Lineare: il tono cambierà di un numero fisso di hertz al secondo.
+ Quadrato: una funzione di secondo ordine viene utilizzata per cambiare il tono.
/ Esponenziale: il tono cambierà di un numero fisso di semitoni al secondo.
- Esponenziale: come `/', ma fase iniziale sempre zero, e a gradini (meno
dolce) variazioni di frequenza.
Non utilizzato per il rumore.
MENO è la polarizzazione (DC-offset) del segnale in percentuale; predefinito=0.
ph è lo sfasamento in percentuale di 1 ciclo; predefinito=0. Non utilizzato per il rumore.
p1 è la percentuale di ogni ciclo che è "acceso" (quadrato) o "ascendente" (triangolo,
exp, trapezio); default=50 (quadrato, triangolo, exp), default=10 (trapezio), o
sostenere (prendere); predefinito=40.
p2 (trapezio): la percentuale attraverso ogni ciclo in cui inizia la "caduta";
predefinito=50. exp: l'ampiezza in multipli di 2dB; default=50, o tone-1 (pizzicare);
predefinito=20.
p3 (trapezio): la percentuale attraverso ogni ciclo alla quale termina la "caduta";
default=60, o tone-2 (pizzicare); predefinito=90.
tempo [-q] [-m|-s|-l] fattore [segmento [Ricerca [sovrapposizione]]]
Modifica la velocità di riproduzione dell'audio ma non il tono. Questo effetto utilizza il WSOLA
algoritmo. L'audio viene suddiviso in segmenti che vengono poi spostati nel tempo
dominio e sovrapposti (dissolvenza incrociata) nei punti in cui le loro forme d'onda sono più
simile come determinato dalla misurazione dei "minimi quadrati".
Per impostazione predefinita, le ricerche lineari vengono utilizzate per trovare i migliori punti di sovrapposizione. Se la
opzionale -q viene fornito il parametro, vengono invece utilizzate le ricerche ad albero. Questo rende il
l'effetto funziona più rapidamente, ma il risultato potrebbe non sembrare altrettanto buono. Tuttavia, se tu
deve migliorare la velocità di elaborazione, questo generalmente riduce meno la qualità del suono
piuttosto che ridurre i valori di ricerca o di sovrapposizione.
. -m l'opzione viene utilizzata per ottimizzare i valori predefiniti di segmento, ricerca e sovrapposizione per
elaborazione musicale.
. -s l'opzione viene utilizzata per ottimizzare i valori predefiniti di segmento, ricerca e sovrapposizione per
elaborazione del discorso.
. -l l'opzione viene utilizzata per ottimizzare i valori predefiniti di segmento, ricerca e sovrapposizione per
elaborazione "lineare" che tende a causare una distorsione più evidente ma può essere
utile quando il fattore è vicino a 1.
Se viene specificato -m, -s o -l, verrà calcolato il valore predefinito del segmento
in base al fattore, mentre i valori di ricerca e sovrapposizione predefiniti si basano sul segmento. Qualunque
i valori forniti continuano a sovrascrivere questi valori predefiniti.
fattore fornisce il rapporto tra il nuovo tempo e il vecchio tempo, quindi ad es. 1.1 accelera il
il tempo del 10% e 0.9 lo rallenta del 10%.
Facoltativo segmento parametro seleziona la dimensione del segmento dell'algoritmo in
millisecondi. Se non vengono specificati altri flag, il valore predefinito è 82 ed è
tipicamente adatto per apportare piccole modifiche al tempo della musica. Per cambiamenti più grandi
(es. un fattore di 2), 41 ms possono dare un risultato migliore. I flag -m, -s e -l
farà sì che l'impostazione predefinita del segmento venga regolata automaticamente in base al fattore. Per
esempio usando -s (per il parlato) con un tempo di 1.25 calcolerà un segmento predefinito
valore di 32.
Facoltativo Ricerca parametro fornisce la lunghezza dell'audio in millisecondi oltre la quale
l'algoritmo cercherà i punti sovrapposti. Se non vengono specificati altri flag, il
il valore predefinito è 14.68. Valori più grandi utilizzano più tempo di elaborazione e possono o meno
produrre risultati migliori. Un massimo pratico è la metà del valore del segmento. Ricerca
può essere ridotto per ridurre i tempi di elaborazione con il rischio di degradare la qualità dell'output. Il
I flag -m, -s e -l faranno sì che l'impostazione predefinita della ricerca venga regolata automaticamente
in base al segmento.
Facoltativo sovrapposizione Il parametro fornisce la lunghezza della sovrapposizione del segmento in millisecondi.
Il valore predefinito è 12, ma i flag -m, -s o -l regolano automaticamente la sovrapposizione in base a
dimensione del segmento. L'aumento della sovrapposizione aumenta il tempo di elaborazione e può aumentare
qualità. Un massimo pratico per la sovrapposizione è il valore della ricerca, con sovrapposizione
tipicamente essendo (almeno) un po' più piccolo di search.
Vedi anche velocità per un effetto che cambia tempo e tono insieme, intonazione e piegare
per gli effetti che cambiano solo l'intonazione, e tratto per un effetto che cambia tempo
utilizzando un algoritmo diverso.
triplo guadagno [frequenza[k] [larghezza[s|h|k|o|q]]]
Applicare un effetto di controllo dei toni alti. Vedi la descrizione del basso effetto per
dettagli.
tremolo velocità [profondità]
Applicare un effetto tremolo (modulazione di ampiezza a bassa frequenza) all'audio. Il
la frequenza del tremolo in Hz è data da velocitàe la profondità in percentuale di profondità
(predefinito 40).
tagliare {[=|-]posizione}
Taglia parti dell'audio. qualsiasi numero di posiziones può essere dato; l'audio non lo è
inviato all'uscita fino al primo posizione è raggiunto. L'effetto poi si alterna
tra la copia e l'eliminazione dell'audio a ciascuno posizione.
Se un posizione è preceduto da un segno di uguale o meno, è interpretato rispetto a
rispettivamente l'inizio o la fine dell'audio. (La lunghezza dell'audio deve essere
noto perché le posizioni relative all'estremità funzionino.) In caso contrario, è considerato un offset
dall'ultimo posizione, o dall'inizio dell'audio per il primo parametro. Usando
un valore di 0 per il primo posizione parametro consente di copiare dall'inizio di
l'audio.
Tutti i parametri possono essere specificati utilizzando una quantità di tempo o un conteggio esatto di
campioni. Il formato per specificare le lunghezze nel tempo è hh:mm:ss.frac. Un valore di
1:30.5 per il primo parametro non si avvia prima di 1 minuto, trenta e ½ secondi
nell'audio. Il formato per specificare i conteggi dei campioni è il numero di campioni
con la lettera "s" allegata. Un valore di 8000s per il primo parametro sarà
attendere che vengano letti 8000 campioni prima di iniziare a elaborare l'audio.
Per esempio,
sox infile outfile trim 0 10
copierà i primi dieci secondi, mentre
riproduci il taglio del file 12:34 = 15:00 -2:00
suonerà da 12 minuti 34 secondi nell'audio fino a 15 minuti nell'audio
(vale a dire 2 minuti e 26 secondi), quindi riprendere la riproduzione due minuti prima del
fine dell'audio.
sovracampionare [fattore]
Sovracampionare il segnale di un fattore intero: fattore-1 vengono inseriti campioni a valore zero
tra ogni coppia di campioni in ingresso. Di conseguenza, lo spettro originale è
replicato nel nuovo spazio di frequenza (aliasing) e attenuato. Questo
l'attenuazione può essere compensata aggiungendo vol fattore dopo ogni ulteriore
in lavorazione. L'effetto di sovracampionamento viene generalmente utilizzato in combinazione con il filtraggio
effetti.
Per un effetto di ricampionamento generale con anti-aliasing, vedere tasso. Vedi anche Downsample.
come [Opzioni]
Rilevatore di attività vocale. Tentativi di eliminare il silenzio e i suoni di sottofondo silenziosi da
le estremità delle registrazioni del parlato (abbastanza ad alta risoluzione, ad esempio 16 bit, 44-48 kHz).
L'algoritmo attualmente utilizza una semplice misurazione della potenza cepstrale per rilevare la voce,
quindi potresti essere ingannato da altre cose, specialmente dalla musica. L'effetto può essere tagliato solo da
la parte anteriore dell'audio, quindi per tagliare dalla parte posteriore, il invertire effetto deve
anche essere utilizzato. Per esempio
riproduci discorso.wav norma vad
tagliare dalla parte anteriore,
riproduci speech.wav norm reverse vad reverse
tagliare dalla parte posteriore, e
riproduci discorso.wav norm vad reverse vad reverse
tagliare da entrambe le estremità. L'uso del norma l'effetto è consigliato, ma ricorda
che neanche invertire né norma è adatto per l'uso con audio in streaming.
Opzioni:
I valori predefiniti sono mostrati tra parentesi.
-t num (7)
Il livello di misurazione utilizzato per attivare il rilevamento dell'attività. Questo potrebbe essere necessario
da modificare a seconda del livello di rumore, livello del segnale e altro
caratteristiche dell'audio in ingresso.
-T num (0.25)
La costante di tempo (in secondi) utilizzata per ignorare brevi raffiche di suoni.
-s num (1)
La quantità di audio (in secondi) per la ricerca di raffiche più silenziose/più brevi
audio da includere prima del punto di trigger rilevato.
-g num (0.25)
Intervallo consentito (in secondi) tra raffiche di audio più silenziose/più brevi da includere
prima del punto di attivazione rilevato.
-p num (0)
La quantità di audio (in secondi) da preservare prima del punto di trigger e
eventuali raffiche più silenziose/corte trovate.
Filtri Opzioni:
Questi consentono la regolazione fine dei parametri interni dell'algoritmo.
-b num L'algoritmo (internamente) utilizza la stima/riduzione del rumore adattiva nell'ordine
per rilevare l'inizio dell'audio desiderato. Questa opzione imposta l'ora per il
stima iniziale del rumore.
-N num Costante di tempo utilizzata dallo stimatore di rumore adattivo per quando il livello di rumore
sta aumentando.
-n num Costante di tempo utilizzata dallo stimatore di rumore adattivo per quando il livello di rumore
Sta diminuendo.
-r num Quantità di riduzione del rumore da utilizzare nell'algoritmo di rilevamento (ad es. 0, 0.5,
...).
-f num Frequenza delle elaborazioni/misurazioni dell'algoritmo.
-m num Durata della misurazione; per impostazione predefinita, il doppio del periodo di misurazione; cioè con
sovrapposizione.
-M num Costante di tempo utilizzata per smussare le misurazioni spettrali.
-h num Frequenza "muro di mattoni" del filtro passa-alto applicato all'ingresso del
algoritmo rivelatore.
-l num Frequenza "muro di mattoni" del filtro passa-basso applicato all'ingresso del
algoritmo rivelatore.
-H num Frequenza "muro di mattoni" del sollevatore passa-alto utilizzato nell'algoritmo del rilevatore.
-L num Frequenza "muro di mattoni" del sollevatore passa-basso utilizzato nell'algoritmo del rilevatore.
Vedi anche il silenzio effetto.
vol guadagno [Digitare [limite di guadagno]]
Applicare un'amplificazione o un'attenuazione al segnale audio. non mi piace il -v opzione
(che viene utilizzato per bilanciare più file di input quando entrano negli effetti SoX
filiera di trasformazione), vol è un effetto come un altro quindi può essere applicato ovunque, e
più volte se necessario, durante la catena di lavorazione.
La quantità per modificare il volume è data da guadagno che viene interpretato, secondo
il dato Digitare, come segue: se Digitare is ampiezza (o è omesso), allora guadagno offre
rapporto di ampiezza (cioè tensione o lineare), se energia, quindi una potenza (cioè wattaggio o
rapporto tensione-quadrato) e se dB, quindi una variazione di potenza in dB.
Quando Digitare is ampiezza or energia, una guadagno di 1 lascia il volume invariato, inferiore a
1 lo diminuisce e maggiore di 1 lo aumenta; un negativo guadagno inverte l'audio
segnale oltre a regolarne il volume.
Quando Digitare is dB, una guadagno di 0 lascia invariato il volume, minore di 0 lo diminuisce,
e maggiore di 0 lo aumenta.
Vedere [4] per una discussione dettagliata sulla tensione elettrica (e quindi del segnale audio)
e rapporti di potenza.
Diffidare di Ritaglio quando si aumenta il volume.
. guadagno e la Digitare i parametri possono essere concatenati se lo si desidera, ad es vol 10dB.
un optional limite di guadagno il valore può essere specificato e dovrebbe essere un valore molto inferiore a
1 (es. 0.05 o 0.02) e viene utilizzato solo sui picchi per evitare il clipping. Non
specificando questo parametro non verrà utilizzato alcun limitatore. In modalità dettagliata, questo
L'effetto mostrerà la percentuale dell'audio che doveva essere limitata.
Vedi anche guadagno per un effetto di variazione del volume con diverse capacità, e compagna
per un effetto di compressione/espansione/limitazione della gamma dinamica.
deprecato effetti
I seguenti effetti sono stati rinominati o hanno la loro funzionalità inclusa in un altro
effetto; continuano a funzionare in questa versione di SoX ma potrebbero essere rimossi in futuro.
di mischiare [ -l|-r|-f|-b|-1|-2|-3|-4|n{,n}]
Riduci il numero di canali audio mixando o selezionando i canali oppure aumenta
il numero di canali duplicando i canali. Nota: questo effetto agisce sul
Audio canali all'interno della catena di elaborazione degli effetti SoX; non deve essere confuso
con la -m opzione globale (dove multiple file sono mix-combinati prima di entrare
la catena degli effetti).
Quando si riduce il numero di canali è possibile utilizzare il -l, -r, -f, -b, -1,
-2, -3, -4, opzioni per selezionare solo i canali sinistro, destro, anteriore, posteriore o
canale specifico per l'uscita invece di fare la media dei canali. Il -le -r
le opzioni faranno la media nei file a quattro canali, quindi seleziona il canale esatto da
impedirlo.
. di mischiare l'effetto può essere richiamato anche con un massimo di 16 numeri, separati da virgole,
che specificano la proporzione (0 = 0% e 1 = 100%) di ciascun canale di ingresso che deve
essere mixato in ogni canale di uscita. In modalità a due canali, sono dati 4 numeri: l →
l, l → r, r → l e r → r, rispettivamente. In modalità a quattro canali, i primi 4
i numeri danno le proporzioni per il canale di uscita anteriore sinistro, come segue: lf →
lf, rf → lf, lb → lf e rb → rf. I successivi 4 danno l'uscita anteriore destra nel
stesso ordine, poi terzino sinistro e terzino destro.
È anche possibile utilizzare i 16 numeri per espandere o ridurre il conteggio dei canali;
basta specificare 0 per i canali non utilizzati.
Infine, alcune combinazioni di numeri ridotte possono essere specificate per determinate
combinazioni di canali di ingresso/uscita.
In Ch Fuori Ch In Mapping
2 1 2 l → l, dr → l
2 2 1 regola il bilanciamento
4 1 4 lf → l, rf → l, lb → l, rb → l
4 2 2 lf → l&rf → r, lb → l&rb → r
4 4 1 regola il bilanciamento
4 4 2 equilibrio anteriore, equilibrio posteriore
Questo effetto è stato sostituito dal remix effetto che gestisce un numero qualsiasi di
canali.
DIAGNOSTICA
Lo stato di uscita è 0 per nessun errore, 1 se c'è un problema con i parametri della riga di comando,
o 2 se si verifica un errore durante l'elaborazione del file.
Usa sox online utilizzando i servizi onworks.net
