Questo è il comando gsnap che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
gsnap - Programma di allineamento dei nucleotidi a lettura breve genomica
SINOSSI
snap [VERSIONI...] <FASTA file>, or gatto | gmap [OPZIONI...]
VERSIONI
Ingresso Opzioni (dovere includere -d)
-D, --dir=elenco
Elenco dei genomi. Predefinito (come specificato da --with-gmapdb al programma di configurazione)
is /var/cache/gmap
-d, --db=STRING
Database del genoma
--usa-array=INT
Se utilizzare un array di suffissi, che darà una maggiore velocità. Valori ammessi: 0
(no), 1 (sì, più algoritmo GSNAP/GMAP, predefinito) o 2 (sì, e usa solo il suffisso
algoritmo di matrice). Si noti che gli array di suffissi si polarizzano contro gli alleli SNP in
Allineamento SNP-tollerante.
-k, --Kmer=INT
dimensione kmer da utilizzare nel database del genoma (valori consentiti: 16 o meno) Se non specificato,
il programma troverà la dimensione kmer più alta disponibile nel database del genoma
--campionamento=INT
Campionamento da utilizzare nel database del genoma. Se non specificato, il programma troverà il
valore di campionamento più piccolo disponibile nel database del genoma entro la dimensione k-mer selezionata
-q, --parte=INT/INT
Elabora solo la i-esima di ogni n sequenze, ad esempio 0/100 o 99/100 (utile per
distribuzione di posti di lavoro a una farm di computer).
--dimensione-buffer-input=INT
Dimensione del buffer di input (il programma legge questo numero di sequenze alla volta per l'efficienza)
(predefinito 1000)
--lunghezza codice a barre=INT
Quantità di codice a barre da rimuovere dall'inizio della lettura (impostazione predefinita 0)
--orientamento=STRING
Orientamento delle letture paired-end Valori consentiti: FR (fwd-rev, o tipico Illumina;
default), RF (rev-fwd, per inserti circolari), o FF (fwd-fwd, stesso filo)
--fastq-id-inizio=INT
Posizione iniziale dell'identificatore nell'intestazione FASTQ, delimitata da spazi (>= 1)
--fastq-id-fine=INT
Posizione finale dell'identificatore nell'intestazione FASTQ, delimitata da spazi (>= 1)
Consigli d'uso:
@HWUSI-EAS100R:6:73:941:1973#0/1
inizio=1, fine=1 (predefinito) => l'identificatore è HWUSI-EAS100R:6:73:941:1973#0
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36
inizio=1, fine=1 => l'identificatore è SRR001666.1 start=2, fine=2 => l'identificatore è
071112_SLXA-EAS1_s_7:5:1:817:345 inizio=1, fine=2 => l'identificatore è SRR001666.1
071112_SLXA-EAS1_s_7:5:1:817:345
--force-end-single
Quando vengono forniti più file FASTQ sulla riga di comando, GSNAP presume che lo siano
corrispondenti file paired-end. Questo flag tratta ogni file come single-end.
--filtro-castità=STRING
Salta le letture contrassegnate dal programma di castità Illumina. Aspettando una stringa dopo il
accessione con una 'Y' dopo i primi due punti, in questo modo:
@adesione 1:Y:0:CTTGTA
dove la 'Y' significa filtrare per castità. Valori: off (predefinito), o,
entrambi. Per "entrambi", verrà filtrata una "Y" su entrambe le estremità di una lettura paired-end.
Per 'entrambi', è richiesta una 'Y' su entrambe le estremità di una lettura paired-end (o sull'unica estremità
di una lettura a un'estremità).
--allow-pe-name-mancata corrispondenza
Consente la mancata corrispondenza dei nomi di accesso delle letture nei file paired-end
--guzip
Decomprimere i file di input compressi con gzip
--bunzip2
Decomprimere i file di input compressi con bzip2
Opzioni di calcolo
Nota: GSNAP dispone di un algoritmo ultraveloce per il calcolo delle discrepanze fino a e
Compreso
((readlength+2)/kmer - 2) ("disadattamenti ultraveloci"). Il programma verrà eseguito più velocemente se
max-mismatch (più livelli subottimali) è compreso in quel valore. Inoltre, indels, soprattutto
end indels, richiede più tempo per il calcolo, sebbene l'algoritmo sia ancora progettato per essere veloce.
-B, --lotto=INT
Modalità batch (impostazione predefinita = 2)
Modalità Offset Posizioni Genoma Suffisso array
0 vedi nota mmap mmap mmap
1 vedi nota mmap e precarica mmap mmap
2 vedi nota mmap e precarica mmap e precarica mmap e precarica
3 vedi nota allocare mmap e precaricare mmap e precaricare
(predefinito) 4 vedi nota allocare allocare mmap e precaricare
5 vedi nota allocare allocare allocare
Nota: per una singola sequenza, tutte le strutture dati utilizzano mmap
Se mmap non è disponibile e allocare non è stato scelto, utilizzerà fileio (molto lento)
Nota sugli offset: l'espansione degli offset può essere controllata
indipendentemente dal --espandi-offset bandiera. Tuttavia, si accede agli offset
relativamente veloce in questa versione di GSNAP.
--usa-memoria-condivisa=INT
Se 1 (predefinito), la memoria allocata è condivisa tra tutti i processi su questo nodo.
Se 0, allora ogni processo ha una memoria allocata privata
--espandi-offset=INT
Se espandere l'indice degli offset genomici Valori: 0 (no, predefinito) o 1 (sì).
L'espansione offre un allineamento più rapido, ma richiede più memoria
-m, --max-mismatch=FLOAT
Numero massimo di mismatch consentiti (se non specificato, il valore predefinito è il
livello ultraveloce di ((readlength+index_interval-1)/kmer - 2)) (per impostazione predefinita, il
l'intervallo dell'indice del genoma è 3, ma può essere modificato fornendo un valore diverso
per -q a gmap_build durante l'elaborazione del genoma.)
Se specificato tra 0.0 e 1.0, quindi trattato come una frazione
di ogni lunghezza di lettura. Altrimenti, trattato come un numero intero di disallineamenti
(comprese le penalità di indel e splicing) Per RNA-Seq, potrebbe essere necessario aumentarlo
valore leggermente per allineare le letture che si estendono oltre le estremità di un esone.
--min-copertura=FLOAT
Copertura minima richiesta per un allineamento. Se specificato tra 0.0 e 1.0, allora
trattata come una frazione di ciascuna lunghezza di lettura. Altrimenti, trattato come un integrale
numero di coppie di basi. Il valore predefinito è 0.0.
--query-un-mismatch=INT
Se contare i caratteri sconosciuti (N) nella query come mancata corrispondenza (0=no (predefinito),
1=sì)
--genome-un-mismatch=INT
Se contare i caratteri sconosciuti (N) nel genoma come mancata corrispondenza (0=no, 1=sì
(predefinito))
--maxsearch=INT
Numero massimo di allineamenti da trovare (predefinito 1000). Deve essere più grande di --npercorsi,
che è il numero da segnalare. Mantenere questo numero grande consentirà la casualità
selezione tra più allineamenti. La riduzione di questo numero può accelerare il
.
-i, --indel-penalità=INT
Penalità per un indel (default 2). Conteggio contro le discrepanze consentite. Trovare
indels, rende indel-penalty minore o uguale a max-mismatch. Un valore < 2 può
portare a falsi positivi alle estremità di lettura
--indel-endlength=INT
Lunghezza minima alla fine richiesta per allineamenti indel (default 4)
-y, --max-middle-inserzioni=INT
Numero massimo di inserimenti intermedi consentiti (predefinito 9)
-z, --max-middle-cancellazioni=INT Numero massimo di eliminazioni centrali consentite (predefinito 30)
-Y, --max-end-inserzioni=INT
Numero massimo di inserimenti finali consentiti (predefinito 3)
-Z, --max-end-cancellazioni=INT
Numero massimo di eliminazioni finali consentite (impostazione predefinita 6)
-M, --livelli-subottimali=INT
Segnala risultati non ottimali oltre il miglior risultato (predefinito 0) Tutti i risultati con il miglior punteggio più
sono riportati livelli subottimali
-a, --striscia-adattatore=STRING
Metodo per rimuovere gli adattatori dalle letture. Valori attualmente consentiti: off, accoppiato.
L'impostazione predefinita è "disattivato". Per attivare, specificare "accoppiato", che rimuove gli adattatori da
letture paired-end se sembrano essere presenti.
--punteggio-trim-mismatch=INT
Punteggio da utilizzare per le discrepanze durante il taglio alle estremità (l'impostazione predefinita è -3; per spegnere
taglio, specificare 0). Avvertenza: disattivare la rifilatura darà un falso positivo
discrepanze alla fine delle letture
--trim-indel-punteggio=INT
Punteggio da usare per gli indel quando si taglia alle estremità (l'impostazione predefinita è -2; per disattivare il taglio,
specificare 0). Avvertenza: la disattivazione del ritaglio darà indel falsi positivi al
fine delle letture
-V, --snpsdir=STRING
Directory per i file di indice SNP (creata utilizzando snpindex) (l'impostazione predefinita è la posizione di
file di indice del genoma specificati usando -D ed -d)
-v, --use-snps=STRING
Usa database contenente SNP noti (in .iit, costruito in precedenza utilizzando
snpindex) per la tolleranza agli SNP
--cmetdir=STRING
Directory per i file indice di metilcitosina (creata utilizzando cmetindex) (l'impostazione predefinita è
posizione dei file di indice del genoma specificata usando -D, -Ve -d)
--atoidir=STRING
Directory per i file di indice di modifica dell'RNA da A a I (creata utilizzando atoiindex) (l'impostazione predefinita è
posizione dei file di indice del genoma specificata usando -D, -Ve -d)
--modalità=STRING
Modalità di allineamento: standard (predefinito), cmet-stranded, cmet-non-stranded, atoi-stranded,
atoi-non-stranded, ttoc-stranded o ttoc-nonstranded. Le modalità non standard richiedono
di aver eseguito in precedenza i programmi cmetindex o atoiindex (che coprono anche
i modi ttoc) sul genoma
-t, --nthread=INT
Numero di thread di lavoro
Opzioni per l'allineamento GMAP all'interno di GSNAP
--gmap-modalità=STRING
Casi per utilizzare GMAP per allineamenti complessi contenenti più giunzioni o indel
Valori consentiti: nessuno, tutti, pairsearch, indel_knownsplice, terminale, migliorare
(o più valori, separati da virgole).
Predefinito: all, cioè pairsearch,indel_knownsplice,terminal,improve
--trigger-score-per-gmap=INT
Prova la ricerca di coppie GMAP sulle regioni genomiche vicine se il punteggio migliore (il totale di entrambe le estremità
se paired-end) supera questo valore (default 5)
--gmap-min-match-lunghezza=INT
Mantieni GMAP colpito solo se ha così tante corrispondenze consecutive (predefinito 20)
--gmap-indennità=INT
Punteggio di mancata corrispondenza/indel aggiuntivo consentito per gli allineamenti GMAP (predefinito 3)
--max-gmap-pairsearch=INT
Esegui la ricerca di coppie GMAP su regioni genomiche vicine fino a questo numero di candidati
termina (predefinito 50). Richiede pairsearch in --gmap-modalità
--max-gmap-terminale=INT
Esegui il terminale GMAP sulle regioni genomiche vicine fino a questo numero di estremità candidate
(predefinito 50). Richiede terminale in --gmap-modalità
--max-gmap-miglioramento=INT
Eseguire il miglioramento GMAP sulle regioni genomiche vicine fino a questo numero di candidati finali
(predefinito 5). Richiede migliorare in --gmap-modalità
--microexon-spliceprob=FLOAT
Consenti i microesoni solo se una delle probabilità del sito di giunzione è maggiore di questa
valore (predefinito 0.95)
Opzioni di splicing per DNA-Seq
--trova-dna-chimere=INT
Cerca lo splicing distante nei dati DNA-Seq (0=no (predefinito), 1=sì) Automaticamente
inattivato per i dati RNA-Seq se -N or -s sono specificati)
Opzioni di splicing per RNA-Seq
-N, --romanzo=INT
Cerca nuove giunzioni (0=no (predefinito), 1=sì)
--splicingdir=STRING
Directory per lo splicing che coinvolge siti noti o introni noti, come specificato dal
-s or --usa-unione flag (l'impostazione predefinita è la directory calcolata da -D ed -d bandiere).
Nota: puoi semplicemente dare il percorso completo al -s bandiera invece.
-s, --usa-unione=STRING
Cerca lo splicing che coinvolga siti noti o introni noti (in .iit), a
brevi o lunghe distanze Vedere le istruzioni README per la distinzione tra note
siti e introni conosciuti
--ambig-splice-noclip
Per giunzioni note ambigue alle estremità della lettura, non agganciare nel sito di giunzione,
ma si estendono invece nell'introne. Questo flag ha senso solo se fornisci il
--usa-unione flag, e stai cercando di eliminare tutto il soft clipping con
--punteggio-trim-mismatch=0
-w, --localsplicidist=INT
Definizione dell'evento di splicing novel locale (predefinito 200000)
--novelend-splicedist=INT
Distanza per cercare nuove giunzioni alla fine delle letture (predefinito 50000)
-e, --local-splice-penalità=INT
Penalità per una giunzione locale (default 0). Conteggio contro le discrepanze consentite
-E, --giunto-distante-penalità=INT
Penalità per una giunzione lontana (predefinito 1). Una giunzione lontana è quella in cui l'introne
la lunghezza supera il valore di -w, o --localsplicidist, o è un'inversione, scramble,
o traslocazione tra due diversi cromosomi Conta contro i disallineamenti
permesso
-K, --distante-splice-endlength=INT
Lunghezza minima alla fine richiesta per allineamenti di giunzione distanti (predefinito 20, min
consentito è il valore di -k, o dimensione kmer)
-l, --shortend-splice-endlength=INT
Lunghezza minima all'estremità richiesta per gli allineamenti di giunzione a estremità corta (predefinito 2, ma
a meno che non siano forniti siti di giunzione noti -s flag, GSNAP potrebbe ancora aver bisogno del
la lunghezza finale deve essere il valore di -k, o dimensione kmer per trovare una data giunzione
--identità-di-giunzione-distante=FLOAT
Identità minima alla fine richiesta per allineamenti di giunzione distanti (predefinito 0.95)
--anti-stranded-penalty=INT
(Non attualmente implementato, poiché porta a scarsi risultati) Penalità per
splicing antistrand quando si utilizzano protocolli RNA-Seq stranded. Un valore positivo,
come 1, si aspetta antisenso alla prima lettura e senso alla seconda lettura.
Il valore predefinito è 0, che tratta ugualmente bene il senso e l'antisenso
--merge-distante-samechr
Segnala giunzioni distanti sullo stesso cromosoma di una singola giunzione, se possibile.
Produrrà una singola linea SAM invece di due linee SAM, il che è fatto anche per
traslocazioni, inversioni ed eventi di scramble
Opzioni per letture paired-end
--pairmax-dna=INT
Lunghezza genomica totale massima per letture accoppiate DNA-Seq o altre letture senza splicing
(predefinito 1000). Usato se -N or -s non è specificato.
--pairmax-rna=INT
Lunghezza genomica totale massima per letture accoppiate RNA-Seq o altre letture che potrebbero avere a
giunzione (predefinito 200000). Usato se -N or -s è specificato. Probabilmente dovrebbe corrispondere a
valore per -w, --localsplicidist.
--pairexpect=INT
Lunghezza prevista dell'estremità accoppiata, utilizzata per chiamare le giunzioni nella parte mediale dell'estremità accoppiata
legge (predefinito 200). È stato disattivato nelle versioni precedenti, ma è stato ripristinato.
--pairdev=INT
Deviazione consentita dalla lunghezza prevista del paired-end, utilizzata per chiamare le giunzioni in
parte mediale delle letture paired-end (impostazione predefinita 100). È stato disattivato in precedenza
versioni, ma ripristinato.
Opzioni per i punteggi di qualità
--protocollo-qualità=STRING
Protocollo per i punteggi di qualità in ingresso. Valori ammessi: illumina (ASCII 64-126)
(equivalente a -J 64 -j all'31 ottobre) sanger (ASCII 33-126) (equivalente a -J 33 -j 0)
L'impostazione predefinita è sanger (nessuna modifica della qualità di stampa)
I file di output SAM dovrebbero avere punteggi di qualità nel protocollo sanger
Oppure puoi personalizzare questo comportamento con questi flag:
-J, --qualità-zero-punteggio=INT
I punteggi di qualità FASTQ sono zero con questo valore ASCII (il valore predefinito è 33 per sanger
protocollo; per Illumina, selezionare 64)
-j, --qualità-stampa-shift=INT
Sposta i punteggi di qualità FASTQ di questa quantità nell'output (l'impostazione predefinita è 0 per sanger
protocollo; per modificare l'ingresso Illumina in uscita Sanger, selezionare all'31 ottobre)
Opzioni di output
-n, --npercorsi=INT
Numero massimo di percorsi da stampare (predefinito 100).
-Q, --silenzioso-se-eccessivo
Se viene trovato più del numero massimo di percorsi, non viene stampato nulla.
-O, --ordinato
Stampa l'output nello stesso ordine dell'input (rilevante solo se c'è più di un lavoratore
filo)
--show-refdiff
Per l'output GSNAP in allineamento SNP-tolerant, mostra tutte le differenze relative al
genoma di riferimento in minuscolo (altrimenti, mostra tutte le differenze relative a
sia il genoma di riferimento che quello alternativo)
--clip-sovrapposizione
Per le letture paired-end i cui allineamenti si sovrappongono, ritagliare la regione sovrapposta.
--unione-sovrapposizione
Per le letture paired-end i cui allineamenti si sovrappongono, unire le due estremità in un'unica estremità
(implementazione beta)
--print-snps
Stampa informazioni dettagliate sugli SNP nelle letture (funziona solo se -v anche selezionato)
(non ancora completamente implementato)
--failsonly
Stampa solo gli allineamenti non riusciti, quelli senza risultati
--nofails
Escludere la stampa di allineamenti non riusciti
-A, --formato=STRING
Un altro tipo di formato, diverso da quello predefinito. Attualmente implementato: sam, m8 (BLAST
formato tabellare)
--output diviso=STRING
Nome base per l'output di più file, separatamente per nomapping, halfmapping_uniq,
halfmapping_mult, unpaired_mult, unpaired_mult, paired_uniq, paired_mult,
risultati concordant_uniq e concordant_mult
-o, --file di uscita=STRING
Nome file per un singolo flusso di risultati di output.
--ingresso-fallito=STRING
Stampa allineamenti completamente falliti come input in formato FASTA o FASTQ, al dato
file, aggiungendo .1 o .2, per i dati paired-end. Se la --output diviso bandiera è anche
dato, questo file viene generato in aggiunta all'output nel file .nomapping.
--append-output
Quando --output diviso or --ingresso-fallito è dato, questo flag aggiungerà l'output a
file esistenti. In caso contrario, l'impostazione predefinita prevede la creazione di nuovi file.
--ordina-tra-i-migliori=STRING
Tra gli allineamenti alla pari con il punteggio migliore, ordina questi allineamenti in questo ordine.
Valori consentiti: genomico, casuale (predefinito)
--dimensione del buffer di output=INT
Dimensione del buffer, nelle query, per il thread di output (predefinito 1000). Quando il numero di
risultati da stampare supera questa dimensione, i thread di lavoro vengono interrotti fino a quando
l'arretrato è stato cancellato
Opzioni per l'uscita SAM
--no-sam-header
Non stampare le intestazioni che iniziano con '@'
--add-paired-nomapper
Aggiungi le linee nomapper secondo necessità per far alternare tutti i risultati paired-end tra i primi
fine e seconda estremità
--paired-flag-mezzi-concordante=INT
Se il bit accoppiato nei flag SAM significa solo concordante (1) o accoppiato plus
concordante (0, predefinito)
--sam-headers-batch=INT
Stampa le intestazioni solo per questo batch, come specificato da -q
--sam-use-0M
Inserisci 0M in CIGAR tra inserimenti ed eliminazioni adiacenti Richiesto da Picard,
ma può causare errori in altri strumenti
--sam-multiple-primarie
Consente a più allineamenti di essere contrassegnati come primari se sono ugualmente buoni
punteggi di mappatura
--force-xs-dir
Per gli allineamenti RNA-Seq, non consente XS:A:? quando la direzione del senso non è chiara, e
sostituisce arbitrariamente questo valore con XS:A:+. Può essere utile per alcuni programmi, come
come gemelli, che non possono gestire XS:A:?. Tuttavia, se usi questo flag, il
il valore riportato di XS:A:+ in questi casi non sarà significativo.
--md-minuscolo-snp
Nella stringa MD, quando gli SNP noti sono dati da -v bandiera, stampa differenza
nucleotidi in minuscolo quando differiscono dal riferimento ma corrispondono a un noto
allele alternativo
--extend-soft-clip
Estende gli allineamenti attraverso le regioni ritagliate morbide
--azione-se-errore-sigaro
Azione da intraprendere in caso di disaccordo tra la lunghezza del CIGAR e la lunghezza della sequenza
Valori consentiti: ignora, warning, noprint (predefinito), abort
--read-id-gruppo=STRING
Valore da inserire nel campo ID gruppo di lettura (RG-ID)
--read-nome-gruppo=STRING
Valore da inserire nel campo del nome del gruppo di lettura (RG-SM)
--read-group-libreria=STRING
Valore da inserire nel campo della libreria del gruppo di lettura (RG-LB)
--read-gruppo-piattaforma=STRING
Valore da inserire nel campo della libreria del gruppo di lettura (RG-PL)
Opzioni di aiuto
--dai un'occhiata
Controlla le ipotesi del compilatore
--versione
Mostra la versione
--Aiuto Mostra questo messaggio di aiuto
Altri strumenti della suite GMAP si trovano in /usr/lib/gmap
Usa gsnap online utilizzando i servizi onworks.net