Questo è il comando dnaclust che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre numerose workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online di Windows o emulatore online di MAC OS
PROGRAMMA:
NOME
dnaclust - programma per raggruppare un gran numero di brevi sequenze di DNA
SINOSSI
dnaclust {-i | --ingresso} infilare [{-s | --somiglianza} soglia]
[{-m | --allineamento multiplo}] [{-d | --intestazione}] [{-l | --left-gaps-allowed}]
[{-k | --k-mer-length} lunghezza] [{-a | --filtro approssimativo}] [--no-k-mer-filter]
dnaclust [{-h | --Aiuto} | {-v | --versione}]
DESCRIZIONE
Questa pagina di manuale documenta brevemente il dnaclust .
dnaclust è uno strumento per raggruppare un gran numero di brevi sequenze di DNA. I cluster sono
creato in modo tale che il "raggio" di ciascun cluster non sia superiore a quello specificato
soglia.
Le sequenze di input da raggruppare devono essere in formato Fasta. L'ID di ciascuna sequenza è
basato sulla prima parola della sequenza nel formato Fasta. La prima parola è il prefisso
dell'intestazione fino alla prima occorrenza di caratteri di spazio vuoto nell'intestazione. Il
l'output viene scritto su STDOUT. Se si desidera che l'output venga scritto su un file, è sufficiente reindirizzare
l'output (vedi esempi).
L'output ha due modalità: la modalità di clustering predefinita e il clustering con più
allineamento di sequenza. Nella modalità di clustering (senza allineamento multiplo), ogni cluster sarà
essere stampato su una riga separata. La riga conterrà gli ID delle sequenze nel
cluster. Il primo ID in ogni riga è l'ID della sequenza centrale del cluster. A causa del modo
i nostri cluster sono costruiti, la lunghezza della sequenza centrale del cluster è sempre maggiore
maggiore o uguale alla lunghezza di una qualsiasi delle sequenze nel cluster. Si noti che poiché
di solito alcuni cluster contengono molte sequenze, le linee dell'output possono essere molto lunghe. Se
se vuoi ispezionare visivamente l'output, usa 'less -S' o un editor che lo faccia
non mandare a capo le righe lunghe. Il numero di cluster può essere trovato usando 'wc -l'.
Per maggiori informazioni sulla modalità di allineamento di sequenze multiple, vedere la descrizione di
--allineamento multiplo opzione.
VERSIONI
Il programma segue la consueta sintassi della riga di comando GNU, con opzioni lunghe che iniziano con due
trattini ('-'). Di seguito è riportato un riepilogo delle opzioni.
--somiglianza soglia, -s soglia
La soglia di similarità specifica il raggio dei cluster creati. Questo parametro
è un numero in virgola mobile compreso tra 0 e 1. Viene calcolato in base a semi-globale
allineamento di una sequenza alla sequenza centrale del cluster. Vale a dire similarità = 1 - (modifica
distanza) / (lunghezza della sequenza più corta). La distanza di modifica è il numero minimo
di inserzioni, delezioni o sostituzioni necessarie per allineare una sequenza al cluster
sequenza centrale. I nostri algoritmi sono più veloci quando la similarità è maggiore.
--k-mer-length lunghezza, -k lunghezza
Quando si utilizza il filtro k-mer (abilitato di default) è possibile specificare
lunghezza massima dei k-meri utilizzati per il filtraggio.
Le lunghezze più lunghe dei k-mer richiedono più memoria per memorizzare i conteggi dei k-mer e il filtraggio
sarà più lento. Tuttavia, con una lunghezza maggiore del k-mer, il filtro sarà più specifico
e quindi la ricerca dell'allineamento della sequenza potrebbe essere più veloce.
Esiste un compromesso tra il tempo di filtraggio e quello di ricerca. Se non si specifica il
lunghezza k-mer viene scelto un valore di log4 (mediana delle lunghezze delle sequenze di input)
automaticamente. Utilizzando questa opzione è possibile sovrascrivere il valore predefinito.
Tieni presente, tuttavia, che lunghezze k-mer più lunghe richiederebbero più memoria per l'archiviazione
le strutture dati di filtraggio.
--filtro approssimativo , -a
Per impostazione predefinita, il filtro k-mer ha una sensibilità del 100%. Ciò significa che nell'output
clustering, non ci sono due centri di cluster che si trovano entro la distanza soglia l'uno dall'altro.
Il filtro esatto, tuttavia, è un po' lento. Questa opzione accelera il filtro utilizzando
un'euristica. L'uso del filtro approssimativo può comportare centri di cluster che sono
vicino, e un numero maggiore di cluster in generale. Tuttavia il filtro approssimativo è solitamente
diverse volte più veloce del filtro sensibile esatto. Usa questa opzione se sei
clustering principalmente per ridurre la ridondanza nei dati, e non si preoccupano del
qualità del clustering.
--allow-left-gaps , -l
Con questa opzione le distanze vengono misurate in base all'allineamento semi-globale.
l'allineamento semi-globale consente lacune senza penalità su entrambe le estremità del più corto
sequenza.
L'allineamento predefinito è un allineamento semi-globale unilaterale. ovvero sono consentiti solo spazi vuoti
all'estremità destra della sequenza più breve senza penalità. Questo comportamento corrisponde a
i dati derivanti dal sequenziamento mirato di una regione (ad esempio del gene dell'RNA ribosomiale 16S).
--allineamento multiplo, -m
Imposta il formato di output per mostrare l'allineamento di sequenze multiple di ciascun cluster.
gli spazi vuoti negli allineamenti sono rappresentati dal carattere trattino '-'.
Il formato dell'output MSA è il seguente: l'MSA di ciascun cluster si estende su più
linee. L'MSA inizia con una riga contenente il carattere '#' seguito dal numero di
sequenze in quel cluster. Le sequenze allineate (che possono contenere lacune) seguono in
il formato Fasta. Ogni record Fasta sarà composto da due righe. La riga dell'intestazione e
la riga della sequenza. Poiché ogni sequenza allineata viene emessa su una singola riga, l'output
potrebbe contenere righe molto lunghe. Si prega di utilizzare 'less -S' o un editor che non vada a capo
lunghe file anche per l'ispezione dell'MSA.
--no-k-mer-filter
Disabilita il filtro k-mer. Adatto per il clustering di sequenze molto brevi ad alta
soglia di similarità.
-d, --intestazione
Scrivere le opzioni del programma in output.
-h, --Aiuto
Mostra il riepilogo delle opzioni.
-v, --versione
Mostra la versione del programma.
ESEMPI
./dnaclust file.fasta -l -s 0.98 -k 3 > cluster
Utilizzare dnaclust online utilizzando i servizi onworks.net