Questo è il comando sumaclust che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre numerose workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online di Windows o emulatore online di MAC OS
PROGRAMMA:
NOME
sumaclust - raggruppamento stellare di sequenze genetiche
SINOSSI
sommacco [opzioni]
DESCRIZIONE
Con lo sviluppo del sequenziamento di nuova generazione, sono necessari strumenti efficienti per gestire
milioni di sequenze in tempi ragionevoli. Sumaclust è un programma sviluppato da
il LECA. Sumaclust mira a raggruppare le sequenze in un modo che sia veloce ed esatto allo stesso tempo
tempo. Questo strumento è stato sviluppato per essere adattato al tipo di dati generati dal DNA
metabarcoding, ovvero marcatori corti interamente sequenziati. Sumaclust raggruppa le sequenze utilizzando
lo stesso algoritmo di clustering di UCLUST e CD-HIT. Questo algoritmo è utile principalmente per
rilevare le sequenze "errate" create durante i protocolli di amplificazione e sequenziamento,
derivante da sequenze 'vere'.
VERSIONI
-h [H]elp - stampa aiuto
-l : La lunghezza della sequenza di riferimento è la più breve.
-L La lunghezza della sequenza di riferimento è la più grande.
-a La lunghezza della sequenza di riferimento è la lunghezza dell'allineamento (impostazione predefinita).
-n Il punteggio è normalizzato dalla lunghezza della sequenza di riferimento (impostazione predefinita).
-r : Punteggio grezzo, non normalizzato.
-d : Il punteggio è espresso in distanza (predefinito: il punteggio è espresso in similarità).
-t ##.## : Soglia del punteggio per il clustering. Se il punteggio è normalizzato ed espresso in
somiglianza (predefinita),
è un'identità, ad esempio 0.95 per un'identità del 95%. Se il punteggio è normalizzato e
espresso in distanza, è (1.0 - identità), ad esempio 0.05 per un'identità del 95%.
Se il punteggio non è normalizzato ed espresso in similarità, è la lunghezza del
Sottosequenza comune più lunga. Se il punteggio non è normalizzato ed espresso in
distanza, è (lunghezza di riferimento - lunghezza LCS). Solo sequenze con una similarità
sopra ##.## con la sequenza centrale di un cluster vengono assegnati a quel cluster.
Predefinito: 0.97.
-e Opzione esatta: una sequenza viene assegnata al cluster con la sequenza centrale
presentando il punteggio di similarità più alto > soglia, al contrario del valore predefinito
opzione 'veloce' in cui una sequenza viene assegnata al primo cluster trovato con un centro
sequenza che presenta un punteggio > soglia.
-R ## Rapporto massimo tra i conteggi di due sequenze in modo che quella meno abbondante possa
essere considerata una variante di quella più abbondante. Predefinito: 1.0.
-p ## Multithreading con ## thread utilizzando openMP.
-s ####
Ordinamento per ####. Deve essere 'Nessuno' per nessun ordinamento, oppure una chiave nell'intestazione fasta di
ogni sequenza, eccetto per il conteggio che può essere calcolato (predefinito: ordinamento per
contano).
-o L'ordinamento è crescente (predefinito: decrescente).
-g le n vengono sostituite con le a (predefinito: le sequenze con n vengono scartate).
-B ### L'output della tabella OTU in formato BIOM viene attivato e scritto nel file ###.
-O ### L'output della mappa OTU (mappa di osservazione) viene attivato e scritto nel file ###.
-F ### L'output in formato FASTA viene scritto nel file ### anziché nell'output standard.
-f L'output in formato FASTA è disattivato.
Argomento: il set di dati dei nucleotidi da raggruppare
Utilizzare sumaclust online utilizzando i servizi onworks.net