Questo è il comando cdhit che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici postazioni di lavoro online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
cdhit - raggruppa rapidamente le sequenze
SINOSSI
cdit [Opzioni]
DESCRIZIONE
====== CD-HIT versione 4.6 (creata il 23 gennaio 2016) ======
Opzioni
-i inserire il nome del file in formato fasta, richiesto
-o nome del file di output, richiesto
-c soglia dell'identità della sequenza, predefinita 0.9 questa è la "global" di cd-hit predefinita
identità di sequenza" calcolata come: numero di amminoacidi identici in allineamento
diviso per l'intera lunghezza della sequenza più corta
-G usa l'identità della sequenza globale, il valore predefinito 1 se impostato su 0, quindi usa la sequenza locale
identità, calcolata come: numero di amminoacidi identici in allineamento diviso per
la lunghezza dell'allineamento NOTA!!! non usare -G 0 a meno che non usi l'allineamento
controlli di copertura vedi opzioni -al, -AL, -come, -COME
-b banda_larghezza di allineamento, predefinito 20
-M limite di memoria (in MB) per il programma, default 800; 0 per illimitato;
-T numero di thread, predefinito 1; con 0, verranno utilizzate tutte le CPU
-n word_length, default 5, vedere la guida dell'utente per sceglierlo
-l lunghezza di throw_away_sequences, default 10
-t tolleranza per la ridondanza, default 2
-d lunghezza della descrizione nel file .clstr, predefinito 20 se impostato a 0, richiede il fasta
defline e si ferma al primo spazio
-s taglio della differenza di lunghezza, valore predefinito 0.0 se impostato su 0.9, le sequenze più brevi devono
essere almeno il 90% di lunghezza del rappresentante del cluster
-S cutoff della differenza di lunghezza nell'amminoacido, predefinito 999999 se impostato su 60, la lunghezza
differenza tra le sequenze più brevi e il rappresentante del cluster può
non essere più grande di 60
-al copertura dell'allineamento per la sequenza più lunga, valore predefinito 0.0 se impostato su 0.9, il
l'allineamento deve coprire il 90% della sequenza
-AL controllo della copertura dell'allineamento per la sequenza più lunga, predefinito 99999999 se impostato su 60,
e la lunghezza della sequenza è 400, quindi l'allineamento deve essere >= 340 (400-60)
residui
-come copertura dell'allineamento per la sequenza più breve, default 0.0 se impostato su 0.9, il
l'allineamento deve coprire il 90% della sequenza
-COME controllo della copertura dell'allineamento per la sequenza più breve, predefinito 99999999 se impostato su 60,
e la lunghezza della sequenza è 400, quindi l'allineamento deve essere >= 340 (400-60)
residui
-A controllo di copertura dell'allineamento minimo per entrambe le sequenze, l'allineamento predefinito 0 deve
cover >= questo valore per entrambe le sequenze
-ul percentuale massima senza corrispondenza per la sequenza più lunga, valore predefinito 1.0 se impostato su 0.1,
la regione non abbinata (esclusi i gap di leading e tailing) non deve essere superiore al 10%
della sequenza
-noi percentuale massima senza corrispondenza per la sequenza più breve, valore predefinito 1.0 se impostato su 0.1,
la regione non abbinata (esclusi i gap di leading e tailing) non deve essere superiore al 10%
della sequenza
-U lunghezza massima senza corrispondenza, impostazione predefinita 99999999 se impostata su 10, la regione senza corrispondenza
(esclusi i gap di entrata e di coda) non deve essere superiore a 10 basi
-B 1 o 0, impostazione predefinita 0, per impostazione predefinita, le sequenze sono memorizzate nella RAM se impostato su 1, sequenza
sono memorizzati sul disco rigido si consiglia di utilizzare -B 1 per database enormi
-p 1 o 0, valore predefinito 0 se impostato su 1, l'allineamento di stampa si sovrappone nel file .clstr
-g 1 o 0, predefinito 0 dall'algoritmo predefinito di cd-hit, una sequenza è raggruppata al
primo cluster che soddisfa la soglia (cluster veloce). Se impostato a 1, il programma
raggrupparlo nel cluster più simile che soddisfa la soglia (preciso ma lento
mode) ma 1 o 0 non cambieranno i rappresentanti dei cluster finali
-Bak scrivi il file del cluster di backup (1 o 0, predefinito 0)
-h stampa questo aiuto
Domande, bug, contatta Limin Fu a [email protected], o Weizhong Li at [email protected]
Per versioni aggiornate e informazioni, visitare: http://cd-hit.org
cd-hit web server è disponibile anche da http://cd-hit.org
Se trovi utile cd-hit, ti preghiamo gentilmente di citare:
"Raggruppamento di sequenze altamente omologhe per ridurre la dimensione delle grandi proteine
database", Weizhong Li, Lukasz Jaroszewski e Adam Godzik. Bioinformatica, (2001)
17:282-283 "La tolleranza di una certa ridondanza accelera notevolmente il raggruppamento di grandi
banche dati proteiche", Weizhong Li, Lukasz Jaroszewski e Adam Godzik. Bioinformatica,
(2002) 18:77-82
Usa cdhit online utilizzando i servizi onworks.net