Questo è il comando cdhit-454 che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
cd-hit-454 - raggruppa rapidamente le sequenze, ottimizzato per 454 dati
SINOSSI
cdit-454 [Opzioni]
DESCRIZIONE
====== CD-HIT versione 4.6 (creata il 23 gennaio 2016) ======
Opzioni
-i inserire il nome del file in formato fasta, richiesto
-o nome del file di output, richiesto
-c soglia dell'identità della sequenza, impostazione predefinita 0.98 questa è una "identità della sequenza globale"
calcolato come: numero di amminoacidi identici in allineamento diviso per il pieno
lunghezza della sequenza più corta + spazi vuoti
-b banda_larghezza di allineamento, predefinito 10
-M limite di memoria (in MB) per il programma, default 800; 0 per illimitato;
-T numero di thread, predefinito 1; con 0, verranno utilizzate tutte le CPU
-n word_length, default 10, vedere la guida dell'utente per sceglierlo
-al copertura dell'allineamento per la sequenza più lunga, valore predefinito 0.0 se impostato su 0.9, il
l'allineamento deve coprire il 90% della sequenza
-AL controllo della copertura dell'allineamento per la sequenza più lunga, predefinito 99999999 se impostato su 60,
e la lunghezza della sequenza è 400, quindi l'allineamento deve essere >= 340 (400-60)
residui
-come copertura dell'allineamento per la sequenza più breve, default 0.0 se impostato su 0.9, il
l'allineamento deve coprire il 90% della sequenza
-COME controllo della copertura dell'allineamento per la sequenza più breve, predefinito 99999999 se impostato su 60,
e la lunghezza della sequenza è 400, quindi l'allineamento deve essere >= 340 (400-60)
residui
-B 1 o 0, impostazione predefinita 0, per impostazione predefinita, le sequenze sono memorizzate nella RAM se impostato su 1, sequenza
sono memorizzati sul disco rigido si consiglia di utilizzare -B 1 per database enormi
-g 1 o 0, predefinito 0 dall'algoritmo predefinito di cd-hit, una sequenza è raggruppata al
primo cluster che soddisfa la soglia (cluster veloce). Se impostato a 1, il programma
raggrupparlo nel cluster più simile che soddisfa la soglia (preciso ma lento
mode) ma 1 o 0 non cambieranno i rappresentanti dei cluster finali
-D dimensione massima per indel, default 1
-incontro punteggio corrispondente, predefinito 2
-mancata corrispondenza
punteggio non corrispondente, impostazione predefinita -1
-spacco punteggio apertura gap, predefinito -3
-gap-est
punteggio di estensione del gap, predefinito -1
-Bak scrivi il file del cluster di backup (1 o 0, predefinito 0)
-h stampa questo aiuto
Domande, bug, contatta Weizhong Li a [email protected]
Se trovi utile cd-hit, ti preghiamo gentilmente di citare:
"Raggruppamento di sequenze altamente omologhe per ridurre la dimensione delle grandi proteine
database", Weizhong Li, Lukasz Jaroszewski e Adam Godzik. Bioinformatica, (2001)
17:282-283 "Cd-hit: un programma veloce per raggruppare e confrontare grandi insiemi di
sequenze di proteine o nucleotidi", Weizhong Li & Adam Godzik. Bioinformatica, (2006)
22:1658-1659 "Beifang Niu, Limin Fu, Shulei Sun e Weizhong Li. Artificiale e
duplicati naturali nelle letture di pirosequenziamento di dati metagenomici. BMC Bioinformatica
(2010) 11: 187
Usa cdhit-454 online utilizzando i servizi onworks.net