Il s'agit de la commande cdhit-454 qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
cd-hit-454 - regrouper rapidement des séquences, optimisées pour 454 données
SYNOPSIS
cdhit-454 [Options]
DESCRIPTION
====== CD-HIT version 4.6 (construit le 23 janvier 2016) ======
Options
-i saisir le nom du fichier au format fasta, requis
-o nom du fichier de sortie, requis
-c seuil d'identité de séquence, par défaut 0.98 il s'agit d'une "identité de séquence globale"
calculé comme : nombre d'acides aminés identiques en alignement divisé par le total
longueur de la séquence la plus courte + intervalles
-b bande_largeur d'alignement, valeur par défaut 10
-M limite de mémoire (en Mo) pour le programme, par défaut 800 ; 0 pour illimité ;
-T nombre de threads, par défaut 1 ; avec 0, tous les processeurs seront utilisés
-n word_length, défaut 10, voir le guide de l'utilisateur pour le choisir
-Al couverture d'alignement pour la séquence la plus longue, 0.0 par défaut s'il est défini sur 0.9, le
l'alignement doit couvrir 90% de la séquence
-AL contrôle de couverture d'alignement pour la séquence la plus longue, par défaut 99999999 si défini sur 60,
et la longueur de la séquence est de 400, alors l'alignement doit être >= 340 (400-60)
résidus
-comme couverture d'alignement pour la séquence la plus courte, 0.0 par défaut si elle est définie sur 0.9, le
l'alignement doit couvrir 90% de la séquence
-COMME contrôle de couverture d'alignement pour la séquence la plus courte, par défaut 99999999 si défini sur 60,
et la longueur de la séquence est de 400, alors l'alignement doit être >= 340 (400-60)
résidus
-B 1 ou 0, par défaut 0, par défaut, les séquences sont stockées dans la RAM si elle est définie sur 1, séquence
sont stockés sur le disque dur, il est recommandé d'utiliser -B 1 pour les énormes bases de données
-g 1 ou 0, 0 par défaut par l'algorithme par défaut de cd-hit, une séquence est regroupée sur le
premier cluster qui atteint le seuil (cluster rapide). S'il est réglé sur 1, le programme
regroupez-le dans le cluster le plus similaire qui atteint le seuil (précis mais lent
mode) mais 1 ou 0 ne changera pas les représentants des clusters finaux
-D taille maximale par indel, valeur par défaut 1
-rencontre score correspondant, par défaut 2
-décalage
score non concordant, par défaut -1
-écart score d'ouverture d'écart, par défaut -3
-écart-ext
score d'extension d'écart, par défaut -1
-poubelle écrire le fichier de cluster de sauvegarde (1 ou 0, par défaut 0)
-h imprimer cette aide
Questions, bugs, contactez Weizhong Li à [email protected]
Si vous trouvez cd-hit utile, merci de citer :
« Regroupement de séquences hautement homologues pour réduire la taille des grandes protéines
base de données", Weizhong Li, Lukasz Jaroszewski & Adam Godzik. Bioinformatique, (2001)
17:282-283 "Cd-hit : un programme rapide pour regrouper et comparer de grands ensembles de
séquences protéiques ou nucléotidiques", Weizhong Li & Adam Godzik. Bioinformatique, (2006)
22:1658-1659 "Beifang Niu, Limin Fu, Shulei Sun et Weizhong Li. Artificiel et
doublons naturels dans les lectures de pyroséquençage des données métagénomiques. BMC Bioinformatique
(2010) 11: 187
Utilisez cdhit-454 en ligne en utilisant les services onworks.net