cmemit - En ligne dans le Cloud

Il s'agit de la commande cmemit qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks à l'aide de l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS.

PROGRAMME:

Nom


cmemit - séquences d'échantillons à partir d'un modèle de covariance

SYNOPSIS


cmmettre [choix]

DESCRIPTION


Le manuel de formation cmmettre programmer des échantillons (émettre) des séquences à partir du ou des modèles de covariance dans , et
les écrit en sortie. Les séquences d'échantillonnage peuvent être utiles à diverses fins,
y compris la création de vrais positifs synthétiques pour des références ou des tests.

La valeur par défaut est d'échantillonner dix séquences non alignées de chaque CM. Alternativement, avec le -c
option, vous pouvez émettre une seule séquence consensus de règle majoritaire ; ou avec le -a option, vous
peut émettre un alignement.

Le manuel de formation peut contenir une bibliothèque de CM, auquel cas chaque CM sera utilisé à son tour.

peut être « - » (tiret), ce qui signifie lire cette entrée à partir de Stdin plutôt qu'un fichier.

Pour les modèles avec zéro paires de bases, les séquences sont échantillonnées à partir du filtre HMM de profil à la place
du CM. Cependant, étant donné que ces modèles seront presque identiques (à moins d'options spéciales
ont été utilisés dans cmbuild pour éviter cela), l'utilisation du HMM au lieu du CM ne changera pas le
de manière significative, à moins que le -l option est utilisée. Avec -l, le HMM sera
configuré pour les positions de début et de fin de modèle équiprobables, contrairement au CM. Vous pouvez
forcer cmmettre toujours échantillonner à partir du CM avec le --nohmmonly option.

OPTIONS


-h Aider; imprimer un bref rappel de l'utilisation de la ligne de commande et des options disponibles.

-o Enregistrer les séquences synthétiques dans un fichier plutôt que de les écrire sur stdout.

-N « Générer » séquences. La valeur par défaut pour est 10.

-u Ecrivez les séquences générées au format non aligné (FASTA). C'est la valeur par défaut
comportement.

-a Ecrire les séquences générées dans un format aligné (STOCKHOLM) avec consensus
annotation de structure plutôt que FASTA. D'autres formats de sortie sont possibles avec le
--outformat option.

-c Prédire une seule séquence consensus de règle majoritaire au lieu de séquences d'échantillonnage
à partir de la distribution de probabilité du CM. Résidus hautement conservés (base appariée
les résidus qui obtiennent un score supérieur à 3.0 bits, ou les résidus simple brin qui obtiennent un score
supérieur à 1.0 bit) sont affichés en majuscules ; d'autres sont affichés en minuscules.

-e Intégrer les séquences émises par CM dans une séquence de longueur plus grande générée aléatoirement
généré à partir d'un HMM qui a été entraîné sur des séquences génomiques réelles avec divers
Contenu du GC (le même HMM utilisé par cmcalibrer). Vous pouvez utiliser le --id Option de
générer à la place 25 % de séquences A, C, G et U. La séquence d'émission CM commencera
à une position aléatoire dans la plus grande séquence et sera inclus dans son
l'intégralité à moins que le --u5p or --u3p les options sont utilisées. Lorsque -e est utilisé dans
combinaison avec --u5p, la séquence émise par CM commencera toujours à la position 1 de
la plus grande séquence et sera tronqué en 5'. Lorsqu'il est utilisé en combinaison --u3p le CM
la séquence émise se terminera toujours à la position de la plus grande séquence et sera
tronqué 3'.

-l Configurez les CM en mode local avant d'émettre des séquences. Par défaut le modèle
sera en mode global. En mode local, les insertions et suppressions volumineuses sont plus
commun qu'en mode global.

OPTIONS POUR LES CANADIENS TRONÇONNAGE ÉMIS SÉQUENCES


--u5p Tronquer toutes les séquences émises à une position de départ choisie au hasard , par seulement
sortie des résidus à partir de . Un point de départ différent est choisi au hasard
pour chaque séquence.

--u3p Tronquer toutes les séquences émises à une position finale choisie au hasard , par seulement
sortie des résidus jusqu'à la position . Un point final différent est choisi au hasard
pour chaque séquence.

--a5p
En combinaison avec le -a option, tronquer l'alignement émis au hasard
position de départ choisie pour le match , en produisant uniquement des colonnes d'alignement pour les positions
état après match - 1. doit être un entier compris entre 0 et le consensus
longueur du modèle (qui peut être déterminée à l'aide de la cmstat programme. En tant que spécial
cas, en utilisant 0 comme se traduira par une position de départ choisie au hasard.

--a3p
En combinaison avec le -a option, tronquer l'alignement émis au hasard
position de fin de match choisie , en produisant uniquement des colonnes d'alignement pour les positions
état avant le match + 1. doit être un entier compris entre 1 et le consensus
longueur du modèle (qui peut être déterminée à l'aide de la cmstat programme). Comme un
cas particulier, en utilisant 0 comme se traduira par une position finale choisie au hasard.

AUTRES OPTIONS


--la graine
Semez le générateur de nombres aléatoires avec , un entier >= 0. Si est différent de zéro,
l'échantillonnage stochastique des séquences sera reproductible ; la même commande donnera
les mêmes résultats. Si est 0, le générateur de nombres aléatoires est ensemencé arbitrairement,
et les échantillonnages stochastiques varieront d'une exécution à l'autre de la même commande. Les
la valeur par défaut est 0.

--id et -e, génèrent les plus grandes séquences comme 25 % chacune A, C, G et U.

--rna Spécifiez que les séquences émises soient sorties en tant que séquences d'ARN. C'est vrai par
défaut.

--adn Spécifiez que les séquences émises soient sorties en tant que séquences d'ADN. Par défaut, le
l'alphabet de sortie est l'ARN.

--idx
Précisez que les séquences émises doivent être nommées en commençant par . . By
défaut est 1.

--outformat
et -une, spécifier le format d'alignement de sortie comme . Les formats acceptés sont : Pfam,
AFA, A2M, Clustal et Phylip. AFA est aligné fasta. Uniquement Pfam et Stockholm
les formats d'alignement incluront une annotation de structure consensuelle.

--tfile
Vider les parsetrees de séquences tabulaires (traces) pour chaque séquence émise dans un fichier
. Principalement utile pour le débogage.

--exp
Exposez les probabilités d'émission et de transition du CM en et alors
renormaliser ces distributions avant d'émettre des séquences. Cette option modifie le
Distribution de probabilité CM des parsetrees par rapport au défaut. Avec moins que
1.0 les séquences émises auront tendance à avoir des scores de bits inférieurs lors de l'alignement sur le
CM. Avec supérieur à 1.0, les séquences émises auront tendance à avoir un bit plus élevé
scores lors de l'alignement sur le CM. Cette différence de score de bits augmentera à mesure que
s'éloigne de 1.0 dans les deux sens. Si est égal à 1.0, cette option
n'a aucun effet par rapport au défaut. Cette option est utile pour générer des séquences
qui sont soit plus difficiles ( < 1.0) ou plus facile ( > 1.0) pour que le CM
distinguer comme homologue de l'arrière-plan, séquence aléatoire.

--hmmuniquement
Émettre à partir du profil de filtre HMM au lieu du CM.

--nohmmonly
N'émettez jamais du profil de filtre HMM, utilisez toujours le CM, même pour les modèles avec
zéro paires de bases.

Utilisez cmemit en ligne en utilisant les services onworks.net



Derniers programmes en ligne Linux et Windows