AnglaisFrançaisEspagnol

Ad


Icône de favori OnWorks

hmmsim - En ligne dans le Cloud

Exécutez hmmsim dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande hmmsim qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


hmmsim - collecte des distributions de scores sur des séquences aléatoires

SYNOPSIS


hummm [choix]

DESCRIPTION


La hummm programme génère des séquences aléatoires, les note avec le(s) modèle(s) dans ,
et génère diverses sortes d'histogrammes, de graphiques et de distributions ajustées pour le résultat
scores.

hummm ne fait pas partie intégrante du package HMMER. La plupart des utilisateurs n'auraient aucune raison de
utilise le. Il est utilisé pour développer et tester les méthodes statistiques utilisées pour déterminer les valeurs p
et les valeurs E dans HMMER3. Par exemple, il a été utilisé pour générer la plupart des résultats dans un 2008
article sur les statistiques d'alignement local de H3 (PLoS Comp Bio 4:e1000069, 2008 ;
http://www.ploscompbiol.org/doi/pcbi.1000069).

Parce qu'il s'agit d'un banc d'essai de recherche, vous ne devriez pas vous attendre à ce qu'il soit aussi robuste que les autres
programmes dans le package. Par exemple, les options peuvent interagir de manière étrange ; nous n'avons pas
testé ni essayé d'anticiper toutes les différentes combinaisons possibles.

La tâche principale est d'adapter une distribution de Gumbel à maximum de vraisemblance aux scores de Viterbi ou à un
queue exponentielle du maximum de vraisemblance aux scores Forward les plus élevés, et pour tester que ces
les distributions ajustées obéissent à la conjecture que lambda ~ log_2 pour le Viterbi Gumbel
et la queue exponentielle avant.

La sortie est un tableau de nombres, une ligne pour chaque modèle. Quatre ajustements paramétriques différents
aux données de score sont testées : (1) le maximum de vraisemblance correspond à la fois à l'emplacement (mu/tau) et
paramètres de pente (lambda); (2) en supposant que lambda=log_2, le maximum de vraisemblance s'adapte à la
paramètre d'emplacement uniquement ; (3) idem mais en supposant un lambda corrigé par les bords, en utilisant le courant
procédures en H3 [Eddy, 2008] ; et (4) en utilisant les deux paramètres déterminés par le courant de H3
procédures. La statistique standard simple, rapide et sale pour la qualité de l'ajustement est « E@10 »,
la valeur E calculée du 10e coup le mieux classé, que nous prévoyons être d'environ 10.

En détail, les colonnes de la sortie sont :

prénom Nom du modèle.

queue Fraction des scores les plus élevés utilisée pour ajuster la distribution. Pour Viterbi, MSV et
Scores hybrides, la valeur par défaut est 1.0 (une distribution de Gumbel est ajustée à tous les
Les données). Pour les scores Forward, la valeur par défaut est 0.02 (une queue exponentielle est ajustée à
les 2 % les plus élevés).

mu/tau Paramètre d'emplacement pour l'ajustement de vraisemblance maximum aux données.

lambda Paramètre de pente pour l'ajustement maximum de vraisemblance aux données.

E@10 La valeur E calculée pour le score élevé au 10e rang (« E@10 ») en utilisant le ML mu/tau
et lambda. Par définition, cela devrait être d'environ 10, si l'estimation de la valeur E était
précis.

mufix Paramètre de localisation, pour un ajustement par maximum de vraisemblance avec une pente connue (fixe)
paramètre lambda de log_2 (0.693).

E @ 10fix
La valeur E calculée pour le 10e score classé à l'aide de mufix et la valeur attendue
lambda = log_2 = 0.693.

mufix2 Paramètre de localisation, pour un ajustement maximum de vraisemblance avec un effet de bord corrigé
lambda.

E@10fix2
La valeur E calculée pour le 10e score classé en utilisant mufix2 et l'effet de bord-
lambda corrigé.

pmu Paramètre de localisation tel que déterminé par les procédures d'estimation de H3.

plombda
Paramètre de pente tel que déterminé par les procédures d'estimation de H3.

pE@10 La valeur E calculée pour le 10e score classé en utilisant pmu, plambda.

A la fin de ce tableau, une ligne supplémentaire est imprimée, commençant par # et résumant le
temps CPU global utilisé par les simulations.

Certains des fichiers de sortie facultatifs sont au format xmgrace xy. xmgrace est puissant et librement
logiciel de traçage graphique disponible.

DIVERS OPTIONS


-h Aider; imprimer un bref rappel de l'utilisation de la ligne de commande et de toutes les options disponibles.

-a Recueillez les statistiques de longueur d'alignement de Viterbi attendues à partir de chaque séquence simulée.
Cela ne fonctionne qu'avec les scores de Viterbi (par défaut, voir --vit). Deux supplémentaires
les champs sont imprimés dans le tableau de sortie pour chaque modèle : la longueur moyenne de Viterbi
alignements et l'écart type.

-v (Verbeux). Imprimez également les partitions, une partition par ligne.

-L Définissez la longueur des séquences échantillonnées au hasard (non homologues) à L’
la valeur par défaut est 100.

-N Réglez le nombre de séquences échantillonnées au hasard sur . La valeur par défaut est 1000.

--mpi Exécuter en mode parallèle MPI, sous mpirun. Il est parallélisé au niveau de l'envoi
un profil à la fois à un processus de travail MPI, donc la parallélisation n'aide que si
vous avez plus d'un profil dans le , et vous voulez avoir au moins autant
de nombreux profils en tant que processus de travail MPI. (Uniquement disponible si la prise en charge MPI en option était
activé à la compilation.)

OPTIONS CONTRLE SORTIE


-o Enregistrer la table de sortie principale dans un fichier plutôt que de l'envoyer à stdout.

--un fichier
Lors de la collecte des statistiques d'alignement de Viterbi (le -a option), pour chaque échantillon
séquence, générer deux champs par ligne dans un fichier : la longueur de l'optimal
l'alignement et le score de bits de Viterbi. Nécessite que le -a option est également utilisée.

--TED
Sortir un tracé de classement par rapport à la valeur E au format XMGRACE xy dans un fichier . L'axe des x est le
rang de cette séquence, du score le plus élevé au plus faible ; l'axe des y est la valeur E
calculé pour cette séquence. Les valeurs E sont calculées à l'aide des procédures par défaut de H3
(c'est-à-dire les paramètres pmu, plambda dans la table de sortie). Vous vous attendez à un match difficile
entre le rang et la valeur E si les valeurs E sont estimées avec précision.

--ffichier
Sortez un fichier "filter power" vers : pour chaque modèle, une ligne avec trois champs :
nom du modèle, nombre de séquences dépassant le seuil de la valeur P et fraction de
séquences dépassant le seuil de la valeur P. Voir --pthresh pour régler la valeur P
seuil, qui est par défaut de 0.02 (le seuil de filtre MSV par défaut dans H3). Le P-
les valeurs sont telles que déterminées par les procédures par défaut de H3 (les paramètres pmu,plambda dans
le tableau de sortie). Si tout va bien, vous vous attendez à voir une puissance de filtrage égale à la
réglage de la valeur p prédite du seuil.

--pfile
Sortir les parcelles de survie cumulées (P(S>x)) dans le fichier au format XMGRACE xy. Là
sont trois graphiques : (1) la distribution des scores observés ; (2) le maximum de vraisemblance
distribution ajustée; (3) un maximum de vraisemblance ajusté au paramètre de localisation
(mu/tau) pendant que
en supposant que lambda=log_2.

--xfichier
Sortir les scores de bits sous forme de tableau binaire de flottants double précision (8 octets par
score) à déposer . Des programmes comme celui de Easel esl-histogramme peut lire de tels fichiers binaires.
Ceci est utile lors de la génération d'échantillons de très grande taille.

OPTIONS CONTRLE MODÈLE CONFIGURATION (MODE)


H3 utilise uniquement l'alignement local multi-hit ( --fs mode), et c'est là que nous pensons que le
ajustements statistiques. Scores d'alignement local Unihit (Smith/Waterman ; --sw mode) obéissent également à notre
conjectures statistiques. Les statistiques d'alignement glocal (soit multihit ou unihit) sont
n'est toujours pas bien compris ni convenablement adapté.

--fs Collectez les scores d'alignement local à plusieurs coups. C'est la valeur par défaut. alignement comme
« mode de recherche de fragments ».

--sw Collectez les scores d'alignement local unihit. L'état H3 J est désactivé. alignement comme
'Mode de recherche Smith/Waterman'.

--ls Collectez les scores d'alignement glocal à plusieurs coups. Dans l'alignement glocal (global/local), le
le modèle entier doit s'aligner sur une sous-séquence de la cible. L'entrée/sortie locale H3
les probabilités de transition sont désactivées. 'ls' vient de l'historique de HMMER2
terminologie pour l'alignement local multi-hit comme « mode de recherche locale ».

--s Collectez les scores d'alignement glocal unihit. L'état H3 J et l'entrée/sortie locale
les probabilités de transition sont désactivées. 's' vient de l'historique de HMMER2
terminologie pour l'alignement glocal unihit.

OPTIONS CONTRLE NOTATION ALGORITHME


--vit Collectez les scores d'alignement de probabilité maximale de Viterbi. C'est la valeur par défaut.

--avant Collectez les scores de probabilité de log-odds en aval, additionnés sur l'ensemble d'alignement.

--hyb Collectez des partitions « hybrides », telles que décrites dans les articles de Yu et Hwa (par exemple,
Bioinformatique 18:864, 2002). Il s'agit de calculer une matrice Forward et de prendre
la valeur maximale de la cellule. Le nombre lui-même est statistiquement quelque peu démotivé,
mais on s'attend à ce que la distribution soit une distribution de valeurs extrêmes bien élevée
(Gumbel).

--msv Collectez les scores MSV (multiple unapped segment Viterbi), en utilisant le principal de H3
heuristique d'accélération.

--vite Pour l'une des options ci-dessus, utilisez la mise en œuvre de production optimisée de H3 (en utilisant
vectorisation SIMD). La valeur par défaut est d'utiliser les implémentations sacrifiant un petit
quantité de précision numérique. Cela peut introduire un bruit de confusion dans
simulations statistiques et ajustements, donc quand on se préoccupe de l'exactitude
détails, il est préférable de pouvoir prendre en compte cette source de bruit.

OPTIONS CONTRLE FITTED QUEUE MASSES POUR AVANT


Dans certaines expériences, il était utile d'adapter les scores Forward à une gamme de queues différentes
des masses plutôt qu'une seule. Ces options fournissent un mécanisme pour ajuster un
plage espacée de différentes masses de queue. Pour chaque masse de queue différente, une ligne est générée
dans la sortie.

--tmin
Définissez la limite inférieure de la distribution de masse de la queue. (La valeur par défaut est 0.02 pour le
masse de queue unique par défaut.)

--tmax
Définissez la limite supérieure de la distribution de masse de la queue. (La valeur par défaut est 0.02 pour le
masse de queue unique par défaut.)

--tpoints
Définissez le nombre de masses de queue à échantillonner, à partir de --tmin et se terminant à --tmax.
(La valeur par défaut est 1, pour la masse de queue unique par défaut de 0.02.)

--tlinéaire
Échantillonnez une gamme de masses de queue avec un espacement linéaire uniforme. La valeur par défaut est d'utiliser
espacement logarithmique uniforme.

OPTIONS CONTRLE H3 PARAMÈTRE ESTIMATION MÉTHODES


H3 utilise trois courtes simulations de séquences aléatoires pour estimer les paramètres de localisation pour
les distributions de scores attendues pour les scores MSV, les scores de Viterbi et les scores Forward. Ces
des options permettent de modifier ces simulations.

--EmL
Définit la longueur de séquence dans la simulation qui estime le paramètre d'emplacement mu pour
Valeurs E MSV. La valeur par défaut est 200.

--EmN
Définit le nombre de séquences dans la simulation qui estime le paramètre d'emplacement mu
pour les valeurs E MSV. La valeur par défaut est 200.

--EvL
Définit la longueur de séquence dans la simulation qui estime le paramètre d'emplacement mu pour
Valeurs E de Viterbi. La valeur par défaut est 200.

--EvN
Définit le nombre de séquences dans la simulation qui estime le paramètre d'emplacement mu
pour les valeurs E de Viterbi. La valeur par défaut est 200.

--EfL
Définit la longueur de séquence dans la simulation qui estime le paramètre d'emplacement tau
pour les valeurs E directes. La valeur par défaut est 100.

--EfN
Définit le nombre de séquences dans la simulation qui estime le paramètre d'emplacement
tau pour les valeurs E directes. La valeur par défaut est 200.

--Eft
Définit la fraction massique de la queue pour qu'elle s'adapte à la simulation qui estime l'emplacement
paramètre tau pour les évaluations directes. La valeur par défaut est 0.04.

DÉBOGAGE OPTIONS


--paralyser
Pour le débogage de la version MPI master/worker : pause après démarrage, pour activer le
développeur pour attacher des débogueurs aux processus maître et travailleur en cours d'exécution. Envoyer
Signal SIGCONT pour libérer la pause. (Sous gdb : (Gdb) signal SUIVANT) (Seul
disponible si la prise en charge MPI facultative a été activée au moment de la compilation.)

--la graine
Réglez la graine de nombre aléatoire sur . La valeur par défaut est 0, ce qui rend le nombre aléatoire
générateur utilise une graine arbitraire, de sorte que différentes exécutions de hummm sera presque
génèrent certainement un échantillon statistique différent. Pour le débogage, il est utile de
forcer des résultats reproductibles, en fixant une graine de nombre aléatoire.

EXPERIMENTAL OPTIONS


Ces options ont été utilisées dans une petite variété d'expériences exploratoires différentes.

--bgflat
Réglez la distribution des résidus de fond sur une distribution uniforme, à la fois pour
aux fins du modèle nul utilisé dans le calcul des scores, et pour générer le
séquences aléatoires. La valeur par défaut est d'utiliser une fréquence de fond d'acides aminés standard
distribution.

--bgcomp
Réglez la distribution des résidus de fond sur la composition moyenne du profil.
Cela a été utilisé pour explorer certains des effets d'une composition biaisée.

--x-no-lengthmodel
Désactivez le modèle de longueur de séquence cible H3. Définir les auto-transitions pour N,C,J
et le modèle nul à 350/351 à la place ; cela émule HMMER2. Pas une bonne idée dans
général. Cela a été utilisé pour démontrer l'une des principales différences H2 vs H3.

--nu
Définissez le paramètre nu pour l'algorithme MSV - le nombre attendu de locaux non affectés
alignements par séquence cible. La valeur par défaut est 2.0, correspondant à un E->J
probabilité de transition de 0.5. Cela a été utilisé pour tester si la variation de nu a
effet significatif sur le résultat (il ne semble pas, dans la limite du raisonnable). Cette option seulement
fonctionne si --msv est sélectionné (cela n'affecte que MSV), et cela ne fonctionnera pas avec --vite
(parce que les implémentations optimisées sont câblées pour supposer nu=2.0).

--pthresh
Définissez le seuil de valeur P du filtre à utiliser pour générer des fichiers de puissance de filtre avec
--ffichier. La valeur par défaut est 0.02 (ce qui serait approprié pour tester les scores MSV,
puisqu'il s'agit du seuil de filtre MSV par défaut dans le pipeline d'accélération de H3.)
D'autres choix appropriés (correspondant aux valeurs par défaut dans le pipeline d'accélération) seraient
0.001 pour Viterbi, et 1e-5 pour l'Avant.

Utilisez hmmsim en ligne en utilisant les services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad