Il s'agit de la commande nhmmer qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS.
PROGRAMME:
Nom
nhmmer - recherche des requêtes ADN/ARN dans une base de données de séquences ADN/ARN
SYNOPSIS
nhmmer [choix]
DESCRIPTION
nhmmer est utilisé pour rechercher une ou plusieurs requêtes nucléotidiques sur une séquence nucléotidique
base de données. Pour chaque requête dans , utilisez cette requête pour rechercher la base de données cible de
séquences dans , et affiche une liste classée des hits avec les résultats les plus significatifs
correspond à la requête. Une requête peut être soit un modèle de profil construit à l'aide hmmconstruire, un
alignement de séquence, ou une seule séquence. Les requêtes basées sur des séquences peuvent être dans un certain nombre de
formats (voir --qformat), et peut généralement être détecté automatiquement. Notez que seulement Frankrike
Le format prend en charge les requêtes composées de plusieurs alignements de séquence.
Soit la requête ou la cible peut être '-' (un tiret), dans lequel
Dans ce cas, le fichier de requête ou l'entrée de la base de données cible sera lu à partir d'un tuyau au lieu de
à partir d'un fichier. Une seule source d'entrée peut passer , pas les deux. Si la requête est
basé sur une séquence et transmis via , le --qformat le drapeau doit être utilisé. Si la
contient plus d'une requête, alors ne peut pas venir de , parce que
nous ne pouvons pas rembobiner la base de données cible de streaming pour la rechercher avec un autre profil.
Si la requête est basée sur une séquence et non sur , un nouveau fichier contenant le(s) HMM
construit à partir de la ou des entrées dans peut éventuellement être produit, avec le nom de fichier défini
en utilisant la fonction --hmmout drapeau.
Le format de sortie est conçu pour être lisible par l'homme, mais il est souvent si volumineux que
sa lecture n'est pas pratique et son analyse est pénible. Les --tblout l'option enregistre la sortie dans un
format tabulaire simple, concis et plus facile à analyser. Les -o l'option permet
rediriger la sortie principale, y compris la jeter dans /dev/null.
OPTIONS
-h Aider; imprimer un bref rappel de l'utilisation de la ligne de commande et de toutes les options disponibles.
OPTIONS POUR LES CANADIENS CONTRLE SORTIE
-o Dirigez la sortie principale lisible par l'homme vers un fichier au lieu de la sortie standard par défaut.
-A Enregistrer un alignement multiple de tous les hits significatifs (ceux satisfaisant l'inclusion
seuils) au fichier .
--tblout
Enregistrez un simple fichier tabulaire (délimité par des espaces) résumant la sortie par cible,
avec une ligne de données par séquence cible homologue trouvée.
--dfamtblout
Enregistrez un fichier tabulaire (délimité par des espaces) résumant la sortie par hit, similaire à
--tblout mais plus succinct.
--aliscoresout
Enregistrez dans un fichier une liste des scores par position pour chaque coup. Ceci est utile, pour
exemple, dans l'identification des régions de densité de score élevée pour une utilisation dans la résolution
coups qui se chevauchent de différents modèles.
--hmmout
Si est basé sur une séquence, écrivez le(s) HMM calculé(s) en interne dans .
--acc Utiliser les accessions au lieu des noms dans la sortie principale, le cas échéant pour les profils
et/ou séquences.
--noali
Omettez la section d'alignement de la sortie principale. Cela peut réduire considérablement la sortie
le volume.
--notextw
Illimitez la longueur de chaque ligne dans la sortie principale. La valeur par défaut est une limite de 120
caractères par ligne, ce qui aide à afficher la sortie proprement sur les terminaux et
dans les éditeurs, mais peut tronquer les lignes de description du profil cible.
--textw
Réglez la limite de longueur de ligne de la sortie principale sur caractères par ligne. La valeur par défaut est
120.
OPTIONS CONTRLE DE LA LIGNE SEUILS
Les seuils de rapport contrôlent quels hits sont signalés dans les fichiers de sortie (la sortie principale,
--tbloutet --dfamtblout). Les résultats sont classés par signification statistique (valeur E).
-E Signaler les séquences cibles avec une valeur E de <= . La valeur par défaut est 10.0, ce qui signifie
qu'en moyenne, environ 10 faux positifs seront signalés par requête, vous pouvez donc
voyez le haut du bruit et décidez vous-même si c'est vraiment du bruit.
-T Au lieu de seuiller la sortie sur la valeur E, signalez plutôt les séquences cibles avec un
score de bits de >= .
OPTIONS POUR LES CANADIENS INCLUSION SEUILS
Les seuils d'inclusion sont plus stricts que les seuils de déclaration. Contrôle des seuils d'inclusion
quels hits sont considérés comme suffisamment fiables pour être inclus dans un alignement de sortie ou un
tour de recherche suivant, ou marqué comme significatif ("!") par opposition à douteux ("?")
en sortie de hit.
--incE
Utilisez une valeur E de <= comme seuil d'inclusion. La valeur par défaut est 0.01, ce qui signifie
qu'en moyenne, environ 1 faux positif serait attendu pour 100 recherches
avec différentes séquences de requêtes.
--incT
Au lieu d'utiliser les valeurs E pour définir le seuil d'inclusion, utilisez un score binaire de
>= comme seuil d’inclusion. Par défaut, cette option n'est pas définie.
OPTIONS POUR LES CANADIENS MODÈLE SPÉCIFIQUE SCORE SEUIL
Les bases de données de profils organisées peuvent définir des seuils de score de bits spécifiques pour chaque profil,
remplaçant tout seuillage basé sur la seule signification statistique.
Pour utiliser ces options, le profil doit contenir les éléments appropriés (GA, TC et/ou NC)
annotation facultative du seuil de score ; c'est repris par hmmconstruire du format Stockholm
fichiers d'alignement. Pour un modèle nucléotidique, chaque option de seuillage a un seul par coup
seuil Cela agit comme si -T --incT a été appliqué spécifiquement en utilisant chaque
les seuils sélectionnés du modèle.
--cut_ga
Utilisez le seuil de score de bits GA (collecte) dans le modèle pour définir des rapports par accès
et les seuils d'inclusion. Les seuils GA sont généralement considérés comme les
des seuils définis définissant l'appartenance à la famille ; par exemple, dans Dfam, ces
des seuils sont appliqués lors de l'annotation d'un génome avec un modèle d'une famille connue
se trouver dans cet organisme. Ils peuvent permettre une fausse découverte minimale attendue
taux.
--cut_nc
Utilisez le seuil de score de bits NC (coupure de bruit) dans le modèle pour définir le rapport par coup
et les seuils d'inclusion. Les seuils NC sont moins stricts que GA ; dans le cadre
de Pfam, ils sont généralement utilisés pour stocker le score du score le plus élevé connu
faux positif.
--cut_tc
Utilisez le seuil de score de bits NC (coupure de confiance) dans le modèle pour définir par coup
seuils de déclaration et d'inclusion. Les seuils TC sont plus stricts que GA, et
sont généralement considérés comme le score des vrais positifs connus ayant le score le plus bas
c'est surtout les faux positifs connus ; par exemple, dans Dfam, ces seuils sont
appliqué lors de l'annotation d'un génome avec un modèle d'une famille inconnue
cet organisme.
OPTIONS CONTRLE THE ACCÉLÉRATION PIPELINE
Les recherches HMMER3 sont accélérées dans un pipeline de filtrage en trois étapes : le filtre de balayage-SSV,
le filtre Viterbi et le filtre Forward. Le premier filtre est le plus rapide et le plus
approximatif; le dernier est l'algorithme de notation Forward complet. Il y a aussi un filtre de polarisation
étape entre SSV et Viterbi. Cibles qui franchissent toutes les étapes du pipeline d'accélération
sont ensuite soumis à un post-traitement -- identification de domaine et notation à l'aide du
Algorithme avant/arrière.
La modification des seuils de filtre ne supprime ou n'inclut que les cibles de la considération ; en changeant
les seuils de filtre ne modifient pas les scores de bits, les valeurs E ou les alignements, qui sont tous
déterminé uniquement en post-traitement.
--maximum Désactivez (presque) tous les filtres, y compris le filtre de polarisation, et exécutez-les complètement
Post-traitement avant/arrière sur la majeure partie de la séquence cible. Contrairement à
phmmer et hmmrecherche, où cet indicateur désactive complètement les filtres,
le --maximum drapeau dans nhmmer définit le seuil du filtre d'analyse SSV sur 0.4 et non sur 1.0.
L'utilisation de ce drapeau augmente quelque peu la sensibilité, au détriment de la vitesse.
--F1
Définissez le seuil de valeur P pour l’étape du filtre SSV. La valeur par défaut est 0.02, ce qui signifie
qu'environ 2 % des cibles non homologues les mieux notées devraient réussir
le filtre.
--F2
Définissez le seuil de valeur P pour l'étape de filtre de Viterbi. La valeur par défaut est 0.001.
--F3
Définissez le seuil de valeur P pour l'étape du filtre avant. La valeur par défaut est 1e-5.
--nobias
Désactivez le filtre de polarisation. Cela augmente quelque peu la sensibilité, mais peut arriver à un
coût élevé en vitesse, surtout si la requête a une composition de résidus biaisée (comme
une région de séquence répétitive, ou s'il s'agit d'une protéine membranaire avec de grandes régions de
hydrophobie). Sans le filtre de polarisation, trop de séquences peuvent passer le filtre
avec des requêtes biaisées, conduisant à des performances plus lentes que prévu car le
les algorithmes Forward/Backward à forte intensité de calcul supportent une charge anormalement lourde
charger.
OPTIONS POUR LES CANADIENS EN PRÉCISANT THE ALPHABET
Le type d'alphabet de la base de données cible (ADN ou ARN) est automatiquement détecté par défaut, par
en regardant la composition du . La détection automatique est normalement assez fiable, mais
Parfois, le type d'alphabet peut être ambigu et la détection automatique peut échouer (par exemple, lorsque
la première séquence commence par une série de caractères ambigus). Pour éviter cela, ou pour
Pour augmenter la robustesse des pipelines d'analyse automatisés, vous pouvez spécifier le type d'alphabet de
avec ces options.
--adn Spécifiez que toutes les séquences dans sont des ADN.
--rna Spécifiez que toutes les séquences dans sont des ARN.
OPTIONS CONTRLE Rechercher HEURISTIQUE
Lors d'une recherche avec nhmmer, on peut éventuellement précalculer une version binaire de la cible
base de données, en utilisant makehmmerdb, puis effectuez une recherche dans cette base de données. En utilisant les paramètres par défaut,
cela donne une accélération d'environ 10 fois avec une petite perte de sensibilité sur les repères.
Ceci est réalisé en utilisant une méthode heuristique qui recherche des graines (alignements non écartés)
autour duquel le traitement complet est effectué. Il s'agit essentiellement d'un remplacement de l'étage SSV.
(Cette méthode a été largement testée, mais doit toujours être considérée comme quelque peu
expérimental.) Les options suivantes n’ont d’impact que nhmmer si la valeur de --tformat is
hmmerdb.
La modification des paramètres pour cette étape de recherche de graines aura un impact à la fois sur la vitesse et la sensibilité -
une recherche généralement plus rapide conduit à une sensibilité plus faible.
--seed_max_profondeur
L'étape de graine nécessite qu'une graine atteigne un nombre de bits spécifié en longueur et non plus
que . Par défaut, cette valeur est de 15. Des graines plus longues permettent une plus grande chance de
atteignant le seuil de score binaire, conduisant à un filtrage diminué (plus grand
sensibilité, temps d'exécution plus lent).
--seed_sc_thresh
La graine doit atteindre le score (en bits). La valeur par défaut est 15.0 bits. Un plus haut
Le seuil augmente la rigueur du filtrage, ce qui entraîne des temps d'exécution plus rapides et des temps d'exécution inférieurs.
sensibilité.
--seed_sc_densité
Soit tous les préfixes, soit tous les suffixes d'une graine doivent avoir une densité de bits (bits par
position alignée) d'au moins . La valeur par défaut est de 0.8 bits/position. Une augmentation
dans l'exigence de densité conduit à une rigueur de filtrage accrue, donc à un fonctionnement plus rapide
Temps et sensibilité inférieure.
--seed_drop_max_len
Une graine peut ne pas avoir une longueur dans lequel le score chute --seed_drop_lim
ou plus. Fondamentalement, cela taille les graines qui traversent de longues graines légèrement négatives
extensions. La valeur par défaut est 4. L'augmentation de la limite entraîne une (légère) diminution
efficacité de filtrage, donc des temps d'exécution plus lents et une sensibilité plus élevée. (réglage mineur
option)
--seed_drop_lim
Dans une graine, il ne peut y avoir aucune longueur --seed_drop_max_len dans lequel la partition
passe par --seed_drop_lim. La valeur par défaut est 0.3 bits. Des nombres plus grands signifient moins
filtration. (option de réglage mineure)
--seed_req_pos
Une graine doit contenir une série d'au moins matchs à score positif. La valeur par défaut est
5. Des valeurs plus élevées signifient un filtrage accru. (option de réglage mineure)
--seed_ssv_length
Après avoir trouvé une graine courte, un alignement sans écart est étendu dans les deux directions
une tentative de rencontrer le --F1 seuil de score. La fenêtre à travers laquelle cela s'est dégagé
l'alignement s'étend sur la longueur . La valeur par défaut est 70. Diminuer cette valeur
réduit légèrement le temps d'exécution, avec un faible risque de sensibilité réduite. (réglage mineur
option)
AUTRES OPTIONS
--tformat
Affirmez que le fichier de base de données de séquence cible est au format . Formats acceptés
comprennent fasta, emblème, banque de données, ddbj, unipro, Stockholm, pfam, a2m, grand-pèreet
hmmerfm. La valeur par défaut est de détecter automatiquement le format du fichier. Le format hmmerfm
indique que le fichier de base de données est un fichier binaire produit à l'aide de makehmmerdb (ce
le format n'est pas actuellement détecté automatiquement).
--qformat
Déclarer que l'entrée est au format . Ceci est utilisé lorsque la requête
est basé sur une séquence plutôt que constitué de modèles de profil. Actuellement accepté
plusieurs formats de fichiers de séquence d'alignement incluent Stockholm, Aligned FASTA, Clustal,
NCBI PSI-BLAST, PHYLIP, Selex et UCSC SAM A2M. La valeur par défaut est de détecter automatiquement le
format du fichier.
--nonull2
Désactivez les corrections de score null2 pour la composition biaisée.
-Z Aux fins des calculs de valeur E par coup, affirmez que la taille totale du
la base de données cible est millions de nucléotides, plutôt que le nombre réel de
cibles vues.
--la graine
Réglez la graine de nombre aléatoire sur . Certaines étapes du post-traitement nécessitent Monte
Simulation de Carlo. La valeur par défaut est d'utiliser une valeur de départ fixe (42), afin que les résultats soient
exactement reproductible. Tout autre entier positif donnera un nombre différent (mais aussi
reproductibles). Un choix de 0 utilise une graine choisie au hasard.
--w_bêta
Masse de queue de longueur de fenêtre. La borne supérieure, W, sur la longueur à laquelle nhmmer s'attend
pour trouver une instance du modèle est définie de telle sorte que la fraction de toutes les séquences
généré par le modèle de longueur >= W est inférieur à . La valeur par défaut est 1e-7.
Cet indicateur peut être utilisé pour remplacer la valeur de W établi pour le modèle par
hmmconstruire, ou lorsque la requête est basée sur une séquence.
--w_longueur
Remplacer la limite supérieure de la longueur de l'instance du modèle, W, qui est par ailleurs contrôlé par
--w_bêta. Il doit être plus grand que la longueur du modèle. La valeur de W est utilisé en profondeur
dans le pipeline d'accélération, et des changements modestes ne devraient pas avoir d'impact sur les résultats
(bien que des valeurs plus élevées de W conduisent à un temps d'exécution plus long). Ce drapeau peut être utilisé pour
remplacer la valeur de W établi pour le modèle par hmmconstruire, ou lorsque la requête est
basé sur la séquence.
--le haut seulement
Recherchez uniquement le brin supérieur. Par défaut, la séquence de requête et son inverse-
complément sont recherchés.
--bas seulement
Recherchez uniquement le brin inférieur (complément inversé). Par défaut, la requête
la séquence et son complément inverse sont recherchés.
--CPU
Définissez le nombre de threads de travail parallèles sur . Par défaut, HMMER définit ceci sur
le nombre de cœurs de processeur qu'il détecte dans votre machine - c'est-à-dire qu'il essaie de maximiser
l'utilisation de vos cœurs de processeur disponibles. Réglage supérieur au nombre de
noyaux disponibles a peu ou pas de valeur, mais vous voudrez peut-être le définir sur quelque chose
moins. Vous pouvez également contrôler ce nombre en définissant une variable d'environnement,
HMMER_NCPU.
Cette option n'est disponible que si HMMER a été compilé avec le support des threads POSIX.
C'est la valeur par défaut, mais elle a peut-être été désactivée au moment de la compilation pour votre site
ou machine pour une raison quelconque.
--paralyser
Pour le débogage de la version MPI master/worker : pause après démarrage, pour activer le
développeur pour attacher des débogueurs aux processus maître et travailleur en cours d'exécution. Envoyer
Signal SIGCONT pour libérer la pause. (Sous gdb : (Gdb) signal SUIVANT) (Seul
disponible si la prise en charge MPI facultative a été activée au moment de la compilation.)
--mpi Exécuter en mode maître/travailleur MPI, en utilisant mpirun. (Uniquement disponible si MPI en option
le support a été activé au moment de la compilation.)
Utilisez nhmmer en ligne en utilisant les services onworks.net
