Il s'agit de la commande nhmmscan qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
nhmmscan - recherche de séquences nucléotidiques dans une base de données de profils nucléotidiques
SYNOPSIS
hmmscan [choix]
DESCRIPTION
nhmmscan est utilisé pour rechercher des séquences de nucléotides par rapport à des collections de nucléotides
profils. Pour chaque séquence dans , utilisez cette séquence de requête pour rechercher la cible
base de données de profils dans , et produire des listes classées des profils les plus
correspondances significatives avec la séquence.
Le peut contenir plusieurs séquences de requêtes. Il peut être au format FASTA, ou
plusieurs autres formats de fichiers de séquence courants (genbank, embl et uniprot, entre autres), ou
dans les formats de fichiers d'alignement (stockholm, aligné fasta et autres). Voir le --qformat option
pour une liste complète.
Le doit être pressé à l'aide hummpress avant de pouvoir être recherché avec hmmscan.
Cela crée quatre fichiers binaires, suffixés .h3{fimp}.
La requête peut être '-' (un tiret), auquel cas les séquences de requêtes sont
lu d'un pipe au lieu d'un fichier. Les ne peut pas être lu à partir d'un
stream, car il doit avoir ces quatre fichiers binaires auxiliaires générés par
hummpress.
Le format de sortie est conçu pour être lisible par l'homme, mais il est souvent si volumineux que
sa lecture n'est pas pratique et son analyse est pénible. Les --tblout l'option enregistre la sortie dans un
format tabulaire simple, concis et plus facile à analyser. Les -o l'option permet
rediriger la sortie principale, y compris la jeter dans /dev/null.
OPTIONS
-h Aider; imprimer un bref rappel de l'utilisation de la ligne de commande et de toutes les options disponibles.
OPTIONS POUR LES CANADIENS CONTRLE SORTIE
-o Dirigez la sortie principale lisible par l'homme vers un fichier au lieu de la sortie standard par défaut.
--tblout
Enregistrez un simple fichier tabulaire (délimité par des espaces) résumant la sortie par coup, avec
une ligne de données par hit de modèle cible homologue trouvé.
--dfamtblout
Enregistrez un fichier tabulaire (délimité par des espaces) résumant la sortie par hit, similaire à
--tblout mais plus succinct.
--aliscoresout
Enregistrez dans un fichier une liste des scores par position pour chaque coup. Ceci est utile, pour
exemple, dans l'identification des régions de densité de score élevée pour une utilisation dans la résolution
coups qui se chevauchent de différents modèles.
--acc Utiliser les accessions au lieu des noms dans la sortie principale, le cas échéant pour les profils
et/ou séquences.
--noali
Omettez la section d'alignement de la sortie principale. Cela peut réduire considérablement la sortie
le volume.
--notextw
Illimitez la longueur de chaque ligne dans la sortie principale. La valeur par défaut est une limite de 120
caractères par ligne, ce qui aide à afficher la sortie proprement sur les terminaux et
dans les éditeurs, mais peut tronquer les lignes de description du profil cible.
--textw
Réglez la limite de longueur de ligne de la sortie principale sur caractères par ligne. La valeur par défaut est
120.
OPTIONS POUR LES CANADIENS DE LA LIGNE SEUILS
Les seuils de rapport contrôlent quels hits sont signalés dans les fichiers de sortie (la sortie principale,
--tbloutet --dfamtblout). Les résultats sont classés par signification statistique (valeur E).
-E Signaler les profils cibles avec une valeur E de <= . La valeur par défaut est 10.0, ce qui signifie
qu'en moyenne, environ 10 faux positifs seront signalés par requête, vous pouvez donc
voyez le haut du bruit et décidez vous-même si c'est vraiment du bruit.
-T Au lieu de seuiller la sortie sur la valeur E, signalez plutôt les profils cibles avec un
score de bits de >= .
OPTIONS POUR LES CANADIENS INCLUSION SEUILS
Les seuils d'inclusion sont plus stricts que les seuils de déclaration. Contrôle des seuils d'inclusion
quels hits sont considérés comme suffisamment fiables pour être inclus dans un alignement de sortie ou un
tour de recherche ultérieur. Dans nhmmscan, qui n'a pas de sortie d'alignement (comme
nhmmer), les seuils d'inclusion ont peu d'effet. Ils n'affectent que les hits marqués comme
significatif (!) ou discutable (?) dans la sortie de hit.
--incE
Utilisez une valeur E de <= comme seuil d'inclusion. La valeur par défaut est 0.01, ce qui signifie
qu'en moyenne, environ 1 faux positif serait attendu pour 100 recherches
avec différentes séquences de requêtes.
--incT
Au lieu d'utiliser les valeurs E pour définir le seuil d'inclusion, utilisez un score binaire de
>= comme seuil d'inclusion. Il serait inhabituel d'utiliser des seuils de score de bits
avec hmmscan, car vous ne vous attendez pas à ce qu'un seul seuil de score fonctionne pour
des profils différents ; différents profils ont un score attendu légèrement différent
répartitions.
OPTIONS POUR LES CANADIENS MODÈLE SPÉCIFIQUE SCORE SEUIL
Les bases de données de profils organisées peuvent définir des seuils de score de bits spécifiques pour chaque profil,
remplaçant tout seuillage basé sur la seule signification statistique.
Pour utiliser ces options, le profil doit contenir les éléments appropriés (GA, TC et/ou NC)
annotation facultative du seuil de score ; c'est repris par hmmconstruire du format Stockholm
fichiers d'alignement. Pour un modèle nucléotidique, chaque option de seuillage a un seul par coup
seuil Cela agit comme si -T --incT a été appliqué spécifiquement en utilisant chaque
les seuils sélectionnés du modèle.
--cut_ga
Utilisez le seuil de score de bits GA (collecte) dans le modèle pour définir des rapports par accès
et les seuils d'inclusion. Les seuils GA sont généralement considérés comme les
des seuils définis définissant l'appartenance à la famille ; par exemple, dans Dfam, ces
des seuils sont appliqués lors de l'annotation d'un génome avec un modèle d'une famille connue
se trouver dans cet organisme. Ils peuvent permettre une fausse découverte minimale attendue
taux.
--cut_nc
Utilisez le seuil de score de bits NC (coupure de bruit) dans le modèle pour définir le rapport par coup
et les seuils d'inclusion. Les seuils NC sont moins stricts que GA ; dans le cadre
de Pfam, ils sont généralement utilisés pour stocker le score du score le plus élevé connu
faux positif.
--cut_tc
Utilisez le seuil de score de bits NC (coupure de confiance) dans le modèle pour définir par coup
seuils de déclaration et d'inclusion. Les seuils TC sont plus stricts que GA, et
sont généralement considérés comme le score des vrais positifs connus ayant le score le plus bas
c'est surtout les faux positifs connus ; par exemple, dans Dfam, ces seuils sont
appliqué lors de l'annotation d'un génome avec un modèle d'une famille inconnue
cet organisme.
CONTRÔLE OF THE ACCÉLÉRATION PIPELINE
Les recherches HMMER3 sont accélérées dans un pipeline de filtrage en trois étapes : le filtre de balayage-SSV,
le filtre Viterbi et le filtre Forward. Le premier filtre est le plus rapide et le plus
approximatif; le dernier est l'algorithme de notation Forward complet. Il y a aussi un filtre de polarisation
étape entre SSV et Viterbi. Cibles qui franchissent toutes les étapes du pipeline d'accélération
sont ensuite soumis à un post-traitement -- identification de domaine et notation à l'aide du
Algorithme avant/arrière.
La modification des seuils de filtre ne supprime ou n'inclut que les cibles de la considération ; en changeant
les seuils de filtre ne modifient pas les scores de bits, les valeurs E ou les alignements, qui sont tous
déterminé uniquement en post-traitement.
--maximum Désactivez (presque) tous les filtres, y compris le filtre de polarisation, et exécutez-les complètement
Post-traitement avant/arrière sur la majeure partie de la séquence cible. Contrairement à
hmmscan, où ce drapeau désactive vraiment complètement les filtres, le --maximum drapeau
in nhmmscan définit le seuil du filtre d'analyse SSV sur 0.4, et non sur 1.0. Utilisation de ce
flag augmente quelque peu la sensibilité, à un coût élevé en vitesse.
--F1
Définissez le seuil de valeur P pour l'étape de filtre MSV. La valeur par défaut est 0.02, ce qui signifie
qu'environ 2 % des cibles non homologues les mieux notées devraient réussir
le filtre.
--F2
Définissez le seuil de valeur P pour l'étape de filtre de Viterbi. La valeur par défaut est 0.001.
--F3
Définissez le seuil de valeur P pour l'étape du filtre avant. La valeur par défaut est 1e-5.
--nobias
Désactivez le filtre de polarisation. Cela augmente quelque peu la sensibilité, mais peut arriver à un
coût élevé en vitesse, surtout si la requête a une composition de résidus biaisée (comme
une région de séquence répétitive, ou s'il s'agit d'une protéine membranaire avec de grandes régions de
hydrophobie). Sans le filtre de polarisation, trop de séquences peuvent passer le filtre
avec des requêtes biaisées, conduisant à des performances plus lentes que prévu car le
les algorithmes Forward/Backward à forte intensité de calcul supportent une charge anormalement lourde
charger.
AUTRES OPTIONS
--nonull2
Désactivez les corrections de score null2 pour la composition biaisée.
-Z Affirmez que le nombre total de cibles dans vos recherches est , Pour les buts
des calculs de valeur E par séquence, plutôt que le nombre réel de cibles
vu.
--la graine
Réglez la graine de nombre aléatoire sur . Certaines étapes du post-traitement nécessitent Monte
Simulation de Carlo. La valeur par défaut est d'utiliser une valeur de départ fixe (42), afin que les résultats soient
exactement reproductible. Tout autre entier positif donnera un nombre différent (mais aussi
reproductibles). Un choix de 0 utilise une graine choisie arbitrairement.
--qformat
Affirmer que le fichier de séquence de requête est au format . Les formats acceptés incluent
fasta, emblème, banque de données, ddbj, unipro, Stockholm, pfam, a2met grand-père. La valeur par défaut est
pour détecter automatiquement le format du fichier.
--w_bêta
Masse de queue de longueur de fenêtre. La borne supérieure, W, sur la longueur à laquelle nhmmer s'attend
pour trouver une instance du modèle est définie de telle sorte que la fraction de toutes les séquences
généré par le modèle de longueur >= W est inférieur à . La valeur par défaut est 1e-7.
Cet indicateur peut être utilisé pour remplacer la valeur de W établi pour le modèle par
hmmconstruire.
--w_longueur
Remplacer la limite supérieure de la longueur de l'instance du modèle, W, qui est par ailleurs contrôlé par
--w_bêta. Il doit être plus grand que la longueur du modèle. La valeur de W est utilisé en profondeur
dans le pipeline d'accélération, et des changements modestes ne devraient pas avoir d'impact sur les résultats
(bien que des valeurs plus élevées de W conduisent à un temps d'exécution plus long). Ce drapeau peut être utilisé pour
remplacer la valeur de W établi pour le modèle par hmmconstruire.
--le haut seulement
Recherchez uniquement le brin supérieur. Par défaut, la séquence de requête et son inverse-
complément sont recherchés.
--bas seulement
Recherchez uniquement le brin inférieur (complément inversé). Par défaut, la requête
la séquence et son complément inverse sont recherchés.
--CPU
Définissez le nombre de threads de travail parallèles sur . Par défaut, HMMER définit ceci sur
le nombre de cœurs de processeur qu'il détecte dans votre machine - c'est-à-dire qu'il essaie de maximiser
l'utilisation de vos cœurs de processeur disponibles. Réglage supérieur au nombre de
noyaux disponibles a peu ou pas de valeur, mais vous voudrez peut-être le définir sur quelque chose
moins. Vous pouvez également contrôler ce nombre en définissant une variable d'environnement,
HMMER_NCPU.
Cette option n'est disponible que si HMMER a été compilé avec le support des threads POSIX.
Il s'agit de la valeur par défaut, mais elle a peut-être été désactivée pour votre site ou votre machine pendant
une raison quelconque.
--paralyser
Pour le débogage de la version MPI master/worker : pause après démarrage, pour activer le
développeur pour attacher des débogueurs aux processus maître et travailleur en cours d'exécution. Envoyer
Signal SIGCONT pour libérer la pause. (Sous gdb : (Gdb) signal SUIVANT)
(Uniquement disponible si la prise en charge facultative de MPI a été activée au moment de la compilation.)
--mpi Exécuter en mode maître/travailleur MPI, en utilisant mpirun.
(Uniquement disponible si la prise en charge facultative de MPI a été activée au moment de la compilation.)
Utilisez nhmmscan en ligne à l'aide des services onworks.net
