Il s'agit de la commande phmmer qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
phmmer - recherche de séquences de protéines dans une base de données de séquences de protéines
SYNOPSIS
phmmer [choix]
DESCRIPTION
phmmer est utilisé pour rechercher une ou plusieurs séquences de protéines d'interrogation par rapport à une séquence de protéines
base de données. Pour chaque séquence de requête dans , utilisez cette séquence pour rechercher la cible
base de données de séquences dans , et sortir des listes classées des séquences avec le plus
correspondances significatives avec la requête.
Soit la requête ou la cible peut être '-' (un tiret), dans lequel
cas où les séquences de requête ou l'entrée de la base de données cible seront lues à partir d'un tuyau à la place
de à partir d'un fichier. Une seule source d'entrée peut passer , pas les deux. Une exception est
que si le contient plus d'une séquence de requêtes, alors ne peut pas venir de
, car nous ne pouvons pas revenir en arrière dans la base de données cible de streaming pour la rechercher avec un autre
requête.
Le format de sortie est conçu pour être lisible par l'homme, mais il est souvent si volumineux que
sa lecture n'est pas pratique et son analyse est pénible. Les --tblout et --domtblout Options
enregistrez la sortie dans des formats tabulaires simples qui sont concis et plus faciles à analyser. Les -o option
permet de rediriger la sortie principale, y compris de la jeter dans /dev/null.
OPTIONS
-h Aider; imprimer un bref rappel de l'utilisation de la ligne de commande et de toutes les options disponibles.
OPTIONS POUR LES CANADIENS CONTRLE SORTIE
-o Dirigez la sortie principale lisible par l'homme vers un fichier au lieu de la sortie standard par défaut.
-A Enregistrez un alignement multiple de tous les hits significatifs (ceux qui satisfont à l'inclusion
seuils) dans le fichier au format Stockholm.
--tblout
Enregistrez un simple fichier tabulaire (délimité par des espaces) résumant la sortie par cible,
avec une ligne de données par séquence cible homologue trouvée.
--domtblout
Enregistrez un simple fichier tabulaire (délimité par des espaces) résumant la sortie par domaine,
avec une ligne de données par domaine homologue détecté dans une séquence de requête pour chaque
modèle homologue.
--acc Utiliser les accessions au lieu des noms dans la sortie principale, le cas échéant pour les profils
et/ou séquences.
--noali
Omettez la section d'alignement de la sortie principale. Cela peut réduire considérablement la sortie
le volume.
--notextw
Illimitez la longueur de chaque ligne dans la sortie principale. La valeur par défaut est une limite de 120
caractères par ligne, ce qui aide à afficher la sortie proprement sur les terminaux et
dans les éditeurs, mais peut tronquer les lignes de description du profil cible.
--textw
Réglez la limite de longueur de ligne de la sortie principale sur caractères par ligne. La valeur par défaut est
120.
OPTIONS CONTRLE NOTATION SYSTÈME
Le modèle de probabilité dans phmmer est construit en inférant des probabilités de résidus à partir d'un
matrice de score de substitution standard 20x20, plus deux paramètres supplémentaires pour la position-
écart indépendant ouvert et écart étendre les probabilités.
--ouvrir
Définissez la probabilité d'ouverture d'espace pour un modèle de requête de séquence unique sur . Le défaut
est 0.02. doit être >= 0 et < 0.5.
--étendre
Définissez la probabilité d'extension de l'écart pour un modèle de requête de séquence unique sur L’
la valeur par défaut est 0.4. doit être >= 0 et < 1.0.
--mx
Obtenez les probabilités d'alignement des résidus à partir de la matrice de substitution intégrée nommée
. Plusieurs matrices standard sont intégrées et n'ont pas besoin d'être lues à partir de
des dossiers. Le nom de la matrice peut être PAM30, PAM70, PAM120, PAM240, BLOSUM45,
BLOSUM50, BLOSUM62, BLOSUM80 ou BLOSUM90. Un seul des --mx et --fichiermx
des options peuvent être utilisées.
--fichiermx
Obtenir les probabilités d'alignement des résidus à partir de la matrice de substitution dans le fichier
. La matrice de score par défaut est BLOSUM62 (cette matrice est interne à HMMER
et n'a pas besoin d'être disponible sous forme de fichier). Le format d'une matrice de substitution
est le format standard accepté par BLAST, FASTA et d'autres séquences
logiciel d'analyse. Un seul des --mx et --fichiermx des options peuvent être utilisées.
OPTIONS CONTRLE DE LA LIGNE SEUILS
Les seuils de rapport contrôlent quels hits sont signalés dans les fichiers de sortie (la sortie principale,
--tbloutet --domtblout). Les hits de séquence et les hits de domaine sont classés par statistiques
signification (valeur E) et la sortie est générée en deux sections appelées par cible et par
sortie de domaine. Dans la sortie par cible, par défaut, toutes les séquences frappent avec une valeur E <= 10
sont rapportés. Dans la sortie par domaine, pour chaque cible qui a réussi par cible
seuils de rapport, tous les domaines satisfaisant aux seuils de rapport par domaine sont signalés.
Par défaut, ce sont des domaines avec des valeurs E conditionnelles de <= 10. Les options suivantes
vous permettent de modifier les seuils de rapport de valeur E par défaut ou d'utiliser le score de bits
seuils à la place.
-E Dans la sortie par cible, rapportez les séquences cibles avec une valeur E de <= L’
la valeur par défaut est 10.0, ce qui signifie qu'en moyenne, environ 10 faux positifs seront signalés
par requête, afin que vous puissiez voir le haut du bruit et décider par vous-même si c'est
vraiment du bruit.
-T Au lieu de seuiller la sortie par profil sur la valeur E, rapportez plutôt la cible
séquences avec un score binaire de >= .
--dôme
Dans la sortie par domaine, pour les séquences cibles qui ont déjà satisfait
seuil de rapport de profil, rapporter des domaines individuels avec une valeur E conditionnelle
de <= . La valeur par défaut est 10.0. Une valeur E conditionnelle signifie le nombre attendu
de domaines faux positifs supplémentaires dans le plus petit espace de recherche de ceux
comparaisons qui satisfaisaient déjà au seuil de déclaration par cible (et donc
doit déjà avoir au moins un domaine homologue).
--domT
Au lieu de seuiller la sortie par domaine sur la valeur E, signalez plutôt les domaines avec un
score de bits de >= .
OPTIONS CONTRLE INCLUSION SEUILS
Les seuils d'inclusion sont plus stricts que les seuils de déclaration. Ils contrôlent quels coups sont
inclus dans tout alignement multiple de sortie (le -A option) et quels domaines sont marqués comme
significatif ("!") par opposition à discutable ("?") dans la sortie du domaine.
--incE
Utilisez une valeur E de <= comme seuil d'inclusion par cible. La valeur par défaut est
0.01, ce qui signifie qu'en moyenne, environ 1 faux positif serait attendu dans chaque
100 recherches avec différentes séquences de requêtes.
--incT
Au lieu d'utiliser les valeurs E pour définir le seuil d'inclusion, utilisez plutôt un peu
note de >= comme seuil d'inclusion par cible. Par défaut, cette option est
désarmé.
--incdomE
Utilisez une valeur E conditionnelle de <= comme seuil d'inclusion par domaine, en
cibles qui ont déjà atteint le seuil global d'inclusion par cible.
La valeur par défaut est 0.01.
--incdomT
Au lieu d'utiliser des valeurs E, utilisez un score binaire de >= comme inclusion par domaine
seuil. Par défaut, cette option est désactivée.
OPTIONS CONTRLE THE ACCÉLÉRATION PIPELINE
Les recherches HMMER3 sont accélérées dans un pipeline de filtrage en trois étapes : le filtre MSV, le
le filtre Viterbi et le filtre Forward. Le premier filtre est le plus rapide et le plus
approximatif; le dernier est l'algorithme de notation Forward complet, le plus lent mais le plus précis.
Il existe également une étape de filtre de polarisation entre MSV et Viterbi. Des cibles qui passent toutes les étapes
dans le pipeline d'accélération sont ensuite soumis à un post-traitement -- identification de domaine
et la notation à l'aide de l'algorithme Forward/Backward.
Essentiellement, les seuls paramètres libres qui contrôlent les filtres heuristiques de HMMER sont le P-
seuils de valeur contrôlant la fraction attendue de séquences non homologues qui passent
les filtres. Si vous définissez des seuils par défaut plus élevés, une proportion plus élevée de
séquence non homologue, augmentant la sensibilité au détriment de la vitesse ; inversement,
la définition de seuils de valeur P inférieurs laissera passer une plus petite proportion, diminuant la sensibilité
et l'augmentation de la vitesse. Définir le seuil de valeur P d'un filtre sur 1.0 signifie qu'il passera
toutes les séquences et désactive efficacement le filtre.
La modification des seuils de filtre ne supprime ou n'inclut que les cibles de la considération ; en changeant
les seuils de filtre ne modifient pas les scores de bits, les valeurs E ou les alignements, qui sont tous
déterminé uniquement en post-traitement.
--maximum Sensibilité maximale. Désactivez tous les filtres, y compris le filtre de polarisation, et exécutez-les complètement
Post-traitement avant/arrière sur chaque cible. Cela augmente la sensibilité
légèrement, à un coût élevé en vitesse.
--F1
Premier seuil de filtre ; définir le seuil de valeur P pour l'étape de filtre MSV. Les
la valeur par défaut est de 0.02, ce qui signifie qu'environ 2 % du score non homologue le plus élevé
les cibles devraient passer le filtre.
--F2
Deuxième seuil de filtre ; définir le seuil de valeur P pour l'étape de filtre de Viterbi.
La valeur par défaut est 0.001.
--F3
Troisième seuil de filtre ; définir le seuil de valeur P pour l'étape du filtre avant. Les
la valeur par défaut est 1e-5.
--nobias
Désactivez le filtre de polarisation. Cela augmente quelque peu la sensibilité, mais peut arriver à un
coût élevé en vitesse, surtout si la requête a une composition de résidus biaisée (comme
une région de séquence répétitive, ou s'il s'agit d'une protéine membranaire avec de grandes régions de
hydrophobie). Sans le filtre de polarisation, trop de séquences peuvent passer le filtre
avec des requêtes biaisées, conduisant à des performances plus lentes que prévu car le
les algorithmes Forward/Backward à forte intensité de calcul supportent une charge anormalement lourde
charger.
OPTIONS CONTRLE E-VALEUR ÉTALONNAGE
Estimation des paramètres d'emplacement pour les distributions de scores attendues pour le filtre MSV
les scores, les scores de filtre de Viterbi et les scores Forward nécessitent trois courtes séquences aléatoires
simulations.
--EmL
Définit la longueur de séquence dans la simulation qui estime le paramètre d'emplacement mu pour
Valeurs E du filtre MSV. La valeur par défaut est 200.
--EmN
Définit le nombre de séquences dans la simulation qui estime le paramètre d'emplacement mu
pour les valeurs E du filtre MSV. La valeur par défaut est 200.
--EvL
Définit la longueur de séquence dans la simulation qui estime le paramètre d'emplacement mu pour
Valeurs E du filtre de Viterbi. La valeur par défaut est 200.
--EvN
Définit le nombre de séquences dans la simulation qui estime le paramètre d'emplacement mu
pour les valeurs E du filtre de Viterbi. La valeur par défaut est 200.
--EfL
Définit la longueur de séquence dans la simulation qui estime le paramètre d'emplacement tau
pour les valeurs E directes. La valeur par défaut est 100.
--EfN
Définit le nombre de séquences dans la simulation qui estime le paramètre d'emplacement
tau pour les valeurs E directes. La valeur par défaut est 200.
--Eft
Définit la fraction massique de la queue pour qu'elle s'adapte à la simulation qui estime l'emplacement
paramètre tau pour les évaluations directes. La valeur par défaut est 0.04.
AUTRES OPTIONS
--nonull2
Désactivez les corrections de score null2 pour la composition biaisée.
-Z Affirmez que le nombre total de cibles dans vos recherches est , Pour les buts
des calculs de valeur E par séquence, plutôt que le nombre réel de cibles
vu.
--domZ
Affirmez que le nombre total de cibles dans vos recherches est , Pour les buts
des calculs de valeur E conditionnels par domaine, plutôt que le nombre de cibles
qui ont dépassé les seuils de déclaration.
--la graine
Semez le générateur de nombres aléatoires avec , un entier >= 0. Si est >0, tout
les simulations stochastiques seront reproductibles ; la même commande donnera le même
résultats. Si est 0, le générateur de nombres aléatoires est ensemencé arbitrairement, et
les simulations stochastiques varieront d'une exécution à l'autre de la même commande. Le défaut
la graine est de 42.
--qformat
Déclarer que l'entrée est au format . Les formats acceptés incluent fasta,
emblème, banque de données, ddbj, unipro, Stockholm, pfam, a2met grand-père. La valeur par défaut est de
détecter automatiquement le format du fichier.
--tformat
Déclarer que l'entrée est au format . Les formats acceptés incluent fasta,
emblème, banque de données, ddbj, unipro, Stockholm, pfam, a2met grand-père. La valeur par défaut est de
détecter automatiquement le format du fichier.
--CPU
Définissez le nombre de threads de travail parallèles sur . Par défaut, HMMER définit ceci sur
le nombre de cœurs de processeur qu'il détecte dans votre machine - c'est-à-dire qu'il essaie de maximiser
l'utilisation de vos cœurs de processeur disponibles. Réglage supérieur au nombre de
noyaux disponibles a peu ou pas de valeur, mais vous voudrez peut-être le définir sur quelque chose
moins. Vous pouvez également contrôler ce nombre en définissant une variable d'environnement,
HMMER_NCPU.
Cette option n'est disponible que si HMMER a été compilé avec le support des threads POSIX.
C'est la valeur par défaut, mais elle a peut-être été désactivée au moment de la compilation pour votre site
ou machine pour une raison quelconque.
--paralyser
Pour le débogage de la version MPI master/worker : pause après démarrage, pour activer le
développeur pour attacher des débogueurs aux processus maître et travailleur en cours d'exécution. Envoyer
Signal SIGCONT pour libérer la pause. (Sous gdb : (Gdb) signal SUIVANT) (Seul
disponible si la prise en charge MPI facultative a été activée au moment de la compilation.)
--mpi Exécuter en mode maître/travailleur MPI, en utilisant mpirun. (Uniquement disponible si MPI en option
le support a été activé au moment de la compilation.)
Utiliser phmmer en ligne à l'aide des services onworks.net
