AnglaisFrançaisEspagnol

Ad


Icône de favori OnWorks

jackhmmer - En ligne dans le Cloud

Exécutez jackhmmer dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande jackhmmer qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


jackhmmer - recherche itérative de séquence(s) par rapport à une base de données de protéines

SYNOPSIS


jackhmmer [choix]

DESCRIPTION


jackhmmer recherche itérativement chaque séquence de requête dans contre la cible
séquence(s) dans . La première itération est identique à un phmmer chercher. Pour le
prochaine itération, un alignement multiple de la requête avec toutes les séquences cibles
satisfaisant inclusion seuils est assemblé, un profil est construit à partir de cet alignement
(identique à l'utilisation hmmconstruire sur l'alignement), et recherche de profil du est fait
(identique à un hmmrecherche avec le profil).

La requête peut être '-' (un tiret), auquel cas les séquences de requêtes sont
lu d'un pipe au lieu d'un fichier. Les ne peut pas être lu à partir d'un
flux, parce que jackhmmer doit faire plusieurs passages sur la base de données.

Le format de sortie est conçu pour être lisible par l'homme, mais il est souvent si volumineux que
sa lecture n'est pas pratique et son analyse est pénible. Les --tblout ainsi que --domtblout Options
enregistrez la sortie dans des formats tabulaires simples qui sont concis et plus faciles à analyser. Les -o option
permet de rediriger la sortie principale, y compris de la jeter dans /dev/null.

OPTIONS


-h Aider; imprimer un bref rappel de l'utilisation de la ligne de commande et de toutes les options disponibles.

-N Définissez le nombre maximal d'itérations sur . La valeur par défaut est 5. Si N=1, le résultat
est équivalente à une phmmer chercher.

OPTIONS CONTRLE SORTIE


Par défaut, la sortie de chaque itération apparaît sur stdout dans un format quelque peu lisible par l'homme,
format quelque peu analysable. Ces options permettent de rediriger cette sortie ou d'enregistrer
types supplémentaires de sortie vers des fichiers, y compris des fichiers de point de contrôle pour chaque itération.

-o Dirigez la sortie lisible par l'homme vers un fichier .

-A Après l'itération finale, enregistrez un alignement multiple annoté de tous les hits
des seuils d'inclusion satisfaisants (incluant également la requête d'origine) pour in
Format de Stockholm.

--tblout
Après l'itération finale, enregistrez un résumé tabulaire des principaux résultats de la séquence dans dans un
format facilement analysable, en colonnes, délimité par des espaces.

--domtblout
Après l'itération finale, enregistrez un résumé tabulaire des principaux accès au domaine dans dans un
format facilement analysable, en colonnes, délimité par des espaces.

--chkhmm
Au début de chaque itération, pointez la requête HMM, en la sauvegardant dans un fichier nommé
- .Hmm De est le numéro d'itération (de 1..N).

--chkali
A la fin de chaque itération, pointez un alignement de tous les domaines satisfaisant
des seuils d'inclusion (par exemple ce qui deviendra la requête HMM pour la prochaine itération),
l'enregistrer dans un fichier nommé <point de contrôle filet préfixe>- .sto au format Stockholm,
De est le numéro d'itération (de 1..N).

--acc Utiliser les accessions au lieu des noms dans la sortie principale, le cas échéant pour les profils
et/ou séquences.

--noali
Omettez la section d'alignement de la sortie principale. Cela peut réduire considérablement la sortie
le volume.

--notextw
Illimitez la longueur de chaque ligne dans la sortie principale. La valeur par défaut est une limite de 120
caractères par ligne, ce qui aide à afficher la sortie proprement sur les terminaux et
dans les éditeurs, mais peut tronquer les lignes de description du profil cible.

--textw
Réglez la limite de longueur de ligne de la sortie principale sur caractères par ligne. La valeur par défaut est
120.

OPTIONS CONTRLE UNIQUE SÉQUENCE NOTATION (PREMIER ITÉRATION)


Par défaut, la première itération utilise un modèle de recherche construit à partir d'une seule requête
séquence. Ce modèle est construit en utilisant une matrice de substitution standard 20x20 pour les résidus
probabilités, et deux paramètres supplémentaires pour l'ouverture et l'écart indépendants de la position
étendre les probabilités. Ces options autorisent les paramètres de notation à séquence unique par défaut
être changé.

--ouvrir
Définissez la probabilité d'ouverture d'espace pour un modèle de requête de séquence unique sur . Le défaut
est 0.02. doit être >= 0 et < 0.5.

--étendre
Définissez la probabilité d'extension de l'écart pour un modèle de requête de séquence unique sur L’
la valeur par défaut est 0.4. doit être >= 0 et < 1.0.

--mx
Obtenez les probabilités d'alignement des résidus à partir de la matrice de substitution intégrée nommée
. Plusieurs matrices standard sont intégrées et n'ont pas besoin d'être lues à partir de
des dossiers. Le nom de la matrice peut être PAM30, PAM70, PAM120, PAM240, BLOSUM45,
BLOSUM50, BLOSUM62, BLOSUM80 ou BLOSUM90. Un seul des --mx ainsi que --fichiermx
des options peuvent être utilisées.

--fichiermx
Obtenir les probabilités d'alignement des résidus à partir de la matrice de substitution dans le fichier
. La matrice de score par défaut est BLOSUM62 (cette matrice est interne à HMMER
et n'a pas besoin d'être disponible sous forme de fichier). Le format d'une matrice de substitution
est le format standard accepté par BLAST, FASTA et d'autres séquences
logiciel d'analyse.

OPTIONS CONTRLE DE LA LIGNE SEUILS


Les seuils de rapport contrôlent quels hits sont signalés dans les fichiers de sortie (la sortie principale,
--tbloutet --domtblout). Dans chaque itération, les hits de séquence et les hits de domaine sont classés
par signification statistique (valeur E) et la sortie est générée en deux sections appelées par-
sortie cible et par domaine. Dans la sortie par cible, par défaut, toutes les séquences frappent avec un
Les valeurs E <= 10 sont rapportées. Dans la sortie par domaine, pour chaque cible qui a réussi par
seuils de rapport cibles, tous les domaines satisfaisant aux seuils de rapport par domaine sont
signalé. Par défaut, ce sont des domaines avec des valeurs E conditionnelles de <= 10. Ce qui suit
les options vous permettent de modifier les seuils de rapport de valeur E par défaut ou d'utiliser le score de bits
seuils à la place.

-E Rapporter les séquences avec des valeurs E <= en sortie par séquence. La valeur par défaut est 10.0.

-T Utilisez un seuil de score de bits pour la sortie par séquence au lieu d'un seuil de valeur E
(tout réglage de -E est ignoré). Signaler les séquences avec un score binaire de >= . par
par défaut, cette option n'est pas définie.

-Z Déclarez la taille totale de la base de données à séquences, aux fins de la valeur E
calcul. Normalement, les valeurs E sont calculées par rapport à la taille de la base de données
vous avez réellement recherché (par exemple le nombre de séquences dans cible_seqdb). Dans certaines
cas (par exemple, si vous avez divisé votre base de données de séquences cibles en plusieurs
fichiers pour la parallélisation de votre recherche), vous savez peut-être mieux quelle est la taille réelle
de votre espace de recherche est.

--dôme
Domaines de rapport avec des valeurs E conditionnelles <= en sortie par domaine, en plus
au domaine de meilleur score par séquence significative. La valeur par défaut est 10.0.

--domT
Utilisez un seuil de score de bits pour la sortie par domaine au lieu d'un seuil de valeur E
(tout réglage de --domT est ignoré). Signaler les domaines avec un score binaire de >= in
sortie par domaine, en plus du domaine le mieux noté par séquence significative
frappé. Par défaut, cette option est désactivée.

--domZ
Déclarer le nombre de séquences significatives à séquences, à des fins de
calcul de la valeur E conditionnelle pour une importance de domaine supplémentaire. Normalement
les valeurs E conditionnelles sont calculées par rapport au nombre de séquences passant
seuil de rapport par séquence.

OPTIONS CONTRLE INCLUSION SEUILS


Les seuils d'inclusion contrôlent les hits inclus dans l'alignement et le profil multiples
construit pour la prochaine itération de recherche. Par défaut, une séquence doit avoir une per-
valeur E de la séquence <= 0.001 (voir -E option) à inclure, et tous les domaines supplémentaires dans
en plus du meilleur score, il doit avoir une valeur E conditionnelle de <= 0.001 (voir --dôme
option). La différence entre les seuils de déclaration et les seuils d'inclusion est que
les seuils d'inclusion contrôlent quels hits sont réellement utilisés dans la prochaine itération (ou le
alignement multiple de la sortie finale si le -A est utilisée), tandis que les seuils de déclaration
contrôler ce que vous voyez en sortie. Les seuils de déclaration sont généralement plus souples, vous pouvez donc
voir les coups limites dans le haut du bruit qui pourraient être intéressants.

--incE
Inclure les séquences avec des valeurs E <= dans l'itération suivante ou l'alignement final
sortie par -A. La valeur par défaut est 0.001.

--incT
Utilisez un seuil de score de bits pour l'inclusion par séquence au lieu d'une valeur E
seuil (tout réglage de --incE est ignoré). Incluez des séquences avec un score de bit de
>= . Par défaut, cette option est désactivée.

--incdomE
Inclure les domaines avec des valeurs E conditionnelles <= dans l'itération suivante ou finale
sortie d'alignement par -A, en plus du domaine le mieux noté par
séquence frappée. La valeur par défaut est 0.001.

--incdomT
Utilisez un seuil de score de bits pour l'inclusion par domaine au lieu d'un seuil de valeur E
(tout réglage de --incT est ignoré). Inclure les domaines avec un score binaire de >= . par
par défaut, cette option n'est pas définie.

OPTIONS CONTRLE ACCÉLÉRATION HEURISTIQUE


Les recherches HMMER3 sont accélérées dans un pipeline de filtrage en trois étapes : le filtre MSV, le
le filtre Viterbi et le filtre Forward. Le premier filtre est le plus rapide et le plus
approximatif; le dernier est l'algorithme de notation Forward complet, le plus lent mais le plus précis.
Il existe également une étape de filtre de polarisation entre MSV et Viterbi. Des cibles qui passent toutes les étapes
dans le pipeline d'accélération sont ensuite soumis à un post-traitement -- identification de domaine
et la notation à l'aide de l'algorithme Forward/Backward.

Essentiellement, les seuls paramètres libres qui contrôlent les filtres heuristiques de HMMER sont le P-
seuils de valeur contrôlant la fraction attendue de séquences non homologues qui passent
les filtres. Si vous définissez des seuils par défaut plus élevés, une proportion plus élevée de
séquence non homologue, augmentant la sensibilité au détriment de la vitesse ; inversement,
la définition de seuils de valeur P inférieurs laissera passer une plus petite proportion, diminuant la sensibilité
et l'augmentation de la vitesse. Définir le seuil de valeur P d'un filtre sur 1.0 signifie qu'il passera
toutes les séquences et désactive efficacement le filtre.

La modification des seuils de filtre ne supprime ou n'inclut que les cibles de la considération ; en changeant
les seuils de filtre ne modifient pas les scores de bits, les valeurs E ou les alignements, qui sont tous
déterminé uniquement en post-traitement.

--maximum Sensibilité maximale. Désactivez tous les filtres, y compris le filtre de polarisation, et exécutez-les complètement
Post-traitement avant/arrière sur chaque cible. Cela augmente la sensibilité
légèrement, à un coût élevé en vitesse.

--F1
Premier seuil de filtre ; définir le seuil de valeur P pour l'étape de filtre MSV. Les
la valeur par défaut est de 0.02, ce qui signifie qu'environ 2 % du score non homologue le plus élevé
les cibles devraient passer le filtre.

--F2
Deuxième seuil de filtre ; définir le seuil de valeur P pour l'étape de filtre de Viterbi.
La valeur par défaut est 0.001.

--F3
Troisième seuil de filtre ; définir le seuil de valeur P pour l'étape du filtre avant. Les
la valeur par défaut est 1e-5.

--nobias
Désactivez le filtre de polarisation. Cela augmente quelque peu la sensibilité, mais peut arriver à un
coût élevé en vitesse, surtout si la requête a une composition de résidus biaisée (comme
une région de séquence répétitive, ou s'il s'agit d'une protéine membranaire avec de grandes régions de
hydrophobie). Sans le filtre de polarisation, trop de séquences peuvent passer le filtre
avec des requêtes biaisées, conduisant à des performances plus lentes que prévu car le
les algorithmes Forward/Backward à forte intensité de calcul supportent une charge anormalement lourde
charger.

OPTIONS CONTRLE PROFIL LOCATION CONSTRUCTION (PLUS TARD itérations)


Ces options contrôlent la façon dont les colonnes de consensus sont définies dans plusieurs alignements lorsque
profils de construction. Par défaut, jackhmmer inclut toujours votre séquence de requête d'origine dans
le résultat de l'alignement à chaque itération, et les positions de consensus sont définies par cette requête
séquence : c'est-à-dire une valeur par défaut jackhmmer le profil est toujours de la même longueur que votre original
requête, à chaque itération.

--vite Définissez les colonnes de consensus comme celles qui ont une fraction >= symfrac de résidus comme
opposé aux lacunes. (Voir ci-dessous pour le --symfrac option.) Bien que ce soit la valeur par défaut
option de construction de profil ailleurs (en hmmconstruire, en particulier), il peut avoir
effets indésirables dans jackhmmer, car un profil pourrait entrer de manière itérative
espace de séquence loin de votre requête d'origine, laissant peu ou pas de colonnes de consensus
correspondant à ses résidus.

--main Définir les colonnes de consensus dans le profil suivant en utilisant l'annotation de référence au multiple
alignement. jackhmmer propage l'annotation de référence du profil précédent vers
l'alignement multiple, et de là au profil suivant. C'est la valeur par défaut.

--symfrac
Définir le seuil de fraction de résidus nécessaire pour définir une colonne consensus lorsque
utilisant l' --vite option. La valeur par défaut est 0.5. La fraction de symbole dans chaque colonne est
calculé après avoir pris en compte la pondération relative des séquences et en ignorant l'écart
caractères correspondant aux extrémités des fragments de séquence (par opposition aux caractères internes
insertions/suppressions). Le définir sur 0.0 signifie que chaque colonne d'alignement sera
être attribués par consensus, ce qui peut être utile dans certains cas. Le mettre à 1.0
signifie que seules les colonnes qui incluent 0 espaces (insertions/suppressions internes) seront
attribué comme consensus.

--fragthresh
Nous voulons seulement compter les lacunes terminales comme suppressions si la séquence alignée est connue
être de pleine longueur, pas s'il s'agit d'un fragment (par exemple, car seule une partie de celui-ci
a été séquencé). HMMER utilise une règle simple pour déduire des fragments : si la longueur de la séquence
L est inférieur ou égal à une fraction fois la longueur de l'alignement en colonnes,
alors la séquence est traitée comme un fragment. La valeur par défaut est 0.5. Réglage
--fragthresh0 ne définira aucune séquence (non vide) en tant que fragment ; tu pourrais vouloir
faites-le si vous savez que vous avez un alignement soigneusement organisé de pleine longueur
séquences. Réglage --fragthresh1 définira toutes les séquences comme des fragments ; Tu pourrais
voulez faire cela si vous savez que votre alignement est entièrement composé de fragments, tels
comme de courtes lectures traduites dans les données métagénomiques des fusils de chasse.

OPTIONS CONTRLE RELATIF POIDS


Chaque fois qu'un profil est construit à partir d'un alignement multiple, HMMER utilise une séquence ad hoc
algorithme de pondération pour sous-pondérer des séquences étroitement liées et sous-pondérer des séquences distantes
ceux. Cela a pour effet de rendre les modèles moins biaisés par les inégalités phylogénétiques
représentation. Par exemple, deux séquences identiques recevraient généralement chacune la moitié du
poids qu'une séquence aurait (et c'est pourquoi jackhmmer ne se soucie pas toujours
inclure votre séquence de requête d'origine dans l'alignement de chaque itération, même s'il la trouve
à nouveau dans la base de données que vous recherchez). Ces options contrôlent quel algorithme est utilisé.

--wpb Utilisez le schéma de pondération séquentielle basé sur la position de Henikoff [Henikoff et Henikoff,
J. Mol. Biol. 243:574, 1994]. C'est la valeur par défaut.

--wgsc Utiliser l'algorithme de pondération Gerstein/Sonnhammer/Chothia [Gerstein et al, J. Mol.
Biol. 235 :1067, 1994].

--wblosum
Utilisez le même schéma de regroupement que celui utilisé pour pondérer les données dans le calcul de BLOSUM
les matrices de substitution [Henikoff et Henikoff, Proc. Natl. Acad. Sci 89:10915, 1992].
Les séquences sont à liaison unique regroupées à un seuil d'identité (par défaut 0.62 ; voir
--large) et dans chaque groupe de séquences c, chaque séquence obtient un poids relatif
1/ch.

--wnone
Aucun poids relatif. Toutes les séquences se voient attribuer un poids uniforme.

--large
Définit le seuil d'identité utilisé par le clustering à liaison unique lors de l'utilisation --wblosum.
Invalide avec tout autre schéma de pondération. La valeur par défaut est 0.62.

OPTIONS CONTRLE EFFICACE SÉQUENCE NUMÉRO


Une fois que les poids relatifs ont été déterminés, ils sont normalisés pour additionner un total effectif
numéro de séquence, eff_nseq. Ce nombre peut être le nombre réel de séquences dans le
l'alignement, mais il est presque toujours plus petit que cela. La pondération entropique par défaut
méthode (--eent) réduit le numéro de séquence effectif pour réduire le contenu de l'information
(entropie relative, ou score moyen attendu sur les vrais homologues) par position de consensus. Les
l'entropie relative de la cible est contrôlée par une fonction à deux paramètres, où les deux
les paramètres sont réglables avec --avant ainsi que --esigme.

--eent Ajustez le numéro de séquence effectif pour obtenir une entropie relative spécifique par
poste (voir --avant). C'est la valeur par défaut.

--écluste
Définissez le numéro de séquence effectif sur le nombre de clusters à liaison unique à un
seuil d'identité spécifique (voir --aïd). Cette option n'est pas recommandée; c'est pour
des expériences évaluant à quel point --eent est.

--énone
Désactivez la détermination effective du numéro de séquence et utilisez simplement le nombre réel de
séquences. L'une des raisons pour lesquelles vous pourriez vouloir le faire est d'essayer de maximiser le rapport relatif
entropie/position de votre modèle, ce qui peut être utile pour les modèles courts.

--eset
Définissez explicitement le numéro de séquence effectif pour tous les modèles sur .

--avant
Définissez la cible d'entropie relative/position minimale sur . A besoin --eent. Défaut
dépend de l'alphabet de séquence; pour les séquences protéiques, il est de 0.59 bits/position.

--esigme
Définit l'entropie relative minimale apportée par un alignement de modèle entier, sur
toute sa longueur. Cela a pour effet de faire en sorte que les modèles courts ont des valeurs relatives plus élevées.
entropie par position que --avant seul donnerait. La valeur par défaut est de 45.0 bits.

--aïd
Définit la coupure d'identité par paire fractionnaire utilisée par le clustering à liaison unique avec
le --écluste option. La valeur par défaut est 0.62.

OPTIONS CONTRLE PRIEURS


Dans la construction du profil, par défaut, les comptes pondérés sont convertis en moyenne postérieure
estimations des paramètres de probabilité à l'aide de mélanges a priori de Dirichlet. Mélange par défaut Dirichlet
des paramètres préalables pour les modèles de protéines et pour les modèles d'acides nucléiques (ARN et ADN) sont construits
in. Les options suivantes vous permettent de remplacer les priors par défaut.

--pnone N'utilisez aucun a priori. Les paramètres de probabilité seront simplement les
fréquences, après pondération de séquence relative.

--place Utiliser un a priori de Laplace +1 à la place du mélange a priori de Dirichlet par défaut.

OPTIONS CONTRLE E-VALEUR ÉTALONNAGE


Estimation des paramètres d'emplacement pour les distributions de scores attendues pour le filtre MSV
les scores, les scores de filtre de Viterbi et les scores Forward nécessitent trois courtes séquences aléatoires
simulations.

--EmL
Définit la longueur de séquence dans la simulation qui estime le paramètre d'emplacement mu pour
Valeurs E du filtre MSV. La valeur par défaut est 200.

--EmN
Définit le nombre de séquences dans la simulation qui estime le paramètre d'emplacement mu
pour les valeurs E du filtre MSV. La valeur par défaut est 200.

--EvL
Définit la longueur de séquence dans la simulation qui estime le paramètre d'emplacement mu pour
Valeurs E du filtre de Viterbi. La valeur par défaut est 200.

--EvN
Définit le nombre de séquences dans la simulation qui estime le paramètre d'emplacement mu
pour les valeurs E du filtre de Viterbi. La valeur par défaut est 200.

--EfL
Définit la longueur de séquence dans la simulation qui estime le paramètre d'emplacement tau
pour les valeurs E directes. La valeur par défaut est 100.

--EfN
Définit le nombre de séquences dans la simulation qui estime le paramètre d'emplacement
tau pour les valeurs E directes. La valeur par défaut est 200.

--Eft
Définit la fraction massique de la queue pour qu'elle s'adapte à la simulation qui estime l'emplacement
paramètre tau pour les évaluations directes. La valeur par défaut est 0.04.

AUTRES OPTIONS


--nonull2
Désactivez les corrections de score null2 pour la composition biaisée.

-Z Affirmez que le nombre total de cibles dans vos recherches est , Pour les buts
des calculs de valeur E par séquence, plutôt que le nombre réel de cibles
vu.

--domZ
Affirmez que le nombre total de cibles dans vos recherches est , Pour les buts
des calculs de valeur E conditionnels par domaine, plutôt que le nombre de cibles
qui ont dépassé les seuils de déclaration.

--la graine
Semez le générateur de nombres aléatoires avec , un entier >= 0. Si est >0, tout
les simulations stochastiques seront reproductibles ; la même commande donnera le même
résultats. Si est 0, le générateur de nombres aléatoires est ensemencé arbitrairement, et
les simulations stochastiques varieront d'une exécution à l'autre de la même commande. Le défaut
la graine est de 42.

--qformat
Déclarer que l'entrée fichier_seq_requête est au format . Fichier de séquence accepté
les formats incluent FASTA, EMBL, GenBank, DDBJ, UniProt, Stockholm et SELEX. Défaut
est de détecter automatiquement le format du fichier.

--tformat
Déclarer que l'entrée cible_seqdb est au format . Fichier de séquence accepté
les formats incluent FASTA, EMBL, GenBank, DDBJ, UniProt, Stockholm et SELEX. Défaut
est de détecter automatiquement le format du fichier.

--CPU
Définissez le nombre de threads de travail parallèles sur . Par défaut, HMMER définit ceci sur
le nombre de cœurs de processeur qu'il détecte dans votre machine - c'est-à-dire qu'il essaie de maximiser
l'utilisation de vos cœurs de processeur disponibles. Réglage supérieur au nombre de
noyaux disponibles a peu ou pas de valeur, mais vous voudrez peut-être le définir sur quelque chose
moins. Vous pouvez également contrôler ce nombre en définissant une variable d'environnement,
HMMER_NCPU.

Cette option n'est disponible que si HMMER a été compilé avec le support des threads POSIX.
C'est la valeur par défaut, mais elle a peut-être été désactivée au moment de la compilation pour votre site
ou machine pour une raison quelconque.

--paralyser
Pour le débogage de la version MPI master/worker : pause après démarrage, pour activer le
développeur pour attacher des débogueurs aux processus maître et travailleur en cours d'exécution. Envoyer
Signal SIGCONT pour libérer la pause. (Sous gdb : (Gdb) signal SUIVANT) (Seul
disponible si la prise en charge MPI facultative a été activée au moment de la compilation.)

--mpi Exécuter en mode maître/travailleur MPI, en utilisant mpirun. (Uniquement disponible si MPI en option
le support a été activé au moment de la compilation.)

Utilisez jackhmmer en ligne en utilisant les services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

Commandes Linux

Ad