AnglaisFrançaisEspagnol

Ad


Icône de favori OnWorks

cmalign - En ligne dans le Cloud

Exécutez cmalign dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande cmalign qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


cmalign - aligner les séquences sur un modèle de covariance

SYNOPSIS


cmaligner
[choix]

DESCRIPTION


cmaligner aligne les séquences d'ARN dans au modèle de covariance (CM) dans .
Le nouvel alignement est sorti vers Stdout au format Stockholm, mais peut être redirigé vers un fichier
les -o option.

Non plus or (mais pas les deux) peut être '-' (tiret), ce qui signifie lire ceci
entrée de Stdin plutôt qu'un fichier.

Le fichier séquence doit être au format FASTA ou Genbank.

cmaligner utilise une technique de bandes HMM pour accélérer l'alignement par défaut comme décrit
ci-dessous pour le --hbandé option. Les bandes HMM peuvent être désactivées avec le --non bagué option.

Par défaut, cmaligner calcule l'alignement avec une précision maximale attendue qui est
cohérent avec les contraintes (bandes) dérivées d'un HMM, en utilisant une version en bandes du
Algorithme de précision optimale de Durbin/Holmes. Ce comportement peut être modifié avec le --cyk or
--échantillon options.

cmaligner prend un soin particulier à aligner correctement les séquences tronquées, où certains nucléotides
du début (5') et/ou de la fin (3') de la séquence biologique réelle de pleine longueur sont
pas présent dans la séquence d'entrée (voir DL Kolbe et SR Eddy, Bioinformatics, 25:1236-1243,
2009). Ce comportement est activé par défaut, mais peut être désactivé avec --notrunc. Dans précédente
les versions d' cmaligner le --sous option était nécessaire pour gérer de manière appropriée
séquences. Les --sous L'option est toujours disponible dans cette version, mais la nouvelle méthode par défaut
pour la gestion des séquences tronquées doit être aussi bonne ou supérieure à la méthode sub dans presque
tous les cas.

La --mapali L'option permet l'inclusion de l'alignement d'entraînement fixe utilisé pour construire le
CM à partir du fichier dans l'alignement de sortie de cmaligner.

Il est possible de fusionner deux ou plusieurs alignements créés par le même CM à l'aide du chevalet
MiniApp esl-alimerge (inclus dans le sous-répertoire chevalet/miniapps/ d'Infernal). Précédent
les versions d' cmaligner inclus des options pour fusionner les alignements, mais ils ont été dépréciés sur
développement de esl-alimerge, ce qui est nettement plus efficace en termes de mémoire.

Par défaut, cmaligner affichera l'alignement sur stdout. L'alignement peut être redirigé
vers un fichier de sortie les -o option. Avec -o, informations sur chaque aligné
la séquence, y compris les limites de score et d'alignement du modèle, sera imprimée sur stdout (plus
à ce sujet ci-dessous).

L'alignement de sortie sera au format Stockholm par défaut. Cela peut être changé en Pfam,
aligné au format FASTA (AFA), A2M, Clustal ou Phylip à l'aide du --outformat option,
De est le nom du format souhaité. Comme cas particulier, si l'alignement de sortie
est grand (plus de 10,000 10,000,000 séquences ou plus de XNUMX XNUMX XNUMX de nucléotides au total) que le
le format de sortie sera le format Pfam, chaque séquence apparaissant sur une seule ligne, par
raisons de l'efficacité de la mémoire. Pour les alignements plus grands que cela, en utilisant --iléave forcera
format Stockholm entrelacé, mais l'utilisateur doit être conscient que cela peut nécessiter beaucoup de
mémoire. --iléave ne fonctionnera que pour les alignements jusqu'à 100,000 100,000,000 séquences ou XNUMX XNUMX XNUMX
nucléotides totaux.

Si le format d'alignement de sortie est Stockholm ou Pfam, l'alignement de sortie sera
annoté avec des probabilités postérieures qui estiment le niveau de confiance de chaque aligné
nucléotide. Cette annotation apparaît sous forme de lignes commençant par "#=GR PP", un par
séquence, chacune immédiatement en dessous de la séquence alignée correspondante " ".
Les caractères des lignes PP ont 12 valeurs possibles : "0-9", "*" ou ".". Si ".", la position
correspond à un écart dans la séquence. Une valeur de "0" indique une probabilité postérieure de
entre 0.0 et 0.05, "1" indique entre 0.05 et 0.15, "2" indique entre 0.15 et
0.25 et ainsi de suite jusqu'à "9" qui indique entre 0.85 et 0.95. Une valeur de "*" indique un
probabilité postérieure comprise entre 0.95 et 1.0. Des probabilités postérieures plus élevées correspondent
à une plus grande confiance que le nucléotide aligné appartient là où il apparaît dans le
alignement. Avec --non bagué, le calcul des probabilités postérieures considère tous
alignements possibles de la séquence cible sur le CM. Sans --non bagué (c'est à dire par défaut
mode), le calcul ne considère que les alignements possibles dans les bandes HMM. Plus loin,
les probabilités postérieures sont conditionnées au mode de troncature de l'alignement. Pour
exemple, si l'alignement de séquence est tronqué 5', une valeur PP de "9" indique entre
0.85 et 0.95 de tous les alignements tronqués 5' incluent le nucléotide donné au
position. L'annotation postérieure peut être désactivée avec le --pas de problème option. Si --petit
est activé, l'annotation postérieure doit également être désactivée à l'aide de --pas de problème.

La sortie tabulaire qui est imprimée sur stdout si le -o l'option est utilisée comprend une ligne
par séquence et douze champs par ligne : "idx" : l'index de la séquence en entrée
fichier, "seq name" : le nom de la séquence ; « length » : la longueur de la séquence ; "cm de" et
« cm à » : les positions de début et de fin du modèle de l'alignement ; "trunc": "no" si la séquence
n'est pas tronqué, "5'" si le début de la séquence est tronqué en 5', "3'" si la fin de
la séquence est tronquée, et "5'&3'" si à la fois le début et la fin sont tronqués ;
"bit sc" : le score de bits de l'alignement, "avg pp" la probabilité postérieure moyenne de
tous les nucléotides alignés dans l'alignement ; "band calc", "alignment" et "total": le temps
en secondes nécessaires pour calculer les bandes HMM, calculer l'alignement et terminer
traitement de la séquence, respectivement; "mem (Mb)" : la taille en Mo de toutes les dynamiques
matrices de programmation nécessaires à l'alignement de la séquence. Ces données tabulaires peuvent être enregistrées
déposer les --sfile option.

OPTIONS


-h Aider; imprimer un bref rappel de l'utilisation de la ligne de commande et des options disponibles.

-o Enregistrer l'alignement au format Stockholm dans un fichier . La valeur par défaut est de l'écrire
à la sortie standard.

-g Configurer le modèle pour l'alignement global du modèle de requête sur la cible
séquences. Par défaut, le modèle est configuré pour un alignement local. Local
les alignements peuvent contenir de grandes insertions et suppressions appelées « extrémités locales » dans le
structure à pénaliser différemment des indels normaux. Ceux-ci sont annotés comme
Colonnes "~" dans la ligne RF de l'alignement de sortie. Les -g l'option peut être utilisée pour
interdire ces fins locales. Les -g l'option est requise si le --sous l'option est également
utilisé.

OPTIONS POUR CONTRLE LES ALIGNEMENT ALGORITHME


--optacc
Alignez les séquences à l'aide de l'algorithme de précision optimale Durbin/Holmes. C'est le
défaut. L'alignement de précision optimal sera limité par les bandes HMM pour
accélération à moins que le --non bagué l'option est activée. La précision optimale
l'algorithme détermine l'alignement qui maximise les probabilités postérieures de
les nucléotides alignés qu'il contient. Les probabilités postérieures sont déterminées en utilisant
(éventuellement à bandes HMM) variantes des algorithmes Inside et Outside.

--cyk Ne pas utiliser l'alignement de précision optimale Durbin/Holmes pour aligner les séquences,
utilisez plutôt l'algorithme CYK qui détermine la notation optimale (maximum
vraisemblance) alignement de la séquence sur le modèle, compte tenu des bandes HMM (sauf si
--non bagué est également activé).

--échantillon
Échantillonnez un alignement à partir de la distribution postérieure des alignements. Le postérieur
la distribution est déterminée à l'aide d'un HMM bagué (sauf si --non groupé) variante du
Algorithme à l'intérieur.

--la graine
Semez le générateur de nombres aléatoires avec , un entier >= 0. Cette option ne peut
être utilisé en combinaison avec --échantillon. If est non nul, l'échantillonnage stochastique de
les alignements seront reproductibles ; la même commande donnera les mêmes résultats. Si
est 0, le générateur de nombres aléatoires est ensemencé arbitrairement, et stochastique
les échantillonnages peuvent varier d'une exécution à l'autre de la même commande. La valeur par défaut est 181.

--notrunc
Désactivez les algorithmes d'alignement tronqué. Toutes les séquences du fichier d'entrée seront
supposé être de pleine longueur, à moins que --sous est également utilisé, auquel cas le programme peut
gérera toujours les séquences tronquées mais utilisera une stratégie alternative pour leur
alignement.

--sous Activez la procédure de construction et d'alignement du sous-modèle. Pour chaque séquence, un
HMM est d'abord utilisé pour prédire les colonnes de consensus de début et de fin du modèle, et un nouveau
Le sous-CM est construit pour modéliser uniquement les colonnes de consensus du début à la fin. Les
la séquence est alors alignée sur ce sous-CM. Le sous-alignement est une méthode plus ancienne que la
une valeur par défaut pour aligner les séquences éventuellement tronquées. Par défaut, cmaligner
utilise des algorithmes DP spéciaux pour gérer les séquences tronquées qui devraient être plus
précis que la sous-méthode dans la plupart des cas. --sous est toujours inclus en option
principalement pour tester cette gestion de séquence tronquée par défaut. Ce "sous CM"
la procédure n'est pas la même que celle des "sous CM" décrits par Weinberg et Ruzzo.

OPTIONS POUR CONTRLE SPEED ET MÉMOIRE CONDITIONS REQUISES


--hbandé
Cette option est activée par défaut. Accélérez l'alignement en éliminant les régions
de la matrice CM DP qui sont jugés négligeables par un HMM. Premièrement, chaque séquence est
noté avec un plan CM 9 HMM dérivé du CM en utilisant le HMM avant et arrière
algorithmes pour calculer les probabilités postérieures que chaque nucléotide s'aligne sur chacun
état du HMM. Ces probabilités postérieures sont utilisées pour dériver des contraintes
(bandes) sur la matrice CM DP. Enfin, la séquence cible est alignée sur le CM
en utilisant la matrice DP en bandes, au cours de laquelle les cellules en dehors des bandes sont ignorées.
Habituellement, la majeure partie de la matrice DP complète se trouve en dehors des bandes (souvent plus de 95%),
rendre cette technique plus rapide car moins de calculs de DP sont nécessaires, et plus
mémoire efficace car seules les cellules à l'intérieur des bandes doivent être allouées.

Il est important de noter que le baguage HMM sacrifie la garantie de déterminer de manière optimale
alignement précis ou optimal, qui sera manqué s'il se trouve en dehors des bandes.
Le paramètre tau est la quantité de masse de probabilité considérée comme négligeable pendant
calcul de bande HMM ; des valeurs plus faibles de tau donnent des accélérations plus importantes mais aussi une plus grande
risque de manquer l'alignement optimal. Le tau par défaut est 1E-7, déterminé
empiriquement comme un bon compromis entre la sensibilité et la vitesse, bien que cette valeur puisse
être modifié avec le --tau option. Le niveau d'accélération augmente avec
à la fois la longueur et le niveau de conservation de la séquence primaire de la famille. Par exemple,
avec le tau par défaut de 1E-7, les modèles d'ARNt (faible conservation de la séquence primaire avec
longueur d'environ 75 nucléotides) montrent une accélération d'environ 10X et l'ARNr bactérien SSU
modèles (haute conservation de la séquence primaire avec une longueur d'environ 1500 nucléotides)
montrer environ 700X. Les bandes HMM peuvent être désactivées avec le --non bagué option.

--tau
Définissez la probabilité de perte de queue utilisée lors du calcul de la bande HMM sur . Il s'agit de la
quantité de masse de probabilité dans les probabilités postérieures HMM qui est
considérée comme négligeable. La valeur par défaut est 1E-7. En général, des valeurs plus élevées
entraîner une plus grande accélération, mais augmenter les chances de rater l'optimum
alignement dû aux bandes HMM.

--mxtaille
Définissez la taille de matrice DP totale maximale autorisée sur mégaoctets. Par défaut ce
la taille est de 1028 Mo. Cela devrait être assez grand pour la grande majorité des alignements,
cependant si ce n'est pas cmaligner tentera de resserrer de manière itérative les bandes HMM qu'il
utilise pour contraindre l'alignement en augmentant le paramètre tau et en recalculant le
bandes jusqu'à ce que la taille totale de la matrice nécessaire tombe en dessous mégaoctets ou le maximum
valeur tau admissible (0.05 par défaut, mais modifiable avec --maxtau) est atteint. À
à chaque itération de serrage de bande, tau est multiplié par un 2.0. Le serrage de la bande
la stratégie peut être désactivée avec le --fixedtau option. Si le tau maximum est
atteint et la taille de la matrice requise dépasse toujours ou si le cerclage HMM n'est pas
utilisé et que la taille de la matrice requise dépasse puis cmaligner va quitter
prématurément et signaler un message d'erreur indiquant que la matrice a dépassé son maximum
taille admissible. Dans ce cas, le --mxtaille peut être utilisé pour augmenter la taille limite ou
le tau maximum peut être augmenté avec --maxtau. La limite sera généralement dépassée
lorsque le --non bagué l'option est utilisée sans le --petit option, mais peut toujours se produire
quand --non bagué N'est pas utilisé. Notez que si cmaligner est exécuté dans plusieurs
threads sur une machine multicœur, chaque thread peut avoir une matrice allouée de jusqu'à
sur mesure Mo à tout moment.

--fixedtau
Désactivez la stratégie de serrage de la bande HMM décrite dans l'explication du
--mxtaille option ci-dessus.

--maxtau
Réglez la valeur maximale autorisée pour tau pendant le serrage de la bande, décrite dans le
explication de --mxtaille ci-dessus, à . Par défaut, cette valeur est de 0.05.

--non bagué
Désactive la bande HMM. L'alignement renvoyé est garanti globalement
celui d'une précision optimale (par défaut) ou celui d'une notation globalement optimale (si --cyk
est autorisé). Les --petit option est recommandée en combinaison avec cette option,
car l'alignement standard sans bande HMM nécessite beaucoup de mémoire (voir
--petit ).

--petit
Utilisez l'algorithme d'alignement diviser pour régner CYK décrit dans SR Eddy, BMC
Bioinformatique 3:18, 2002. Le --non bagué l'option doit être utilisée en combinaison avec
cette option. De plus, il est recommandé chaque fois --non bagué est utilisé que --petit is
également utilisé car l'alignement CM standard sans bande HMM nécessite beaucoup de
mémoire, en particulier pour les gros ARN. --petit permet l'alignement CM dans la pratique
limites de mémoire, réduisant la mémoire requise pour l'alignement LSU rRNA, le plus grand
ARN connus, de 150 Gb à moins de 300 Mb. Cette option ne peut être utilisée que dans
combinaison avec --non bagué, --notrunc, ainsi que --cyk.

EN OPTION SORTIE DES DOSSIERS


--sfile
Vider le score d'alignement par séquence et les informations de timig dans un fichier . Le format de
ce fichier est décrit ci-dessus (ce sont les mêmes données dans le même format que le tableau
sortie stdout lorsque le -o option est utilisée).

--tfile
Dump des traces de séquence tabulaires pour chaque séquence individuelle dans un fichier .
Principalement utile pour le débogage.

--fichier
Vider les informations d'insertion par séquence dans un fichier . Le format du fichier est
décrit par des lignes de commentaires préfixées par "#" incluses en haut du fichier . La
insérer des informations est valide même lorsque le --match uniquement option est utilisée.

--elfile
Vider l'état EL par séquence (extrémité locale) insérer les informations dans le fichier . Le format
du fichier est décrit par des lignes de commentaire préfixées "#" incluses en haut de la
filet . Les informations d'insertion EL sont valides même lorsque le --match uniquement option est
utilisé.

AUTRES OPTIONS


--mapali
Lit l'alignement à partir du fichier utilisé pour construire le modèle l'aligne comme un seul
objection au CM ; par exemple l'alignement dans est tenu fixe. Cela vous permet de
aligner des séquences sur un modèle avec cmaligner et les visualiser dans le contexte d'un
alignement multiple de confiance. doit être le fichier d'alignement que le CM a été construit
de. Le programme vérifie que la somme de contrôle du fichier correspond à celle du fichier
utilisé pour construire le CM. Une option similaire à celle-ci a été appelée --avecali in
versions précédentes de cmaligner.

--mapstr
Doit être utilisé en combinaison avec --mapali . Propager des informations structurelles
pour tous les pseudonœuds qui existent dans à l'alignement de sortie. Une option similaire à
celui-ci s'appelait --avecstr dans les versions précédentes de cmaligner.

--informat
Affirmer que l'entrée est au format . Ne pas exécuter le format Babelfish
autodétection. Cela augmente quelque peu la fiabilité du programme, car le
Babelfish peut faire des erreurs ; particulièrement recommandé pour sans surveillance, haute-
le débit d'Infernal. Les formats acceptés sont : FASTA, GENBANK et DDBJ.
est insensible à la casse.

--outformat
Spécifiez le format d'alignement de sortie comme . Les formats acceptés sont : Pfam, AFA,
A2M, Clustal et Phylip. AFA est aligné fasta. Seuls les alignements Pfam et Stockholm
les formats incluront l'annotation de la structure consensuelle et la probabilité postérieure
annotation des résidus alignés.

--dnaout
Sortez les alignements sous forme d'alignements de séquences d'ADN, au lieu d'alignements d'ARN.

--pas de problème
N'annotez pas l'alignement de sortie avec des probabilités postérieures.

--match uniquement
N'incluez que les colonnes de correspondance dans l'alignement de sortie, n'incluez aucune insertion
par rapport au modèle consensuel. Cette option peut être utile lors de la création de très grands
alignements qui nécessitent beaucoup de mémoire et d'espace disque, dont la plupart sont nécessaires
uniquement pour traiter les colonnes d'insertion qui sont des lacunes dans la plupart des séquences.

--iléave
Sortir l'alignement au format Stockholm entrelacé d'une largeur fixe qui peut être
plus pratique pour l'examen. Il s'agissait du format d'alignement de sortie par défaut de
versions précédentes de cmaligner. Notez que cmaligner nécessite plus de mémoire lorsque cette
option est utilisée. Pour cette raison, --iléave ne fonctionnera que pour des alignements jusqu'à
100,000 100,000,000 séquences ou un total de XNUMX XNUMX XNUMX de nucléotides alignés.

--régresser
Enregistrez une copie supplémentaire de l'alignement de sortie sans aucune information sur l'auteur dans le fichier
.

--verbeux
Sortir des informations supplémentaires dans la sortie des scores tabulaires (sortie vers stdout si -o
est utilisé, ou pour if --sfile est utilisé). Ceux-ci sont principalement utiles pour tester et
débogage.

--CPU
Précisez que des processeurs de travail parallèles doivent être utilisés. Si est défini sur "0", alors le
programme sera exécuté en mode série, sans utiliser de threads. Vous pouvez également contrôler
ce nombre en définissant une variable d'environnement, INFERNAL_NCPU. Cette option va
être disponible uniquement si la machine sur laquelle Infernal a été construit est capable d'utiliser
Filetage POSIX (voir la section Installation du guide de l'utilisateur pour plus
information).

--mpi Exécuter en tant que programme parallèle MPI. Cette option ne sera disponible que si Infernal a
été configuré et construit avec le drapeau "--enable-mpi" (voir la section Installation
section du guide de l'utilisateur pour plus d'informations).

Utilisez cmalign en ligne en utilisant les services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

  • 1
    Alt+F
    Alt+F
    Alt-F fournit une source libre et ouverte
    firmware alternatif pour le DLINK
    DNS-320/320L/321/323/325/327L and
    DNR-322L. Alt-F a Samba et NFS ;
    prend en charge ext2/3/4...
    Télécharger Alt-F
  • 2
    usm
    usm
    Usm est un package slackware unifié
    gestionnaire qui gère automatique
    résolution de dépendance. Il unifie
    divers référentiels de packages, y compris
    slackware, slacky, p...
    Télécharger usm
  • 3
    Chart.js
    Chart.js
    Chart.js est une bibliothèque Javascript qui
    permet aux concepteurs et aux développeurs de dessiner
    toutes sortes de graphiques utilisant le HTML5
    élément de toile. Chart js offre un excellent
    déployer ...
    Télécharger Chart.js
  • 4
    iReport-Designer pour JasperReports
    iReport-Designer pour JasperReports
    REMARQUE : Prise en charge d'iReport/Jaspersoft Studio
    Annonce : Depuis la version 5.5.0,
    Jaspersoft Studio sera l'officiel
    client de conception pour JasperReports. iRapport
    volonté...
    Télécharger iReport-Designer pour JasperReports
  • 5
    PostInstallerF
    PostInstallerF
    PostInstallerF installera tous les
    logiciels que Fedora Linux et d'autres
    n'inclut pas par défaut, après
    exécutant Fedora pour la première fois. Son
    facile pour...
    Télécharger PostInstallerF
  • 6
    strass
    strass
    Le projet strace a été déplacé vers
    https://strace.io. strace is a
    diagnostic, débogage et instruction
    traceur d'espace utilisateur pour Linux. C'est utilisé
    surveiller un...
    Télécharger
  • Plus "

Commandes Linux

Ad