Il s'agit de la commande blasr qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS
PROGRAMME:
Nom
blasr - Mapper les séquences SMRT sur un génome de référence.
SYNOPSIS
blaser lit.bam génome.fasta -bam -en dehors bam
blaser lit.fasta génome.fasta
blaser lit.fasta génome.fasta -sa génome.fasta.sa
blaser lit.bax.h5 génome.fasta [-sa génome.fasta.sa]
blaser lit.bax.h5 génome.fasta -sa génome.fasta.sa -maxScore - 100 -minMatch 15 ...
blaser lit.bax.h5 génome.fasta -sa génome.fasta.sa -nproc 24 -en dehors alignement.out ...
DESCRIPTION
blaser est un programme de mappage de lecture qui mappe les lectures à des positions dans un génome en les regroupant
des correspondances exactes courtes entre la lecture et le génome, et des clusters de notation à l'aide de l'alignement.
Les correspondances sont générées en recherchant tous les suffixes d'une lecture par rapport au génome à l'aide d'un
tableau de suffixes. Les méthodes de chaînage global sont utilisées pour marquer des groupes de correspondances.
Les seules entrées requises pour blasr sont un fichier de lectures et un génome de référence. Il est
extrêmement utile d'avoir lu les informations de filtrage, et le temps d'exécution du mappage peut diminuer
sensiblement lorsqu'un indice de tableau de suffixes précalculé sur la séquence de référence est
spécifié.
Bien que les lectures puissent être entrées au format FASTA, l'entrée recommandée est les fichiers PacBio BAM
car ceux-ci contiennent des informations de valeur de qualité qui sont utilisées dans l'alignement et produisent
détection de variantes de meilleure qualité. Bien que les alignements puissent être produits dans divers formats,
le format de sortie recommandé est PacBio BAM. La prise en charge des fichiers bax.h5 et plx.h5 sera
Déprécié. La prise en charge des tables de régions pour les fichiers h5 sera Déprécié.
Lorsque l'index de tableau de suffixes d'un génome n'est pas spécifié, le tableau de suffixes est construit avant
produire un alignement. Cela peut être excessivement lent lorsque le génome est grand (par exemple humain).
Il est préférable de précalculer le tableau de suffixes d'un génome en utilisant le programme scénariste(1), et
puis spécifiez le tableau de suffixes sur la ligne de commande en utilisant -sa génome.fa.sa.
Les paramètres optionnels se répartissent grosso modo en trois catégories : contrôle de l'ancrage,
notation de l'alignement et sortie.
Les paramètres d'ancrage par défaut sont optimaux pour les petits génomes et les échantillons jusqu'à 5%
divergence par rapport au génome de référence. Le paramètre principal régissant la vitesse et la sensibilité
est le -minMatch paramètre. Pour les alignements du génome humain, une valeur de 11 ou plus est
conseillé. Plusieurs méthodes peuvent être utilisées pour accélérer les alignements, au détriment de
diminution possible de la sensibilité.
Les régions trop répétitives peuvent être ignorées lors de la cartographie en limitant le nombre de
positionne une carte de lecture avec le -maxAncresParPosition option. Valeurs comprises entre 500 et
1000 sont efficaces dans le génome humain.
Pour les petits génomes comme les génomes bactériens ou les BAC, les paramètres par défaut sont suffisants
pour une sensibilité maximale et une bonne vitesse.
OPTIONS
Entrée Documents officiels
Lit
lit.bam
Un fichier PacBio BAM de lectures. C'est l'entrée préférée pour blaser
parce que la valeur de qualité riche (insertion, suppression et substitution
valeurs de qualité) les informations sont conservées. La qualité supplémentaire
Les informations améliorent la détection des variantes et la vitesse de mappage.
lit.fasta
Un fichier multi-fasta de lectures, bien que tout fichier fasta soit une entrée valide
lit.bax.h5|lit.plx.h5
l'ancien Déprécié format de sortie des lectures SMRT.
entrée.fofn
Fichier de noms de fichiers
-sa suffixeTableauFichier
Utilisez le tableau de suffixes « sa » pour détecter les correspondances entre les lectures et le
référence. Le tableau de suffixes a été préparé par le scénariste(1) programme.
-ctab languette
Un tableau du nombre de tuples utilisé pour estimer la signification de la correspondance. C'est par le
programme 'printTupleCountTable'. Bien qu'il soit rapide à générer à la volée,
s'il y a beaucoup d'invocations de blaser, il est utile de précalculer le ctab.
-regionTable table (Déprécié)
Lire dans une table de régions de lecture au format HDF pour masquer des parties de lectures.
Il peut s'agir d'une seule table s'il n'y a qu'un seul fichier d'entrée, ou un fofn. Lorsque
une table de région est spécifiée, toute table de région à l'intérieur de reads.plx.h5 ou
Les fichiers reads.bax.h5 sont ignorés.
(PÉRIMÉ) Options pour modification lit.
Il existe des informations auxiliaires sur les sous-chaînes de lectures qui sont stockées dans un
« table des régions » pour chaque fichier lu. Comme HDF est utilisé, la table des régions peut être
partie du fichier .bax.h5 ou .plx.h5, ou un fichier séparé. Une lecture contiguë
la sous-chaîne du modèle est une sous-lecture, et toute lecture peut contenir plusieurs
sous-lectures. Les limites des sous-lectures peuvent être déduites de la table des régions
soit directement, soit par définition des limites de l'adaptateur. Typiquement des tables de région
contiennent également des informations sur l'emplacement des régions de haute et de basse qualité de
lit. Les lectures produites par des lectures parasites à partir de ZMW vides ont un démarrage de haute qualité
coordonnée égale à une extrémité de haute qualité, ne rendant aucune lecture utilisable.
-useccs
Alignez la séquence consensus circulaire (ccs), puis rapportez les alignements des
ccs sous-lit dans la fenêtre à laquelle le ccs a été mappé. Seuls les alignements de
les sous-lectures sont signalées.
-useccsall
Similaire à -useccs, sauf que toutes les sous-lectures sont alignées, plutôt que juste le
sous-lectures utilisées pour appeler le fichier ccs. Cela inclura les lectures qui ne couvrent qu'une partie
du modèle.
-useccsdenovo
Aligner le consensus circulaire et rapporter uniquement l'alignement des ccs
séquence.
-noSplitSubreads (faux)
Ne divisez pas les sous-lectures au niveau des adaptateurs. Ceci n'est généralement utile que lorsque le
génome dans une version déroulée d'un modèle connu, et contient un modèle-
adapter-reverse_template séquence.
-ignoreRégions (faux)
Ignorez toutes les informations de la table des régions.
-ignorer les régions HQ (faux)
Ignorez toutes les régions hq dans la table des régions.
Alignements À Rapport
-meilleur n (10)
Signaler le haut n alignements.
-hitPolitique (tout)
Spécifiez une politique pour traiter plusieurs hits de [all, allbest, random,
meilleur au hasard, le plus à gauche]
tous signaler tous les alignements.
mieux
signaler tous les alignements de notation également supérieurs.
aléatoire signaler un alignement aléatoire.
meilleur au hasard
signaler un alignement aléatoire à partir de plusieurs scores également supérieurs
alignements.
le plus à gauche
signaler un alignement qui a le meilleur score d'alignement et a le
plus petite coordonnée de mappage dans n'importe quelle référence.
-placeRépétitions au hasard (faux)
DÉCONSEILLÉ ! Si vrai, équivalent à -hitPolitique meilleur au hasard.
-randomSeed (0)
Graine pour générateur de nombres aléatoires. Par défaut (0), utilisez l'heure actuelle comme valeur initiale.
-noSortRefinedAlignments (faux)
Une fois que les alignements candidats sont générés et notés via une dynamique éparse
programmation, ils sont renotés à l'aide d'un alignement local qui prend en compte
différents profils d'erreur. Le recours en fonction de l'alignement local peut changer
l'ordre dans lequel les hits sont renvoyés.
-allowAdjacentIndels
Lorsqu'elles sont spécifiées, les insertions ou suppressions adjacentes sont autorisées. Autrement,
les insertions et suppressions adjacentes sont fusionnées en une seule opération. À l'aide de
les valeurs de qualité pour guider les alignements par paires peuvent dicter que le plus élevé
l'alignement de probabilité contient des insertions ou des suppressions adjacentes. Courant
des outils tels que GATK ne le permettent pas et ne sont donc pas signalés par
défaut.
Sortie Formats et Documents officiels
-en dehors ande (Terminal)
Écrire la sortie dans ande.
-sam Écrire la sortie au format SAM.
-m t Si vous n'imprimez pas SAM, modifiez la sortie de l'alignement.
Lorsque t est:
0 Imprimer une sortie comme une explosion avec les nucléotides appariés de connexion de |.
1 N'imprimer qu'un résumé : score et pos.
2 Imprimez au format Compare.xml.
3 Imprimer au format vulgaire (Déprécié).
4 Imprimez une version tabulaire plus longue de l'alignement.
5 Imprimez dans un format analysable par machine qui est lu par
compareSequences.py.
-entête
Imprimer un en-tête comme première ligne du fichier de sortie décrivant le contenu
de chaque colonne.
-titreTable languette (NUL)
Construire un tableau des titres de séquences de référence. Les séquences de référence sont
énuméré par ligne, 0,1,... L'index de référence est imprimé dans l'alignement
résultats plutôt que le nom de référence complet. Cela rend la sortie concise,
en particulier lorsque des titres très verbeux existent dans les noms de référence.
-non aligné filet
Lectures de sortie qui ne sont pas alignées sur filet
-coupure [aucun|dur|sous-lire|qualité, que vous pourrez utilisé ] (rien)
N'utilisez aucun/hard/subread/soft clipping, UNIQUEMENT pour la sortie SAM/BAM.
-imprimerSAMQV (faux)
Imprimez les valeurs de qualité sur la sortie SAM.
-cigarUseSeqMatch (faux)
Les chaînes CIGAR dans la sortie SAM/BAM utilisent '=' et 'X' pour représenter la correspondance de séquence
et discordance au lieu de 'M'.
Options pour ancrage alignement les régions.
Cela aura le plus grand effet sur la vitesse et la sensibilité.
-minMatch m (12)
Longueur minimale des graines. Un minMatch plus élevé accélérera l'alignement, mais diminuera
sensibilité.
-maxMatch l (fam)
Arrêtez de mapper une lecture sur le génome lorsque la longueur lcp atteint l. C'est
utile lorsque la requête fait partie de la référence, par exemple lorsque
construire des alignements par paires pour un assemblage de novo.
-maxLCPLongueur l (fam)
Le même que -maxMatch.
-maxAncresParPosition m (10000)
N'ajoutez pas d'ancres à partir d'une position si elle correspond à plus de m emplacements dans
la cible.
-avanceCorrespondancesExactes E (0)
Une autre astuce pour accélérer les alignements avec match - E moins d'ancres.
Plutôt que de trouver des points d'ancrage entre la lecture et le génome à chaque
position dans la lecture, lorsqu'une ancre est trouvée à la position i dans une lecture de
longueur L, la position suivante dans une lecture pour trouver une ancre est à i+LE. Utilisation
ceci lors de l'alignement des contigs déjà assemblés.
-nCandidats n (10)
Tenez-vous au courant n candidats au meilleur alignement. Une grande valeur de n sera
mappage lent car les étapes de programmation dynamique plus lentes sont appliquées à
plus de clusters d'ancres qui peuvent être une étape limitant le débit lorsque les lectures sont
très long.
-concordant (faux)
Mappez toutes les sous-lectures d'un zmw (trou) à l'endroit où la sous-lecture de passe complète la plus longue de
le zmw aligné sur. Cela nécessite d'utiliser la table des régions et les régions hq.
Cette option ne fonctionne que lorsque les lectures sont au format base ou pulse h5.
-concordantModèle (sous-lecture médiane)
Sélectionnez une sous-lecture à passage complet d'un zmw comme modèle pour le mappage concordant.
longestsubread - utilise la sous-lecture complète la plus longue mediansubread - utilise le
longueur médiane passage complet sous-lecture typique sous-lecture - utilisez le deuxième plus long complet
passer la sous-lecture si la longueur de la sous-lecture complète la plus longue est une valeur aberrante
-fastMaxIntervalle (faux)
Recherche rapide d'intervalles croissants maximum en tant que candidats à l'alignement. La recherche
n'est pas aussi exhaustif que la valeur par défaut, mais est beaucoup plus rapide.
-agressifIntervalCut (faux)
Filtrer de manière agressive les candidats à l'alignement non prometteurs, s'il existe
au moins un candidat prometteur. Si cette option est activée, blaser is
susceptible d'ignorer les alignements courts des éléments ALU.
-rapideSDP (faux)
Utilisez un algorithme heuristique rapide pour accélérer la programmation dynamique clairsemée.
Options pour Raffinage Hits
-sdpTailleTuple K (11)
Utiliser des correspondances de longueur K pour accélérer les alignements de programmation dynamique. Cette
contrôle la précision de l'attribution des espaces dans les alignements par paires une fois une cartographie
a été trouvé, plutôt que de cartographier la sensibilité elle-même.
-scoreMatrix But matrice un magnifique
Spécifiez une matrice de score alternative pour noter les lectures fasta. La matrice est
au format
ACGTN
Un abcde
C fghij
G klmno
T pqrst
N uvwxy
Les valeurs a...y doivent être saisies sous la forme d'une chaîne entre guillemets séparés par des espaces : "abc
... y". Les scores inférieurs sont meilleurs, les correspondances devraient donc être inférieures aux discordances
par exemple a,g,m,s = -5 (correspondance), discordance = 6.
-affineOuvrir Plus-value (10)
Définissez la pénalité pour l'ouverture d'un alignement affine.
-affineExtend a (0)
Modifier la pénalité d'écart affine (extension). Une valeur inférieure permet plus d'espaces.
Options pour chevauchement/dynamique programmation alignements et par paire chevauchement pour de nouveau
Assemblée.
-useQualité (faux)
Utilisez les valeurs de qualité de substitution/insertion/suppression/fusion pour marquer l'écart et
pénalités de non-concordance dans les alignements par paires. Parce que l'insertion et
les taux de suppression sont beaucoup plus élevés que ceux de substitution, cela fera beaucoup
les alignements favorisent une insertion/suppression plutôt qu'une substitution.nConsensus naïf
les méthodes d'appel manqueront alors souvent des polymorphismes de substitution. Cette option
doit être utilisé lors de l'appel au consensus à l'aide de la méthode Quiver. Par ailleurs,
lorsque vous n'utilisez pas de valeurs de qualité pour noter les alignements, il y aura une baisse
précision de consensus dans les régions homolymères.
-affineAlign (faux)
Affiner l'alignement à l'aide de l'alignement guidé affine.
Options pour filtration lit et alignements
-minLireLongueur l (50)
Ignorer les lectures dont la longueur totale est inférieure à l. Les sous-lectures peuvent être plus courtes.
-minLongueurSous-lecture l (0)
N'alignez pas les sous-lectures de longueur inférieure à l.
-minRawSubreadScore m (0)
N'alignez pas les sous-lectures dont le score de qualité dans le tableau des régions est inférieur à m
(les scores de qualité doivent être compris entre [0, 1000]).
-maxScore m (-200)
Score maximum à la sortie (élevé est mauvais, négatif bon).
-minAlnLongueur
(0) Signaler les alignements uniquement si leurs longueurs sont supérieures à minAlnLength.
-minPctSimilarité (0) Signaler les alignements uniquement si leur pourcentage de similitude est
supérieur à minPctSimilarity.
-minPctPrécision
(0) Signaler les alignements uniquement si leur pourcentage de précision est supérieur à
minPrécision.
Options pour parallèle alignement
-nproc N (1)
Aligner en utilisant N processus. Toutes les grandes structures de données telles que le tableau de suffixes
et la table de nombre de tuples sont partagées.
-Début S (0)
Index de la première lecture pour commencer l'alignement. Ceci est utile lorsque plusieurs
les instances s'exécutent sur les mêmes données, par exemple lorsqu'elles sont sur un multi-rack
.
-foulée S (1)
Aligner une lecture chaque S lit.
Options pour sous-échantillonnage lit.
-sous-échantillon (0)
Proportion de lectures à sous-échantillonner de manière aléatoire (exprimée en nombre décimal) et
aligner.
-holeNuméros LISTE
Lorsqu'il est spécifié, n'alignez que les lectures dont les numéros de trou ZMW sont dans LISTE. LISTE
est une chaîne de plages délimitée par des virgules, telle que « 1,2,3,10-13 ». Cette option
ne fonctionne que lorsque les lectures sont au format bam, bax.h5 ou plx.h5.
-h Imprimer les informations d'aide.
CITATION
Pour citer BLSR, veuillez utiliser : Chaisson MJ, et Tesler G., Mapping single molécule
séquençage des lectures à l'aide de l'alignement local de base avec raffinement successif (BLASR) : théorie
et Application, BMC Bioinformatics 2012, 13:238.
Utilisez blasr en ligne en utilisant les services onworks.net