AnglaisFrançaisEspagnol

Ad


Icône de favori OnWorks

maq - En ligne dans le Cloud

Exécutez maq dans le fournisseur d'hébergement gratuit OnWorks sur Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

Il s'agit de la commande maq qui peut être exécutée dans le fournisseur d'hébergement gratuit OnWorks en utilisant l'un de nos multiples postes de travail en ligne gratuits tels que Ubuntu Online, Fedora Online, l'émulateur en ligne Windows ou l'émulateur en ligne MAC OS

PROGRAMME:

Nom


Maq - Cartographie et Assemblage avec Qualités

SYNOPSIS


mais Q commander [Options] arguments

maq.pl commander [Options] arguments

DESCRIPTION


Maq est un logiciel qui construit des assemblages de mappage à partir de courtes lectures générées par le prochain-
machines de séquençage de génération. Il est particulièrement conçu pour Illumina-Solexa 1G Genetic
Analyzer, et dispose d'une fonctionnalité préliminaire pour gérer les données AB SOLiD.

Avec Maq vous pouvez :

· Alignement rapide des lectures Illumina/SOLiD sur le génome de référence. Avec les options par défaut, un
millions de paires de lectures peuvent être mappées sur le génome humain en environ 10 heures CPU avec moins
que la mémoire 1G.

· Mesurer avec précision la probabilité d'erreur de l'alignement de chaque lecture individuelle.

· Appeler les génotypes consensus, y compris les polymorphismes homozygotes et hétérozygotes, avec
une qualité probabiliste Phred attribuée à chaque base.

· Trouvez des indels courts avec des lectures de fin appariées.

· Trouvez avec précision les délétions et les translocations génomiques à grande échelle avec des lectures de fin appariées.

· Découvrez les CNV potentiels en vérifiant la profondeur de lecture.

· Évaluer l'exactitude des qualités de base brutes des séquenceurs et aider à vérifier la
erreurs systématiques.

Cependant, Maq peut ne pas:

· Faire de nouveau Assemblée. (Maq ne peut appeler le consensus qu'en mappant les lectures à un
référence.)

· Les courts métrages cartographiques se lisent contre eux-mêmes. (Maq ne peut trouver qu'un chevauchement complet entre les lectures.)

· Aligner les lectures capillaires ou 454 lectures à la référence. (Maq ne peut pas aligner des lectures plus longues que
63 pb.)

MAQ COMMANDES


clés / KEY : Commandes

fasta2bfa mais Q fasta2bfa in.ref.fasta out.ref.bfa

Convertissez des séquences au format FASTA au format BFA (binaire FASTA) de Maq.

fastq2bfq mais Q fastq2bfq [-n lectures] dans.lire.fastq lire.bfqpréfixe.out

Convertissez les lectures au format FASTQ au format BFQ (binaire FASTQ) de Maq.

OPTIONS :

-n INT nombre de lectures par fichier [non spécifié]

Localisation mais Q Localisation [-n nmis] [-a maxines] [-c] [-1 len1] [-2 len2] [-d adapter3] [-m muter]
[-u non mappé] [-e maxerr] [-M c⎪g] [-N] [-H tous les coups] [-C coups max] out.aln.map
dans.ref.bfa dans.read1.bfq [dans.read2.bfq] 2> out.map.log

La carte lit les séquences de référence.

OPTIONS :

-n INT Nombre de discordances maximales qui peuvent toujours être trouvées [2]

-a INT Distance extérieure maximale pour une paire de lecture correcte [250]

-A INT Distance extérieure maximale de deux lectures RF payées (0 pour désactiver) [0]

-c Lecture de carte dans l'espace couleur (pour SOLiD uniquement)

-1 INT Longueur de lecture pour la première lecture, 0 pour auto [0]

-2 INT Longueur de lecture pour la deuxième lecture, 0 pour auto [0]

-m FLOAT Taux de mutation entre les séquences de référence et les lectures [0.001]

-d DOSSIER Spécifiez un fichier contenant une seule ligne de la séquence de l'adaptateur 3'
[nul]

-u DOSSIER Vider les lectures non mappées et les lectures contenant plus de nmis incompatibilités avec
un fichier séparé [null]

-e INT Seuil sur la somme des qualités de base discordantes [70]

-H DOSSIER Vider plusieurs/tous les hits de non-concordance 01 vers DOSSIER [nul]

-C INT Nombre maximal de hits à produire. Illimité si supérieur à 512. [250]

-M mode d'alignement de la méthylation c⎪g. Tout C (ou G) sur le brin avant sera
changé en T (ou A). Cette option est uniquement à des fins de test.

-N stocker la position de non-concordance dans le fichier de sortie out.aln.map. Quand cela
est en cours d'utilisation, la longueur de lecture maximale autorisée est de 55 pb.

REMARQUE:

* Les lectures appariées doivent être préparées en deux fichiers, un pour chaque extrémité, avec
les lectures sont triées dans le même ordre. Cela signifie que le k-ième lu dans le premier
fichier est couplé avec le k-ième lu dans le deuxième fichier. La lecture correspondante
les noms doivent être identiques jusqu'à la queue "/1" ou "/2". Par exemple, un tel
une paire de noms de lecture est autorisée : 'EAS1_1_5_100_200/1' et
'EAS1_1_5_100_200/2'. La queue `/[12]' est généralement générée par le
GAPipeline pour distinguer les deux extrémités d'une paire.

* La sortie est un fichier binaire compressé. Il est affecté par l'endianité.

* La meilleure façon d'exécuter cette commande est de fournir environ 1 à 3 millions de lectures comme
saisir. Plus de lectures consomment plus de mémoire.

* Option -n contrôle la sensibilité de l'alignement. Par défaut, un coup avec
jusqu'à 2 discordances peuvent toujours être trouvées. Plus haut -n trouve plus de hits et aussi
améliore la précision des qualités cartographiques. Cependant, cela se fait au prix
de vitesse.

* Les alignements avec de nombreuses incompatibilités de haute qualité doivent être rejetés comme faux
alignements ou contaminations possibles. Ce comportement est contrôlé par l'option
-eL’ -e le seuil n'est calculé qu'approximativement car les qualités de base
sont divisés par 10 à un certain stade de l'alignement. Les -Q option dans la
assembler commande définir précisément le seuil.

* Une paire de lectures est dite correctement appariée si et seulement si la
l'orientation est FR et la distance extérieure de la paire n'est pas supérieure à
maxines. Il n'y a pas de limite sur la taille minimale de l'insert. Ce paramètre est
déterminé par l'algorithme d'alignement d'extrémités appariées utilisé dans Maq. Nécessitant un
la taille minimale de l'insert conduira à des alignements erronés avec des
qualités cartographiques surestimées.

* Actuellement, les paires de lecture de la bibliothèque à insertion longue Illumina/Solexa ont une lecture RF
orientation. La taille d'insertion maximale est définie par l'option -A. Cependant, longtemps-
la bibliothèque d'insertion est également mélangée avec une petite fraction de lecture d'insertion courte
paires. -a doit également être réglé correctement.

* Parfois, l'extrémité 5' ou même la séquence complète de l'adaptateur 3' peut être séquencée.
Fournir -d rend Maq pour éliminer les contaminations de l'adaptateur.

* Compte tenu de 2 millions de lectures en entrée, mais Q prend généralement 800 Mo de mémoire.

fusion de cartes mais Q fusion de cartes out.aln.map in.aln1.map in.aln2.map [...]

Fusionnez un lot d'alignements de lecture.

REMARQUE:

* En théorie, cette commande peut fusionner un nombre illimité d'alignements. Cependant, comme
mapmerge va lire toutes les entrées en même temps, il peut frapper le
limite du nombre maximum de fichiers d'ouverture définis par le système d'exploitation. A l'heure actuelle, ce
doit être résolu manuellement par les utilisateurs finaux.

* Commandement fusion de cartes peut être utilisé pour fusionner des fichiers d'alignement avec différentes lectures
longueurs. Toutes les analyses ultérieures ne supposent plus de longueur fixe.

rmdup mais Q rmdup out.rmdup.map in.ori.map

Supprimez les paires avec des coordonnées externes identiques. En principe, les paires avec
des coordonnées externes identiques devraient arriver rarement. Cependant, en raison de la
l'amplification dans la préparation des échantillons, cela se produit beaucoup plus fréquemment que par
chance. Des analyses pratiques montrent que la suppression des doublons permet d'améliorer la
précision globale des appels SNP.

assembler mais Q assembler [-sp] [-m maximum] [-Q maxerr] [-r chauffer] [-t coef] [-q Q min] [-N
nHap] out.cns dans.ref.bfa dans.aln.map 2> out.cns.log

Appelez les séquences consensus à partir du mappage de lecture.

OPTIONS :

-t FLOAT Coefficient de dépendance d'erreur [0.93]

-r FLOAT Fraction d'hétérozygotes parmi tous les sites [0.001]

-s Prenez la qualité de mappage à extrémité unique comme qualité de mappage finale ;
sinon, la qualité de mappage de fin appariée sera utilisée

-p Ignorer les lectures de fin appariées qui ne sont pas mappées dans les paires correctes

-m INT Nombre maximal de discordances autorisées pour une lecture à utiliser dans
appel au consensus [7]

-Q INT Somme maximale autorisée des valeurs de qualité des bases incompatibles [60]

-q INT Qualité de mappage minimale autorisée pour une lecture à utiliser en consensus
appeler [0]

-N INT Nombre d'haplotypes dans le pool (>=2) [2]

REMARQUE:

* Option -Q fixe une limite à la somme maximale des qualités de base discordantes.
Les lectures contenant de nombreuses incompatibilités de haute qualité doivent être rejetées.

* Option -N définit le nombre d'haplotypes dans un pool. Il est conçu pour
reséquençage des échantillons en rassemblant plusieurs souches/individus. Pour
reséquençage du génome diploïde, cette option est égale à 2.

glfgen mais Q glfgen [-sp] [-m maximum] [-Q maxerr] [-r chauffer] [-t coef] [-q Q min] [-N
nHap] out.cns dans.ref.bfa dans.aln.map 2> out.cns.log

Calculer la log-vraisemblance pour tous les génotypes et stocker les résultats au format GLF
(Format de probabilité de génotypage). Veuillez consulter le site Web de MAQ pour plus de détails
descriptions du format de fichier et des utilitaires associés.

indépendant mais Q indépendant dans.ref.bfa dans.aln.map > indelpe

Appelez des indels cohérents à partir des lectures de fin appariées. La sortie est délimitée par des tabulations
chaque ligne constituée du chromosome, de la position de départ, du type d'indel, du nombre
des lectures à travers l'indel, la taille de l'indel et les nucléotides insérés/supprimés
(séparés par deux points), nombre d'indels sur le brin inverse, nombre d'indels
sur le brin avant, séquence 5' devant l'indel, séquence 3' suivant
l'indel, le nombre de lectures alignées sans indel et trois colonnes supplémentaires
pour les filtres.

A la 3ème colonne, type de l'indel, une étoile indique que l'indel est confirmé
par les lectures des deux brins, un plus signifie que l'indel est touché par au moins deux lectures
mais du même brin, un moins montre que l'indel n'est trouvé que sur une lecture,
et un point signifie que l'indel est trop proche d'un autre indel et est filtré.

Il est recommandé aux utilisateurs de parcourir `maq.pl indelpe' pour corriger le nombre de
lectures mappées sans indels. Pour plus de détails, voir le `maq.pl indelpe'
.

Indelsoa mais Q Indelsoa dans.ref.bfa dans.aln.map > indelsoa

Appelez les indels homozygotes potentiels et les points de rupture en détectant les anomalies
motif d'alignement autour des indels et des points de rupture. La sortie est également TAB
délimité par chaque ligne constituée d'un chromosome, d'une coordonnée approximative,
longueur de la région anormale, nombre de lectures mappées sur la position,
nombre de lectures sur le côté gauche de la position et nombre de lectures sur
le côté droit. La dernière colonne peut être ignorée.

La sortie contient de nombreux faux positifs. Un filtre recommandé pourrait être :

awk '$5+$6-$4 >= 3 && $4 <= 1' in.indelsoa

Notez que cette commande ne vise pas à être un détecteur indel précis, mais
aide principalement à éviter certains faux positifs dans les appels de substitution. Dans
de plus, cela ne fonctionne bien qu'en profondeur (~40X par exemple); sinon le
le taux de faux négatifs serait très élevé.

Format Façonnage

sol2sanger mais Q sol2sanger dans.sol.fastq hors.sanger.fastq

Convertissez Solexa FASTQ au format standard/Sanger FASTQ.

bfq2fastq mais Q bfq2fastq dans.lire.bfq out.read.fastq

Convertissez le format BFQ de Maq au format FASTQ standard.

mappass2maq mais Q mappass2maq dans.mapass2.map out.maq.map

Convertissez le format de carte obsolète de mapass2 au format de carte de Maq. L'ancien format ne
ne pas contenir de noms lus.

Informations Extraire

vue de la carte mais Q vue de la carte [-bN] dans.aln.map > out.aln.txt

Affichez l'alignement de lecture en texte brut. Pour les lectures alignées avant le Smith-
Alignement Waterman, chaque ligne se compose du nom lu, du chromosome, de la position,
brin, taille d'insertion à partir des coordonnées externes d'une paire, drapeau apparié, mappage
qualité, qualité de mappage à une extrémité, qualité de mappage alternatif, nombre de
décalages du meilleur coup, somme des qualités des bases discordantes du meilleur
hit, nombre de hits 0-mismatch des 24 premiers pb, nombre de hits 1-mismatch de
les 24 premiers pb sur la référence, longueur de la séquence de lecture, lecture et son
qualité. La qualité de mappage alternative est toujours égale à la qualité de mappage si le
les lectures ne sont pas appariées. Si les lectures sont appariées, cela équivaut au plus petit mappage
qualité des deux extrémités. Cette qualité de cartographie alternative est en fait la
cartographie de la qualité d'une paire anormale.

La cinquième colonne, indicateur apparié, est un indicateur au niveau du bit. Ses 4 bits inférieurs donnent le
orientation : 1 pour FF, 2 pour FR, 4 pour RF et 8 pour RR, où FR signifie
que la lecture avec la plus petite coordonnée est sur le brin avant, et son compagnon est
sur le brin inversé. Seul le FR est autorisé pour une paire correcte. Les bits supérieurs
de ce drapeau donnent de plus amples informations. Si la paire rencontre l'extrémité appariée
exigence, 16 seront fixés. Si les deux lectures sont mappées sur des
chromosomes, 32 seront définis. Si l'une des deux lectures ne peut pas du tout être mappée,
64 sera réglé. Le drapeau pour une paire correcte est toujours égal à 18.

Pour les lectures alignées par la suite par l'alignement Smith-Waterman, le drapeau est
toujours 130. Une ligne se compose du nom lu, du chromosome, de la position, du brin, de l'insert
taille, drapeau (toujours 130), position de l'indel sur la lecture (0 si pas d'indel),
longueur des indels (positif pour les insertions et négatif pour les suppressions),
qualité de cartographie de son partenaire, nombre de discordances du meilleur coup, somme de
qualités des bases dépareillées du meilleur hit, deux zéros, longueur de la lecture,
séquence de lecture et sa qualité. Le compagnon d'une lecture marquée 130 obtient toujours un
drapeau 18.

L'indicateur 192 indique que la lecture n'est pas mappée mais que son compagnon est mappé. Pour un tel
une paire de lecture, une lecture a le drapeau 64 et l'autre a 192.

OPTIONS :

-b ne pas afficher la séquence de lecture et la qualité

-N afficher les positions où les discordances se produisent. Ce drapeau ne fonctionne que
avec un fichier .map généré par `maq map -N'.

vérification de carte mais Q vérification de carte [-s] [-m maximum] [-q Q min] dans.ref.bfa dans.aln.map > out.mapcheck

Lire le contrôle de qualité. Le contrôle de fermeture signale d'abord la composition et la profondeur de
le référence. Après il y a un formulaire. La première colonne indique le
position sur une lecture. Après quatre colonnes qui montrent le nucléotide
composition, les taux de substitution entre la référence et les lectures seront donnés.
Ces taux et les nombres dans les colonnes suivantes sont échelonnés jusqu'à 999 et
arrondi à l'entier le plus proche. Le groupe de colonnes suivant montre la distribution des
qualités de base le long des lectures à un intervalle de qualité de 10. Une dégradation de la qualité
peut généralement être observé, ce qui signifie que les bases à la fin de la lecture sont moins
précis. Le dernier groupe de colonnes présente la fraction de substitutions pour
lire les bases à un intervalle de qualité. Cela mesure la précision de la qualité de base
estimation. Idéalement, on s'attend à voir 1 sur 3 ? colonne, 10 dans le 2? colonne
et 100 dans le 1 ? colonne.

OPTIONS :

-s Prenez la qualité de mappage à une seule extrémité comme qualité de mappage finale

-m INT Nombre maximum d'erreurs autorisées pour qu'une lecture soit comptée [4]

-q INT Qualité de mappage minimale autorisée pour qu'une lecture soit comptée [30]

entasser mais Q entasser [-spvP] [-m maximum] [-Q maxerr] [-q Q min] [-l fichier de site] dans.ref.bfa
dans.aln.map > sortie.pileup

Affichez l'alignement dans un format de texte « pileup ». Chaque ligne se compose de
chromosome, position, base de référence, profondeur et les bases sur les lectures qui couvrent
ce poste. Si -v est ajouté sur la ligne de commande, les qualités de base et la cartographie
les qualités seront présentées dans l'ordre dans les sixième et septième colonnes.

La cinquième colonne commence toujours par `@'. Dans cette colonne, lisez les bases identiques
à la référence sont indiqués par une virgule ',' ou un point '.', et lisent des bases différentes
de la référence en lettres. Une virgule ou une majuscule indique que la base
provient d'une lecture alignée sur le brin avant, tandis qu'un point ou une minuscule sur
le brin inversé.

Cette commande est destinée aux utilisateurs qui souhaitent développer leurs propres appelants SNP.

OPTIONS :

-s Prenez la qualité de mappage à une seule extrémité comme qualité de mappage finale

-p Ignorer les lectures de fin appariées qui ne sont pas mappées en tant que paires correctes

-v Sortir des informations détaillées, y compris les qualités de base et le mappage
qualités

-m INT Nombre maximal de discordances autorisées pour une lecture à utiliser [7]

-Q INT Nombre maximal autorisé de valeurs de qualité des discordances [60]

-q INT Qualité de mappage minimale autorisée pour une lecture à utiliser [0]

-l DOSSIER Fichier contenant les sites sur lesquels le carambolage sera imprimé. Dans ce
fichier la première colonne donne les noms de la référence et la seconde
les coordonnées. Les colonnes supplémentaires seront ignorées. [nul]

-P également sortir la position de base sur la lecture

cns2fq mais Q cns2fq [-Q minCarteQ] [-n minNeiQ] [-d minProfondeur] [-D profondeur max] in.cns >
out.cns.fastq

Extraire les séquences consensus au format FASTQ. Dans les lignes de séquence, les bases
en minuscules sont essentiellement des répétitions ou n'ont pas une couverture suffisante ; socles
en majuscules indiquent les régions où les SNP peuvent être appelés de manière fiable. Dans le
lignes de qualité, l'ASCII d'un caractère moins 33 donne la qualité PHRED.

OPTIONS :

-Q INT Qualité de cartographie minimale [40]

-d INT Profondeur de lecture minimale [3]

-n INT Qualité voisine minimale [20]

-D INT Profondeur de lecture maximale. >=255 pour illimité. [255]

cns2snp mais Q cns2snp in.cns > out.snp

Extraire les sites SNP. Chaque ligne est constituée d'un chromosome, d'une position, d'une base de référence,
base de consensus, qualité de consensus de type Phred, profondeur de lecture, nombre moyen de
hits de lectures couvrant cette position, la meilleure qualité de mappage des lectures
couvrant la position, la qualité minimale du consensus dans l'accompagnement de 3pb
régions de chaque côté du site (6 pb au total), le deuxième meilleur appel, log
rapport de vraisemblance du deuxième meilleur et du troisième meilleur appel, et du troisième meilleur
appel.

La 5ème colonne est le critère clé pour juger de la fiabilité d'un SNP.
Cependant, comme cette qualité n'est calculée qu'en supposant l'indépendance du site, vous
devrait également considérer d'autres colonnes pour obtenir des appels SNP plus précis. Scénario
commande `maq.pl Filtre SNP' est conçu pour cela (voir ci-dessous).

La 7e colonne indique si le site se situe dans une région répétitive. Sinon
la lecture couvrant le site peut être cartographiée avec une haute qualité cartographique, le flanquant
région est peut-être répétitive ou dans le manque de bonnes lectures. Un SNP sur un tel site
n'est généralement pas fiable.

La 8ème colonne donne approximativement le numéro de copie de la région flanquante dans le
génome de référence. Dans la plupart des cas, ce nombre approche 1.00, ce qui signifie que le
la région est à peu près unique. Parfois, vous pouvez voir une profondeur de lecture non nulle mais 0.00 à
la 7e colonne. Cela indique que toutes les lectures couvrant la position ont au
au moins deux décalages. Maq ne compte que le nombre de résultats de non-concordance 0 et 1 pour
le référence. Cela est dû à un problème technique complexe.

La 9ème colonne donne la qualité voisine. Le filtrage sur cette colonne est également
requis pour obtenir des SNP fiables. Cette idée est inspirée de NQS, bien que NQS soit
initialement conçu pour une seule lecture au lieu d'un consensus.

cns2view mais Q cns2view in.cns > vue.de.sortie

Afficher des informations détaillées sur tous les sites. Le format de sortie est identique à
cns2snp signaler.

CNS2réf mais Q CNS2réf in.cns > out.ref.fasta

Extraire la séquence de référence.

cns2win mais Q cns2win [-w taille gagnante] [-c chr] [-b commencer] [-e fin] [-q Q min] in.cns >
sur.gagner

Extraire les informations moyennées dans une fenêtre de tilling. La sortie est délimitée par des tabulations,
qui se compose du nom de référence, des coordonnées divisées par 1,000,000 XNUMX XNUMX, du taux SNP,
taux de chaleur, profondeur de lecture brute, profondeur de lecture dans des régions approximativement uniques, le
nombre moyen de hits de lectures dans la fenêtre et pourcentage de GC.

OPTIONS :

-w INT Taille d'une fenêtre [1000]

-c STR Séquence de référence destinée ; sinon toutes les références seront utilisées
[nul]

-b INT Position de départ, 0 pour aucune contrainte [0]

-e INT Position finale, 0 pour aucune contrainte [0]

-q INT Qualité minimale consensuelle des sites à utiliser [0]

Simulation Services Connexes

fauxmut mais Q fauxmut [-r muter] [-R indelfrac] in.ref.fasta > out.fakeref.fasta 2>
faux.snp

Introduisez au hasard des substitutions et des indels à la référence. Remplacements et
Des indels de paires de bases uniques peuvent être ajoutés.

OPTIONS :

-r FLOAT Taux de mutation [0.001]

-R FLOAT Fraction de mutations à être des indels [0.1]

simultrain mais Q simultrain out.simupars.dat dans.lire.fastq

Estimer/entraîner les paramètres pour la simulation de lecture.

simuler mais Q simuler [-d en taille] [-s développement standard] [-N nLecture] [-1 lireLen1] [-2 lireLen2] [-r
tauxmut] [-R indelFrac] [-h] out.read1.fastq out.read2.fastq in.ref.fasta
dans.simupars.dat

Simulez des lectures de fin appariées. Déposer dans.simupars.dat détermine les longueurs de lecture et
diffusion de qualité. Il est généré à partir simultrain, ou peut être téléchargé à partir de
Site Web de Maq. Dans les fichiers de lecture de sortie, un nom de lecture se compose de la référence
le nom de la séquence et les coordonnées externes de la paire de lectures simulées. Par
défaut simuler suppose que les lectures proviennent d'une séquence diploïde qui est générée
en ajoutant deux ensembles différents de mutations, y compris une paire de bases indels, à
in.ref.fasta.

OPTIONS :

-d INT moyenne de la distance extérieure des tailles d'insert [170]

-s INT écart type des tailles de plaquettes [20]

-N INT nombre de paires de lectures à générer [1000000]

-1 INT longueur de la première lecture [définie par dans.simupars.dat]

-2 INT durée de la deuxième lecture [fixée par dans.simupars.dat]

-r FLOAT taux de mutation [0.001]

-R FLOAT fraction des indels de 1 pb [0.1]

-h ajouter toutes les mutations à in.ref.fasta et générer des lectures à partir du seul
séquence mutée (mode haploïde)

REMARQUE:

* Les lectures générées à partir de cette commande sont indépendantes, ce qui diffère de la
vérité. Alors que l'évaluation de l'alignement en est moins affectée, l'évaluation sur
Les appels SNP doivent être effectués avec prudence. La dépendance d'erreur peut être l'une des
les principales causes de mauvais appels SNP.

Simusstat mais Q Simusstat in.simu-aln.map > sortie.simustat

Évaluez les qualités de mappage à partir de lectures simulées.

Solide Services Connexes

fasta2csfa mais Q fasta2csfa in.nucl-ref.fasta > out.color-ref.fasta

Convertissez le nucléotide FASTA en FASTA codé par couleur. Drapeau -c doit alors être appliqué
à Localisation commander. Dans la sortie, la lettre 'A' représente la couleur 0, 'C' pour 1, 'G'
pour 2 et 'T' pour 3. Chaque séquence de la sortie est plus courte de 1 pb que l'entrée.

csmap2nt mais Q csmap2nt out.nt.map in.ref.nt.bfa in.cs.map

Convertissez l'alignement des couleurs en alignement des nucléotides. L'entrée in.ref.nt.bfa est
fichier de référence FASTA binaire de nucléotides. Il doit correspondre au fichier d'origine
à partir de laquelle la référence de couleur est convertie. Le consensus nucléotidique peut être appelé
de l'alignement résultant.

Divers/Avancé Commandes

sous-carte mais Q sous-carte [-q minCarteQ] [-Q maxSumErr] [-m maxMM] [-p] hors.map dans.map

Filtrer les mauvais alignements dans dans.map. Les options de ligne de commande sont décrites dans le
`assembler' commande.

eland2maq mais Q eland2maq [-q par défaut] hors.map dans la liste en.eland

Convertissez l'alignement des élans au format .map de maq. Déposer dans la liste consiste en
les noms de séquence qui apparaissent dans la septième colonne du fichier d'alignement des élans
en.eland et le nom que vous vous attendez à voir dans l'alignement maq. Ce qui suit est un
Exemple:

cX.fa chrX
c1.fa chr1
c2.fa chr2

Si vous alignez des lectures en plusieurs lots avec eland, il est important de
utiliser le même dans la liste pour la reconversion. De plus, maq chargera tous les
alignements et les trier dans la mémoire. Si vous avez concaténé plusieurs élans
sorties dans un fichier énorme, vous devez le séparer en fichiers plus petits pour
empêcher maq de manger toute la mémoire de votre machine.

Cette commande vise en fait à afficher l'alignement d'Eland dans Maqview. Comme aucune qualité
informations sont disponibles, le fichier d'alignement maq résultant ne doit pas être utilisé
pour appeler des génotypes de consensus.

export2maq mais Q export2maq [-1 lire1len] [-2 lire2len] [-a liste maximale] [-n] hors.map dans la liste
dans.exporter

Convertir le format d'exportation d'Illumina en Maq .map format. Le format d'exportation est un nouveau
format d'alignement depuis SolexaPipeline-0.3.0 qui calcule également le mappage
qualités comme maq. Le fichier résultant peut être utilisé pour appeler des génotypes consensus
car la plupart des informations nécessaires sont disponibles pour que maq le fasse avec précision.

OPTIONS :

-1 INT Longueur de la première lecture [0]

-2 INT Longueur de la deuxième lecture [0]

-a INT Distance extérieure maximale pour une paire de lecture correcte [250]

-n Conserver les lectures filtrées

MAQ-PERL COMMANDES


demo maq.pl demo [-h] [-s] [-N nPaires] [-d répSortie] in.fasta dans.simudat

Démontrer l'utilisation de mais Q et ses scripts compagnons. Cette commande va
simuler des lectures à partir d'un fichier FASTA in.fasta. La longueur et les qualités de la séquence
sont déterminés par dans.simudat qui est généré à partir mais Q simultrain ou peut être
téléchargé à partir du site Web de Maq. Les lectures simulées seront ensuite mappées avec
maq.pl course facile. La précision de l'alignement est évaluée par mais Q Simusstat,
exactitude consensuelle par mais Q simucns, et la précision SNP par maq_eval.pl.

Par défaut, les lectures de fin appariées seront simulées et une séquence diploïde sera
généré à partir de l'entrée en ajoutant des mutations à l'un ou l'autre type haploïde. L'insert
la taille et le taux de mutation sont contrôlés par mais Q simuler.

OPTIONS :

-h simuler une séquence haploïde au lieu d'une séquence diploïde

-s utiliser le mode single-end pour aligner les lectures au lieu du mode paired-end

-N INT nombre de paires de lectures à simuler [1000000]

-d DIR répertoire de sortie [maqdemo]

REMARQUE:

* Les fichiers de sortie de maq_eval.pl n'ont pas été documentés, mais vous pouvez faire
une bonne estimation de certains de ces fichiers.

* Cette commande démontre simplement l'utilisation de la suite maq. La précision sur le réel
les données sont presque toujours inférieures à ce que vous voyez de la simulation pure.

course facile maq.pl course facile [-1 lire1Len] [-d out.dir] [-n nLecture] [-A 3adaptateur] [-e minDep]
[-q minCnsQ] [-p] [-2 lire2Len] [-a maxIns] [-S] [-N] in.ref.fasta in1.fastq
[in2.fastq]

Analyse du pipeline pour les petits génomes. La commande Easyrun exécutera la plupart des analyses
mis en œuvre dans mais Q. Par défaut, course facile suppose toutes les séquences de lecture d'entrée
les fichiers sont uniques et indépendants ; lorsque -p est spécifié, deux séquences de lecture
fichiers sont requis, un pour chaque extrémité.

Plusieurs fichiers seront générés dans out.dir, parmi lesquels les fichiers suivants sont
la sortie clé :

cns.final.snp appels SNP finaux avec ceux de mauvaise qualité filtrés

cns.fq séquences consensus et qualités au format FASTQ

OPTIONS :

-d DIR répertoire de sortie [easyrun]

-n INT nombre de lectures/paires dans un lot d'alignement [2000000]

-S appliquer une analyse de lecture fractionnée des indels courts (peut-être très lent)

-N INT nombre d'haplotypes/souches dans le pool (>=2) [2]

-A DOSSIER fichier pour adaptateur 3'. Le fichier doit contenir une seule ligne de séquence
[nul]

-1 INT longueur de la première lecture, 0 pour auto [0]

-e INT profondeur de lecture minimale requise pour appeler un SNP (pour SNPfilter) [3]

-q INT qualité de consensus minimale pour les SNP dans cns.final.snp

-p passer en mode d'alignement des extrémités appariées

-2 INT durée de la seconde lecture lorsque -p est appliqué [0]

-a INT taille d'insertion maximale lorsque -p est appliqué [250]

NOTES:

* Pour les appels SNP sur des échantillons groupés, les utilisateurs doivent définir le ` correct-N' aussi bien que
`-E 0 '.

* Le fichier d'entrée peut être au format binaire de maq. maq.pl détectera automatiquement
le format de fichier.

Filtre SNP maq.pl Filtre SNP [-d minDep] [-D Dépmax] [-Q maxMapQ] [-q minCnsQ] [-w
indelWinTaille] [-n minNeiQ] [-F in.indelpe] [-f à.indelsoa] [-s score min] [-m
maxAcross] [-a] [-N maxWinSNP] [-W densWinTaille] in.cns2snp.snp >
out.filtré.snp

Éliminez les SNP qui sont couverts par peu de lectures (spécifiés par -d), par trop
lectures (spécifiées par -D), près de (spécifié par -w) à un indel potentiel, tombant
dans une éventuelle région répétitive (caractérisée par -Q), ou ayant une qualité médiocre
bases voisines (spécifiées par -n). Si maxWinSNP ou plusieurs SNP apparaissent dans n'importe quel
densWinTaille fenêtre, ils seront également filtrés ensemble.

OPTIONS :

-d INT Profondeur de lecture minimale requise pour appeler un SNP [3]

-D INT Profondeur de lecture maximale requise pour appeler un SNP (<255, sinon ignoré)


-Q INT Qualité de mappage maximale requise des lectures couvrant le SNP [40]

-q INT Qualité minimale du consensus [20]

-n INT Qualité minimale du consensus adjacent [20]

-w INT Taille de la fenêtre autour des indels potentiels. SNP proches
aux indels seront supprimés [3]

-F DOSSIER La indépendant sortie [nulle]

-f DOSSIER La Indelsoa sortie [nulle]

-s INT Score minimum pour qu'un soa-indel soit pris en compte [3]

-m INT Nombre maximal de lectures pouvant être mappées sur un soa-indel [1]

-a Filtre alternatif pour un alignement à une seule extrémité

indépendant maq.pl indépendant in.indelpe > indelpe

Corrigez le nombre de lectures mappées sans indels pour les étendues d'homopolymère. Cette
commande modifier la 4e, la 10e et les trois dernières colonnes de in.indelpe et
sortir le résultat dans indelpe. Après la correction, ce qui suit awk
La commande donne des indels homozygotes putatifs :

awk '($3=="*"⎪⎪$3=="+") && $6+$7>=3 && (6$+$7)/$4>=0.75'

et ce qui suit donne des hétérozygotes :

awk '($3=="*"⎪⎪$3=="+") && $6+$7>=3 && (6$+$7)/$4<0.75'

S'il vous plaît noter que cette indépendant La commande implémente simplement plusieurs règles heuristiques.
Il ne corrige pas les analyses d'homopolymères impurs ou les di-nucléotides/triplets
répète. Par conséquent, les deux commandes awk ne donnent qu'approximativement hom/het
indèles.

EXEMPLES


· Script Easyrun :
maq.pl easyrun -d easyrun ref.fasta part1.fastq part2.fastq

· Commandes clés derrière easyrun :
maq fasta2bfa réf.fasta réf.bfa;
maq fastq2bfq partie1.fastq partie1.bfq;
maq fastq2bfq partie2.fastq partie2.bfq;
carte maq part1.map ref.bfa part1.bfq ;
carte maq part2.map ref.bfa part2.bfq ;
maq mapmerge aln.map part1.map part2.map ;
maq assembler cns.cns ref.bfa aln.map ;

Utiliser maq en ligne en utilisant les services onworks.net


Serveurs et postes de travail gratuits

Télécharger des applications Windows et Linux

  • 1
    strass
    strass
    Le projet strace a été déplacé vers
    https://strace.io. strace is a
    diagnostic, débogage et instruction
    traceur d'espace utilisateur pour Linux. C'est utilisé
    surveiller un...
    Télécharger
  • 2
    gMKVExtract GUI
    gMKVExtract GUI
    Une interface graphique pour l'utilitaire mkvextract (qui fait partie de
    MKVToolNix) qui intègre la plupart (si
    pas tous) les fonctionnalités de mkvextract et
    utilitaires mkvinfo. Écrit en C#NET 4.0,...
    Télécharger gMKVExtractGUI
  • 3
    Bibliothèque JasperReports
    Bibliothèque JasperReports
    La bibliothèque JasperReports est la
    l'open source le plus populaire au monde
    veille économique et reporting
    moteur. Il est entièrement écrit en Java
    et il est capable de...
    Télécharger la bibliothèque JasperReports
  • 4
    Livres Frappe
    Livres Frappe
    Frappe Books est une source gratuite et ouverte
    logiciel de comptabilité de bureau
    simple et bien conçu pour être utilisé par
    petites entreprises et indépendants. Ce'...
    Télécharger Frappe Books
  • 5
    Python numérique
    Python numérique
    NEWS : NumPy 1.11.2 est la dernière version
    qui sera fait sur sourceforge. roues
    pour Windows, Mac et Linux ainsi que
    les distributions source archivées peuvent être fou ...
    Télécharger Python numérique
  • 6
    Sphinx de la CMU
    Sphinx de la CMU
    CMUSphinx est un grand locuteur indépendant
    reconnaissance vocale continue de vocabulaire
    publié sous licence de style BSD. Il est
    également une collection d'outils open source ...
    Télécharger CMU Sphinx
  • Plus "

Commandes Linux

Ad