EnglischFranzösischSpanisch

Ad


OnWorks-Favicon

maq - Online in der Cloud

Führen Sie maq im kostenlosen OnWorks-Hosting-Provider über Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator aus

Dies ist der Befehl maq, der im kostenlosen OnWorks-Hosting-Provider mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, Windows-Online-Emulator oder MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


Maq - Mapping und Assembly mit Qualitäten

ZUSAMMENFASSUNG


aber Q. Befehl [Optionen] Argumente

maq.pl Befehl [Optionen] Argumente

BESCHREIBUNG


Maq ist eine Software, die Mapping-Assemblys aus kurzen Lesevorgängen erstellt, die von der nächsten
Generationssequenziermaschinen. Es wurde speziell für Illumina-Solexa 1G Genetic entwickelt
Analyzer und verfügt über eine vorläufige Funktionalität zur Verarbeitung von AB SOLiD-Daten.

Mit Maq können Sie:

· Schnelle Ausrichtung von Illumina/SOLiD-Reads auf das Referenzgenom. Mit den Standardoptionen ist ein
Millionen Lesepaare können in etwa 10 CPU-Stunden mit weniger auf das menschliche Genom abgebildet werden
als 1G Speicher.

· Messen Sie die Fehlerwahrscheinlichkeit der Ausrichtung jedes einzelnen Lesevorgangs genau.

· Nennen Sie die Konsensus-Genotypen, einschließlich homozygoter und heterozygoter Polymorphismen, mit
eine jeder Base zugeordnete probabilistische Phred-Qualität.

· Finden Sie kurze Indels mit gepaarten End-Reads.

· Finden Sie genomische Deletionen und Translokationen im großen Maßstab mit Paired-End-Reads.

· Entdecken Sie potenzielle CNVs, indem Sie die Lesetiefe überprüfen.

· Bewerten Sie die Genauigkeit von Rohbasenqualitäten von Sequenzern und helfen Sie bei der Überprüfung der
systematische Fehler.

Maq kann jedoch NICHT:

· Tun de neu Montage. (Maq kann den Konsens nur aufrufen, indem es Reads auf ein bekanntes abbildet
Referenz.)

· Kartenshorts liest gegen sich selbst. (Maq kann nur eine vollständige Überlappung zwischen den Lesevorgängen finden.)

· Kapillare Reads oder 454 Reads auf die Referenz ausrichten. (Maq kann Lesevorgänge nicht länger ausrichten als
63bp.)

MAQ BEFEHLE


Wesentliche Befehle

fasta2bfa aber Q. fasta2bfa in.ref.fasta aus.ref.bfa

Konvertieren Sie Sequenzen im FASTA-Format in das BFA-Format (binäres FASTA) von Maq.

fastq2bfq aber Q. fastq2bfq [-n nliest] in.read.fastq aus.lesen.bfqout.präfix

Konvertieren Sie Lesevorgänge im FASTQ-Format in das BFQ-Format (binäres FASTQ) von Maq.

OPTIONEN:

-n INT Anzahl der Lesevorgänge pro Datei [keine Angabe]

Karte aber Q. Karte [-n nmis] [-a Maxis] [-c] [-1 len1] [-2 len2] [-d adapt3] [-m mutieren]
[-u nicht kartiert] [-e maxerr] [-M c⎪g] [-N] [-H alle Hits] [-C maxhits] out.aln.map
in.ref.bfa in.read1.bfq [in.read2.bfq] 2> out.map.log

Zuordnung von Lesevorgängen zu den Referenzsequenzen.

OPTIONEN:

-n INT Anzahl der maximalen Nichtübereinstimmungen, die immer gefunden werden können [2]

-a INT Maximaler äußerer Abstand für ein korrektes Lesepaar [250]

-A INT Maximaler äußerer Abstand von zwei bezahlten RF-Lesevorgängen (0 für Deaktivierung) [0]

-c Karte liest im Farbraum (nur für SOLiD)

-1 INT Leselänge für den ersten Lesevorgang, 0 für Auto [0]

-2 INT Leselänge für den zweiten Lesevorgang, 0 für Auto [0]

-m FLOAT Mutationsrate zwischen den Referenzsequenzen und den Reads [0.001]

-d FILE Geben Sie eine Datei an, die eine einzelne Zeile der 3'-Adaptersequenz enthält
[Null]

-u FILE Nicht zugeordnete Lesevorgänge und Lesevorgänge mit mehr als . ablegen nmis Nichtübereinstimmungen zu
eine separate Datei [null]

-e INT Schwellenwert für die Summe nicht übereinstimmender Basisqualitäten [70]

-H FILE Mehrere/alle 01-Mismatch-Treffer auf ablegen FILE [Null]

-C INT Maximale Anzahl von Treffern zur Ausgabe. Unbegrenzt, wenn größer als 512. [250]

-M c⎪g-Methylierungs-Alignment-Modus. Alle C (oder G) auf dem Vorwärtsstrang sind
zu T (oder A) geändert. Diese Option dient nur zum Testen.

-N Speichern Sie die Nichtübereinstimmungsposition in der Ausgabedatei out.aln.map. Wenn das
Option verwendet wird, beträgt die maximal zulässige Leselänge 55 bp.

Anmerkungen:

* Paired End Reads sollten in zwei Dateien vorbereitet werden, eine für jedes Ende, mit
Lesevorgänge werden in der gleichen Reihenfolge sortiert. Dies bedeutet, dass die k-te Lesung im ersten
Datei wird mit der k-ten gelesenen Datei in der zweiten Datei verknüpft. Die entsprechende Lektüre
Namen müssen bis auf das Tailing `/1' oder `/2' identisch sein. Zum Beispiel wie
Paar gelesener Namen sind erlaubt: `EAS1_1_5_100_200/1' und
`EAS1_1_5_100_200/2'. Das Tailing `/[12]' wird normalerweise vom
GAPipeline, um die beiden Enden eines Paares zu unterscheiden.

* Die Ausgabe ist eine komprimierte Binärdatei. Es ist von der Endianität betroffen.

* Der beste Weg, diesen Befehl auszuführen, besteht darin, etwa 1 bis 3 Millionen Lesevorgänge bereitzustellen
Eingang. Mehr Lesevorgänge verbrauchen mehr Speicher.

* Möglichkeit -n steuert die Empfindlichkeit der Ausrichtung. Standardmäßig ist ein Treffer mit
bis zu 2 Nichtübereinstimmungen können immer gefunden werden. Höher -n findet mehr Hits und auch
verbessert die Genauigkeit der Abbildungsqualitäten. Dies geschieht jedoch auf Kosten
der Geschwindigkeit.

* Ausrichtungen mit vielen qualitativ hochwertigen Nichtübereinstimmungen sollten als falsch verworfen werden
Ausrichtungen oder mögliche Verschmutzungen. Dieses Verhalten wird durch die Option gesteuert
-edem „Vermischten Geschmack“. Seine -e Schwelle wird nur näherungsweise berechnet, da Basisqualitäten
werden in einem bestimmten Stadium der Ausrichtung durch 10 geteilt. Die -Q Option in der
montieren Befehl präzise die Schwelle einstellen.

* Ein Lesepaar gilt genau dann als korrekt gepaart, wenn die
Orientierung ist FR und der äußere Abstand des Paares ist nicht größer als
Maxis. Es gibt keine Begrenzung für die minimale Einlagegröße. Diese Einstellung ist
bestimmt durch den Paired-End-Alignment-Algorithmus, der in Maq verwendet wird. Erfordert a
minimale Einsatzgröße führt zu einigen falschen Ausrichtungen mit hoch
überschätzte Abbildungsqualitäten.

* Derzeit haben Lesepaare aus der Illumina/Solexa-Langeinsatzbibliothek RF-Read
Orientierung. Die maximale Einsatzgröße wird per Option eingestellt -A. Allerdings lang-
Insert-Bibliothek wird auch mit einem kleinen Bruchteil von Short-Insert-Read gemischt
Paaren. -a sollte auch richtig eingestellt sein.

* Manchmal kann das 5'-Ende oder sogar die gesamte 3'-Adaptersequenz sequenziert werden.
Providing -d macht Maq, um die Adapterkontaminationen zu beseitigen.

* Angesichts von 2 Millionen Lesevorgängen als Eingabe, aber Q. benötigt normalerweise 800 MB Speicher.

Kartenzusammenführung aber Q. Kartenzusammenführung out.aln.map in.aln1.map in.aln2.map [...]

Führen Sie einen Stapel von Leseausrichtungen zusammen.

Anmerkungen:

* Theoretisch kann dieser Befehl eine unbegrenzte Anzahl von Ausrichtungen zusammenführen. Allerdings da
mapmerge liest alle Eingaben gleichzeitig, es kann vorkommen, dass die
Begrenzung der maximalen Anzahl von geöffneten Dateien, die vom Betriebssystem festgelegt wird. Derzeit ist dies
muss von Endbenutzern manuell gelöst werden.

* Befehl Kartenzusammenführung kann verwendet werden, um Alignment-Dateien mit verschiedenen Reads zusammenzuführen
Längen. Alle nachfolgenden Analysen gehen nicht mehr von einer festen Länge aus.

rmdup aber Q. rmdup out.rmdup.map in.ori.map

Entfernen Sie Paare mit identischen äußeren Koordinaten. Grundsätzlich paarweise mit
identische Außenkoordinaten sollten selten vorkommen. Aufgrund der
Amplifikation in der Probenvorbereitung, dies kommt viel häufiger vor als bei
Chance. Praktische Analysen zeigen, dass das Entfernen von Dubletten hilft, die
Gesamtgenauigkeit von SNP-Anrufen.

montieren aber Q. montieren [-sp] [-m maximis] [-Q maxerr] [-r heizen] [-t Koef] [-q minQ] [-N
nHapp] aus.cns in.ref.bfa in.aln.map 2> out.cns.log

Rufen Sie die Konsensussequenzen aus dem Read-Mapping auf.

OPTIONEN:

-t FLOAT Fehlerabhängigkeitskoeffizient [0.93]

-r FLOAT Anteil der Heterozygoten an allen Standorten [0.001]

-s Nehmen Sie die Single-End-Mapping-Qualität als die endgültige Mapping-Qualität;
andernfalls wird die gepaarte End-Mapping-Qualität verwendet

-p Verwerfen Sie gepaarte End-Reads, die nicht den richtigen Paaren zugeordnet sind

-m INT Maximal zulässige Anzahl von Nichtübereinstimmungen für einen zu verwendenden Lesevorgang in
Konsensaufruf [7]

-Q INT Maximal zulässige Summe von Qualitätswerten von nicht übereinstimmenden Basen [60]

-q INT Minimale Mapping-Qualität, die für einen im Konsens zu verwendenden Read erlaubt ist
ruf [0]

-N INT Anzahl Haplotypen im Pool (>=2) [2]

Anmerkungen:

* Möglichkeit -Q setzt eine Grenze für die maximale Summe nicht übereinstimmender Basisqualitäten.
Reads, die viele qualitativ hochwertige Nichtübereinstimmungen enthalten, sollten verworfen werden.

* Möglichkeit -N legt die Anzahl der Haplotypen in einem Pool fest. Es ist für
Neusequenzierung von Proben durch Zusammenführen mehrerer Stämme/Individuen. Zum
diploide Genom-Resequenzierung, diese Option entspricht 2.

glfgen aber Q. glfgen [-sp] [-m maximis] [-Q maxerr] [-r heizen] [-t Koef] [-q minQ] [-N
nHapp] aus.cns in.ref.bfa in.aln.map 2> out.cns.log

Berechnen Sie die Log-Likelihood für alle Genotypen und speichern Sie die Ergebnisse im GLF-Format
(Genotyping Likelihood Format). Bitte besuchen Sie die MAQ-Website für detaillierte
Beschreibungen des Dateiformats und der zugehörigen Dienstprogramme.

unabhängig aber Q. unabhängig in.ref.bfa in.aln.map > aus.indelpe

Rufen Sie konsistente Indels von gepaarten Lesevorgängen auf. Die Ausgabe ist durch Tabulatorzeichen getrennt mit
jede Zeile bestehend aus Chromosom, Startposition, Art des Indels, Nummer
von Reads über das Indel, Größe des Indels und eingefügte/deletierte Nukleotide
(durch Doppelpunkt getrennt), Anzahl Indels auf dem Rückstrang, Anzahl Indels
auf dem Vorwärtsstrang, 5'-Sequenz vor dem Indel, 3'-Sequenz danach
das Indel, die Anzahl der Reads, die ohne Indels ausgerichtet sind, und drei zusätzliche Spalten
für Filter.

In der 3. Spalte, Typ des Indels, zeigt ein Stern an, dass das Indel bestätigt wurde
durch Reads aus beiden Strängen, ein Plus bedeutet, dass der Indel von mindestens zwei Reads getroffen wird
aber aus demselben Strang zeigt ein Minus an, dass das Indel nur bei einem Lesevorgang gefunden wird.
und ein Punkt bedeutet, dass der Indel zu nahe an einem anderen Indel liegt und herausgefiltert wird.

Benutzern wird empfohlen, `maq.pl indelpe' zu durchlaufen, um die Anzahl der zu korrigieren
liest gemappt ohne indels. Weitere Einzelheiten finden Sie in der Datei `maq.pl indelpe'
.

indelsoa aber Q. indelsoa in.ref.bfa in.aln.map > aus.indelsoa

Rufen Sie potenzielle homozygote Indels und Bruchpunkte auf, indem Sie die Abnormalität erkennen
Ausrichtungsmuster um Indels und Breakpoints. Die Ausgabe ist auch TAB
abgegrenzt mit jeder Zeile bestehend aus Chromosom, ungefähre Koordinate,
Länge des abnormalen Bereichs, Anzahl der über die Position abgebildeten Reads,
Anzahl der Reads auf der linken Seite der Position und Anzahl der Reads auf
die rechte Seite. Die letzte Spalte kann ignoriert werden.

Die Ausgabe enthält viele falsch positive Ergebnisse. Ein empfohlener Filter könnte sein:

awk '$5+$6-$4 >= 3 && $4 <= 1' in.indelsoa

Beachten Sie, dass dieser Befehl nicht darauf abzielt, ein genauer Indel-Detektor zu sein, aber
hilft vor allem, einige Fehlalarme bei Vertretungsanrufen zu vermeiden. In
Außerdem funktioniert es nur bei tiefer Tiefe (~ 40X zum Beispiel); ansonsten der
Falsch-Negativ-Rate wäre sehr hoch.

Format weiterverarbeitende Industrie

sol2sanger aber Q. sol2sanger in.sol.fastq out.sanger.fastq

Konvertieren Sie Solexa FASTQ in das Standard-/Sanger-FASTQ-Format.

bfq2fastq aber Q. bfq2fastq in.read.bfq schnell.auslesen.q

Konvertieren Sie das BFQ-Format von Maq in das Standard-FASTQ-Format.

mapass2maq aber Q. mapass2maq in.mapass2.map out.maq.map

Konvertieren Sie das veraltete Kartenformat von mapass2 in das Kartenformat von Maq. Das alte Format tut es
keine gelesenen Namen enthalten.

Informationen Extrahieren

Kartenansicht aber Q. Kartenansicht [-bN] in.aln.map > out.aln.txt

Anzeige der Leseausrichtung im Klartext. Für Reads, die vor dem Smith-
Waterman-Ausrichtung, jede Zeile besteht aus gelesenem Namen, Chromosom, Position,
Strang, Insertgröße aus den äußeren Coorniaten eines Paares, gepaarte Flagge, Mapping
Qualität, Single-End-Mapping-Qualität, alternative Mapping-Qualität, Anzahl der
Nichtübereinstimmungen des besten Treffers, Summe der Qualitäten nicht übereinstimmender Basen des Besten
Treffer, Anzahl 0-Mismatch-Treffer der ersten 24bp, Anzahl 1-Mismatch-Treffer von
die ersten 24bp auf der Referenz, Länge des Lesevorgangs, Lesesequenz und seine
Qualität. Die alternative Abbildungsqualität entspricht immer der Abbildungsqualität, wenn die
Lesevorgänge werden nicht gepaart. Wenn Lesevorgänge gepaart sind, entspricht dies der kleineren Zuordnung
Qualität der beiden Enden. Diese alternative Abbildungsqualität ist eigentlich die
Abbildungsqualität eines abnormalen Paares.

Die fünfte Spalte, Paired Flag, ist ein bitweises Flag. Seine unteren 4 Bits geben dem
Orientierung: 1 steht für FF, 2 für FR, 4 für RF und 8 für RR, wobei FR bedeutet
dass der Read mit der kleineren Koordinate auf dem vorderen Strang liegt und sein Partner ist
auf dem Rückstrang. Für ein korrektes Paar ist nur FR erlaubt. Die höheren Bits
dieser Flagge geben weitere Informationen. Wenn das Paar das gepaarte Ende trifft
Voraussetzung, 16 wird gesetzt. Wenn die beiden Lesevorgänge unterschiedlichen zugeordnet sind
Chromosomen, 32 werden gesetzt. Wenn einer der beiden Reads überhaupt nicht zugeordnet werden kann,
64 wird eingestellt. Die Flagge für ein richtiges Paar ist immer gleich 18.

Für Reads, die anschließend durch die Smith-Waterman-Ausrichtung ausgerichtet werden, ist das Flag
immer 130. Eine Zeile besteht aus gelesenem Name, Chromosom, Position, Strang, Insert
Größe, Flag (immer 130), Position des Indels auf dem Read (0 wenn kein Indel),
Länge der Indels (positiv für Insertionen und negativ für Deletionen),
Mapping-Qualität seines Partners, Anzahl der Nichtübereinstimmungen des besten Treffers, Summe von
Qualitäten von nicht übereinstimmenden Basen des besten Treffers, zwei Nullen, Länge des Lesevorgangs,
Lesereihenfolge und ihre Qualität. Der Mate eines 130-markierten Reads bekommt immer ein
Flagge 18.

Flag 192 zeigt an, dass der Lesevorgang nicht abgebildet ist, aber sein Partner abgebildet ist. Für solch
ein Read-Paar, ein Read hat das Flag 64 und das andere hat 192.

OPTIONEN:

-b die Lesereihenfolge und die Qualität nicht anzeigen

-N zeigen die Positionen an, an denen Nichtübereinstimmungen auftreten. Diese Flagge funktioniert nur
mit einer .map-Datei, die von `maq map -N' generiert wurde.

Kartencheck aber Q. Kartencheck [-s] [-m maximis] [-q minQ] in.ref.bfa in.aln.map > out.mapcheck

Qualitätscheck lesen. Der Mapcheck meldet zunächst die Zusammensetzung und die Tiefe von
die Referenz. Danach gibt es ein Formular. Die erste Spalte zeigt die
Position auf einer Lesung. Folgende vier Spalten zeigen das Nukleotid
Zusammensetzung, Substitutionsraten zwischen Referenz und Reads werden angegeben.
Diese Tarife und die Zahlen in den folgenden Spalten sind auf 999 skaliert und
auf die nächste ganze Zahl gerundet. Die nächste Spaltengruppe zeigt die Verteilung von
Basisqualitäten entlang der Reads bei einem Qualitätsintervall von 10. Qualitätsverlust
kann in der Regel beobachtet werden, was bedeutet, dass die Basen am Ende des Lesens weniger sind
präzise. Die letzte Spaltengruppe zeigt den Anteil der Substitutionen für
Basen in einem Qualitätsintervall lesen. Dies misst die Genauigkeit der Basisqualität
Einschätzung. Idealerweise erwarten wir 1 von 3? Spalte, 10 in der 2? Säule
und 100 in der 1? Säule.

OPTIONEN:

-s Nehmen Sie die Single-End-Mapping-Qualität als endgültige Mapping-Qualität

-m INT Maximale Anzahl von Fehlern, die für die Zählung eines Lesevorgangs zulässig sind [4]

-q INT Mindestabbildungsqualität, die für das Zählen eines Lesevorgangs zulässig ist [30]

aufstapeln aber Q. aufstapeln [-spvP] [-m maximis] [-Q maxerr] [-q minQ] [-l Site-Datei] in.ref.bfa
in.aln.map > out.pileup

Zeigen Sie die Ausrichtung in einem `pileup'-Textformat an. Jede Zeile besteht aus
Chromosom, Position, Referenzbasis, Tiefe und die Basen auf Reads, die abdecken
Diese Position. Wenn -v wird auf der Kommandozeile hinzugefügt, Basisqualitäten und Mapping
Qualitäten werden in der sechsten und siebten Spalte der Reihe nach präsentiert.

Die fünfte Spalte beginnt immer mit `@'. In dieser Spalte sind identische Lesebasen
auf die Referenz werden in Komma `,' oder Punkt `.' angezeigt und die Basen unterschiedlich gelesen
aus der Referenz in Briefen. Ein Komma oder ein Großbuchstabe zeigt an, dass die Basis
kommt von einem Read, der auf dem vorderen Strang ausgerichtet ist, während ein Punkt oder ein Kleinbuchstabe auf
der umgekehrte Strang.

Dieser Befehl ist für Benutzer gedacht, die ihre eigenen SNP-Anrufer entwickeln möchten.

OPTIONEN:

-s Nehmen Sie die Single-End-Mapping-Qualität als endgültige Mapping-Qualität

-p Verwerfen Sie gepaarte Endlesevorgänge, die nicht als korrekte Paare zugeordnet sind

-v Ausführliche Informationen ausgeben, einschließlich Basisqualitäten und Zuordnung
Qualitäten

-m INT Maximale Anzahl von Nichtübereinstimmungen, die für einen zu verwendenden Lesevorgang zulässig sind [7]

-Q INT Maximal zulässige Anzahl von Qualitätswerten von Nichtübereinstimmungen [60]

-q INT Minimale Mapping-Qualität, die für die Verwendung eines Reads zulässig ist [0]

-l FILE Datei mit den Standorten, an denen Pileup ausgedruckt wird. In diesem
Datei die erste Spalte enthält die Namen der Referenz und die zweite
die Koordinaten. Zusätzliche Spalten werden ignoriert. [Null]

-P auch die Basisposition auf dem Read ausgeben

cns2fq aber Q. cns2fq [-Q minMapQ] [-n minNeiQ] [-d minTiefe] [-D maximale Tiefe] in.cns >
out.cns.fastq

Extrahieren Sie die Konsensussequenzen im FASTQ-Format. In den Sequenzzeilen Basen
in Kleinbuchstaben sind im Wesentlichen Wiederholungen oder keine ausreichende Abdeckung; Basen
in Großbuchstaben geben Regionen an, in denen SNPs zuverlässig aufgerufen werden können. In dem
Qualitätszeilen, ASCII eines Zeichens minus 33 ergibt die PHRED-Qualität.

OPTIONEN:

-Q INT Mindestabbildungsqualität [40]

-d INT Mindestlesetiefe [3]

-n INT Minimale Nachbarqualität [20]

-D INT Maximale Lesedauer. >=255 für unbegrenzt. [255]

cns2snp aber Q. cns2snp in.cns > aus.snp

Extrahieren Sie SNP-Sites. Jede Linie besteht aus Chromosom, Position, Referenzbasis,
Konsensbasis, Phred-ähnliche Konsensqualität, Lesetiefe, durchschnittliche Anzahl von
Treffer von Reads, die diese Position abdecken, die höchste Mapping-Qualität der Reads
die Position abdecken, die minimale Konsensqualität in der 3bp flankierenden
Regionen auf jeder Seite des Standorts (insgesamt 6bp), der zweitbeste Aufruf, log
Likelihood Ratio des zweitbesten und des drittbesten Calls und des drittbesten
Anruf.

Die 5. Spalte ist das Schlüsselkriterium, wenn Sie die Zuverlässigkeit eines SNP beurteilen.
Da diese Qualität jedoch nur unter der Annahme der Standortunabhängigkeit berechnet wird, können Sie
sollten auch andere Spalten berücksichtigen, um genauere SNP-Aufrufe zu erhalten. Skript
Befehl `maq.pl SNP-Filter“ ist dafür ausgelegt (siehe unten).

Die 7. Spalte gibt an, ob die Site in eine sich wiederholende Region fällt. Wenn nein
flächendeckend kann mit hoher Kartierungsqualität kartiert werden, die flankierenden
Region ist möglicherweise sich wiederholend oder weist einen Mangel an guten Lesewerten auf. Ein SNP an einem solchen Standort
ist in der Regel nicht zuverlässig.

Die 8. Spalte gibt grob die Kopiennummer der flankierenden Region im
Referenzgenom. In den meisten Fällen nähert sich diese Zahl 1.00, was bedeutet, dass die
Region ist einzigartig. Manchmal sehen Sie möglicherweise eine Lesetiefe ungleich Null, aber 0.00 at
die 7. Spalte. Dies zeigt an, dass alle Reads, die die Position abdecken, at . haben
mindestens zwei Unstimmigkeiten. Maq zählt nur die Anzahl der 0- und 1-Mismatch-Treffer zu
die Referenz. Dies ist auf ein komplexes technisches Problem zurückzuführen.

Die 9. Spalte gibt die benachbarte Qualität an. Das Filtern nach dieser Spalte ist auch
erforderlich, um zuverlässige SNPs zu erhalten. Diese Idee ist von NQS inspiriert, obwohl NQS
ursprünglich für einen einzigen Lesevorgang statt für einen Konsens konzipiert.

cns2view aber Q. cns2view in.cns > aus.sicht

Zeigen Sie detaillierte Informationen an allen Standorten an. Das Ausgabeformat ist identisch mit
cns2snp berichten.

cns2ref aber Q. cns2ref in.cns > aus.ref.fasta

Extrahieren Sie die Referenzsequenz.

cns2win aber Q. cns2win [-w Winsize] [-c chr] [-b beginnen] [-e Ende] [-q minQ] in.cns >
aus.gewinnen

Extrahieren von Informationen, die in einem Bearbeitungsfenster gemittelt wurden. Die Ausgabe ist durch Tabulatorzeichen getrennt,
bestehend aus Referenzname, Koordinate geteilt durch 1,000,000, SNP-Rate,
het-Rate, rohe Lesetiefe, Lesetiefe in ungefähr einzigartigen Regionen, die
durchschnittliche Anzahl von Lesezugriffen im Fenster und Prozent GC.

OPTIONEN:

-w INT Größe eines Fensters [1000]

-c STR Zielreferenzsequenz; ansonsten werden alle Referenzen verwendet
[Null]

-b INT Startposition, 0 für keine Einschränkung [0]

-e INT Endposition, 0 für keine Einschränkung [0]

-q INT Mindestkonsensqualität der zu verwendenden Sites [0]

Simulation Verbunden

Fälschung aber Q. Fälschung [-r mutieren] [-R indelfrac] in.ref.fasta > out.fakeref.fasta 2>
out.fake.snp

Fügen Sie nach dem Zufallsprinzip Substitutionen und Indels in die Referenz ein. Auswechslungen und
Einzelne Basenpaar-Indels können hinzugefügt werden.

OPTIONEN:

-r FLOAT Mutationsrate [0.001]

-R FLOAT Anteil der Mutationen, die Indels sein sollen [0.1]

simutrain aber Q. simutrain out.simupars.dat in.read.fastq

Schätzen/trainieren Sie Parameter für die Lesesimulation.

simulieren aber Q. simulieren [-d in Größe] [-s Standard] [-N nLesen] [-1 readLen1] [-2 readLen2] [-r
mutRate] [-R indelFrac] [-h] out.read1.fastq out.read2.fastq in.ref.fasta
in.simupars.dat

Simulieren Sie gepaarte Lesevorgänge am Ende. Datei in.simupars.dat bestimmt die Leselängen und
Qualitätsverteilung. Es wird generiert aus simutrain, oder kann heruntergeladen werden von
Maq-Website. In den Ausgabelesedateien besteht ein Lesename aus der Referenz
Sequenzname und die äußeren Koordinaten des Paares simulierter Lesevorgänge. Von
Standard simulieren nimmt an, dass Reads von einer diploiden Sequenz stammen, die generiert wird
indem man zwei verschiedene Sätze von Mutationen hinzufügt, darunter ein Basenpaar-Indel, zu
in.ref.fasta.

OPTIONEN:

-d INT Mittelwert des äußeren Abstands der Plattengrößen [170]

-s INT Standardabweichung der Plattengrößen [20]

-N INT Anzahl zu generierender Lesepaare [1000000]

-1 INT Länge des ersten Lesevorgangs [eingestellt durch in.simupars.dat]

-2 INT Länge des zweiten Lesevorgangs [eingestellt durch in.simupars.dat]

-r FLOAT Mutationsrate [0.001]

-R FLOAT Bruchteil von 1bp-Indels [0.1]

-h füge alle Mutationen zu . hinzu in.ref.fasta und generieren Sie Reads aus der Single
mutierte Sequenz (haploid mode)

Anmerkungen:

* Von diesem Befehl generierte Lesevorgänge sind unabhängig, was von den
Wahrheit. Während die Ausrichtungsbewertung davon weniger betroffen ist, ist die Bewertung auf
SNP-Aufrufe sollten mit Vorsicht durchgeführt werden. Fehlerabhängigkeit kann einer von sein
die Hauptursachen für falsche SNP-Aufrufe.

simusta aber Q. simusta in.simu-aln.map > out.simusstat

Bewerten Sie die Mapping-Qualitäten aus simulierten Lesevorgängen.

Fest Verbunden

fasta2csfa aber Q. fasta2csfa in.nucl-ref.fasta > out.color-ref.fasta

Konvertieren Sie Nukleotid-FASTA in farbkodiertes FASTA. Flagge -c sollte dann angewendet werden
zu Karte Befehl. In der Ausgabe steht Buchstabe 'A' für Farbe 0, 'C' für 1, 'G'
für 2 und `T' für 3. Jede Sequenz in der Ausgabe ist 1bp kürzer als die Eingabe.

csmap2nt aber Q. csmap2nt out.nt.map in.ref.nt.bfa in.cs.map

Konvertieren Sie die Farbausrichtung in die Nukleotidausrichtung. Die Eingabe in.ref.nt.bfa lernen muss die
Nukleotidbinäre FASTA-Referenzdatei. Sie muss der Originaldatei entsprechen
aus dem die Farbreferenz konvertiert wird. Nukleotidkonsens kann aufgerufen werden
aus der resultierenden Ausrichtung.

Sonstiges/Fortgeschritten Befehle

Unterkarte aber Q. Unterkarte [-q minMapQ] [-Q maxSumErr] [-m maxMM] [-p] aus.map in.map

Filtern Sie schlechte Ausrichtungen in in.map. Befehlszeilenoptionen werden in der beschrieben
`montieren' Befehl.

eland2maq aber Q. eland2maq [-q entqualifizieren] aus.map in.liste in.eland

Konvertieren Sie die Eland-Ausrichtung in das .map-Format von maq. Datei in.liste besteht aus dem
Sequenznamen, die in der siebten Spalte der Eland-Alignment-Datei erscheinen
in.eland und der Name, den Sie in der maq-Ausrichtung erwarten. Das Folgende ist ein
Beispiel:

cX.fa chrX
c1.fa chr1
c2.fa chr2

Wenn Sie Reads in mehreren Batches mit Eland ausrichten, ist es wichtig,
benutze das gleiche in.liste für die Konvertierung. Darüber hinaus lädt maq alle
Ausrichtungen und sortieren Sie sie im Speicher. Wenn Sie mehrere Eland verkettet haben
Ausgaben in eine große Datei, sollten Sie sie in kleinere Dateien aufteilen, um
Verhindern Sie, dass maq Ihren gesamten Maschinenspeicher verbraucht.

Dieser Befehl zielt eigentlich darauf ab, die Eland-Ausrichtung in Maqview anzuzeigen. Da keine Qualität
Informationen verfügbar sind, sollte die resultierende maq-Alignment-Datei nicht verwendet werden
Konsensus-Genotypen zu nennen.

export2maq aber Q. export2maq [-1 read1len] [-2 read2len] [-a maxdist] [-n] aus.map in.liste
ein.export

Konvertieren Sie das Exportformat von Illumina in das von Maq .Karte Format. Exportformat ist neu
Alignment-Format seit SolexaPipeline-0.3.0, das auch das Mapping berechnet
Qualitäten wie maq. Die resultierende Datei kann verwendet werden, um Konsensus-Genotypen aufzurufen
da die meisten notwendigen Informationen für maq verfügbar sind, um dies genau zu tun.

OPTIONEN:

-1 INT Länge des ersten Lesevorgangs [0]

-2 INT Länge des zweiten Lesevorgangs [0]

-a INT Maximaler äußerer Abstand für ein korrektes Lesepaar [250]

-n Gefilterte Lesevorgänge beibehalten

MAQ-PERL BEFEHLE


Demo maq.pl Demo [-h] [-s] [-N nPaare] [-d outDir] in.fasta in.simudat

Zeigen Sie die Verwendung von aber Q. und die dazugehörigen Skripte. Dieser Befehl wird
Simulieren von Lesevorgängen aus einer FASTA-Datei in.fasta. Die Sequenzlänge und Qualitäten
werden bestimmt durch in.simudat die erzeugt wird aus aber Q. simutrain oder kann sein
von der Maq-Website heruntergeladen. Die simulierten Lesevorgänge werden dann mit
maq.pl Leichtlauf. Die Ausrichtungsgenauigkeit wird bewertet durch aber Q. simusta, der
Konsensgenauigkeit durch aber Q. simucns, und die SNP-Genauigkeit um maq_eval.pl.

Standardmäßig werden gepaarte Endlesevorgänge simuliert und eine diploide Sequenz angezeigt
aus der Eingabe generiert, indem Mutationen zu jedem haploiden Typ hinzugefügt werden. Der Einsatz
Größe und Mutationsrate werden gesteuert durch aber Q. simulieren.

OPTIONEN:

-h simulieren eine haploide Sequenz anstelle einer diploiden Sequenz

-s Verwenden Sie den Single-End-Modus zum Ausrichten von Lesevorgängen anstelle des Paired-End-Modus

-N INT Anzahl der zu simulierenden Lesepaare [1000000]

-d DIR Ausgabeverzeichnis [maqdemo]

Anmerkungen:

* Die Ausgabedateien von maq_eval.pl wurden nicht dokumentiert, aber Sie können machen
eine gute Vermutung bei einigen dieser Dateien.

* Dieser Befehl demonstriert nur die Verwendung der maq-Suite. Die Genauigkeit auf real
Daten sind fast immer niedriger als das, was Sie bei einer reinen Simulation sehen.

Leichtlauf maq.pl Leichtlauf [-1 read1Len] [-d aus.dir] [-n nLesen] [-A 3Adapter] [-e minDep]
[-q minCnsQ] [-p] [-2 read2Len] [-a maxIns] [-S] [-N] in.ref.fasta in1.fastq
[in2.fastq]

Analysiert Pipeline für kleine Genome. Der Easyrun-Befehl führt die meisten Analysen aus
Implementiert in aber Q.. Standardmäßig, Leichtlauf nimmt alle Eingabelesesequenzen an
Dateien sind einseitig und unabhängig; Wenn -p angegeben ist, zwei Lesesequenzen
Es werden Dateien benötigt, eine für jedes Ende.

Mehrere Dateien werden generiert in aus.dir, darunter die folgenden Dateien
die Schlüsselausgabe:

cns.final.snp letzte SNP-Anrufe mit minderer Qualität herausgefiltert

cns.fq Konsensussequenzen und Qualitäten im FASTQ-Format

OPTIONEN:

-d DIR Ausgabeverzeichnis [easyrun]

-n INT Anzahl von Lesevorgängen/Paaren in einem Ausrichtungsstapel [2000000]

-S Split-Read-Analyse von kurzen Indels anwenden (vielleicht sehr langsam)

-N INT Anzahl Haplotypen/Stämme im Pool (>=2) [2]

-A FILE Datei für 3'-Adapter. Die Datei sollte eine einzelne Sequenz enthalten
[Null]

-1 INT Länge des ersten Lesevorgangs, 0 für auto[0]

-e INT Mindestlesetiefe zum Aufruf eines SNP (für SNPfilter) [3]

-q INT minimale Konsensqualität für SNPs in cns.final.snp [30]

-p Wechseln Sie in den gepaarten Endausrichtungsmodus

-2 INT Länge des zweiten Lesevorgangs, wenn -p wird angewendet [0]

-a INT maximale Einsatzgröße, wenn -p wird angewendet [250]

HINWEISE:

* Für SNP-Aufrufe für gepoolte Stichproben sollten Benutzer das richtige `-N' ebenso gut wie
`-E 0 '.

* Die Eingabedatei kann das Binärformat von maq sein. maq.pl wird automatisch erkennen
das Dateiformat.

SNP-Filter maq.pl SNP-Filter [-d minDep] [-D maxAbw] [-Q maxMapQ] [-q minCnsQ] [-w
indelWinSize] [-n minNeiQ] [-F in.indelpe] [-f in.indelsoa] [-s Mindestpunktzahl] [-m
maxQuer] [-a] [-N maxWinSNP] [-W densWinSize] in.cns2snp.snp >
aus.gefiltert.snp

Schließen Sie SNPs aus, die von wenigen Lesevorgängen abgedeckt werden (angegeben durch -d), von zu vielen
liest (angegeben von -D), in der Nähe (angegeben von -w) zu einem potentiellen Indel, fallend
in einem möglichen repetitiven Bereich (gekennzeichnet durch -Q) oder von geringer Qualität
benachbarte Basen (angegeben durch -n). Wenn maxWinSNP oder mehr SNPs erscheinen in jedem
densWinSize Fenster werden sie auch gemeinsam herausgefiltert.

OPTIONEN:

-d INT Erforderliche Mindestlesetiefe zum Aufrufen eines SNP [3]

-D INT Maximale Lesetiefe, die zum Aufrufen eines SNPs erforderlich ist (<255, sonst ignoriert)
[256]

-Q INT Erforderliche maximale Mapping-Qualität von Reads, die den SNP abdecken [40]

-q INT Mindestkonsensqualität [20]

-n INT Minimale benachbarte Konsensusqualität [20]

-w INT Größe des Fensters um die potenziellen Indels. SNPs, die in der Nähe sind
zu indels werden unterdrückt [3]

-F FILE Das unabhängig Ausgabe [null]

-f FILE Das indelsoa Ausgabe [null]

-s INT Mindestpunktzahl für einen zu berücksichtigenden Soa-Indel [3]

-m INT Maximale Anzahl von Lesevorgängen, die über ein Soa-Indel abgebildet werden können [1]

-a Alternativer Filter für einseitige Ausrichtung

unabhängig maq.pl unabhängig in.indelpe > aus.indelpe

Korrigieren Sie die Anzahl der Reads, die ohne Indels für Homopolymer-Trakts zugeordnet wurden. Dies
Befehl ändern Sie die 4., 10. und die letzten drei Spalten von in.indelpe und
das Ergebnis ausgeben in aus.indelpe. Nach der Korrektur folgendes awk
Befehl gibt mutmaßliche homozygote Indels:

awk '($3=="*"⎪⎪$3=="+") && $6+$7>=3 && ($6+$7)/$4>=0.75'

und Folgendes ergibt Heterozygoten:

awk '($3=="*"⎪⎪$3=="+") && $6+$7>=3 && ($6+$7)/$4<0.75'

Bitte beachten Sie, dass diese unabhängig Der Befehl implementiert lediglich mehrere heuristische Regeln.
Es korrigiert nicht unreine Homopolymerläufe oder Dinukleotid/Triplett
wiederholt. Folglich geben die beiden awk-Befehle nur ungefähre hom/het
indel.

Beispiele:


· Easyrun-Skript:
maq.pl easyrun -d easyrun ref.fasta part1.fastq part2.fastq

· Tastenkommandos hinter easyrun:
maq fasta2bfa ref.fasta ref.bfa;
maq fastq2bfq part1.fastq part1.bfq;
maq fastq2bfq part2.fastq part2.bfq;
maq-Karte part1.map ref.bfa part1.bfq;
maq-Karte part2.map ref.bfa part2.bfq;
maq mapmerge aln.map part1.map part2.map;
maq Assemble cns.cns ref.bfa aln.map;

Verwenden Sie maq online mit den onworks.net-Diensten


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad