EnglischFranzösischSpanisch

Ad


OnWorks-Favicon

bcftools – Online in der Cloud

Führen Sie bcftools im kostenlosen Hosting-Anbieter OnWorks über Ubuntu Online, Fedora Online, den Windows-Online-Emulator oder den MAC OS-Online-Emulator aus

Dies ist der Befehl bcftools, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


samtools - Dienstprogramme für das Sequence Alignment/Map (SAM)-Format

bcftools - Dienstprogramme für das Binary Call Format (BCF) und VCF

ZUSAMMENFASSUNG


samtools-Ansicht -bt ref_list.txt -o aln.bam aln.sam.gz

samtools sort aln.bam aln.sortiert

Samtools-Index aln.sorted.bam

samtools idxstats aln.sortiert.bam

samtools-Ansicht aln.sorted.bam chr2:20,100,000-20,200,000

samtools verschmelzen out.bam in1.bam in2.bam in3.bam

samtools faidx ref.fasta

Samtools Pileup -vcf ref.fasta aln.sorted.bam

samtools mpileup -C50 -gf ref.fasta -r chr3:1,000-2,000 in1.bam in2.bam

samtools tview aln.sorted.bam ref.fasta

bcftools-Index in.bcf

bcftools Ansicht in.bcf chr2:100-200 > out.vcf

bcftools-Ansicht -Nvm0.99 in.bcf > out.vcf 2> out.afs

BESCHREIBUNG


Samtools ist eine Reihe von Dienstprogrammen, die Ausrichtungen im BAM-Format bearbeiten. Es importiert
von und exportiert in das SAM-Format (Sequence Alignment/Map), führt Sortieren, Zusammenführen und
Indizierung und ermöglicht das schnelle Abrufen von Lesevorgängen in beliebigen Regionen.

Samtools wurde für die Arbeit mit einem Stream entwickelt. Es betrachtet eine Eingabedatei `-' als Standard
input (stdin) und eine Ausgabedatei `-' als Standardausgabe (stdout). Mehrere Befehle können
damit mit Unix-Pipes kombiniert werden. Samtools gibt immer Warn- und Fehlermeldungen an die
Standardfehlerausgabe (stderr).

Samtools kann auch eine BAM-Datei (nicht SAM) auf einem entfernten FTP- oder HTTP-Server öffnen, wenn die
Der Name der BAM-Datei beginnt mit `ftp://' oder `http://'. Samtools überprüft die aktuelle Funktion
Verzeichnis für die Indexdatei und lädt den Index bei Abwesenheit herunter. Samtools nicht
die gesamte Alignment-Datei abrufen, es sei denn, es wird dazu aufgefordert.

SAMWERKZEUGE BEFEHLE UND OPTIONAL


view samtools-Ansicht [-bchuHS] [-t in.refList] [-o Ausgabe] [-f reqFlag] [-F skipFlag]
[-q minMapQ] [-l Bibliothek] [-r readGroup] [-R rgFile] | [region1
[...]]

Alle oder Teilausrichtungen im SAM- oder BAM-Format extrahieren/drucken. Wenn keine Region ist
angegeben, werden alle Ausrichtungen gedruckt; sonst nur Ausrichtungen
Überlappung der angegebenen Regionen wird ausgegeben. Eine Ausrichtung kann gegeben werden
mehrfach, wenn es mehrere Regionen überlappt. Eine Region kann dargestellt werden,
zum Beispiel im folgenden Format: `chr2' (die ganze chr2), `chr2:1000000'
(Region ab 1,000,000bp) oder `chr2:1,000,000-2,000,000' (Region zwischen
1,000,000 und 2,000,000 bp einschließlich der Endpunkte). Die Koordinate ist 1-basiert.

OPTIONEN:

-b Ausgabe im BAM-Format.

-f INT Nur Ausrichtungen ausgeben, bei denen alle Bits in INT im FLAG-Feld vorhanden sind.
INT kann in Hex im Format /^0x[0-9A-F]+/[0] sein

-F INT Überspringe Ausrichtungen mit Bits, die in INT [0] vorhanden sind

-h Fügen Sie die Kopfzeile in die Ausgabe ein.

-H Nur die Kopfzeile ausgeben.

-l STR Nur Ausgabe liest in Bibliothek STR [null]

-o FILE Ausgabedatei [stdout]

-q INT Überspringe Ausrichtungen mit MAPQ kleiner als INT [0]

-r STR Nur Ausgang liest in Lesegruppe STR [null]

-R FILE Ausgabe liest in Lesegruppen, die in aufgelistet sind FILE [Null]

-s FLOAT Anteil von Vorlagen/Paaren zu Unterstichproben; der ganzzahlige Teil wird behandelt
als Seed für den Zufallszahlengenerator [-1]

-S Die Eingabe erfolgt in SAM. Wenn @SQ-Headerzeilen fehlen, wird die `-t' Option ist
erforderlich.

-c Anstatt die Ausrichtungen zu drucken, zählen Sie sie nur und drucken Sie die
Gesamtzahl. Alle Filteroptionen, wie z.B. `-f', `-F' und `-q' , sind
berücksichtigt.

-t FILE Diese Datei ist durch Tabulatorzeichen getrennt. Jede Zeile muss den Referenznamen enthalten
und die Länge der Referenz, eine Zeile für jede eindeutige Referenz;
zusätzliche Felder werden ignoriert. Diese Datei definiert auch die Reihenfolge der
Referenzsequenzen beim Sortieren. Wenn Sie `samtools faidx . ausführen ',
die resultierende Indexdatei .fai kann so verwendet werden
Datei.

-u Unkomprimiertes BAM ausgeben. Diese Option spart Zeit für
Komprimierung/Dekomprimierung und wird daher bevorzugt, wenn die Ausgabe
an einen anderen samtools-Befehl weitergeleitet.

fernsehen samtools tvview [-p chr:pos] [-s STR] [-d Display] [ref.fasta]

Textausrichtungs-Viewer (basierend auf der ncurses-Bibliothek). Drücken Sie im Viewer `?'
um Hilfe zu erhalten und drücken Sie `g', um den Ausrichtungsstart von einer Region im Format zu überprüfen
wie `chr10:10,000,000' oder `=10,000,000' beim Anzeigen derselben Referenz
Sequenz.

Zubehör:

-d Display Ausgabe als (H)tml oder (C)urses oder (T)ext

-p chr:pos Gehen Sie direkt zu dieser Stelle

-s STR Nur Lesevorgänge aus dieser Probe oder Lesegruppe anzeigen

Aufstockung samtools mpileup [-EBugp] [-C capQcoef] [-r reg] [-f in.fa] [-l Liste] [-M
capMapQ] [-Q minBaseQ] [-q minMapQ] in.bam [in2.bam [...]]

Generieren Sie BCF oder Pileup für eine oder mehrere BAM-Dateien. Ausrichtungsaufzeichnungen sind
gruppiert nach Probenkennungen in @RG-Kopfzeilen. Wenn Probenkennungen
abwesend, wird jede Eingabedatei als eine Probe betrachtet.

Im Pileup-Format (ohne -uor-g), jede Zeile repräsentiert eine genomische Position,
bestehend aus Chromosomenname, Koordinate, Referenzbase, Read Bases, Read
Qualitäten und Alignment-Mapping-Qualitäten. Informationen zu Übereinstimmung, Nichtübereinstimmung,
indel, strand, Mapping-Qualität sowie Start und Ende eines Lesevorgangs sind alle mit codiert
die gelesene Basisspalte. In dieser Spalte steht ein Punkt für eine Übereinstimmung mit der Referenz
Base auf dem Vorwärtsstrang, ein Komma für eine Übereinstimmung im Rückwärtsstrang, ein '>' oder
'<' für einen Referenzsprung, 'ACGTN' für eine Fehlanpassung auf dem Vorwärtsstrang und
`acgtn' für eine Fehlpaarung auf dem Reverse-Strang. Ein Muster `\+[0-9]+[ACGTNacgtn]+'
zeigt an, dass zwischen dieser Referenzposition und der nächsten eine Einfügung erfolgt
Referenzposition. Die Länge der Einfügung wird durch die ganze Zahl im
Muster, gefolgt von der eingefügten Sequenz. Ebenso ein Muster
`-[0-9]+[ACGTNacgtn]+' steht für eine Streichung aus der Referenz. Das gelöschte
Basen werden in den folgenden Zeilen als `*' dargestellt. Auch an der Lesebasis
Spalte markiert ein Symbol `^' den Beginn eines Lesevorgangs. Das ASCII des Zeichens
nach `^' minus 33 gibt die Abbildungsqualität an. Ein Symbol `$' markiert das Ende von
ein Lesesegment.

zufuhr Zubehör:

-6 Angenommen, die Qualität liegt in der Codierung Illumina 1.3+. -A Nicht überspringen
anomale Lesepaare beim Variantenaufruf.

-B Deaktiviere die probabilistische Neuausrichtung für die Berechnung der Basis
Ausrichtungsqualität (BAQ). BAQ ist die Phred-skalierte Wahrscheinlichkeit eines Reads
Basis falsch ausgerichtet. Die Anwendung dieser Option trägt erheblich zur Reduzierung von
falsche SNPs durch Fehlausrichtungen.

-b FILE Liste der BAM-Eingabedateien, eine Datei pro Zeile [null]

-C INT Koeffizient zum Herabstufen der Mapping-Qualität für Reads mit
übermäßige Unstimmigkeiten. Gegeben ein Read mit einer phred-skalierten Wahrscheinlichkeit q
aus der kartierten Position generiert werden, die neue Abbildungsqualität
ist ungefähr sqrt((INT-q)/INT)*INT. Ein Nullwert deaktiviert dies
Funktionalität; wenn aktiviert, ist der empfohlene Wert für BWA 50. [0]

-d INT An einer Position maximal lesen INT liest pro Eingabe-BAM. [250]

-E Erweiterte BAQ-Berechnung. Diese Option unterstützt die Sensibilität insbesondere für
MNPs, können jedoch die Spezifität ein wenig beeinträchtigen.

-f FILE Das faidx-indexierte Referenzdatei im FASTA-Format. Die Datei kann sein
optional komprimiert um rasieren. [Null]

-l FILE BED- oder Positionslistendatei mit einer Liste von Regionen oder Standorten, an denen
Pileup oder BCF sollte generiert werden [null]

-q INT Mindestabbildungsqualität für eine zu verwendende Ausrichtung [0]

-Q INT Mindestbasisqualität für eine zu berücksichtigende Basis [13]

-r STR Nur in der Region Pile-Up erzeugen STR [Alle Standorte]

Output Zubehör:

-D Ausgabe pro Sample Lesetiefe

-g Genotyp-Wahrscheinlichkeiten berechnen und im binären Aufrufformat ausgeben
(BCF).

-S Ausgabe pro Probe Phred-skalierter Strang-Bias-P-Wert

-u Ähnlich -g außer dass die Ausgabe unkomprimiertes BCF ist, was
bevorzugt für Rohrleitungen.

Optionen für Genotyp Wahrscheinlichkeit Berechnung (Für -g or -u):

-e INT Phred-skalierte Gap-Extension-Sequenzierungsfehlerwahrscheinlichkeit. Reduzieren INT
führt zu längeren Indels. [20]

-h INT Koeffizient zur Modellierung von Homopolymerfehlern. Gegeben ein l-langes
Homopolymerlauf, der Sequenzierungsfehler eines Indels der Größe s ist modelliert
as INT*s/l. [100]

-I Führen Sie keine INDEL-Aufrufe durch

-L INT Überspringen Sie den INDEL-Aufruf, wenn die durchschnittliche Tiefe pro Probe höher ist INT.
[250]

-o INT Phred-skalierte Gap-Open-Sequenzierungsfehlerwahrscheinlichkeit. Reduzieren INT führt
zu mehr Indel-Anrufen. [40]

-p Wenden Sie die Schwellenwerte -m und -F pro Probe an, um die Empfindlichkeit von zu erhöhen
Berufung. Standardmäßig werden beide Optionen auf Lesevorgänge angewendet, die aus allen zusammengefasst sind
Proben.

-P STR Kommagetrennte Liste von Plattformen (bestimmt durch @RG-PL) aus denen
indel-Kandidaten gewonnen werden. Es wird empfohlen, Indel zu sammeln
Kandidaten aus Sequenzierungstechnologien mit niedriger Indel Error Rate
wie ILLUMINA. [alle]

umköpfer samtools reheader

Ersetzen Sie die Kopfzeile in in.bam mit der Überschrift in in.header.sam. Dieser Befehl ist
viel schneller als das Ersetzen des Headers durch eine BAM->SAM->BAM-Konvertierung.

Katze samtools cat [-h header.sam] [-o out.bam] [ ... ]

Verketten Sie BAMs. Das Sequenzverzeichnis jeder Eingabe-BAM muss identisch sein,
obwohl dieser Befehl dies nicht überprüft. Dieser Befehl verwendet einen ähnlichen Trick wie
umköpfer was eine schnelle BAM-Verkettung ermöglicht.

sortieren samtools sortieren [-nof] [-m maxMem]

Ausrichtungen nach den Koordinaten ganz links sortieren. Datei .bam wird erstellt.
Dieser Befehl kann auch temporäre Dateien erstellen .%d.bam wenn das ganze
Ausrichtung kann nicht in den Speicher eingefügt werden (gesteuert durch Option -m).

OPTIONEN:

-o Geben Sie die endgültige Ausrichtung auf die Standardausgabe aus.

-n Sortieren nach gelesenen Namen statt nach Chromosomenkoordinaten

-f Verwenden Sie die als vollständiger Ausgabepfad und nicht anhängen .bam Suffix.

-m INT Ungefähr der maximal erforderliche Speicher. [500000000]

fusionieren samtools zusammenführen [-nur1f] [-h inh.sam] [-R reg]
[...]

Mehrere sortierte Ausrichtungen zusammenführen. Die Header-Referenzlisten aller Eingaben
BAM-Dateien und die @SQ-Header von inh.sam, falls vorhanden, müssen sich alle auf dasselbe beziehen
Reihe von Referenzsequenzen. Die Header-Referenzliste und (sofern nicht durch . überschrieben
-h) `@'-Header von in1.bam wird kopiert nach aus.bam, und die Überschriften von anderen
Dateien werden ignoriert.

OPTIONEN:

-1 Verwenden Sie zlib-Komprimierungsstufe 1, um die Ausgabe zu komprimieren

-f Erzwingt das Überschreiben der Ausgabedatei, falls vorhanden.

-h FILE Verwenden Sie die Zeilen von FILE als `@'-Header, in die kopiert werden soll aus.bam, Ersetzen
alle Kopfzeilen, die sonst kopiert würden in1.bam. (FILE is
tatsächlich im SAM-Format, obwohl alle darin enthaltenen Ausrichtungsdatensätze
ignoriert.)

-n Die Eingabe-Alignments werden nach gelesenen Namen und nicht nach Chromosomen sortiert
Koordinaten

-R STR Zusammenführen von Dateien in der angegebenen Region, gekennzeichnet durch STR [Null]

-r Bringen Sie an jeder Ausrichtung ein RG-Tag an. Der Tag-Wert wird aus der Datei abgeleitet
Namen.

-u Unkomprimierte BAM-Ausgabe

Index samtools-index

Indexsortierte Ausrichtung für schnellen Direktzugriff. Indexdatei .bai wird sein
erstellt.

idxstats samtools idxstats

Abrufen und Drucken von Statistiken in der Indexdatei. Die Ausgabe ist durch Tabulatorzeichen getrennt mit
jede Zeile bestehend aus Referenzsequenzname, Sequenzlänge, # zugeordnete Lesevorgänge
und # nicht zugeordnete Lesevorgänge.

faidx samtools faidx [region1 [...]]

Referenzsequenz im FASTA-Format indizieren oder Teilsequenz aus indiziertem . extrahieren
Referenzreihenfolge. Wenn keine Region angegeben ist, faidx wird die Datei indizieren und
erstellen .fai auf der Festplatte. Wenn Regionen angegeben sind, werden die Teilsequenzen
wird abgerufen und auf stdout im FASTA-Format gedruckt. Die Eingabedatei kann
in der komprimiert werden RAZF Format.

Fixmate samtools fixmate

Füllen Sie Verknüpfungskoordinaten, ISIZE und Verknüpfungsbezogene Flags aus einem nach Namen sortierten . aus
Ausrichtung.

rmdup samtools-rmdup [-sS]

Entfernen Sie potenzielle PCR-Duplikate: wenn mehrere Lesepaare identische externe haben
Koordinaten, behalten Sie nur das Paar mit der höchsten Abbildungsqualität bei. Im Paar-
Endmodus, dieser Befehl NUR funktioniert mit FR-Orientierung und erfordert ISIZE is
richtig eingestellt. Es funktioniert nicht für ungepaarte Lesevorgänge (z. B. zwei Enden zugeordnet zu
verschiedene Chromosomen oder Orphan Reads).

OPTIONEN:

-s Entfernen Sie Duplikate für Single-End-Lesevorgänge. Standardmäßig funktioniert der Befehl für
Paired-End-Lesezugriff.

-S Behandeln Sie Paired-End-Reads und Single-End-Reads.

beruhigt samtools beruhigt [-EeubSr] [-C capQcoef]

Generieren Sie das MD-Tag. Wenn das MD-Tag bereits vorhanden ist, gibt dieser Befehl ein
Warnung, wenn sich das generierte MD-Tag vom vorhandenen Tag unterscheidet. Ausgabe SAM
standardmäßig.

OPTIONEN:

-A Bei gemeinsamer Verwendung mit -r diese Option überschreibt die ursprüngliche Basis
Qualität.

-e Konvertieren Sie die Lesebasis in =, wenn sie mit der ausgerichteten Referenz identisch ist
Base. Der Indel-Caller unterstützt derzeit die =-Basen nicht.

-u Unkomprimierte BAM ausgeben

-b Komprimierte BAM ausgeben

-S Die Eingabe ist SAM mit Kopfzeilen

-C INT Koeffizient zur Begrenzung der Mapping-Qualität von schlecht zugeordneten Lesevorgängen. Siehe die
aufstapeln Befehl für Details. [0]

-r Berechnen Sie das BQ-Tag (ohne -A) oder begrenzen Sie die Basisqualität nach BAQ (mit -A).

-E Erweiterte BAQ-Berechnung. Diese Option tauscht Spezifität für
Empfindlichkeit, obwohl der Effekt gering ist.

Zielschnitt samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f
ref]

Dieser Befehl identifiziert Zielregionen, indem er die Kontinuität von read . untersucht
Tiefe, berechnet haploide Konsensussequenzen von Zielen und gibt eine SAM mit
jede Sequenz entspricht einem Ziel. Wenn Option -f in Gebrauch ist, wird BAQ sein
angewandt. Dieser Befehl ist einzige Entwickelt zum Schneiden von Fosmidklonen aus Fosmid
Pool-Sequenzierung [Ref. Kitzmannet al. (2010)].

Phase Samtools-Phase [-AF] [-k len] [-b Präfix] [-q minLOD] [-Q minBaseQ]

Aufruf und Phase heterozygoter SNPs. OPTIONEN:

-A Lesevorgänge mit mehrdeutiger Phase verwerfen.

-b STR Präfix der BAM-Ausgabe. Wenn diese Option verwendet wird, werden Phase-0-Lesevorgänge
in Datei gespeichert STR.0.bam und Phase-1 liest ein STR.1.bam. Phase unbekannt
Lesevorgänge werden zufällig einer der beiden Dateien zugewiesen. Chimäre liest
bei Schaltfehlern werden gespeichert in STR.chimäre.bam. [Null]

-F Versuchen Sie nicht, chimäre Lesevorgänge zu korrigieren.

-k INT Maximale Länge für lokale Phase. [13]

-q INT Minimale Phred-skalierte LOD, um eine Heterozygote zu nennen. [40]

-Q INT Minimale Basisqualität, die beim Het-Calling verwendet werden soll. [13]

BCF-TOOLS BEFEHLE UND OPTIONAL


view bcftools view [-AbFGNQSucgv] [-D seqDikt] [-l listLoci] [-s ListeBeispiel] [-i
LückeSNPratio] [-t mutRate] [-p varThres] [-m varThres] [-P vor] [-1 nGruppe1]
[-d minFrac] [-U nDauer] [-X zul.Thres] [-T trioTyp] in.bcf [Region]

Konvertieren Sie zwischen BCF und VCF, rufen Sie Variantenkandidaten auf und schätzen Sie das Allel
Frequenzen.

Input / Output Zubehör:

-A Behalten Sie alle möglichen alternativen Allele an den Variantenstandorten bei. Standardmäßig,
der Befehl view verwirft unwahrscheinliche Allele.

-b Ausgabe im BCF-Format. Der Standardwert ist VCF.

-D FILE Sequenzwörterbuch (Liste der Chromosomennamen) für die VCF->BCF-Konvertierung
[Null]

-F Geben Sie an, dass PL von r921 oder früher generiert wurde (die Reihenfolge ist unterschiedlich).

-G Alle individuellen Genotypinformationen unterdrücken.

-l FILE Liste der Sites, an denen Informationen ausgegeben werden [alle Sites]

-N Seiten überspringen, bei denen das REF-Feld nicht A/C/G/T ist

-Q Ausgabe des QCALL-Likelihood-Formats

-s FILE Liste der zu verwendenden Beispiele. Die erste Spalte in der Eingabe enthält die Probe
Namen und die zweite gibt die Ploidie an, die nur 1 oder 2 sein kann
fehlt die 2. Spalte, wird die Stichprobenploidie mit 2 angenommen
ausgegeben wird, ist die Reihenfolge der Proben identisch mit der in FILE.
[Null]

-S Die Eingabe ist VCF statt BCF.

-u Unkomprimierte BCF-Ausgabe (force -b).

Konsens/Variante maximal einfach anrufen Zubehör:

-c Rufen Sie Varianten mit Bayes'scher Inferenz auf. Diese Option automatisch
ruft Option auf -e.

-d FLOAT Wann -v verwendet wird, überspringen Sie die Orte, an denen der Anteil der Samples von
liest ist unter FLOAT. [0]

-e Führen Sie nur die Max-Likelihood-Inferenz durch, einschließlich der Schätzung der Site
Allelfrequenz, Testen des Hardy-Weinberg-Gleichgewichts und Testen
Assoziationen mit LRT.

-g Aufruf von Genotypen pro Probe an Variantenstandorten (force -c)

-i FLOAT Verhältnis von INDEL-zu-SNP-Mutationsrate [0.15]

-m FLOAT Neues Modell für verbessertes multiallelisches und seltenes Rufen. Andere
Das ALT-Allel wird akzeptiert, wenn P(chi^2) von LRT den FLOAT-Schwellenwert überschreitet.
Der Parameter erscheint robust und der tatsächliche Wert normalerweise nicht
die Ergebnisse stark beeinflussen; ein guter Wert ist 0.99. Dies ist das
empfohlene Aufrufmethode. [0]

-p FLOAT Eine Site gilt als Variante, wenn P(ref|D)

-P STR Vorheriges oder anfängliches Allelfrequenzspektrum. Wenn STR sein kann voller, Bedingung2,
Wohnung oder die Datei, die aus der Fehlerausgabe einer vorherigen Variante besteht
Aufruf laufen.

-t FLOAT Skalierte Mutationsrate für Variantenaufrufe [0.001]

-T STR Aktivieren Sie Paar-/Trio-Anrufe. Für Trio-Anrufe, Option -s gewöhnlich
benötigt werden, um die Trio-Mitglieder und ihre Reihenfolge zu konfigurieren.
In der an die Option gelieferten Datei -s, die erste Probe muss die
Kind, das zweite der Vater und das dritte die Mutter. Das gültige
Werte von STR sind „pair“, „trioauto“, „trioxd“ und „trioxs“, wobei
`pair' ruft Unterschiede zwischen zwei Eingabe-Samples auf und `trioxd'
(`trioxs') gibt an, dass die Eingabe vom X-Chromosom nicht-PAR stammt
Regionen und das Kind ist weiblich (männlich). [Null]

-v Nur Varianten-Sites ausgeben (force -c)

Kontrast-Funktion maximal einfach anrufen und Gesellschaft Test Zubehör:

-1 INT Anzahl der Gruppe-1-Proben. Diese Option wird verwendet, um die
Proben in zwei Gruppen für Kontrast-SNP-Call oder Assoziationstest.
Bei Verwendung dieser Option werden folgende VCF INFO ausgegeben:
PC2, PCHI2 und QCHI2. [0]

-U INT Anzahl der Permutationen für Assoziationstest (nur wirksam bei -1)
[0]

-X FLOAT Permutationen nur für P(chi^2) durchführen -U)
[0.01]

Index bcftools Index in.bcf

Indexsortiertes BCF für wahlfreien Zugriff.

Katze bcftools Katze in1.bcf [in2.bcf [...]]]

Verketten Sie BCF-Dateien. Die Eingabedateien müssen sortiert sein und haben
identische Proben in der gleichen Reihenfolge erscheinen.

SAM FORMAT


Sequence Alignment/Map (SAM)-Format ist durch Tabulatorzeichen getrennt. Abgesehen von den Kopfzeilen, die
mit dem `@'-Symbol beginnen, besteht jede Ausrichtungslinie aus:

┌────┬───────┬──────────────────────────────────── ──────────────────────┐
BeiFeldBeschreibung
├────┼───────┼──────────────────────────────────── ──────────────────────┤
│ 1 │ QNAME │ Abfragevorlage/-paar NAME │
│ 2 │ FLAG │ bitweise FLAG │
│ 3 │ RNAME │ Referenzsequenz NAME │
│ 4 │ POS │ 1-basiert ganz links POSition/Koordinate der abgeschnittenen Sequenz │
│ 5 │ MAPQ │ MAPping-Qualität (Phred-skaliert) │
│ 6 │ CIAGR │ erweiterte CIGAR-Zeichenfolge │
│ 7 │ MRNM │ Mate-Referenzsequenz NaMe (`=' wenn gleich RNAME) │
│ 8 │ MPOS │ 1-basierte Mate POSistion │
│ 9 │ TLEN │ abgeleitete Template-Länge (Insert-Größe) │
│10 │ SEQ │ SEQuence auf dem gleichen Strang wie die Referenz abfragen │
│11 │ QUAL │ QUALität abfragen (ASCII-33 gibt die Phred-Basisqualität an) │
│12+ │ OPT │ variable OPTionale Felder im Format TAG:VTYPE:VALUE │
└────┴───────┴──────────────────────────────────── ──────────────────────┘

Jedes Bit im FLAG-Feld ist definiert als:

┌───────┬─────┬─────────────────────────────────── ───────────────┐
FlaggeChrBeschreibung
├───────┼─────┼─────────────────────────────────── ───────────────┤
│0x0001 │ p │ der Read wird in der Sequenzierung gepaart │
│0x0002 │ P │ das Lesen wird in ein richtiges Paar abgebildet │
│0x0004 │ u │ die Abfragesequenz selbst ist nicht zugeordnet │
│0x0008 │ U │ die Verknüpfung ist nicht zugeordnet │
│0x0010 │ r │ Strang der Abfrage (1 für umgekehrt) │
│0x0020 │ R │ Strang des Partners │
│0x0040 │ 1 │ der Lesevorgang ist der erste Lesevorgang in einem Paar │
│0x0080 │ 2 │ der Lesevorgang ist der zweite Lesevorgang in einem Paar │
│0x0100 │ s │ die Ausrichtung ist nicht primär │
│0x0200 │ f │ das Lesen scheitert Plattform-/Hersteller-Qualitätsprüfungen │
│0x0400 │ d │ der Read ist entweder ein PCR oder ein optisches Duplikat │
└───────┴─────┴─────────────────────────────────── ───────────────┘
wobei die zweite Spalte die Zeichenfolgendarstellung des FLAG-Felds angibt.

VCF FORMAT


Das Variant Call Format (VCF) ist ein durch Tabulatorzeichen getrenntes Format, bei dem jede Datenzeile besteht aus
die folgenden Felder:

┌────┬────────┬─────────────────────────────────── ───────────────────────────┐
BeiFeldBeschreibung
├────┼────────┼─────────────────────────────────── ───────────────────────────┤
│ 1 │ CHROM │ CHROMosomenname │
│ 2 │ POS │ ganz links POSition der Variante │
│ 3 │ ID │ eindeutiger Varianten-IDentifier │
│ 4 │ REF │ das REFerence-Allel │
│ 5 │ ALT │ das/die ALTernate-Allel(e), durch Komma getrennt │
│ 6 │ QUAL │ Variante/Referenz QUALität │
│ 7 │ FILTER │ FILTER angewendet │
│ 8 │ INFO │ INFORMATION bezogen auf die Variante, getrennt durch Semikolon │
│ 9 │ FORMAT │ FORMAT der Genotypfelder, durch Doppelpunkt getrennt (optional) │
│10+ │ SAMPLE │ SAMPLE Genotypen und Informationen pro Probe (optional) │
└────┴────────┴─────────────────────────────────── ───────────────────────────┘

Die folgende Tabelle gibt die INFOS Tags, die von samtools und bcftools verwendet werden.

┌──────┬───────────┬────────────────────────────── ────────────────────────────────────────────────── ────────────────────┐
EtikettFormatBeschreibung
├──────┼───────────┼────────────────────────────── ────────────────────────────────────────────────── ────────────────────┤
└──────┴───────────┴────────────────────────────── ────────────────────────────────────────────────── ────────────────────┘

Beispiele:


o SAM in BAM importieren, wenn @SQ Zeilen sind in der Kopfzeile vorhanden:

samtools-Ansicht -bS aln.sam > aln.bam

If @SQ Zeilen fehlen:

samtools faidx ref.fa
samtools-Ansicht -bt ref.fa.fai aln.sam > aln.bam

woher ref.fa.fai wird automatisch von der faidx Befehl.

o Befestigen Sie die RG Tag beim Zusammenführen sortierter Ausrichtungen:

perl -e 'drucken
"@RG\tID:ga\tSM:hs\tLB:ga\tPL:Illumina\n@RG\tID:454\tSM:hs\tLB:454\tPL:454\n"' > rg.txt
samtools merge -rh rg.txt merged.bam ga.bam 454.bam

Der Wert in a RG tag wird durch den Dateinamen bestimmt, von dem der Lesevorgang kommt. In diesem
Beispiel, in der fusioniert.bam, liest aus ga.bam wird angehängt RG:Z:ga, während liest aus
454.bam wird angehängt RG:Z:454.

o Call SNPs und kurze INDELs für eine diploide Person:

samtools mpileup -ugf ref.fa aln.bam | bcftools-Ansicht -bvcg -> var.raw.bcf
bcftools-Ansicht var.raw.bcf | vcfutils.pl varFilter -D 100 > var.flt.vcf

Das -D Option von varFilter steuert die maximale Lesetiefe, die angepasst werden sollte
etwa das Doppelte der durchschnittlichen Lesetiefe. Man kann erwägen, hinzuzufügen - C50 zu Aufstockung wenn Zuordnung
Die Qualität wird bei Lesevorgängen mit übermäßigen Fehlanpassungen überschätzt. Anwenden dieser Option
hilft normalerweise BWA-kurz aber möglicherweise nicht andere Mapper.

o Generieren Sie die Konsensussequenz für ein diploides Individuum:

samtools mpileup -uf ref.fa aln.bam | bcftools-Ansicht -cg - | vcfutils.pl vcf2fq >
cns.fq

o Rufen Sie somatische Mutationen aus einem Probenpaar auf:

samtools mpileup -DSuf ref.fa aln.bam | bcftools-Ansicht -bvcgT-Paar -> var.bcf

Im Ausgabe-INFO-Feld, CLR gibt das Phred-log-Verhältnis zwischen der Likelihood by
Behandlung der beiden Proben unabhängig voneinander, und die Wahrscheinlichkeit, dass der Genotyp
identisch sein. Dies CLR ist effektiv ein Score, der das Vertrauen von somatischen
Anrufe. Je höher desto besser.

o Call de novo und somatische Mutationen aus einem Familientrio:

samtools mpileup -DSuf ref.fa aln.bam | bcftools-Ansicht -bvcgT-Paar -s Samples.txt - >
var.bcf

Reichen Sie das proben.txt sollte aus drei Zeilen bestehen, die das Mitglied und die Reihenfolge von . angeben
Proben (in der Reihenfolge Kind-Vater-Mutter). Ähnlich, CLR gibt das Phred-log
Likelihood-Ratio mit und ohne Trio-Beschränkung. UGT zeigt am wahrscheinlichsten
Genotypkonfiguration ohne die Trio-Beschränkung und CGT gibt am wahrscheinlichsten
Genotypkonfiguration, die die Trio-Beschränkung erfüllt.

o Person der ersten Phase:

samtools beruhigt -AEur aln.bam ref.fa | samtools phase -b Präfix -> phase.out

Das beruhigt Der Befehl wird verwendet, um falsche Heterozygoten um INDELs herum zu reduzieren.

o Rufen Sie SNPs und kurze Indels für mehrere diploide Individuen auf:

samtools mpileup -P ILLUMINA -ugf ref.fa *.bam | bcftools-Ansicht -bcvg -> var.raw.bcf
bcftools-Ansicht var.raw.bcf | vcfutils.pl varFilter -D 2000 > var.flt.vcf

Personen werden anhand der SM Tags in der @RG Überschriftenzeilen. Einzelpersonen können sein
in einer Alignment-Datei zusammengefasst; eine Person kann auch in mehrere Dateien aufgeteilt werden.
Das -P Option gibt an, dass indel-Kandidaten nur aus Lesegruppen gesammelt werden sollen
an. Nach der Installation können Sie HEIC-Dateien mit der @RG-PL Tag gesetzt auf BELEUCHTUNG. Sammeln von Indel-Kandidaten aus sequenzierten Lesevorgängen
durch eine Indel-anfällige Technologie kann die Leistung von Indel-Calling beeinträchtigen.

Beachten Sie, dass es ein neues Aufrufmodell gibt, das aufgerufen werden kann durch

bcftools-Ansicht -m0.99 ...

was einige schwerwiegende Einschränkungen der Standardmethode behebt.

Beim Filtern scheinen die besten Ergebnisse erzielt zu werden, wenn zuerst die SnpGap Filter und
dann Anwendung eines maschinellen Lernansatzes

vcf-annotate -f SnpGap=n
vcf-Filter ...

Beides findet sich im vcftools und htslib Paket (Links unten).

o Leiten Sie das Allel-Frequenz-Spektrum (AFS) auf einer Liste von Standorten von mehreren Personen ab:

samtools mpileup -Igf ref.fa *.bam > all.bcf
bcftools-Ansicht -bl Sites.list all.bcf > Sites.bcf
bcftools view -cGP cond2 sites.bcf > /dev/null 2> sites.1.afs
bcftools-Ansicht -cGP-Sites.1.afs-Sites.bcf > /dev/null 2> Sites.2.afs
bcftools-Ansicht -cGP-Sites.2.afs-Sites.bcf > /dev/null 2> Sites.3.afs
......

woher Seiten.liste enthält die Liste der Sites, wobei jede Zeile aus der Referenz besteht
Sequenzname und Position. Folgende bcftools Befehle schätzen AFS durch EM.

o Dump BAQ angewendete Ausrichtung für andere SNP-Anrufer:

samtools beruhigt -bAr aln.bam > aln.baq.bam

Es fügt hinzu und korrigiert die NM und MD Tags gleichzeitig. Die beruhigt Befehl kommt auch
an. Nach der Installation können Sie HEIC-Dateien mit der -C Option, die gleiche wie die in aufstapeln und Aufstockung. Bewerben, wenn es hilft.

EINSCHRÄNKUNGEN


o Nicht ausgerichtete Wörter, die in bam_import.c, bam_endian.h, bam.c und bam_aux.c verwendet werden.

o Samtools Paired-End-rmdup funktioniert nicht für ungepaarte Lesevorgänge (z. B. verwaiste Lesevorgänge oder Enden)
auf verschiedene Chromosomen abgebildet). Wenn dies ein Problem ist, verwenden Sie bitte Picards
MarkDuplicate, das diese Fälle korrekt behandelt, wenn auch etwas langsamer.

Verwenden Sie bcftools online über die Dienste von onworks.net


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad