EnglischFranzösischSpanisch

Ad


OnWorks-Favicon

bgzip – Online in der Cloud

Führen Sie bgzip im kostenlosen Hosting-Anbieter OnWorks über Ubuntu Online, Fedora Online, den Windows-Online-Emulator oder den MAC OS-Online-Emulator aus

Dies ist der Befehl bgzip, der beim kostenlosen Hosting-Anbieter OnWorks mit einer unserer zahlreichen kostenlosen Online-Workstations wie Ubuntu Online, Fedora Online, dem Windows-Online-Emulator oder dem MAC OS-Online-Emulator ausgeführt werden kann

PROGRAMM:

NAME/FUNKTION


bgzip – Blockkomprimierungs-/Dekomprimierungsdienstprogramm

tabix – Allgemeiner Indexer für TAB-getrennte Genompositionsdateien

ZUSAMMENFASSUNG


bgzip [-cdhB] [-b virtualOffset] [-s Größe] [Datei]

tabix [-0lf] [-p gff|bed|sam|vcf] [-s seqCol] [-b begCol] [-e endCol] [-S lineSkip] [-c
metaChar] in.tab.bgz [region1 [region2 [...]]]

BESCHREIBUNG


Tabix indiziert eine durch Tabulatoren getrennte Genompositionsdatei in.tab.bgz und erstellt eine Indexdatei (
in.tab.bgz.tbi or in.tab.bgz.csi ) wann Region fehlt in der Befehlszeile. Die Eingabe
Die Datendatei muss nach Position sortiert und komprimiert werden bgzip das hat eine gzip(1 Gefällt mir
Schnittstelle. Nach der Indizierung ist Tabix in der Lage, überlappende Datenzeilen schnell abzurufen
Regionen im Format „chr:beginPos-endPos“ angegeben. Auch der schnelle Datenabruf funktioniert
Netzwerk, wenn URI als Dateiname angegeben wird und in diesem Fall die Indexdatei heruntergeladen wird
wenn es lokal nicht vorhanden ist.

INDIZIERUNG OPTIONAL


-0, --nullbasiert
Geben Sie an, dass die Position in der Datendatei eher 0-basiert ist (z. B. UCSC-Dateien).
als 1-basiert.

-B, --Start INT
Spalte mit der chromosomalen Startposition. [4]

-C, --Kommentar VERKOHLEN
Überspringen Sie Zeilen, die mit dem Zeichen CHAR beginnen. [#]

-VS, --csi Überspringen Sie Zeilen, die mit dem Zeichen CHAR beginnen. [#]

-e, --Ende INT
Spalte mit der endgültigen Chromosomenposition. Die Endspalte kann mit der Anfangsspalte identisch sein
Spalte. [5]

-F, --Macht
Erzwingen Sie das Überschreiben der Indexdatei, falls vorhanden.

-M, --min-shiftINT
Setzen Sie die minimale Intervallgröße für CSI-Indizes auf 2^INT [14]

-P, --voreingestellt STR
Eingabeformat für die Indizierung. Gültige Werte sind: gff, bed, sam, vcf. Diese Option
sollte nicht zusammen mit einem der anderen angewendet werden -s, -b, -e, -c und -0; es wird nicht verwendet
für den Datenabruf, da diese Einstellung in der Indexdatei gespeichert ist. [gff]

-S, --Reihenfolge INT
Spalte mit Sequenznamen. Möglichkeit -s, -b, -e, -S, -c und -0 sind alle im gespeichert
Indexdatei und wird daher nicht beim Datenabruf verwendet. [1]

-S, --skip-lines INT
Überspringen Sie die ersten INT-Zeilen in der Datendatei. [0]

ABFRAGE UND anderes OPTIONAL


-H, --print-header
Drucken Sie auch die Header-/Metazeilen aus.

-H, --only-header
Drucken Sie nur die Header-/Metazeilen.

-ich, --Dateiinformation
Informationen zum Dateiformat drucken.

- l, --list-chroms
Listen Sie die in der Indexdatei gespeicherten Sequenznamen auf.

-R, --reheader FILE
Ersetzen Sie den Header durch den Inhalt von FILE

-R, --regionen FILE
Auf die in der DATEI aufgeführten Regionen beschränken. Die DATEI kann eine BED-Datei sein (erfordert .bed,
.bed.gz, .bed.bgz Dateinamenerweiterung) oder eine durch Tabulatoren getrennte Datei mit CHROM, POS,
und optional POS_TO-Spalten, wobei die Positionen 1-basiert und inklusiv sind. Wenn
Wenn diese Option verwendet wird, ist die Eingabedatei möglicherweise nicht sortiert. Regionen.

-T, --Ziele FILE
Ähnlich -R aber die gesamte Eingabe wird sequentiell gelesen und Regionen werden nicht aufgelistet
in FILE wird übersprungen.

BEISPIEL


(grep ^"#" in.gff; grep -v ^"#" in.gff | sort -k1,1 -k4,4n) | bgzip > sortiert.gff.gz;

tabix -p gff sortiert.gff.gz;

tabix sorted.gff.gz chr1:10,000,000-20,000,000;

ANMERKUNG


Es ist einfach, überlappende Abfragen mithilfe des Standard-B-Tree-Index (mit oder) durchzuführen
ohne Binning) in allen SQL-Datenbanken implementiert, oder der R-Tree-Index in PostgreSQL und
Orakel. Dennoch gibt es viele Gründe, Tabix zu verwenden. Erstens funktioniert Tabix direkt mit
viele weit verbreitete tabulatorgetrennte Formate wie GFF/GTF und BED. Das ist nicht nötig
Entwerfen Sie Datenbankschemata oder spezielle Binärformate. Daten müssen nicht dupliziert werden
auch verschiedene Formate. Zweitens funktioniert Tabix mit komprimierten Datendateien, während die meisten SQL
Datenbanken nicht. Die GenCode-Annotations-GTF kann auf bis zu 4 % komprimiert werden. Drittens Tabix
ist schnell. Es ist bekannt, dass derselbe Indizierungsalgorithmus für eine Ausrichtung mit a effizient arbeitet
einige Milliarden kurze Lesevorgänge. SQL-Datenbanken können Daten dieser Größenordnung wahrscheinlich nicht einfach verarbeiten.
Last but not least unterstützt tabix den Datenabruf aus der Ferne. Man kann die Datendatei ablegen
und der Index auf einem FTP- oder HTTP-Server, und andere Benutzer oder sogar Webdienste werden in der Lage sein
um ein Stück zu erhalten, ohne die gesamte Datei herunterzuladen.

Verwenden Sie bgzip online über die Dienste von onworks.net


Kostenlose Server & Workstations

Laden Sie Windows- und Linux-Apps herunter

Linux-Befehle

Ad