bgzip - Online in de cloud

Dit is de opdracht bgzip die kan worden uitgevoerd in de gratis hostingprovider van OnWorks met behulp van een van onze meerdere gratis online werkstations zoals Ubuntu Online, Fedora Online, Windows online emulator of MAC OS online emulator

PROGRAMMA:

NAAM


bgzip - Hulpprogramma voor compressie/decompressie blokkeren

tabix - Generieke indexer voor TAB-gescheiden genoompositiebestanden

KORTE INHOUD


bgzip [-cdhB] [-b virtueleOffset] [-s grootte] [filet]

tabix [-0lf] [-p GFF | bed | Sam | VCF] [-s volgende Col] [-b bedelenKol] [-e eindKol] [-S lijnOverslaan] [-c
metaChar] in.tab.bgz [regio1 [regio2 [...]]]

PRODUCTBESCHRIJVING


Tabix indexeert een TAB-gescheiden genoompositiebestand in.tab.bgz en maakt een indexbestand (
in.tab.bgz.tbi or in.tab.bgz.csi ) wanneer regio ontbreekt op de opdrachtregel. de ingang
gegevensbestand moet worden gesorteerd en gecomprimeerd door: bgzip die heeft een gzip(1 vind-ik-leuk
koppel. Na indexering kan tabix snel overlappende datalijnen ophalen
regio gespecificeerd in het formaat "chr:beginPos-endPos". Snel gegevens ophalen werkt ook over
netwerk als URI wordt opgegeven als bestandsnaam en in dit geval wordt het indexbestand gedownload
als het niet lokaal aanwezig is.

INDEXEREN OPTIES


-0, --nul-gebaseerd
Specificeer dat de positie in het gegevensbestand eerder op 0 is gebaseerd (bijv. UCSC-bestanden)
dan 1-gebaseerd.

-B, --beginnen INT
Kolom van start chromosomale positie. [4]

-C, --opmerking CHAR
Sla regels over die zijn begonnen met het teken CHAR. [#]

-C, --csi Sla regels over die zijn begonnen met het teken CHAR. [#]

-e, --einde INT
Kolom van eind chromosomale positie. De eindkolom kan hetzelfde zijn als de start
kolom. [5]

-F, --kracht
Forceer om het indexbestand te overschrijven als het aanwezig is.

-M, --min-shiftINT
stel de minimale intervalgrootte voor CSI-indexen in op 2^INT [14]

-P, --vooraf ingesteld STR
Invoerformaat voor indexering. Geldige waarden zijn: gff, bed, sam, vcf. Deze optie
mag niet samen met een van de -s, -b, -e, -c en -0; het wordt niet gebruikt
voor het ophalen van gegevens omdat deze instelling is opgeslagen in het indexbestand. [gff]

-Ja, --volgorde INT
Kolom van reeksnaam. Optie -s, -b, -e, -S, -c en -0 zijn allemaal opgeslagen in de
index-bestand en dus niet gebruikt bij het ophalen van gegevens. [1]

-S, --skip-lijnen INT
Sla de eerste INT-regels in het gegevensbestand over. [0]

OPVRAGEN EN ANDERE OPTIES


-H, --print-header
Druk ook de kop-/metaregels af.

-H, --alleen-koptekst
Print alleen de koptekst/metaregels.

-l, --bestandsinformatie
Info over bestandsindeling afdrukken.

-ik, --lijst-chroms
Maak een lijst van de sequentienamen die zijn opgeslagen in het indexbestand.

-R, --herkoper FILE
Vervang de koptekst door de inhoud van FILE

-R, --Regio's FILE
Beperken tot regio's die worden vermeld in het BESTAND. Het BESTAND kan een BED-bestand zijn (vereist .bed,
.bed.gz, .bed.bgz bestandsnaamextensie) of een door TAB gescheiden bestand met CHROM, POS,
en, optioneel, POS_TO-kolommen, waar posities 1-gebaseerd en inclusief zijn. Wanneer
deze optie in gebruik is, is het invoerbestand mogelijk niet gesorteerd. Regio's.

-T, --doelen FILE
Soortgelijke -R maar de volledige invoer wordt achtereenvolgens gelezen en de regio's worden niet vermeld
in FILE worden overgeslagen.

VOORBEELD


(grep ^"#" in.gff; grep -v ^"#" in.gff | sort -k1,1 -k4,4n) | bgzip > gesorteerd.gff.gz;

tabix -p gff gesorteerd.gff.gz;

tabix gesorteerd.gff.gz chr1: 10,000,000-20,000,000;

OPMERKINGEN


Het is eenvoudig om overlappende zoekopdrachten te maken met behulp van de standaard B-tree-index (met of
zonder binning) geïmplementeerd in alle SQL-databases, of de R-tree-index in PostgreSQL en
Orakel. Maar er zijn nog steeds veel redenen om tabix te gebruiken. Ten eerste werkt tabix direct met
veel gebruikte TAB-gescheiden formaten zoals GFF/GTF en BED. We hoeven niet
ontwerp databaseschema of gespecialiseerde binaire formaten. Gegevens hoeven niet te worden gedupliceerd in
ook verschillende formaten. Ten tweede werkt tabix op gecomprimeerde gegevensbestanden, terwijl de meeste SQL
databanken niet. De GenCode-annotatie GTF kan worden gecomprimeerd tot 4%. Ten derde, tabix
is snel. Van hetzelfde indexeringsalgoritme is bekend dat het efficiënt werkt voor een uitlijning met a
paar miljard korte reads. SQL-databases kunnen gegevens op deze schaal waarschijnlijk niet gemakkelijk aan.
Last but not least ondersteunt tabix het ophalen van gegevens op afstand. Men kan het gegevensbestand plaatsen
en de index op een FTP- of HTTP-server, en andere gebruikers of zelfs webservices kunnen
om een ​​slice te krijgen zonder het hele bestand te downloaden.

Gebruik bgzip online met behulp van onworks.net-services



Nieuwste Linux & Windows online programma's