bgzip - Online în cloud

Aceasta este comanda bgzip care poate fi rulată în furnizorul de găzduire gratuit OnWorks folosind una dintre multiplele noastre stații de lucru online gratuite, cum ar fi Ubuntu Online, Fedora Online, emulator online Windows sau emulator online MAC OS

PROGRAM:

NUME


bgzip - Bloc de compresie/decompresie utilitar

tabix - Indexator generic pentru fișierele de poziție a genomului delimitate de TAB

REZUMAT


bgzip [-cdhB] [-b virtualOffset] [-s mărimea] [fişier]

tabix [-0lf] [-p gff|pat|sam|vcf] [-s secvCol] [-b begCol] [-e endCol] [-S line Skip] [-c
metaChar] în.tab.bgz [regiunea1 [regiunea2 [...]]]

DESCRIERE


Tabix indexează un fișier de poziție a genomului delimitat de TAB în.tab.bgz și creează un fișier index (
în.tab.bgz.tbi or în.tab.bgz.csi ) cand regiune este absent din linia de comandă. Intrarea
fișierul de date trebuie să fie sortat în poziție și comprimat de bgzip care are un gzip(1) ca
interfata. După indexare, tabix este capabil să recupereze rapid liniile de date suprapuse
regiuni specificat în formatul „chr:beginPos-endPos”. Recuperarea rapidă a datelor funcționează și ea
rețea dacă URI este dat ca nume de fișier și în acest caz fișierul index va fi descărcat
dacă nu este prezent local.

INDEXARE OPŢIUNI


-0, --bazat pe zero
Specificați că poziția din fișierul de date este mai degrabă bazată pe 0 (de exemplu fișiere UCSC).
decât pe baza 1.

-b, --începe INT
Coloana poziției cromozomiale de început. [4]

-c, --cometariu REZERVOR
Omite liniile începute cu caracterul CHAR. [#]

-C, --csi Omite liniile începute cu caracterul CHAR. [#]

-e, --Sfârșit INT
Coloana poziției cromozomiale finale. Coloana de sfârșit poate fi aceeași cu cea de început
coloană. [5]

-f, --forta
Forțați să suprascrieți fișierul index dacă este prezent.

-m, --min-turINT
setați dimensiunea minimă a intervalului pentru indicii CSI la 2^INT [14]

-p, --prestat STR
Format de intrare pentru indexare. Valorile valide sunt: ​​gff, bed, sam, vcf. Această opțiune
nu trebuie aplicat împreună cu oricare dintre -s, -b, -e, -c și -0; nu este folosit
pentru regăsirea datelor deoarece această setare este stocată în fișierul index. [gff]

-da, --secvenţă INT
Coloana numelui secvenței. Opțiune -s, -b, -e, -S, -c și -0 sunt toate stocate în
fișier index și, prin urmare, nu este utilizat în regăsirea datelor. [1]

-S, --salta linii INT
Omite primele linii INT din fișierul de date. [0]

ÎNTREBARE AND ALTE OPŢIUNI


-h, --print-header
Tipăriți și liniile de antet/meta.

-H, --only-header
Tipăriți numai antetul/meta liniile.

-eu, --informații despre fișier
Tipăriți informații despre formatul fișierului.

-l, --list-chroms
Listați numele secvenței stocate în fișierul index.

-r, --reheader FILE
Înlocuiți antetul cu conținutul FILE

-R, --regiuni FILE
Limitați-vă la regiunile enumerate în FIȘIER. FIȘIERUL poate fi fișier BED (necesită .bed,
.bed.gz, .bed.bgz nume de fișier) sau un fișier delimitat de TAB cu CHROM, POS,
și, opțional, coloane POS_TO, unde pozițiile sunt bazate pe 1 și includ. Cand
această opțiune este în uz, este posibil ca fișierul de intrare să nu fie sortat. regiuni.

-T, --ținte FILE
similar -R dar întreaga intrare va fi citită secvenţial, iar regiunile nu sunt listate
în FILE va fi omis.

EXEMPLU


(grep ^"#" in.gff; grep -v ^"#" in.gff | sortare -k1,1 -k4,4n) | bgzip > sortat.gff.gz;

tabix -p gff sortat.gff.gz;

tabix sorted.gff.gz chr1:10,000,000-20,000,000;

NOTE


Este simplu să se realizeze interogări de suprapunere folosind indexul standard B-tree (cu sau
fără binning) implementat în toate bazele de date SQL sau indexul R-tree în PostgreSQL și
Oracol. Dar există încă multe motive pentru a utiliza tabix. În primul rând, Tabix funcționează direct cu
o mulțime de formate delimitate de TAB utilizate pe scară largă, cum ar fi GFF/GTF și BED. Nu avem nevoie
proiectați schema bazei de date sau formate binare specializate. Datele nu trebuie să fie duplicate
formate diferite, fie. În al doilea rând, tabix funcționează pe fișiere de date comprimate în timp ce majoritatea SQL
bazele de date nu. Adnotarea GenCode GTF poate fi comprimată până la 4%. În al treilea rând, tabix
este rapid. Se știe că același algoritm de indexare funcționează eficient pentru o aliniere cu a
câteva miliarde de citiri scurte. Probabil că bazele de date SQL nu pot gestiona cu ușurință datele la această scară.
Nu în ultimul rând, tabix acceptă recuperarea datelor de la distanță. Se poate pune fișierul de date
și indexul la un server FTP sau HTTP și alți utilizatori sau chiar servicii web vor putea
pentru a obține o porțiune fără a descărca întregul fișier.

Utilizați bgzip online folosind serviciile onworks.net



Cele mai recente programe online Linux și Windows