bgzip - Online sa Cloud

Ito ang command na bgzip na maaaring patakbuhin sa OnWorks na libreng hosting provider gamit ang isa sa aming maramihang libreng online na workstation gaya ng Ubuntu Online, Fedora Online, Windows online emulator o MAC OS online emulator

PROGRAMA:

NAME


bgzip - I-block ang compression/decompression utility

tabix - Generic indexer para sa TAB-delimited genome position file

SINOPSIS


bgzip [-cdhB] [-b virtualOffset] [-s laki] [file]

tabix [-0lf] [-p gff|kama|sam|vcf] [-s seqCol] [-b begCol] [-e endCol] [-S lineSkip] [-c
metaChar] sa.tab.bgz [rehiyon1 [rehiyon2 [...]]]

DESCRIPTION


Ini-index ng Tabix ang isang TAB-delimited genome position file sa.tab.bgz at lumilikha ng index file (
in.tab.bgz.tbi or in.tab.bgz.csi ) kailan rehiyon ay wala sa command-line. Ang input
ang data file ay dapat na pinagsunod-sunod at naka-compress sa posisyon bgzip na may a gzip(1) gusto
interface. Pagkatapos ng pag-index, nagagawa ng tabix na mabilis na makuha ang mga linya ng data na magkakapatong
rehiyon tinukoy sa format na "chr:beginPos-endPos". Gumagana rin ang mabilis na pagkuha ng data
network kung ang URI ay ibinigay bilang isang pangalan ng file at sa kasong ito ang index file ay mada-download
kung wala ito sa lokal.

PAG-INDEKS Opsyon


-0, --zero-based
Tukuyin na ang posisyon sa data file ay 0-based (hal. UCSC file) sa halip
kaysa sa 1-based.

-b, --simulan Int
Column ng panimulang posisyon ng chromosomal. [4]

-c, --komento CHAR
Laktawan ang mga linya na nagsimula sa character na CHAR. [#]

-C, --csi Laktawan ang mga linya na nagsimula sa character na CHAR. [#]

-e, --tapos Int
Column ng end chromosomal position. Ang dulong column ay maaaring pareho sa simula
hanay. [5]

-f, --puwersa
Pilitin na i-overwrite ang index file kung naroroon ito.

-m, --min-shiftInt
itakda ang kaunting laki ng agwat para sa mga indeks ng CSI sa 2^INT [14]

-p, --preset STR
Format ng pag-input para sa pag-index. Ang mga wastong halaga ay: gff, kama, sam, vcf. Ang pagpipiliang ito
hindi dapat ilapat kasama ng alinman sa -s, -b, -e, -c at -0; hindi ito ginagamit
para sa pagkuha ng data dahil naka-store ang setting na ito sa index file. [gff]

-oo, --sunod-sunod Int
Column ng pangalan ng sequence. Pagpipilian -s, -b, -e, -S, -c at -0 lahat ay nakaimbak sa
index file at sa gayon ay hindi ginagamit sa pagkuha ng data. [1]

-S, --laktawan ang mga linya Int
Laktawan ang mga unang linya ng INT sa file ng data. [0]

NAGTATANONG AT OTHER Opsyon


-h, --print-header
I-print din ang mga linya ng header/meta.

-H, --lamang-header
I-print lamang ang mga linya ng header/meta.

-ako, --file-info
I-print ang impormasyon sa format ng file.

-l, --list-chroms
Ilista ang mga pangalan ng sequence na nakaimbak sa index file.

-r, --header FILE
Palitan ang header ng nilalaman ng FILE

-R, --mga rehiyon FILE
Limitahan sa mga rehiyong nakalista sa FILE. Ang FILE ay maaaring BED file (nangangailangan ng .bed,
.bed.gz, .bed.bgz file name extension) o isang TAB-delimited na file na may CHROM, POS,
at, opsyonal, POS_TO column, kung saan ang mga posisyon ay 1-based at inclusive. Kailan
ang pagpipiliang ito ay ginagamit, ang input file ay maaaring hindi pagbukud-bukurin. mga rehiyon.

-T, --target FILE
Kapareho ng -R ngunit ang buong input ay babasahin nang sunud-sunod at hindi nakalista ang mga rehiyon
sa FILE ay lalaktawan.

Halimbawa


(grep ^"#" in.gff; grep -v ^"#" in.gff | sort -k1,1 -k4,4n) | bgzip > sorted.gff.gz;

tabix -p gff sorted.gff.gz;

tabix sorted.gff.gz chr1:10,000,000-20,000,000;

NOTA


Ito ay diretso upang makamit ang mga overlap na query gamit ang karaniwang B-tree index (na may o
nang walang binning) na ipinatupad sa lahat ng SQL database, o ang R-tree index sa PostgreSQL at
Oracle. Ngunit marami pa ring dahilan para gamitin ang tabix. Una, direktang gumagana ang tabix
maraming malawakang ginagamit na mga format na naka-delimite ng TAB gaya ng GFF/GTF at BED. Hindi natin kailangan
disenyo ng database schema o mga espesyal na binary na format. Hindi kailangang i-duplicate ang data
iba't ibang mga format, alinman. Pangalawa, gumagana ang tabix sa mga naka-compress na file ng data habang ang karamihan sa SQL
ang mga database ay hindi. Ang GenCode annotation GTF ay maaaring i-compress pababa sa 4%. Pangatlo, tabix
ay mabilis. Ang parehong algorithm sa pag-index ay kilala na gumagana nang mahusay para sa isang pagkakahanay sa a
ilang bilyong maikling pagbabasa. Ang mga database ng SQL ay malamang na hindi madaling mahawakan ang data sa sukat na ito.
Huli ngunit hindi bababa sa, sinusuportahan ng tabix ang malayuang pagkuha ng data. Maaaring ilagay ng isa ang data file
at ang index sa isang FTP o HTTP server, at iba pang mga user o kahit na mga serbisyo sa web ay magagawa
upang makakuha ng isang slice nang hindi dina-download ang buong file.

Gumamit ng bgzip online gamit ang mga serbisyo ng onworks.net



Pinakabagong Linux at Windows online na mga programa