Questo è il comando bgzip che può essere eseguito nel provider di hosting gratuito OnWorks utilizzando una delle nostre molteplici workstation online gratuite come Ubuntu Online, Fedora Online, emulatore online Windows o emulatore online MAC OS
PROGRAMMA:
NOME
bgzip - Utilità di compressione/decompressione dei blocchi
tabix - Indicizzatore generico per file di posizione del genoma delimitati da TAB
SINOSSI
bgzip [-cdb] [-b offset virtuale] [-s Taglia] [filetto]
tab [-0lf] [-p gff|letto|sam|vcf] [-s seqCol] [-b mendicare Col] [-e fine col] [-S Salta riga] [-c
metachar] in.tab.bgz [region1 [region2 [...]]]
DESCRIZIONE
Tabix indicizza un file di posizione del genoma delimitato da TAB in.tab.bgz e crea un file indice (
in.tab.bgz.tbi or in.tab.bgz.csi ) quando regione è assente dalla riga di comando. L'ingresso
il file di dati deve essere ordinato per posizione e compresso da bgzip che ha a gzip(1 mi piace
interfaccia. Dopo l'indicizzazione, tabix è in grado di recuperare rapidamente le linee di dati che si sovrappongono
regioni specificato nel formato "chr:beginPos-endPos". Funziona anche il recupero veloce dei dati
network se viene fornito URI come nome file e in questo caso verrà scaricato il file indice
se non è presente localmente.
INDICIZZAZIONE VERSIONI
-0, --a base zero
Specificare che la posizione nel file di dati è basata su 0 (ad es. file UCSC) piuttosto
rispetto a 1 a base.
-B, --inizio INT
Colonna della posizione cromosomica iniziale. [4]
-C, --commento CHAR
Salta le righe iniziate con il carattere CHAR. [#]
-C, --csi Salta le righe iniziate con il carattere CHAR. [#]
-e, --fine INT
Colonna di posizione cromosomica terminale. La colonna di fine può essere la stessa dell'inizio
colonna. [5]
-F, --vigore
Forza la sovrascrittura del file indice se presente.
-M, --min-shiftINT
imposta la dimensione minima dell'intervallo per gli indici CSI su 2^INT [14]
-P, --preimpostato STR
Formato di input per l'indicizzazione. I valori validi sono: gff, bed, sam, vcf. Questa opzione
non deve essere applicato insieme a nessuno dei -s, -b, -e, -c ed -0; non è usato
per il recupero dei dati perché questa impostazione è memorizzata nel file di indice. [gff]
-S, --sequenza INT
Colonna del nome della sequenza. Opzione -s, -b, -e, -S, -c ed -0 sono tutti memorizzati nel
index file e quindi non utilizzato nel recupero dei dati. [1]
-S, --salta le righe INT
Salta le prime righe INT nel file di dati. [0]
INTERROGAZIONE E ALTRO VERSIONI
-H, --intestazione-stampa
Stampa anche l'intestazione/meta righe.
-H, --solo-intestazione
Stampa solo l'intestazione/meta righe.
-io, --file-info
Stampa informazioni sul formato del file.
-l, --list-chroms
Elenca i nomi di sequenza memorizzati nel file di indice.
-R, --riintestazione RISORSE
Sostituisci l'intestazione con il contenuto di FILE
-R, --regioni RISORSE
Limita alle regioni elencate nel FILE. Il FILE può essere un file BED (richiede .bed,
.bed.gz, .bed.bgz estensione del nome del file) o un file delimitato da TAB con CHROM, POS,
e, facoltativamente, colonne POS_TO, dove le posizioni sono basate su 1 e inclusive. quando
questa opzione è in uso, il file di input potrebbe non essere ordinato. regioni.
-T, --obiettivi RISORSE
Simile a -R ma l'intero input verrà letto in sequenza e le regioni non elencate
in FILE verrà saltato.
ESEMPIO
(grep ^"#" in.gff; grep -v ^"#" in.gff | sort -k1,1 -k4,4n) | bgzip > sorted.gff.gz;
tabix -p gff ordinato.gff.gz;
tabix sorted.gff.gz chr1:10,000,000-20,000,000;
NOTE
È semplice ottenere query sovrapposte utilizzando l'indice B-tree standard (con o
senza binning) implementato in tutti i database SQL, o l'indice R-tree in PostgreSQL e
Oracolo. Ma ci sono ancora molte ragioni per usare tabix. Innanzitutto, tabix funziona direttamente con
molti formati delimitati da TAB ampiamente utilizzati come GFF/GTF e BED. Non abbiamo bisogno di
progettare lo schema del database o formati binari specializzati. I dati non devono essere duplicati in
anche formati diversi. In secondo luogo, tabix funziona su file di dati compressi mentre la maggior parte di SQL
i database no. L'annotazione GenCode GTF può essere compressa fino al 4%. In terzo luogo, tabix
è veloce. Lo stesso algoritmo di indicizzazione è noto per funzionare in modo efficiente per un allineamento con a
pochi miliardi di letture brevi. I database SQL probabilmente non possono gestire facilmente i dati su questa scala.
Ultimo ma non meno importante, tabix supporta il recupero dei dati in remoto. Si può mettere il file di dati
e l'indice su un server FTP o HTTP e altri utenti o anche servizi web saranno in grado
per ottenere una fetta senza scaricare l'intero file.
Usa bgzip online utilizzando i servizi onworks.net